为了账号安全,请及时绑定邮箱和手机立即绑定

硒和lxml - 如何设置html?

硒和lxml - 如何设置html?

跃然一笑 2022-08-02 10:40:26
我有一个脚本,可以解析文档并使用lxml更改表单值。现在我想用硒导航到页面并做到这一点。不幸的是,硒似乎不够先进,支持我在lxml中所做的一些事情,例如,“如果'attrName'in tag.attrib”然后我说,“啊哈!,但是硒提供了webdriver.page_source,我可以得到html!”是的,有点...我可以得到它,然后用lxml解析它...但令人讨厌的是,page_source是不可写的,所以我无法坚持我的更改!我仍然觉得我走在正确的道路上,但是有没有办法将修改后的html写回浏览器?更新:我尝试了几种尝试重写所有页面内容的方法,但是firefox网络驱动程序开始抛出安全异常,就像它不喜欢我试图做的事情的外观一样。下面我将发布我使用的替代方案。
查看完整描述

1 回答

?
叮当猫咪

TA贡献1776条经验 获得超12个赞

我最终做的是创建一个类似lxml的中介类。这只实现了我需要的那些功能,但是,我仍然认为我会分享作为其他尝试做同样事情的人的起点。


import lxml.etree

import collections.abc



class AttribWrapper(collections.abc.MutableMapping):

    """

    Make something that acts like a dict to use as a mock lxml.etree.element attrib value


    see also:

        https://docs.python.org/3/reference/datamodel.html?emulating-container-types#emulating-container-types

    """

    def __init__(self,seleniumTag):

        self.seleniumTag=seleniumTag

        while not hasattr(seleniumTag,'execute_script'):

            seleniumTag=seleniumTag.parent

        self.webdriver=seleniumTag


    def hasAttribute(self,attrName):

        """

        determine if a tag has an attribute

        """

        try:

            val=self.seleniumTag.get_attribute(attrName)

        except Exception:

            return False

        return val is not None


    def getAttribute(self,attrName,default=None):

        """

        get a tag's attribute or default if not present

        """

        try:

            return self.seleniumTag.get_attribute(attrName)

        except Exception:

            pass

        return default


    def setAttribute(self,attrName,attrValue):

        """

        get a tag's attribute

        """

        self.webdriver.execute_script("arguments[0].setAttribute(arguments[1],arguments[2]);",self.seleniumTag,attrName,attrValue);


    def __getitem__(self,key):

        if key not in self.keys():

            raise KeyError()

        return self.getAttribute(key)


    def __setitem__(self,key,value):

        self.setAttribute(key,value)


    def __delitem__(self,key):

        self.webdriver.execute_script('arguments[0].attributes.removeNamedItem("%s");'%key,self.seleniumTag)


    def __iter__(self):

        items=[]

        for k in self.keys():

            v=self[k]

            items.append((k,v))

        return self.keys().__iter__()


    def __len__(self):

        return self.webdriver.execute_script('return arguments[0].attributes.length',self.seleniumTag)


    def keys(self):

        n=self.webdriver.execute_script('return arguments[0].attributes.length',self.seleniumTag)

        names=[]

        for idx in range(n):

            result=self.webdriver.execute_script('return arguments[0].attributes.item(%d).nodeName'%idx,self.seleniumTag)

            names.append(result)

        return names


    def __repr__(self):

        ret=[]

        for k,v in self.items():

            ret.append('("%s":"%s")'%(k,v))

        return "{%s}"%(', '.join(ret))



class LikeEtreeElement:


    def __init__(self,seleniumTag):

        self.seleniumTag=seleniumTag

        self.attrib=AttribWrapper(seleniumTag)

        while not hasattr(seleniumTag,'execute_script'):

            seleniumTag=seleniumTag.parent

        self.webdriver=seleniumTag


    @property

    def tag(self):

        return self.seleniumTag.tag_name


    def getchildren(self):

        """

        get all child elements

        (NOTE: this will dip into the html every single time just

            in case things have changed.)

        """

        return self.seleniumTag.find_elements_by_xpath('/*')


    @property     

    def innerHTML(self):

        return self.webdriver.execute_script('return arguments[0].innerHTML',self.seleniumTag)

    @innerHTML.setter

    def innerHTML(self,value):

        value=str(value).replace('\\\\','\\').replace('\n','\\n').replace('"','\\"')

        return self.webdriver.execute_script('arguments[0].innerHTML="%s"'%(value),self.seleniumTag)


    def __getitem__(self,idx):

        return self.getchildren()[idx]


    def __iter__(self):

        return self.getchildren().__iter__()


    def __len__(self):

        return len(self.getchildren())



查看完整回答
反对 回复 2022-08-02
  • 1 回答
  • 0 关注
  • 115 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号