为了账号安全,请及时绑定邮箱和手机立即绑定

谷歌搜索网络抓取与python中的关键字列表

谷歌搜索网络抓取与python中的关键字列表

冉冉说 2022-08-25 15:15:41
我正在尝试通过使用名称列表作为输入并在DataFame中获取数据集来在Google搜索上进行网络抓取。我以前使用硒进行网络抓取,我很难使用循环来构建语法,以运行名称列表作为输入,以获取结果并抓取每个页面。以下是我的Python代码:baseUrl = 'https://www.google.com/search?q='pluseUrl = input('CEO: ')    url = baseUrl + quote_plus(pluseUrl)browser = webdriver.Chrome(r"C:\Users\...\chromedriver.exe")browser.get(url)table = browser.find_elements_by_css_selector('div.ifM9O') df = pd.DataFrame(columns = ['ceo', 'value'])values =[]for row in table:    ceo = str(([c.text for c in row.find_elements_by_css_selector('div.kno-ecr-pt.PZPZlf.gsmt.i8lZMc')])).strip('[]').strip("''")    value = str(([c.text for c in row.find_elements_by_css_selector('div.Z1hOCe')])).strip('[]').strip("''")ceo = pd.Series(ceo)value = pd.Series(value)df = df.assign(**{'ceo': ceo, 'value': value}) print(df)以下是将比尔·盖茨作为输入后的结果:CEO: Bill gates          ceo                                              value0  Bill Gates  Born: October 28, 1955 (age 64 years), Seattle...任何意见或建议将不胜感激。
查看完整描述

1 回答

?
ABOUTYOU

TA贡献1812条经验 获得超5个赞

试试这个:


baseUrl = 'https://www.google.com/search?q='

browser = webdriver.Chrome(r"C:\Users\...\chromedriver.exe")

input_list = ["Bill Gates", "Elon Musk", "Warren Buffet"]

output = {}


def scrape_ceo_list(list_of_ceo):

     for ceo in list_of_ceo:

          browser.get(baseUrl + ceo)


          // query selectors, dataframes etc as per original code

          // ...


          output[ceo] = df

output现在是数据帧的字典,CEO 名称作为字典键。


查看完整回答
反对 回复 2022-08-25
  • 1 回答
  • 0 关注
  • 144 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号