为了账号安全,请及时绑定邮箱和手机立即绑定

正则匹配不到,re未定义

http://img1.sycdn.imooc.com//5a1f8e9900017b5b06460600.jpg

正则匹配不到,re未定义


正在回答

2 回答

re是一个模块,使用前先导入。写在前面:

from bs4 import BeautifulSoup
#引入正则表达模块
import re
import urllib.request

url = urllib.request.urlopen('http://www.baidu.com')
print(url.getcode())
html_doc = url.read()
print(str(html_doc,'utf-8'))

#搜索到的文档命名为html_doc
#创建对象
soup = BeautifulSoup(html_doc, 'html.parser')

print('获取所有链接')
links = soup.find_all('a')
for link in links:
    print(link.name, link['href'], link.get_text())

print('获取特定链接')
link_node = soup.find('a', href='http://xueshu.baidu.com')
print(link_node.name, link_node['href'], link_node.get_text())

print('正则匹配')
link_node1 = soup.find('a', href=re.compile(r'baidu')
print(link_node1.name, link_node1['href'], link_node1.get_text())

print('获取p段落文字')
#获取p段落文字,指定class为title,输出文字。区分属性class,在其后加_。
p_node = soup.find('div', class_='ftCon-Wrapper')
print(p_node.name, p_node.get_text())
0 回复 有任何疑惑可以回复我~

要在上面导入
import re

0 回复 有任何疑惑可以回复我~

举报

0/150
提交
取消
Python开发简单爬虫
  • 参与学习       227586    人
  • 解答问题       1288    个

本教程带您解开python爬虫这门神奇技术的面纱

进入课程

正则匹配不到,re未定义

我要回答 关注问题
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号