为了账号安全,请及时绑定邮箱和手机立即绑定

python正则表达式

难度初级
时长 1小时29分
学习人数
综合评分9.40
211人评价 查看评价
9.7 内容实用
9.4 简洁易懂
9.1 逻辑清晰
req = urllib2.urlopen('http://www.imooc.com/course/list')
buf = req.read()
listUrl = re.findall(r'src=.+\.jpg"', buf)
listUrl2 = []
for u in listUrl:
listUrl2.append(re.search(r'http:.+\.jpg', u).group())
i = 0
会得到两个图片地址,所以先得到src="",然后重新查找得到
老师这个就是在windows上啊,你下一个xshell就行了
看书一直没有看懂,听了课之后帮助很大,666
应该改成[a-zA-Z0-9]{6}@163\.com。
如果“.”前面没有加"\",那“.”就是匹配任意一个字符。
https://github.com/guyunzh/crawler_imooc_jpg

我增加了几个功能,老师爬取的只是一个页面的图片,我的可以自己在想创建的地方保存图片,切可以保存多个页面的图片,手动输入想要爬取的页面个数,就可以自动创建对应的文件夹来保存对应的页面图片,还可以去重。
仍有很多完善的地方,但是,毕竟自己会爬取了
感觉好的点个star,谢谢哈
感觉加了很多中括号我的逻辑很难理清楚啊。
\<number> 是之前分组()的内容,?p<name>和?p=name 和\<number>的目的是一样的,对之前分组的一个引用,不过当有多个分组时 可以用?p<name>标记。引用,更方便
re模块中有 compile match等功能函数 可用 dir(re)查看re的所有属性。s=re.compile(r'***')定义一种匹配字符串规则,s指向。y=s.match(' '),用match函数匹配s规则的字符串,并返回结果。dir(y),查看属性,y.group()输出匹配结果。谢谢老师,讲的很好,希望没理解错。
分组编号,,这块太难了。。没搞明白
逻辑很混乱,还不如自己去看文档。
评论总有人不满意,哪来那么多事,嫌看不懂你去看文档啊
https://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001386832260566c26442c671fa489ebc6fe85badda25cd000
廖雪峰老师的一页纸比这深入浅出多了,这个视频讲得太乱了,思路不够清晰,排版不好。不想说什么,可汗学院也没这么不走心啊
排版太差,在IDE和terminal之间切换不好,在IDE里的代码不利于规整的教学。
也不解释一下compile,调用re里的方法的时候,实际上都有一个先编译(compile)的过程,把compile显式写出来只是加快速度,节省调用方法时的反复编译,这个东西完全可以放到后面提一下,但是直接实例化了之后(还把代码上下之间分开了写),容易把人搞晕
课程须知
本课程是Python中级课程 1、本课程在linux讲解,最好有linux开发环境 1、熟练掌握Python开发语言基础语法
老师告诉你能学到什么?
1.正则表达式基本语法 2.使用re模块处理文本

微信扫码,参与3人拼团

微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!

本次提问将花费2个积分

你的积分不足,无法发表

为什么扣积分?

本次提问将花费2个积分

继续发表请点击 "确定"

为什么扣积分?

举报

0/150
提交
取消