-
import urllib2 import re from bs4 import BeautifulSoup import pymysql resp = urllib2.urlopen("http://baike.so.com/doc/1790119-1892991.html").read().decode("utf-8") soup = BeautifulSoup(resp, "html.parser") listUrls = soup.findAll("a", href = re.compile("^/doc/")) for url in listUrls: print url.get_text(), "http://baike.so.com"+url["href"] connection = pymysql.connect(host='localhost', user='root', password='', db='360mysql', charset='utf8') try: with connection.cursor() as cursor: for url in listUrls: sql = "insert into `urls`(`name`,`url`)values(%s,%s)" cursor.execute(sql,(url.get_text(),"http://baike.so.com"+url["href"])) connection.commit(); finally: connection.close();查看全部
-
#coding=utf-8 from urllib import request #-------------------------------------------------------------------------- #模拟浏览器登陆,加上头信息 # req = request.Request("http://www.baidu.com") # req.add_header("User-Agent","Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:48.0) Gecko/20100101 Firefox/48.0") # # resp = request.urlopen(req) # print(resp.read().decode('utf-8')) #-------------------------------------------------------------------------- #一开始这样也能实现读取,即不模拟浏览器,直接用urllib打开 # resp = request.urlopen("http://www.baidu.com") # print(resp.read().decode('utf-8')) #--------------------------------------------------------------------------查看全部
-
运行pdf2txt.py ../samples/simple1.pdf点回车没反应,前面应该加一个python,也就是pdf2txt.py ../samples/simple1.pdf查看全部
-
post(异步加载的应用):表单的内容记一下和有两个请求头(来源和头)
查看全部 -
#!/usr/bin/env python # encoding: utf-8 from urllib.request import urlopen from pdfminer.pdfparser import PDFParser, PDFDocument from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.pdfdevice import PDFDevice from pdfminer.converter import PDFPageAggregator from pdfminer.layout import LTTextBoxHorizontal, LAParams #获取文档 #fp = open("naacl06-shinyama.pdf", 'rb') fp = urlopen('https://www.tencent.com/zh-cn/articles/802741466496787.pdf') #创建解释器 parser = PDFParser(fp) #PDF文档对象 doc = PDFDocument() #连接解释器和文档对象 parser.set_document(doc) doc.set_parser(parser) #初始化文档 doc.initialize() #创建PDF资源管理器 resource = PDFResourceManager() # 创建一个PDF参数分析器 laparam = LAParams() # 创建聚合器 device = PDFPageAggregator(resource, laparams=laparam) #创建PDF页面解析器 interpreter = PDFPageInterpreter(resource, device) # 循环遍历列表,每次处理一页的内容 # doc.get_pages() 获取page列表 for page in doc.get_pages(): #使用页面解释器来读取 interpreter.process_page(page) #使用聚合器获得内容 layout = device.get_result() for out in layout: if hasattr(out, 'get_text'): print(out.get_text())查看全部 -
#!/usr/bin/env python # encoding: utf-8 from urllib.request import urlopen req = urlopen("https://en.wikipedia.org/robots.txt") print(req.read().decode('utf-8'))查看全部 -
导入模块
1.读取网页信息
2.对读取到的信息进行排版
3.对排版过的数据进行二次获取操作。
4.打印结果
查看全部 -
官方文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/查看全部
-
import urllib.parse import urllib.request from bs4 import BeautifulSoup import sys import io __author__ = 'yearEamab' sys.stdout=io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030') headers={ 'Origin':'https://www.thsrc.com.tw', 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36' } data=urllib.parse.urlencode({ 'StartStation':'2f940836-cedc-41ef-8e28-c2336ac8fe68', 'EndStation':'e6e26e66-7dc1-458f-b2f3-71ce65fdc95f', 'SearchDate':'2017/08/10', 'SearchTime':'15:00', 'SearchWay':'DepartureInMandarin' }) data_by=bytes(data,encoding='utf-8') request=urllib.request.Request('https://www.thsrc.com.tw/tw/TimeTable/SearchResult',data=data_by,headers=headers) response=urllib.request.urlopen(request) html_cont=response.read() soup=BeautifulSoup(html_cont,'html.parser',from_encoding='utf-8') #<section class="result_table"> print(soup.find('section',class_='result_table').find('ul'))查看全部
-
过滤一些不需要的内容 if not re.search("里面写你不需要的内容",string)查看全部
-
python 1,怎么模拟登录网页 2,怎么下载网页内容 3,怎么在下载好的内容中,找到自己想要的 4,然后怎么储存 5,还有一些细节,比如,下载的都是一个文档,而不是图片。比如找到图片所在位置,然后提取地址,下载。查看全部
-
发送post请求,需给urlopen()传入两个参数,第一个是包含url地址的(Request方法生成的)请求对象req,第二个是通过encode()方法生成的data表单信息。查看全部
-
from urllib.request import urlopen from bs4 import BeautifulSoup as bs import re resp = urlopen("https://en.wikipedia.org/wiki/Main_Page").read().decode("utf-8") soup = bs(resp,"html.parser") listUrls = soup.findAll("a", herf=re.compile("^/wiki/")) for url in listUrls: print(url["herf"])查看全部
-
1. 安装文件的时候一定要把Path 路径添加进来,否则后面会出现较多错误; 2 BeautifulSoup的安装要退出 python 下才能装 ;查看全部
-

```py
$ which python
$ python --version
from urllib.request import urlopen
```
查看全部
举报
0/150
提交
取消