python3爬虫教程
爬取猫眼top100电影
简述:
利用requests和简单的正则表达式进行数据的爬取,并利用multiprocessing.Pool线程池加快速度
爬取头条街拍图片
简述:
利用requests的session特性进行爬取,同时添加headers防止网站反爬,并把数据存储进mongoDB
问题1:
爬取返回数据`<html><body></body></html>`, 并不是正确的数据
解决:
利用requests.session(), 添加头信息headers的user-Agent, 替换之前的直接的requests请求
问题2:
头条图片的js格式出现改变
解决:
图片正则表达式:
```
images_pattern = re.compile('gallery: JSON.parse("(.*?)"),', re.S)
result = re.search(images_pattern, html)
data = json.loads(result.group(1).replace('\', ''))
```
爬取淘宝美食
简述:
利用selenium+chrome自动爬取淘宝美食,并利用pyquery分析数据,存入mongodb
改进:
利用chrome新特性headless进行后台爬取
```
options = webdriver.ChromeOptions()
options.add_argument('headless')
browser = webdriver.Chrome(chrome_options=options)
```
代理池
简述:
ip代理池,防止网站反爬设置代理池
文件:
api.py: flask api 对外接口,获取proxy ip
conf.py: 代理设置文件
db.py: redis数据库操作
getter.py: 获取代理IP
spider.py: 代理handler设置
schedule.py: 调度器,调度getter和validator
utils.py: 工具函数
validator.py: 验证代理是否可用
爬取微信文章
错误:
Error Occurred
(MaxRetryError("HTTPConnectionPool(host='180.118.86.57', port=9000):
Max retries exceeded with url: http://weixin.sogou.com/weixin?query=%E9%A3%8E%E6%99%AF&page=1&type=2
(Caused by ProxyError('Cannot connect to proxy.', NewConnectionError('<urllib3.connection.HTTPConnection
object at 0x7f0040885470>: Failed to establish a new connection: [Errno 111] Connection refused',)))",),)
原因:
因为在每次数据传输前客户端要和服务器建立TCP连接,为节省传输消耗,
默认为keep-alive,即连接一次,传输多次,然而在多次访问后不能结束并回到连接池中,导致不能产生新的连接
解决:
headers中的Connection默认为keep-alive,
将header中的Connection一项置为close
```
headers = {
'Connection': 'close',
}
r = requests.get(url, headers=headers)
```
scrapy 入门:
问题:
```
from quotetutrial.quotetutrial.items import QuoteItem
ImportError: No module named 'quotetutrial.quotetutrial'
```
解决:
需要从项目中引入,不是目录
```
from quotetutrial.items import QuoteItem
```
scrapy 爬取知乎用户信息
相关资讯
相关文章内容简介
1 爬取猫眼top100、淘宝美食、微信文章、ip代理池实现、scrapy入
python3爬虫教程爬取猫眼top100电影简述:利用requests和简单的正则表达式进行数据的爬取,并利用multiprocessing.Pool线程池加快速度爬取头条街拍图片简述:利用requests的session特性进行爬取,同时添加headers防止网站反爬,并把数据存储进mongoDB问题1:爬取返回数据`<html><body></body></html>`, 并不是正确的数据解决:利用requests.session(), 添加头信息headers的user-Agent, 替换之前的直接的requests请求问题2:头条图片的js格式出现改变解决:图片正则表达式:```images_pattern = re.compile('gallery: JSON.parse("(.*?)"),', [阅读全文]
推荐阅读
18
2019-10
什么原因影响HTTP代理IP速度慢?
HTTP代理 IP从成本上区分有免费版和付费版两种,免费IP获取方便,在搜索引擎关键词搜索就能够获得大批量网络资源,缺陷是免费IP网络服务器存在不安全客观因素,用户的访问信息有很有可能
18
2019-05
人们研发代理ip软件的初衷是什么?
在http代理ip的市场上各种同类应用一直都不断更新,但是最近在这个市场上杀出的一匹黑马,这匹黑马名叫代理云黑洞HTTP代理IP网页代理平台。其实我们大多数人对于黑洞HTTP代理IP都熟悉不过
30
2019-10
ip池对代理i有多重要?
代理ip入侵人们的生活工作,代理ip也被广泛使用,市场需求也是逐渐增加,如何选择一家ip资源丰富的代理服务平台,大家知道在百度搜索引擎输入“代理ip”将会出现很多,丰富的ip资源是选
16
2019-06
用代理ip能保障安全吗?
在网络科技迅速发展的今天,代理IP 这种既高效又便捷的上网方式被越来越多的人所了解,熟悉并使用,受到很大欢迎,同时,很多人也对代理IP这种上网方式表示怀疑,到底安不安全,针对大
07
2019-08
为什么要使用http代理服务器?
在我们的生活工作中常常会使用到网络,代理IP也越来越受到人们的欢迎,特别是对于一些专业的网络营销人员来说,这种代理服务器是他们生活工作必不可少的工具。就如同我们平时上网一样
12
2018-09
http代理是什么?http代理ip怎么用?
http代理是什么?HTTP协议即超文本传输协议,是Internet上行信息传输时使用最为广泛的一种非常简单的通信协议。部分局域网对协议进行了限制,只允许用户通过HTTP协议访问外部网站。
热门文章
注意: 严禁一切违规违法的业务,一经发现直接封帐号
Powered by wanchen tech. © | 粤ICP备18047396号-6 广州万宸软件科技有限公司http代理 版权所有