黑洞HTTP代理

黑洞HTTP

您的位置: 首页 > 新闻资讯 > HTTP代理 > 正文

爬取猫眼top100、淘宝美食、微信文章、ip代理池实现、scrapy入

发布时间:2019年03月19日 来源:互联网

python3爬虫教程

爬取猫眼top100电影

爬取猫眼top100、淘宝美食、微信文章、ip代理池实现、scrapy入

简述:


利用requests和简单的正则表达式进行数据的爬取,并利用multiprocessing.Pool线程池加快速度

爬取头条街拍图片


简述:


利用requests的session特性进行爬取,同时添加headers防止网站反爬,并把数据存储进mongoDB

问题1:


爬取返回数据`<html><body></body></html>`, 并不是正确的数据

解决:


利用requests.session(), 添加头信息headers的user-Agent, 替换之前的直接的requests请求

问题2:


头条图片的js格式出现改变

解决:


图片正则表达式:

```

images_pattern = re.compile('gallery: JSON.parse("(.*?)"),', re.S)

result = re.search(images_pattern, html)

data = json.loads(result.group(1).replace('\', ''))

```

爬取淘宝美食


简述:


利用selenium+chrome自动爬取淘宝美食,并利用pyquery分析数据,存入mongodb

改进:


利用chrome新特性headless进行后台爬取

```

options = webdriver.ChromeOptions()

options.add_argument('headless')

browser = webdriver.Chrome(chrome_options=options)

```

代理池


简述:


ip代理池,防止网站反爬设置代理池

文件:


api.py: flask api 对外接口,获取proxy ip

conf.py: 代理设置文件

db.py: redis数据库操作

getter.py: 获取代理IP

spider.py: 代理handler设置

schedule.py: 调度器,调度getter和validator

utils.py: 工具函数

validator.py: 验证代理是否可用

爬取微信文章


错误:


Error Occurred

(MaxRetryError("HTTPConnectionPool(host='180.118.86.57', port=9000):

Max retries exceeded with url: http://weixin.sogou.com/weixin?query=%E9%A3%8E%E6%99%AF&page=1&type=2

(Caused by ProxyError('Cannot connect to proxy.', NewConnectionError('<urllib3.connection.HTTPConnection

object at 0x7f0040885470>: Failed to establish a new connection: [Errno 111] Connection refused',)))",),)

原因:


因为在每次数据传输前客户端要和服务器建立TCP连接,为节省传输消耗,

默认为keep-alive,即连接一次,传输多次,然而在多次访问后不能结束并回到连接池中,导致不能产生新的连接

解决:


headers中的Connection默认为keep-alive,

将header中的Connection一项置为close

```

headers = {

 'Connection': 'close',

}

r = requests.get(url, headers=headers)

```

scrapy 入门:


问题:


```

from quotetutrial.quotetutrial.items import QuoteItem

ImportError: No module named 'quotetutrial.quotetutrial'

```

解决:


需要从项目中引入,不是目录

```

 from quotetutrial.items import QuoteItem

```

scrapy 爬取知乎用户信息


相关文章内容简介

1 爬取猫眼top100、淘宝美食、微信文章、ip代理池实现、scrapy入

python3爬虫教程爬取猫眼top100电影简述:利用requests和简单的正则表达式进行数据的爬取,并利用multiprocessing.Pool线程池加快速度爬取头条街拍图片简述:利用requests的session特性进行爬取,同时添加headers防止网站反爬,并把数据存储进mongoDB问题1:爬取返回数据`<html><body></body></html>`, 并不是正确的数据解决:利用requests.session(), 添加头信息headers的user-Agent, 替换之前的直接的requests请求问题2:头条图片的js格式出现改变解决:图片正则表达式:```images_pattern = re.compile('gallery: JSON.parse("(.*?)"),', [阅读全文]

热门标签

最新标签

推荐阅读

  1. 22

    2019-03

    HTTP代理怎么维护网络安全?

    伴随着互联网科技行业的飞速发展,网络生活早已成为人类日常工作生活不可分割的重要组成部分。现在人们日常购物离不开移动支付和电子商务,日常交流也离不开即时通讯。可以说互联网不

  2. 12

    2019-08

    什么是代理ip,代理ip又是如何使用的?

    什么是代理ip?ip是上网需要唯一的身份地址,身份凭证,而代理ip就是我们上网过程中的一个中间平台,是由你的电脑先访问代理ip,之后再由代理ip访问你点开的页面,所以在这个页面的访问

  3. 01

    2019-09

    http代理服务器哪家好和http代理爬虫

    每一个经营网站的人员应该都有这样的体会,这几年的白帽SEO越来越难做了,伴随搜索引擎技术的发展,要想通过本分的操作使得网站排名靠前的话,这要花费巨大的精力财力,而且随时还有排

  4. 14

    2019-08

    6种隐藏IP地址的简单方法

    6种隐藏IP地址的简单方法,在互联网,是没有什么比一个庞大的群体更多的相互连接的网络工程,需要一个系统,这些网络之间建立通信。在Internet协议,通常被称为IP,是主要的技术,负责此

  5. 18

    2019-04

    代理IP如何爬虫帮助爬取到网页的源代码?

    今天我们就来看下,爬虫是如何爬取到网页源代码的。这里我们就以极光爬虫网站为例,来爬取网站的源代码,并把代码保存到本地。爬取时,需要用到python的urllib模块,具体代码如下:

  6. 23

    2019-03

    免费的爬虫代理ip都不可用是怎么回事?

    我用的是代理IP,主要用于爬虫抓取。方法是打开IE → 找到设置→ 打开 Internet选项→找到连接 点击代理设置在地址栏,填写我们找到的代理IP的区段