IP代理软件,http代理,API提取-黑洞HTTP

黑洞HTTP

您的位置: 首页 > 新闻资讯 > HTTP代理 > 正文

网络爬虫之用python获取免费代理IP

发布时间:2019年03月25日 来源:互联网

对我们一般用户而言, 爬虫是个很好的工具, 利用它可以方便的快速的获取想要的信息。 但对于网站而言, 网络爬虫占用了太多的资源, 也没可能从这些爬虫获取点击量增加广告收入, 所以很多网站痛恨爬虫, 对爬虫采取了一系列的反爬虫措施, 其中最主要的一条措施就是会封禁频繁快速访问大量网页的ip。 而通过代理ip网络爬虫可绕过这一限制。 要使用代理ip, 我们首先要获取大量代理ip并构建一个代理ip池。 一下示例用python的scrapy框架实现了通过爬虫自动获取免费代理ip的功能。


首先创建scrapy项目, 运行一下命令:


$ scrapy startproject getProxy kuaidaili.com


$ scrapy genspider proxyKdlSpider kuaidaili.com


百度搜索免费代理ip, 我进的是快代理, 页面通过列表显示代理ip及其相关信息的。


网络爬虫之用python获取免费代理IP


3. 通过以上的界面, 改写items.py, 增加如下项, 用来保存代理ip的相关信息


网络爬虫之用python获取免费代理IP


4. 通过观察页面源码, 发现我们需要的代理ip信息可用xpath轻易获取。


网络爬虫之用python获取免费代理IP


5. 通过上图观察到的规律改写proxyKdlSpider.py文件, 通过如下xpath可获取代理ip信息。


网络爬虫之用python获取免费代理IP


6. 改写pipelines.py, 将解析提取出来的代理ip信息保存到文件proxy.txt中。


网络爬虫之用python获取免费代理IP


7. 改写settings.py, 增加以下行:


网络爬虫之用python获取免费代理IP


其中USER_AGENT会改写请求headers。 因快代理网站会通过USER_AGENT来判断访问者是否爬虫, 不这样设置会导致运行爬虫的ip被封禁。


设置DOWNLOAD_DELAY=5含义是爬虫每5s请求一个网页, 这样设置的目的是为了避免快速访问大量网页触发网站的反爬虫机制


设置ITEM_PIPELINES是告诉爬虫在过滤完需要的信息后如何保存。


8 运行编写的爬虫:


$ scrapy crawl proxyKdlSpider


由于我们限制了采集速度, 过程会有点长。 运行完毕后采集结果如下:

网络爬虫之用python获取免费代理IP


相关文章内容简介

1 网络爬虫之用python获取免费代理IP

对我们一般用户而言, 爬虫是个很好的工具, 利用它可以方便的快速的获取想要的信息。 但对于网站而言, 网络爬虫占用了太多的资源, 也没可能从这些爬虫获取点击量增加广告收入, 所以很多网站痛恨爬虫, 对爬虫采取了一系列的反爬虫措施, 其中最主要的一条措施就是会封禁频繁快速访问大量网页的ip。 而通过代理ip网络爬虫可绕过这一限制。 要使用代理ip, 我们首先要获取大量代理ip并构建一个代理ip池。 一下示例用python的scrapy框架实现了通过爬虫自动获取免费代理ip的功能。首先创建scrapy项目, 运行一下命令:$ scrapy startproject getProxy kuaidaili.com$ scrapy genspider proxyKdlSpider kuaidaili.com百度搜索免费代理ip, 我进的是快代理, 页面通过列表显示代理ip及其相关信息的。3. 通过以 [阅读全文]

热门标签

最新标签

推荐阅读

  1. 31

    2019-10

    用代理IP为什么爬虫还是不成功?

    爬虫和代理ip的联系非常紧密,爬虫现在有着很重要的意义,例如大数据就离不开爬虫。而控制爬虫主要就是反爬虫策略,爬虫工作中要避免反爬虫的发现。避免反爬虫的方法有很多,首先就是

  2. 11

    2019-03

    黑洞HTTP做百度口碑营销的效果怎么样?

    通过百度口啤这个平台,可以很方便的看到网民对商家、网站产品或服务态度。网民可以通过口碑平台发布对线下交易过程中所感受的商家印象与自身评价,助力广大网民交易决策。那么百度口

  3. 24

    2019-05

    代理ip都能用在哪些方面

    说到代理ip,可能对普通人来说会有一些陌生,但对一些专业搞软件或者是网络兼职的资深发烧友,代理ip对他们来说肯定就不陌生了。

  4. 20

    2019-06

    HTTP代理IP平台哪个好

    对于爬虫工作者来说,工作不仅仅是研究反爬虫策略,编写爬虫代码,还有一个比较重要的工作,那就是选择优质的代理IP。代理IP平台选对了,可以让爬虫工作事半功倍,如果选差了,不仅效

  5. 06

    2019-06

    使用HTTP代理IP还是被封怎么办

    很多朋友认为,使用HTTP代理IP就可以万事大吉了,然后现实却给他们当头一棒,是HTTP代理IP不管用吗?为什么使用HTTP代理IP还是被封呢?

  6. 18

    2019-09

    使用HTTP代理ip 突破防采集策略

    常见的Web反采集策略大概有5种,他们是: