IP代理软件,http代理,API提取-黑洞HTTP

黑洞HTTP

您的位置: 首页 > 新闻资讯 > HTTP代理 > 正文

网络爬虫之用python获取免费代理IP

发布时间:2019年03月25日 来源:互联网

对我们一般用户而言, 爬虫是个很好的工具, 利用它可以方便的快速的获取想要的信息。 但对于网站而言, 网络爬虫占用了太多的资源, 也没可能从这些爬虫获取点击量增加广告收入, 所以很多网站痛恨爬虫, 对爬虫采取了一系列的反爬虫措施, 其中最主要的一条措施就是会封禁频繁快速访问大量网页的ip。 而通过代理ip网络爬虫可绕过这一限制。 要使用代理ip, 我们首先要获取大量代理ip并构建一个代理ip池。 一下示例用python的scrapy框架实现了通过爬虫自动获取免费代理ip的功能。


首先创建scrapy项目, 运行一下命令:


$ scrapy startproject getProxy kuaidaili.com


$ scrapy genspider proxyKdlSpider kuaidaili.com


百度搜索免费代理ip, 我进的是快代理, 页面通过列表显示代理ip及其相关信息的。


网络爬虫之用python获取免费代理IP


3. 通过以上的界面, 改写items.py, 增加如下项, 用来保存代理ip的相关信息


网络爬虫之用python获取免费代理IP


4. 通过观察页面源码, 发现我们需要的代理ip信息可用xpath轻易获取。


网络爬虫之用python获取免费代理IP


5. 通过上图观察到的规律改写proxyKdlSpider.py文件, 通过如下xpath可获取代理ip信息。


网络爬虫之用python获取免费代理IP


6. 改写pipelines.py, 将解析提取出来的代理ip信息保存到文件proxy.txt中。


网络爬虫之用python获取免费代理IP


7. 改写settings.py, 增加以下行:


网络爬虫之用python获取免费代理IP


其中USER_AGENT会改写请求headers。 因快代理网站会通过USER_AGENT来判断访问者是否爬虫, 不这样设置会导致运行爬虫的ip被封禁。


设置DOWNLOAD_DELAY=5含义是爬虫每5s请求一个网页, 这样设置的目的是为了避免快速访问大量网页触发网站的反爬虫机制


设置ITEM_PIPELINES是告诉爬虫在过滤完需要的信息后如何保存。


8 运行编写的爬虫:


$ scrapy crawl proxyKdlSpider


由于我们限制了采集速度, 过程会有点长。 运行完毕后采集结果如下:

网络爬虫之用python获取免费代理IP


相关文章内容简介

1 网络爬虫之用python获取免费代理IP

对我们一般用户而言, 爬虫是个很好的工具, 利用它可以方便的快速的获取想要的信息。 但对于网站而言, 网络爬虫占用了太多的资源, 也没可能从这些爬虫获取点击量增加广告收入, 所以很多网站痛恨爬虫, 对爬虫采取了一系列的反爬虫措施, 其中最主要的一条措施就是会封禁频繁快速访问大量网页的ip。 而通过代理ip网络爬虫可绕过这一限制。 要使用代理ip, 我们首先要获取大量代理ip并构建一个代理ip池。 一下示例用python的scrapy框架实现了通过爬虫自动获取免费代理ip的功能。首先创建scrapy项目, 运行一下命令:$ scrapy startproject getProxy kuaidaili.com$ scrapy genspider proxyKdlSpider kuaidaili.com百度搜索免费代理ip, 我进的是快代理, 页面通过列表显示代理ip及其相关信息的。3. 通过以 [阅读全文]

热门标签

最新标签

推荐阅读

  1. 15

    2019-08

    关于使用代理ip进行挖掘的常见问题

    虽然 代理服务器 特别昂贵但并不是特别贵啦,但重要的是要把事情放在眼前,并认识到如果你的目标网站检测到你并且提供了伪造的信息,这可能会导致更大的资金负担; 在这一点上,支付具

  2. 15

    2019-11

    使用代理IP时的三个误区

    作为网络工作者,经常会在工作中使用到代理IP,但在使用的过程中会经常遇到一些比较常见的问题。很多用户对代理IP的使用有一些误区,这也造成了很多问题一筹莫展,不知道问题出在哪里

  3. 29

    2019-10

    免费IP代理有实用的吗?

    免费代理ip和付费代理ip,在市面都有很多,免费和付费,相信很多人都会选择免费,但为什么会出现付费代理ip呢?现在我们所看到的网络世界其实并不是真实的网络世界,真实的网络世界要更

  4. 29

    2019-06

    爬虫抓取信息时常见问题

    在Python爬虫抓取信息时,遇到最大问题就是无止无休的网站反爬机制,最大的困扰就是因为本地IP被封禁造成的时间耽误。其实你只是缺少一款好用的HTTP代理IP资源而已,例如黑洞代理。IP数量

  5. 12

    2019-08

    什么是代理ip,代理ip又是如何使用的?

    什么是代理ip?ip是上网需要唯一的身份地址,身份凭证,而代理ip就是我们上网过程中的一个中间平台,是由你的电脑先访问代理ip,之后再由代理ip访问你点开的页面,所以在这个页面的访问

  6. 12

    2019-11

    网络营销选代理IP要注重什么?

    很多网络营销人员在各大网站发帖时都遇见过相同的问题,那就是操作频繁,IP被限制。主要是因为IP被访问网站限制了,无法继续发帖,这时用代理IP就解决了。