IP代理软件,http代理,API提取-黑洞HTTP

黑洞HTTP

您的位置: 首页 > 新闻资讯 > HTTP代理 > 正文

网络爬虫之用python获取免费代理IP

发布时间:2019年03月25日 来源:互联网

对我们一般用户而言, 爬虫是个很好的工具, 利用它可以方便的快速的获取想要的信息。 但对于网站而言, 网络爬虫占用了太多的资源, 也没可能从这些爬虫获取点击量增加广告收入, 所以很多网站痛恨爬虫, 对爬虫采取了一系列的反爬虫措施, 其中最主要的一条措施就是会封禁频繁快速访问大量网页的ip。 而通过代理ip网络爬虫可绕过这一限制。 要使用代理ip, 我们首先要获取大量代理ip并构建一个代理ip池。 一下示例用python的scrapy框架实现了通过爬虫自动获取免费代理ip的功能。


首先创建scrapy项目, 运行一下命令:


$ scrapy startproject getProxy kuaidaili.com


$ scrapy genspider proxyKdlSpider kuaidaili.com


百度搜索免费代理ip, 我进的是快代理, 页面通过列表显示代理ip及其相关信息的。


网络爬虫之用python获取免费代理IP


3. 通过以上的界面, 改写items.py, 增加如下项, 用来保存代理ip的相关信息


网络爬虫之用python获取免费代理IP


4. 通过观察页面源码, 发现我们需要的代理ip信息可用xpath轻易获取。


网络爬虫之用python获取免费代理IP


5. 通过上图观察到的规律改写proxyKdlSpider.py文件, 通过如下xpath可获取代理ip信息。


网络爬虫之用python获取免费代理IP


6. 改写pipelines.py, 将解析提取出来的代理ip信息保存到文件proxy.txt中。


网络爬虫之用python获取免费代理IP


7. 改写settings.py, 增加以下行:


网络爬虫之用python获取免费代理IP


其中USER_AGENT会改写请求headers。 因快代理网站会通过USER_AGENT来判断访问者是否爬虫, 不这样设置会导致运行爬虫的ip被封禁。


设置DOWNLOAD_DELAY=5含义是爬虫每5s请求一个网页, 这样设置的目的是为了避免快速访问大量网页触发网站的反爬虫机制


设置ITEM_PIPELINES是告诉爬虫在过滤完需要的信息后如何保存。


8 运行编写的爬虫:


$ scrapy crawl proxyKdlSpider


由于我们限制了采集速度, 过程会有点长。 运行完毕后采集结果如下:

网络爬虫之用python获取免费代理IP


相关文章内容简介

1 网络爬虫之用python获取免费代理IP

对我们一般用户而言, 爬虫是个很好的工具, 利用它可以方便的快速的获取想要的信息。 但对于网站而言, 网络爬虫占用了太多的资源, 也没可能从这些爬虫获取点击量增加广告收入, 所以很多网站痛恨爬虫, 对爬虫采取了一系列的反爬虫措施, 其中最主要的一条措施就是会封禁频繁快速访问大量网页的ip。 而通过代理ip网络爬虫可绕过这一限制。 要使用代理ip, 我们首先要获取大量代理ip并构建一个代理ip池。 一下示例用python的scrapy框架实现了通过爬虫自动获取免费代理ip的功能。首先创建scrapy项目, 运行一下命令:$ scrapy startproject getProxy kuaidaili.com$ scrapy genspider proxyKdlSpider kuaidaili.com百度搜索免费代理ip, 我进的是快代理, 页面通过列表显示代理ip及其相关信息的。3. 通过以 [阅读全文]

热门标签

最新标签

推荐阅读

  1. 29

    2019-10

    手机换IP有什么用?怎么换ip?

    网销人员,日常需要很多不同的ip地址,更换IP是一件寻常到不能再寻常的基本操作,IP的更换也能够让互联网工作人员能够更好地开展工作。平时我们都会更加关注电脑IP的更滑而忽视了手机

  2. 19

    2019-03

    python爬虫批量抓取ip代理

    使用爬虫抓取数据时,经常要用到多个ip代理,防止单个ip访问太过频繁被封禁。

  3. 26

    2019-11

    千万ip级别随意切换的代理ip

    目前市面上号称免费 IP代理服务器 的软件很多,但是真正免费的却很少,就算偶尔有几个免费的IP代理服务器,但是使用效果也非常不好,老是出现卡顿或者延时的问题,就连购买的 代理ip 也

  4. 13

    2019-11

    什么代理IP不会被查到真实IP?

    当我们想要隐藏ip时,大多数人都会使用代理ip,确实代理IP是隐藏IP的一种方法,当用用户使用后,会给用户分配新的IP,当访问网络时也是通过这个新分配的IP去访问的。那么,什么代理IP不会

  5. 20

    2019-03

    HTTP代理是如何爬取数据的

    第一种为普通代理。这种http代理扮演得是一个中介得角色,对于链接到他的客户端来说,他就是服务器,而对于服务端来说他就是客户端。他的任务就是负责两个端口之间传送http报文。

  6. 20

    2019-05

    高效率的爬虫工作离不开优质的代理IP

    作为网络爬虫工作者应该都知道,要想高效的爬虫工作持久的进行,除了高效合理的代码设计,还需要高效优质的代理IP。很多爬虫工作者发现,爬着爬着就不爬了,断掉了,报错了,超时了,