IP代理软件,http代理,API提取-黑洞HTTP

黑洞HTTP

您的位置: 首页 > 新闻资讯 > HTTP代理 > 正文

网络爬虫之用python获取免费代理IP

发布时间:2019年03月25日 来源:互联网

对我们一般用户而言, 爬虫是个很好的工具, 利用它可以方便的快速的获取想要的信息。 但对于网站而言, 网络爬虫占用了太多的资源, 也没可能从这些爬虫获取点击量增加广告收入, 所以很多网站痛恨爬虫, 对爬虫采取了一系列的反爬虫措施, 其中最主要的一条措施就是会封禁频繁快速访问大量网页的ip。 而通过代理ip网络爬虫可绕过这一限制。 要使用代理ip, 我们首先要获取大量代理ip并构建一个代理ip池。 一下示例用python的scrapy框架实现了通过爬虫自动获取免费代理ip的功能。


首先创建scrapy项目, 运行一下命令:


$ scrapy startproject getProxy kuaidaili.com


$ scrapy genspider proxyKdlSpider kuaidaili.com


百度搜索免费代理ip, 我进的是快代理, 页面通过列表显示代理ip及其相关信息的。


网络爬虫之用python获取免费代理IP


3. 通过以上的界面, 改写items.py, 增加如下项, 用来保存代理ip的相关信息


网络爬虫之用python获取免费代理IP


4. 通过观察页面源码, 发现我们需要的代理ip信息可用xpath轻易获取。


网络爬虫之用python获取免费代理IP


5. 通过上图观察到的规律改写proxyKdlSpider.py文件, 通过如下xpath可获取代理ip信息。


网络爬虫之用python获取免费代理IP


6. 改写pipelines.py, 将解析提取出来的代理ip信息保存到文件proxy.txt中。


网络爬虫之用python获取免费代理IP


7. 改写settings.py, 增加以下行:


网络爬虫之用python获取免费代理IP


其中USER_AGENT会改写请求headers。 因快代理网站会通过USER_AGENT来判断访问者是否爬虫, 不这样设置会导致运行爬虫的ip被封禁。


设置DOWNLOAD_DELAY=5含义是爬虫每5s请求一个网页, 这样设置的目的是为了避免快速访问大量网页触发网站的反爬虫机制


设置ITEM_PIPELINES是告诉爬虫在过滤完需要的信息后如何保存。


8 运行编写的爬虫:


$ scrapy crawl proxyKdlSpider


由于我们限制了采集速度, 过程会有点长。 运行完毕后采集结果如下:

网络爬虫之用python获取免费代理IP


相关文章内容简介

1 网络爬虫之用python获取免费代理IP

对我们一般用户而言, 爬虫是个很好的工具, 利用它可以方便的快速的获取想要的信息。 但对于网站而言, 网络爬虫占用了太多的资源, 也没可能从这些爬虫获取点击量增加广告收入, 所以很多网站痛恨爬虫, 对爬虫采取了一系列的反爬虫措施, 其中最主要的一条措施就是会封禁频繁快速访问大量网页的ip。 而通过代理ip网络爬虫可绕过这一限制。 要使用代理ip, 我们首先要获取大量代理ip并构建一个代理ip池。 一下示例用python的scrapy框架实现了通过爬虫自动获取免费代理ip的功能。首先创建scrapy项目, 运行一下命令:$ scrapy startproject getProxy kuaidaili.com$ scrapy genspider proxyKdlSpider kuaidaili.com百度搜索免费代理ip, 我进的是快代理, 页面通过列表显示代理ip及其相关信息的。3. 通过以 [阅读全文]

热门标签

最新标签

推荐阅读

  1. 04

    2019-07

    如何控制爬虫的采集速度以防被封?

    我们都知道,如果爬虫一直快速的访问一个网站,会给网站服务器带来比较大的压力,这么明显的异常访问,网站人员肯定会检测到问题的。因此,为了能够持续的采集数据,这速度肯定是要控

  2. 13

    2019-06

    便宜又好用的代理ip软件

    随着互联网的快速发展,用户对于ip代理服务的需求也越来越多。然而如今市场上的ip代理服务是非常少见的,很多用户虽然想要使用ip代理服务,却很难找寻到合适的ip代理软件,因此很多用户

  3. 03

    2019-06

    如何使用IP代理服务器软件进行爬虫工作

    我们知道,一些网站会有相应的反爬虫措施,比如检测某些IP的访问次数或者访问频率,有些反人类的访问速度就会收到限制甚至封禁,所以在进行爬虫工作时也要讲究策略,比如使用代理IP,

  4. 07

    2019-11

    ip代理适合什么人?

    普通人的生活工作中基本上不会用到代理ip,如果要去买 代理IP 来满足需求的情况,都是较特殊的行业和工种会有相关需求,但是就用途来说,无非就是一下这几种。

  5. 24

    2019-05

    代理ip都能用在哪些方面

    说到代理ip,可能对普通人来说会有一些陌生,但对一些专业搞软件或者是网络兼职的资深发烧友,代理ip对他们来说肯定就不陌生了。

  6. 05

    2019-06

    ip代理服务器软件可以换ip吗?

    网络迅猛发展,人们往往苦于没办法藏匿自己的上网痕迹而苦恼,好像有人时刻看到你在做什么一样,于是ip代理软件营运而生了。Ip从很难改变到现在可以轻松替换,省去了好多上网的后顾之