IP代理软件,http代理,API提取-黑洞HTTP

黑洞HTTP

您的位置: 首页 > 新闻资讯 > HTTP代理 > 正文

网络爬虫之用python获取免费代理IP

发布时间:2019年03月25日 来源:互联网

对我们一般用户而言, 爬虫是个很好的工具, 利用它可以方便的快速的获取想要的信息。 但对于网站而言, 网络爬虫占用了太多的资源, 也没可能从这些爬虫获取点击量增加广告收入, 所以很多网站痛恨爬虫, 对爬虫采取了一系列的反爬虫措施, 其中最主要的一条措施就是会封禁频繁快速访问大量网页的ip。 而通过代理ip网络爬虫可绕过这一限制。 要使用代理ip, 我们首先要获取大量代理ip并构建一个代理ip池。 一下示例用python的scrapy框架实现了通过爬虫自动获取免费代理ip的功能。


首先创建scrapy项目, 运行一下命令:


$ scrapy startproject getProxy kuaidaili.com


$ scrapy genspider proxyKdlSpider kuaidaili.com


百度搜索免费代理ip, 我进的是快代理, 页面通过列表显示代理ip及其相关信息的。


网络爬虫之用python获取免费代理IP


3. 通过以上的界面, 改写items.py, 增加如下项, 用来保存代理ip的相关信息


网络爬虫之用python获取免费代理IP


4. 通过观察页面源码, 发现我们需要的代理ip信息可用xpath轻易获取。


网络爬虫之用python获取免费代理IP


5. 通过上图观察到的规律改写proxyKdlSpider.py文件, 通过如下xpath可获取代理ip信息。


网络爬虫之用python获取免费代理IP


6. 改写pipelines.py, 将解析提取出来的代理ip信息保存到文件proxy.txt中。


网络爬虫之用python获取免费代理IP


7. 改写settings.py, 增加以下行:


网络爬虫之用python获取免费代理IP


其中USER_AGENT会改写请求headers。 因快代理网站会通过USER_AGENT来判断访问者是否爬虫, 不这样设置会导致运行爬虫的ip被封禁。


设置DOWNLOAD_DELAY=5含义是爬虫每5s请求一个网页, 这样设置的目的是为了避免快速访问大量网页触发网站的反爬虫机制


设置ITEM_PIPELINES是告诉爬虫在过滤完需要的信息后如何保存。


8 运行编写的爬虫:


$ scrapy crawl proxyKdlSpider


由于我们限制了采集速度, 过程会有点长。 运行完毕后采集结果如下:

网络爬虫之用python获取免费代理IP


相关文章内容简介

1 网络爬虫之用python获取免费代理IP

对我们一般用户而言, 爬虫是个很好的工具, 利用它可以方便的快速的获取想要的信息。 但对于网站而言, 网络爬虫占用了太多的资源, 也没可能从这些爬虫获取点击量增加广告收入, 所以很多网站痛恨爬虫, 对爬虫采取了一系列的反爬虫措施, 其中最主要的一条措施就是会封禁频繁快速访问大量网页的ip。 而通过代理ip网络爬虫可绕过这一限制。 要使用代理ip, 我们首先要获取大量代理ip并构建一个代理ip池。 一下示例用python的scrapy框架实现了通过爬虫自动获取免费代理ip的功能。首先创建scrapy项目, 运行一下命令:$ scrapy startproject getProxy kuaidaili.com$ scrapy genspider proxyKdlSpider kuaidaili.com百度搜索免费代理ip, 我进的是快代理, 页面通过列表显示代理ip及其相关信息的。3. 通过以 [阅读全文]

热门标签

最新标签

推荐阅读

  1. 09

    2019-07

    使用代理ip给生活工作带来什么好处?

    隐藏自己的真实地址信息,还可隐藏自己的IP,防止被黑客攻击。

  2. 24

    2019-05

    怎么选择代理ip?技巧和注意事项有哪些?

    黑洞HTTP的代理ip实效性较强,一般有效期在20分钟到4小时不等。在选择代理ip使用时的技巧需要十分注意,有时候选择不好,花高价钱买了代理ip可能并不适合自己,或者是虽然有很快的网速,

  3. 18

    2019-06

    ip代理就可以隐藏我们真实ip地址

    我们在网上时,,真实的IP随时会被泄露,如果被别有用心的人利用的话,可能会对我们的生活造成一些影响。这时候如果使用了一些更换ip地址的软件,如黑洞http代理ip,就可以隐藏我们真是

  4. 01

    2019-10

    高匿代理ip与普通匿名代理ip的差别

    同样作为匿名代理ip,http代理ip与普通匿名代理ip在使用过程中是有区别的,只是很多用户在使用过程中没有细致观察或者对二者的认识了解不多,因此才造成高匿代理ip与普通匿名代理ip没有区

  5. 08

    2019-10

    IP代理-Goalng 子网掩码地址

    子网掩码(Subnet mask)又叫网络掩码、子网掩码不能单独存在,它必须结合IP地址一起使用。 用于屏蔽IP地址的一部分以区别网络标识和主机标识,并说明该IP地址是在局域网上,还是在远程网上. 1.

  6. 19

    2019-03

    爬取猫眼top100、淘宝美食、微信文章、ip代理池实现、scrapy入

    利用requests和简单的正则表达式进行数据的爬取,并利用multiprocessing.Pool线程池加快速度