黑洞HTTP

黑洞HTTP

您的位置: 首页 > 新闻资讯 > HTTP代理 > 正文

程序员学网络爬虫入门之验证代理IP的有效性

发布时间:2019年03月28日 来源:互联网

在用网络爬虫获取网站数据时, 网站通常都会有一系列的反爬虫措施, 其中一项就是检测到同一ip频繁快速访问网站时该ip将被封禁, 为了绕过这个限制, 就需要在爬虫中使用代理ip了。


百度搜索免费代理ip, 将会出现很多提供免费代理ip的网站, 如果免费的达不到预期, 可购买付费的代理ip。


程序员学网络爬虫入门之验证代理IP的有效性


从供免费代理的网站获取到一系列的代理ip后, 并不是所有的代理服务器都是可用的, 这需要编写python脚本来验证所获得的代理ip的有效性, 以下介绍下如何验证。


1.将从免费代理网站获取到的代理ip保存到文件proxy.txt中, 如下图格式:


程序员学网络爬虫入门之验证代理IP的有效性

2. 编写testProxy.py, 原理是从proxy.txt中按行读取, 从每一行中提取出ip、port、protocol后用requests模块测试是否可用。为了加快测试速度, 这里开启了10个线程同时测试:

程序员学网络爬虫入门之验证代理IP的有效性

3. 运行以下命令测试:


$ python testProxy.py


执行完成后可用的代理ip将全部保存在alive.txt中。 下次将讲解如何用alive.txt中的可用代理ip来爬取内容


相关文章内容简介

1 程序员学网络爬虫入门之验证代理IP的有效性

在用网络爬虫获取网站数据时, 网站通常都会有一系列的反爬虫措施, 其中一项就是检测到同一ip频繁快速访问网站时该ip将被封禁, 为了绕过这个限制, 就需要在爬虫中使用代理ip了。百度搜索免费代理ip, 将会出现很多提供免费代理ip的网站, 如果免费的达不到预期, 可购买付费的代理ip。程序员学网络爬虫入门之验证代理IP的有效性从供免费代理的网站获取到一系列的代理ip后, 并不是所有的代理服务器都是可用的, 这需要编写python脚本来验证所获得的代理ip的有效性, 以下介绍下如何验证。1.将从免费代理网站获取到的代理ip保存到文件proxy.txt中, 如下图格式:2. 编写testProxy.py, 原理是从proxy.txt中按行读取, 从每一行中提取出ip、port、protocol后用requests模块测试是否可用。为了加快测试速度, 这里开启了10个线程同时测试:3. 运行以下 [阅读全文]

热门标签

最新标签

推荐阅读

  1. 21

    2019-03

    动态ip代理,什么叫IP代理?它的工作原理你知道吗?

    编程是一项社交活动——Python编程语言社区论坛已经认识到了这一点!人工智能(AI)是一个全面的技术术语,常常意味着当前计算机科学研究中最先进的领域。

  2. 15

    2019-10

    代理ip存在的意义是什么?

    互联网时代,玩游戏想开小号,读新闻刷金币想多开几个手机,凡是当你不满足于一个账号所带来的满足感的时候,你就会逐步接触到 代理ip。

  3. 24

    2019-05

    高匿代理IP和透明代理IP有什么区别?

    黑洞HTTP前面为您简述过,使用高匿代理IP后,访问者的IP跟是否在使用代理服务器将同时被保密。那么使用黑洞HTTP服务器主打的高匿代理和透明代理又有什么区别呢?

  4. 03

    2019-06

    如何解决爬虫IP代理服务器软件不足的问题

    在爬虫工作过程中,经常会被目标网站禁止访问,但又找不到原因,这是令人非常恼火的事情。

  5. 11

    2019-05

    ip代理软件的售后问题也需关注

    对于很多用户而言,不是仅仅买了一款ip代理软件学会使用它就能一劳永逸了。相中了一款ip代理软件,试用时觉得没太大问题,但是也应该考虑到售后的一些问题才会更加妥善。

  6. 24

    2019-04

    教育行业使用代理IP做什么?

    随着二胎政策的开放,很多家庭也预备着为家庭带来第二个孩子,从未来教育的规划角度来看,二胎政策的开放,开拓了教育机构的延伸和发展。所以现在很多的人在考虑创业的时候,往往会考