黑洞HTTP

黑洞HTTP

您的位置: 首页 > 新闻资讯 > HTTP代理 > 正文

PHP定时验证代理IP的可用性

发布时间:2019年03月20日 来源:互联网

上一篇文章给大家介绍了如何使用PHP做一个小型网络爬虫,今天就利用上次爬到的代理IP讲一讲代理IP的验证。至于为什么说PHP是世界上最好的语言,我也不知道,听别人说的,我个人比较喜欢java,以后有机会与大家分享我的学习之路。


我们为什么需要对代理IP进行验证呢?要知道我们在网络中抓到的代理IP数量很大,但能用的往往连十之一二都不到,在使用前剔除掉不能用的IP就能提高我们的工作效率。


首先说说思路:上次我们已经将抓到的IP和端口都放进了我们的MySQL数据表中,要验证肯定需要取出来,然后通过PHP中curl函数设置代理,再访问百度或者其他能访问到的网站,通过返回的状态码是否等于200来判断代理IP是不是可以正常使用的。


由于代码太长,一些不必要的代码就不贴出来了,下面看看curl验证代理IP的核心代码。


//代理IP验证方法 function GetHttpStatusCode($proxy){ $curl = curl_init(); curl_setopt ($curl, CURLOPT_PROXY, $proxy);//使用代理访问 curl_setopt($curl,CURLOPT_URL,"http://www.baidu.com");//获取内容url curl_setopt($curl,CURLOPT_HEADER,1);//获取http头信息 curl_setopt($curl,CURLOPT_NOBODY,1);//不返回html的body信息 curl_setopt($curl,CURLOPT_RETURNTRANSFER,1);//返回数据流,不直接输出 curl_setopt($curl,CURLOPT_TIMEOUT,5); //超时时长,单位秒 curl_exec($curl); $rtn= curl_getinfo($curl,CURLINFO_HTTP_CODE); curl_close($curl); return $rtn; }


调用GetHttpStatusCode(代理IP地址:端口)方法就能返回该代理IP在访问百度首页时所返回的状态码,在需要的地方对状态码进行判断就能加以利用了。


PHP定时验证代理IP的可用性

我在数据表中加入了抓取到代理IP的时间和代理IP被验证的时间,已经存活的时间,这样代理IP的稳定性就一目了然了。


PHP定时验证代理IP的可用性

这是验证后的结果,整整100个IP,最后就剩下10个左右,看来在使用之前对代理IP进行验证还是很有必要的。


相关文章内容简介

1 PHP定时验证代理IP的可用性

上一篇文章给大家介绍了如何使用PHP做一个小型网络爬虫,今天就利用上次爬到的代理IP讲一讲代理IP的验证。至于为什么说PHP是世界上最好的语言,我也不知道,听别人说的,我个人比较喜欢java,以后有机会与大家分享我的学习之路。我们为什么需要对代理IP进行验证呢?要知道我们在网络中抓到的代理IP数量很大,但能用的往往连十之一二都不到,在使用前剔除掉不能用的IP就能提高我们的工作效率。首先说说思路:上次我们已经将抓到的IP和端口都放进了我们的MySQL数据表中,要验证肯定需要取出来,然后通过PHP中curl函数设置代理,再访问百度或者其他能访问到的网站,通过返回的状态码是否等于200来判断代理IP是不是可以正常使用的。由于代码太长,一些不必要的代码就不贴出来了,下面看看curl验证代理IP的核心代码。//代理IP验证方法 function GetHttpStatusCode($proxy){ [阅读全文]

热门标签

最新标签

推荐阅读

  1. 21

    2019-11

    选择ip代理公司看几点?

    如果无法采集大数据,对爬虫工作者来说是非常大的打击,但是 代理ip 的出现解决了数据抓取时ip被限制次数的难题。哪里有需求,哪里就有市场,随着代理ip需求量的增大,应用场景也越来越

  2. 17

    2019-07

    HTTP代理IP有什么优势?

    使用HTTP代理IP,就相当于带着面具去找同一个人打招呼,打招呼一次换一次面具,所以这个人以为是不同人找他,也就不会被封。

  3. 09

    2019-04

    代理IP如何协助爬虫爬取简书热门文章数据

    想要快速获取简书上的热门文章,那么就用Python来抓取吧!今天黑洞HTTP就为大家分享一下爬虫如何爬取简书热门文章数据的,同样,打开目标网址后,我们需要先看一下源代码,查找一下我们需

  4. 04

    2019-04

    HTTP代理IP如何解决爬虫采集数据时遇到的困难?

    当下,用户信息转化速度特别快。面对要爬取的大批页面,只有分布式架构,才有机会在短期内进行一轮爬虫工作。原理就是把一个问题分解为单独的任务,每个任务在一个节点上运行,实现多

  5. 11

    2019-11

    HTTP代理ip支持什么协议?

    HTTP代理ip一般都支持两种协议HTTP和HTTPS协议,什么是HTTP协议:就是甲乙双方根据一些规定而达成的共识之间的一种协议,客户端与服务器之间怎么沟通:涉及到数据的传输。数据传到服务器端,

  6. 10

    2019-06

    如何在百度搜索定制代理IP?

    在贴吧论坛中,经常能看见有用户需求定制IP。那么这些定制IP如何寻找呢?通过关键词搜索,往往会因为关键词的不精准导致搜索结果偏差,在这里小编给大家推荐一款HTTP代理IP服务商,你可以