上一篇文章给大家介绍了如何使用PHP做一个小型网络爬虫,今天就利用上次爬到的代理IP讲一讲代理IP的验证。至于为什么说PHP是世界上最好的语言,我也不知道,听别人说的,我个人比较喜欢java,以后有机会与大家分享我的学习之路。
我们为什么需要对代理IP进行验证呢?要知道我们在网络中抓到的代理IP数量很大,但能用的往往连十之一二都不到,在使用前剔除掉不能用的IP就能提高我们的工作效率。
首先说说思路:上次我们已经将抓到的IP和端口都放进了我们的MySQL数据表中,要验证肯定需要取出来,然后通过PHP中curl函数设置代理,再访问百度或者其他能访问到的网站,通过返回的状态码是否等于200来判断代理IP是不是可以正常使用的。
由于代码太长,一些不必要的代码就不贴出来了,下面看看curl验证代理IP的核心代码。
//代理IP验证方法 function GetHttpStatusCode($proxy){ $curl = curl_init(); curl_setopt ($curl, CURLOPT_PROXY, $proxy);//使用代理访问 curl_setopt($curl,CURLOPT_URL,"http://www.baidu.com");//获取内容url curl_setopt($curl,CURLOPT_HEADER,1);//获取http头信息 curl_setopt($curl,CURLOPT_NOBODY,1);//不返回html的body信息 curl_setopt($curl,CURLOPT_RETURNTRANSFER,1);//返回数据流,不直接输出 curl_setopt($curl,CURLOPT_TIMEOUT,5); //超时时长,单位秒 curl_exec($curl); $rtn= curl_getinfo($curl,CURLINFO_HTTP_CODE); curl_close($curl); return $rtn; }
调用GetHttpStatusCode(代理IP地址:端口)方法就能返回该代理IP在访问百度首页时所返回的状态码,在需要的地方对状态码进行判断就能加以利用了。
我在数据表中加入了抓取到代理IP的时间和代理IP被验证的时间,已经存活的时间,这样代理IP的稳定性就一目了然了。
这是验证后的结果,整整100个IP,最后就剩下10个左右,看来在使用之前对代理IP进行验证还是很有必要的。
相关资讯
相关文章内容简介
1 PHP定时验证代理IP的可用性
上一篇文章给大家介绍了如何使用PHP做一个小型网络爬虫,今天就利用上次爬到的代理IP讲一讲代理IP的验证。至于为什么说PHP是世界上最好的语言,我也不知道,听别人说的,我个人比较喜欢java,以后有机会与大家分享我的学习之路。我们为什么需要对代理IP进行验证呢?要知道我们在网络中抓到的代理IP数量很大,但能用的往往连十之一二都不到,在使用前剔除掉不能用的IP就能提高我们的工作效率。首先说说思路:上次我们已经将抓到的IP和端口都放进了我们的MySQL数据表中,要验证肯定需要取出来,然后通过PHP中curl函数设置代理,再访问百度或者其他能访问到的网站,通过返回的状态码是否等于200来判断代理IP是不是可以正常使用的。由于代码太长,一些不必要的代码就不贴出来了,下面看看curl验证代理IP的核心代码。//代理IP验证方法 function GetHttpStatusCode($proxy){ [阅读全文]
推荐阅读
01
2019-05
有了优质代理,网络爬虫更稳定
工欲善其事,必先利其器,网络爬虫要有效率,必要有优质代理IP
02
2019-04
UC浏览器可以使用代理ip吗?
26
2019-08
代理ip通用的爬虫系统有哪些类型?
大数据高速发展时代,爬虫行业日益火爆,从业者如过江之鲫,数不胜数,说到爬虫就不得不提另外一个词:代理IP。爬虫虽然大行其道,但相应的反爬虫也步步紧逼,毫不相让,唯有代理IP,
15
2019-11
选购HTTP代理服务器注意这三点
随着大数据时代到来, 代理IP 行业发展十分迅速,或大或小的品牌商家如雨后春笋般破土而出,用户随时随地切换IP已不再是难事。然而因为代理IP行业门槛低,如今的市场可谓是鱼龙混杂,想
03
2019-04
干货分享!获取代理ip地址的方法
要用到代理服务器,前提需要获得代理服务器具体地址,它应当是ip地址或URL,比如“http.hunbovps.com”。如果代理服务器提供URL当做它的地址,那么有时候代表此代理服务器的IP地址不稳定,它可
29
2019-06
代理ip如何依靠互联网谋发展?
中国的互联网发展时间并不长,但发展速度无疑是众国家中最快的一个。伴随着大数据时代蓬勃发展,给各行各业带来了不少冲击和全新机遇。对于旅游行业来说,我们在旅游前会通过媒体渠
热门文章
注意: 严禁一切违规违法的业务,一经发现直接封帐号
Powered by wanchen tech. © | 粤ICP备18047396号-6 广州万宸软件科技有限公司http代理 版权所有