IP代理软件,http代理,API提取-黑洞HTTP

黑洞HTTP

您的位置: 首页 > 新闻资讯 > HTTP代理 > 正文

遇到反爬时可以用代理IP吗?

发布时间:2019年04月11日 来源:互联网

遇到反爬时可以用代理IP吗?谈到反爬虫,或许你最先想起的是User-Agent+ Referer检测、验证码、ip访问速度、账号及cookie验证等,这类反爬虫对大家而言根本没有难度可言,完全能利用云立方动态vps所获得的代理ip加其它的一些措施实现完美的伪装,接近于真实用户浏览的,可是,别以为这样就没有后顾之忧了,一起来看下脑洞大开的前端工程师的反爬虫措施吧。


遇到反爬时可以用代理IP吗?


一、 FONT-FACE拼凑式


范例:猫眼电影


猫眼电影网站,针对票房信息等展示的并非纯粹的数字。


网页采用font-face定义了字符集,并利用unicode去映射呈现。换句话说,去掉图像识别,必须同时抓取字符集,才能分辨出数字。


而且,每次页面刷新,字符集的url都会发生改变的,显然更大强度地提高了爬取成本。


二、BACKGROUND拼凑式


范例:美团


与font的方式差不多,美团里采用的是background拼凑。数字其实是图片,按照不同的background偏移,显示出不一样的字符。


而且不同页面,图片的字符排序都是有差异的。不过理论上只需生成0-9与小数点,为什么有重复字符还没有搞明白。


三、字符穿插式


范例:微信公众号文章


一些微信公众平台的文章里,穿插了各类迷之字符,而且按照样式把这些字符隐藏掉。


这类方式尽管惨绝人寰…但我觉得找不到太大的识别与过滤难度,甚至能够做得更好,不过也算作一种脑洞吧。


四、伪元素隐藏式


范例:汽车之家


汽车之家网站里,将关键的厂商数据,做到了伪元素的content里。


这又是一种策略:爬取网页,一定得解析css,还要拿到伪元素的content,这就提高了爬取的难度。


五、元素定位覆盖式


范例:去哪儿


酷爱数学的去哪儿,针对一个4位数的票价,首先用4个i标签渲染,然后2个b标签去绝对定位偏移量,覆盖有意呈现错误的i标签,最终在视觉上建立正确的价格…


这就表明爬虫能解析css还不够,还要会做数学题。


六、IFRAME异步加载式


范例:网易云音乐


网易云音乐网页一打开,html源码里基本上只有一个iframe,而且它的src是空白的:about:blank。接着js开始运行,把整个页面的框架异步塞到了iframe里面…


不过这一方法造成的难度并不大,仅仅在异步与iframe处理上绕了个弯,不管你是用selenium还是phantom,都有API能够拿到iframe里面的content数据。


七、字符集替换式


范例:去哪儿移动版


一样会欺骗爬虫的还有去哪儿的移动版。


html里明明写的3211,视觉上呈现的却是1233。原来他们重新定义了字符集,3与1的顺序刚好调换得来的结果…


因此,进行数据爬取的时候,需要对将爬取的目标进行分析,使用对应的应对措施破解反爬,而其中动态IP正是必不可少的一种工具,它能帮助爬虫工程师解决IP限制问题,如爬虫抓取任务事半功倍。


相关文章内容简介

1 遇到反爬时可以用代理IP吗?

遇到反爬时可以用代理IP吗?谈到反爬虫,或许你最先想起的是User-Agent+ Referer检测、验证码、ip访问速度、账号及cookie验证等,这类反爬虫对大家而言根本没有难度可言,完全能利用云立方动态vps所获得的代理ip加其它的一些措施实现完美的伪装,接近于真实用户浏览的,可是,别以为这样就没有后顾之忧了,一起来看下脑洞大开的前端工程师的反爬虫措施吧。一、 FONT-FACE拼凑式范例:猫眼电影猫眼电影网站,针对票房信息等展示的并非纯粹的数字。网页采用font-face定义了字符集,并利用unicode去映射呈现。换句话说,去掉图像识别,必须同时抓取字符集,才能分辨出数字。而且,每次页面刷新,字符集的url都会发生改变的,显然更大强度地提高了爬取成本。二、BACKGROUND拼凑式范例:美团与font的方式差不多,美团里采用的是background拼凑。数字其实是图片,按照不同的 [阅读全文]

热门标签

最新标签

推荐阅读

  1. 11

    2019-05

    IP代理软件该如何选择

    许多用户在需要更换IP的时候,就需要用到IP代理软件。这个时候,就需要到海量的网络软件中选择合适的软件。选择IP代理软件的时候,有很多的注意事项。首先来说,IP代理软件更换IP的速度

  2. 21

    2019-03

    爬虫抓取数据为什么要使用代理IP?

    大数据时代,我们需要海量的信息去帮助我们分析市场、分析用户,因此在爬虫抓取数据的时候,就容易出现IP受限问题。有的网站也会采取防爬取技术,当我们采集信息频次过快的时候,

  3. 08

    2019-11

    HTTP报文是什么?

    HTTP报文是有一行一行的简单字符串组成的。HTTP报文都是纯文字,不是二进制代码,所以人们很方便地对其进行读写。那么,今天小编带你了解什么是http报文。

  4. 13

    2019-09

    HTTP代理IP的使用盲点你知道吗?

    在我们日常应用的代理服务中,HTTP代理IP可以说是最常见的,也是最被普通网民所接受的。虽然经常使用,但是对于这种代理方式,许多人仍然存在一定使用误区,在这里小编就为大家消除这些

  5. 05

    2019-05

    为什么有些爬虫代理ip重复率那么高?

    做爬虫的久了,会接触到很多很多爬虫代理ip提供商家,也会发现不同提供商的http代理质量差别非常大,有些代理商的重复率非常高,导致爬虫被封,这是为什么呢?

  6. 08

    2019-07

    高匿名高效稳定的HTTP代理IP怎么下载使用?

    使用代理IP的用户最在意的就是IP的安全性、时效和速度。而市面上的HTTP代理IP通常不具备此特点,尤其在时效和速度上,一般都很慢而且不固定时间掉线。