遇到反爬时可以用代理IP吗?谈到反爬虫,或许你最先想起的是User-Agent+ Referer检测、验证码、ip访问速度、账号及cookie验证等,这类反爬虫对大家而言根本没有难度可言,完全能利用云立方动态vps所获得的代理ip加其它的一些措施实现完美的伪装,接近于真实用户浏览的,可是,别以为这样就没有后顾之忧了,一起来看下脑洞大开的前端工程师的反爬虫措施吧。
一、 FONT-FACE拼凑式
范例:猫眼电影
猫眼电影网站,针对票房信息等展示的并非纯粹的数字。
网页采用font-face定义了字符集,并利用unicode去映射呈现。换句话说,去掉图像识别,必须同时抓取字符集,才能分辨出数字。
而且,每次页面刷新,字符集的url都会发生改变的,显然更大强度地提高了爬取成本。
二、BACKGROUND拼凑式
范例:美团
与font的方式差不多,美团里采用的是background拼凑。数字其实是图片,按照不同的background偏移,显示出不一样的字符。
而且不同页面,图片的字符排序都是有差异的。不过理论上只需生成0-9与小数点,为什么有重复字符还没有搞明白。
三、字符穿插式
范例:微信公众号文章
一些微信公众平台的文章里,穿插了各类迷之字符,而且按照样式把这些字符隐藏掉。
这类方式尽管惨绝人寰…但我觉得找不到太大的识别与过滤难度,甚至能够做得更好,不过也算作一种脑洞吧。
四、伪元素隐藏式
范例:汽车之家
汽车之家网站里,将关键的厂商数据,做到了伪元素的content里。
这又是一种策略:爬取网页,一定得解析css,还要拿到伪元素的content,这就提高了爬取的难度。
五、元素定位覆盖式
范例:去哪儿
酷爱数学的去哪儿,针对一个4位数的票价,首先用4个i标签渲染,然后2个b标签去绝对定位偏移量,覆盖有意呈现错误的i标签,最终在视觉上建立正确的价格…
这就表明爬虫能解析css还不够,还要会做数学题。
六、IFRAME异步加载式
范例:网易云音乐
网易云音乐网页一打开,html源码里基本上只有一个iframe,而且它的src是空白的:about:blank。接着js开始运行,把整个页面的框架异步塞到了iframe里面…
不过这一方法造成的难度并不大,仅仅在异步与iframe处理上绕了个弯,不管你是用selenium还是phantom,都有API能够拿到iframe里面的content数据。
七、字符集替换式
范例:去哪儿移动版
一样会欺骗爬虫的还有去哪儿的移动版。
html里明明写的3211,视觉上呈现的却是1233。原来他们重新定义了字符集,3与1的顺序刚好调换得来的结果…
因此,进行数据爬取的时候,需要对将爬取的目标进行分析,使用对应的应对措施破解反爬,而其中动态IP正是必不可少的一种工具,它能帮助爬虫工程师解决IP限制问题,如爬虫抓取任务事半功倍。
相关资讯
相关文章内容简介
1 遇到反爬时可以用代理IP吗?
遇到反爬时可以用代理IP吗?谈到反爬虫,或许你最先想起的是User-Agent+ Referer检测、验证码、ip访问速度、账号及cookie验证等,这类反爬虫对大家而言根本没有难度可言,完全能利用云立方动态vps所获得的代理ip加其它的一些措施实现完美的伪装,接近于真实用户浏览的,可是,别以为这样就没有后顾之忧了,一起来看下脑洞大开的前端工程师的反爬虫措施吧。一、 FONT-FACE拼凑式范例:猫眼电影猫眼电影网站,针对票房信息等展示的并非纯粹的数字。网页采用font-face定义了字符集,并利用unicode去映射呈现。换句话说,去掉图像识别,必须同时抓取字符集,才能分辨出数字。而且,每次页面刷新,字符集的url都会发生改变的,显然更大强度地提高了爬取成本。二、BACKGROUND拼凑式范例:美团与font的方式差不多,美团里采用的是background拼凑。数字其实是图片,按照不同的 [阅读全文]
推荐阅读
21
2019-03
代理ip有什么重要作用?
虽然现在代理ip行业发展很快,但是大多数人并不是十分清楚代理ip的作用,因此这里就给大家搜集整合一下代理ip的作用:
22
2019-04
代理IP怎么选择?
普通匿名代理能隐藏客户机的真实 IP,但会改变我们的请求信息,服务器端有可能会认为我们使用了代理。
05
2019-11
互联网高匿http代理如何有效保护用户?
现代人都很注重隐私,市场就出现了代理ip,对于当代互联网生活中,能够提供 代理IP 的网站和软件很多,是个比较合适的选择,有着海量高质量 HTTP代理 IP,有着高匿名性和安全性,可以有效
27
2019-03
代理IP如何帮助爬虫爬取搜狗微信的公众号文章?
今天我们主要分享的是爬虫如何爬取搜狗微信的公众号文章,我们可以通过搜狗微信的接口获取微信文章的 url ,然后提取目标文章的内容及公众号信息。需要着重注意的是,搜狗微信在没有登
24
2019-06
如何使用代理IP隐藏IP地址?
以前说使用 User-Agent 来伪装自己不是爬虫,但是这并不能规避服务器禁止访问的问题,但因为程序的运行速度是非常快的,如果我们利用一个爬虫程序在网站爬取数据,一个固定IP会非常频繁去
22
2019-03
爬虫如何爬取今日头条街拍美图?
在爬取今日头条街拍美图前,我们先分析一下抓取的逻辑。打开今日头条网站首页,搜索我们需要的关键词:街拍。然后分析代码数据,我们会发现一组图就对应前面data字段中的一条数据,每
热门文章
注意: 严禁一切违规违法的业务,一经发现直接封帐号
Powered by wanchen tech. © | 粤ICP备18047396号-6 广州万宸软件科技有限公司http代理 版权所有