IP代理软件,http代理,API提取-黑洞HTTP

黑洞HTTP

您的位置: 首页 > 新闻资讯 > HTTP代理 > 正文

常见的6种应用层反反爬虫的技术

发布时间:2019年08月27日 来源:互联网

  方法一、 前端逆向


  前端逆向,利用的特点边是暴露,暴露的项目则是前端所有的代码和数据给客户,通过分析html,js等源代码获取数据的技术。Chrome Debug就是常用的前端逆向工具。动态渲染的网站是通常用前端逆向分析的方法来分析的。在分析透彻的情况下,可以避免试用浏览器模仿的方式来进行爬取的。


常见的6种应用层反反爬虫的技术


  方法二、 浏览器模拟


  浏览器模拟指利用真实的浏览器去请求、执行页面和脚本。应用场景是爬取带有复杂JS和接口加密的网站、也被BOT用于复杂网站。常见的浏览器模拟框架有Selenium WebDriver、 PhatomJS。 Selenium 是通过浏览器的debug接口进行浏览器的远程操控API。PhantomJS是一个嵌入了浏览器内核的js渲染服务,这种技术可以用来对抗动态渲染和接口加密。所有的渲染和加密过程都由浏览器内核完成。 高级的做法是用CEF(Chrome Embedded Framework)进行二次开发。通过二次开发CEF,可以获得很强的灵活性, 比如在页面加载之前劫持JS对象、用C++代码hook native js api等等。这种技术的主要劣势是低下的性能。 与纯粹的HTTP请求代码来说, 这种方案要多吃50~500倍的CPU。 也就是说, 它的效率要下降数十倍到数百倍左右。


  方法三、 字符识别


  光学字符识别(OCR)用于对抗简单的数字、字母验证码。初级的OCR基于模板。高级的字符识别基于神经网络,比如[这个项目],它基于LSTM模型,可以提供更好的识别率。


  方法四、 行为模拟


  行为模拟是指在爬虫和BOT的过程中,有意的留下Cookie,并请求一些与需要爬取数据无关的接口或者做一些动作,用来模拟一般用户的动作, 用于对抗行为分析。 在BOT场景下,这种方式也用来模拟用户的活跃度和留存率。 一般来说,行为模拟的主要依据来源于前端逆向的工作, 破解者需要确定究竟有哪些HTML元素和用户行为事件被网站所关注,并针对性的做出想要模拟的行为。 大多数情况下,爬虫的行为模拟是请求某个日志上报接口, 而一些比较特殊的网站(比如支付宝), 用户行为数据附着在请求普通接口的参数中,并经过高度混淆。


  方法五、打码平台


  打码平台用来对抗强度比较高的验证码和人机验证方案。正常的验证码流程是,由网站生成一张图片传递给用户,用户输入这张图片的信息传回网站,完成人机验证。 破解者通过对接打码平台,将用户识别信息的环节放到打码平台去做,打码平台组织一群专职人员,进行验证码的识别工作,并传回爬虫,完成验证码的识别工作。高级的打码平台还会利用这些海量的打码数据进行模型训练。


  方法六、 JS Hook


  这种方式主要用来对抗js上下文的跟踪和分析。做法是,在页面加载前,通过替换JS上下文的对象,将JS上下文中的对象和方法替换掉。 例如,将window.screen对象替换, 使网站的js代码获取到替换后的屏幕分辨率。 JS Hook一般在CEF二次开发中实现,也可以通过劫持普通浏览器的流量完成js hook。


相关文章内容简介

1 常见的6种应用层反反爬虫的技术

  方法一、 前端逆向  前端逆向,利用的特点边是暴露,暴露的项目则是前端所有的代码和数据给客户,通过分析html,js等源代码获取数据的技术。Chrome Debug就是常用的前端逆向工具。动态渲染的网站是通常用前端逆向分析的方法来分析的。在分析透彻的情况下,可以避免试用浏览器模仿的方式来进行爬取的。  方法二、 浏览器模拟  浏览器模拟指利用真实的浏览器去请求、执行页面和脚本。应用场景是爬取带有复杂JS和接口加密的网站、也被BOT用于复杂网站。常见的浏览器模拟框架有Selenium WebDriver、 PhatomJS。 Selenium 是通过浏览器的debug接口进行浏览器的远程操控API。PhantomJS是一个嵌入了浏览器内核的js渲染服务,这种技术可以用来对抗动态渲染和接口加密。所有的渲染和加密过程都由浏览器内核完成。 高级的做法是用CEF(Chrome Embedded [阅读全文]

热门标签

最新标签

推荐阅读

  1. 20

    2019-06

    爬虫为什么需要HTTP代理IP

    大数据高速发展时代,爬虫行业日益火爆,从业者如过江之鲫,数不胜数,说到爬虫就不得不提另外一个词:代理IP。爬虫虽然大行其道,但相应的反爬虫也步步紧逼,毫不相让,唯有代理IP

  2. 09

    2019-04

    IP代理在大批量采集信息有起什么作用?

    现在从网站上去采集信息看起来是很简单,有很多的开源库和框架、可视化抓取工具和数据提取工具,能够轻而易举的从一个网站上获取数据。可是,如果想要大批量的爬取网页时,用不了多久

  3. 16

    2019-06

    用代理ip能保障安全吗?

    在网络科技迅速发展的今天,代理IP 这种既高效又便捷的上网方式被越来越多的人所了解,熟悉并使用,受到很大欢迎,同时,很多人也对代理IP这种上网方式表示怀疑,到底安不安全,针对大

  4. 23

    2019-05

    https代理ip如何保障网络安全?

    在ip代理服务行业,可以提供https代理ip的团队很多,但服务质量却参差不齐,唯有黑洞HTTP一直广受用户亲睐,拥有极大的用户群。

  5. 28

    2019-06

    免费代理ip更适合Python爬虫初学者吗?

    在Python爬虫和反爬虫的对弈中,没有绝对的胜利方。可以肯定得是,只要人类能够正常访问的网页,Python爬虫在具备同等资源的情况下一定是可以抓取到的,只是能否短时间内大批量抓取的问题

  6. 06

    2019-06

    如何检测代理IP匿名程度?

     做网络的基本都听过代理IP,不管是做CPA、点击、投票,或者网络爬虫,代理IP都是不可或缺的。代理IP从隐匿程度上区分,可分为透明代理、普通代理、高匿名代理三种,在我们日常使用中,