IP代理软件,http代理,API提取-黑洞HTTP

黑洞HTTP

您的位置: 首页 > 新闻资讯 > 国内代理 > 正文

使用Python爬取猫眼电影

发布时间:2019年02月26日 来源:http://http.hunbovps.com/News/getList/catid/9/id/74.html

大数据时代,海量数据的获取离不开爬虫技术。再加上代理IP的帮助,爬虫技术的应用也就越来越广泛。下面一起来看一下一个有趣的实例——字体反爬。


字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的。


现在貌似不少网站都有采用这种反爬机制,我们通过猫眼的实际情况来解释一下。


下图的是猫眼网页上的显示:


使用Python爬取猫眼电影

检查元素看一下


使用Python爬取猫眼电影

这是什么鬼,关键信息全是乱码。


熟悉 CSS 的同学会知道,CSS 中有一个 @font-face,它允许网页开发者为其网页指定在线字体。原本是用来消除对用户电脑字体的依赖,现在有了新作用——反爬。


汉字光常用字就有好几千,如果全部放到自定义的字体中,那么字体文件就会变得很大,必然影响网页的加载速度,因此一般网站会选取关键内容加以保护,如上图,知道了等于不知道。


这里的乱码是由于 unicode 编码导致的,查看源文件可以看到具体的编码信息。


使用Python爬取猫眼电影

搜索 stonefont,找到 @font-face 的定义:


使用Python爬取猫眼电影

这里的 .woff 文件就是字体文件,我们将其下载下来,利用 http://fontstore.baidu.com/static/editor/index.html 网页将其打开,显示如下:


使用Python爬取猫眼电影


网页源码中显示的  跟这里显示的是不是有点像?事实上确实如此,去掉开头的 &#x 和结尾的 ; 后,剩余的4个16进制显示的数字加上 uni 就是字体文件中的编码。所以  对应的就是数字“9”。


知道了原理,我们来看下如何实现。


处理字体文件,我们需要用到 FontTools 库。


先将字体文件转换为 xml 文件看下:


使用Python爬取猫眼电影

打开 xml 文件


使用Python爬取猫眼电影

开头显示的就是全部的编码,这里的 id 仅仅是编号而已,千万别当成是对应的真实值。实际上,整个字体文件中,没有任何地方是说明 EA0B 对应的真实值是啥的。


看到下面


使用Python爬取猫眼电影


这里就是每个字对应的字体信息,计算机显示的时候,根本不需要知道这个字是啥,只需要知道哪个像素是黑的,哪个像素是白的就可以了。


猫眼的字体文件是动态加载的,每次刷新都会变,虽然字体中定义的只有 0-9 这9个数字,但是编码和顺序都是会变的。就是说,这个字体文件中“EA0B”代表“9”,在别的文件中就不是了。


但是,有一样是不变的,就是这个字的形状,也就是上图中定义的这些点。


我们先随便下载一个字体文件,命名为 base.woff,然后利用 fontstore 网站查看编码和实际值的对应关系,手工做成字典并保存下来。爬虫爬取的时候,下载字体文件,根据网页源码中的编码,在字体文件中找到“字形”,再循环跟 base.woff 文件中的“字形”做比较,“字形”一样那就说明是同一个字了。在 base.woff 中找到“字形”后,获取“字形”的编码,而之前我们已经手工做好了编码跟值的映射表,由此就可以得到我们实际想要的值了。


这里的前提是每个字体文件中所定义的“字形”都是一样的(猫眼目前是这样的,以后也许还会更改策略),如果更复杂一点,每个字体中的“字形”都加一点点的随机形变,那这个方法就没有用了,只能祭出杀手锏“OCR”了。

相关文章内容简介

1 使用Python爬取猫眼电影

大数据时代,海量数据的获取离不开爬虫技术。再加上代理IP的帮助,爬虫技术的应用也就越来越广泛。下面一起来看一下一个有趣的实例——字体反爬。字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的。现在貌似不少网站都有采用这种反爬机制,我们通过猫眼的实际情况来解释一下。下图的是猫眼网页上的显示:检查元素看一下这是什么鬼,关键信息全是乱码。熟悉 CSS 的同学会知道,CSS 中有一个 @font-face,它允许网页开发者为其网页指定在线字体。原本是用来消除对用户电脑字体的依赖,现在有了新作用——反爬。汉字光常用字就有好几千,如果全部放到自定义的字体中,那么字体文件就会变得很大,必然影响网页的加载速度,因此一般网站会选取关键内容加以保护,如上图,知道了等于不知道。这里的乱码是由于 [阅读全文]

热门标签

最新标签

推荐阅读

  1. 28

    2019-05

    代理IP在生活中是否实用?

    有些手机用户肯定遇到过这样的情况,某一天收到通讯录好友发过来的短信,上面是一串网址,前面写着您的照片已经传到这个网址里了。有些用户戒备心比较小,冲动之下点开之后才发现自己

  2. 17

    2019-04

    自媒体行业中是否需要代理ip

    如今越来越多的人开始使用微博、今日头条等等各种自媒体平台,因此很多公司很多人都看到了这之中的商机和机会,并且借助自媒体平台来发展自己的生意,也因为自媒体的蓬勃发展,现在也

  3. 12

    2018-09

    代理IP是什么?,代理IP有什么作用?

    如果你是一名互联网工作者,那么你一定遇到过ip被封禁的问题,作为从事网络推广工作的小编来说,需要在各大平台去发帖,一个不小心ip地址就被屏蔽 ,那么遇到这种情况该如何解决呢?

  4. 12

    2019-06

    详解HTTP代理IP的几种授权方式

    许多朋友在运用http代理的时分发现需求绑定IP白名单,以为很是费事,经常有朋友跟黑洞http说,你看看这家、那家都不必绑定白名单的,拿到IP就能直接运用,多便利啊,你们就不能学一学吗

  5. 12

    2019-06

    IP代理软件的实现原理是什么

    当我们上网时,我们真实的IP地址可能会被泄露,如果被别有用心的人获取的话,可能会对我们的生活造成一些影响。这个时候我们就可以使用IP代理软件,那么IP代理软件的原理到底是什么?

  6. 12

    2019-04

    除了VPS之外,IP代理还具有优势和功能

    真的有一个全面的数据加密。 代理服务器具有许多捆绑包,这些捆绑包可以选择最佳选择。您还可以获得有趣的折扣,并可以加入IP代理。这笔交易将于11月10日至16日举行。赶上交易非常棒并注