IP代理软件,http代理,API提取-黑洞HTTP

黑洞HTTP

您的位置: 首页 > 新闻资讯 > HTTP代理 > 正文

优秀爬虫有什么特点?

发布时间:2019年11月14日 来源:互联网

    互联网的网页数量庞大如海,所以爬虫的性能至关重要,这里的性能主要是指爬虫下载网页的抓取速度,常见的评价方式是以爬虫每秒能够下载的网页数量作为性能指标,单位时间能够下载的网页数量越多,则爬虫的性能越高。


优秀爬虫有什么特点?


    要提高爬虫的性能,在设计时程序访问磁盘的操作方法及具体实现时数据结构的选择很关键。比如对于待抓取URL队列和已抓取URL队列,因为URL数量非常大,不同实现方式性能表现迥异,所以高效的数据结构对于爬虫性能影响很大。


    可扩展性


    如上所述,爬虫需要抓取的网页数量巨大,即使单个爬虫的性能很高,要将所有网页都下载到本地,仍然需要相当长的时间周期,为了能够尽可能缩短抓取周期,爬虫系统应该有很好的可扩展性,即很容易通过增加抓取服务器和爬虫数量来达到此目的。


    目前实用的大型网络爬虫一定是分布式运行的,即多台服务器专做抓取,每台服务器部署多个爬虫,每个爬虫多线程运行,通过多种方式增加并发性。对于巨型的搜索引擎服务商来说,可能还要在全球范围、不同地域分别部署数据中心,爬虫也被分配到不同的数据中心,这样对于提高爬虫系统的整体性能是很有帮助的。


    健壮性


    爬虫要访问各种类型的网站服务器,可能会遇到很多种非正常情况,比如网页HTML编码不规范,被抓取服务器突然死机,甚至是爬虫陷阱等。爬虫对各种异常情况能够正确处理非常重要,否则可能会不定期停止工作,这是无法忍受的。


    从另外一个角度来讲,假设爬虫程序在抓取过程中死掉,或者爬虫所在的服务器宕机,健壮的爬虫系统应该能够做到:再次启动爬虫时,能够恢复之前抓取的内容和数据结构,而不是每次都需要把所有工作完全从头做起,这也是爬虫健壮性的一种体现。


    友好性


    爬虫的友好性包含两方面的含义:一是保护网站的部分私密性,另一是减少被抓取网站的网络负载。


    爬虫抓取的对象是各种类型的网站,对于网站拥有者来说,有些内容并不希望被所有人搜索到,所以需要设定协议,来告知爬虫哪些内容是不允许抓取的。目前有两种主流的方法可达此目的:爬虫禁抓协议和网页禁抓标记。


    爬虫禁抓协议(Robot Exclusion Protocol)指的是由网站所有者生成一个指定的文件robot.txt,并放在网站服务器的根目录下,这个文件指明了网站中哪些目录下的网页是不允许爬虫抓取的。具有友好性的爬虫在抓取该网站的网页前,首先要读取robot.txt文件,对于禁止抓取的网页一般不进行下载。


    遵循以上协议的爬虫可以被认为是友好的,这是从保护私密性的角度考虑的。另外一种友好性则是,希望爬虫对某网站的访问造成的网络负载较低。爬虫一般会根据网页的链接连续获取某网站的网页,如果爬虫访问网站频率过高,会给网站服务器造成很大的访问压力,有时候甚至会影响网站的正常访问,造成类似DOS攻击的效果,所以为了减少网站的网络负载,友好性的爬虫应该在抓取策略部署时考虑每个被抓取网站的负载,在尽可能不影响爬虫性能的情况下,减少对单一站点短期内的高频访问。


相关文章内容简介

1 优秀爬虫有什么特点?

    互联网的网页数量庞大如海,所以爬虫的性能至关重要,这里的性能主要是指爬虫下载网页的抓取速度,常见的评价方式是以爬虫每秒能够下载的网页数量作为性能指标,单位时间能够下载的网页数量越多,则爬虫的性能越高。    要提高爬虫的性能,在设计时程序访问磁盘的操作方法及具体实现时数据结构的选择很关键。比如对于待抓取URL队列和已抓取URL队列,因为URL数量非常大,不同实现方式性能表现迥异,所以高效的数据结构对于爬虫性能影响很大。    可扩展性    如上所述,爬虫需要抓取的网页数量巨大,即使单个爬虫的性能很高,要将所有网页都下载到本地,仍然需要相当长的时间周期,为了能够尽可能缩短抓取周期,爬虫系统应该有很好的可扩展性,即很容易通过增加抓取服务器和爬虫数量来达到此目的。    目前实用的大型网 [阅读全文]

热门标签

最新标签

推荐阅读

  1. 16

    2019-10

    http代理ip怎么帮我们找多个ip?

    当我们上网的时候,也许会遇到IP不够用的窘境。例如在某些网站,当我们需要注册多个账号时,如果始终使用一个IP,往往会提示"该IP已注册",这时候要想继续操作就需要多个IP地址。

  2. 13

    2019-05

    ip代理软件香港

      ip代理软件香港,黑洞HTTP是一款专门针对国内各地IP地址改变的产品,暂时还没有香港、韩国、美国等全球各地的IP代理。黑洞HTTP可以让电脑中的浏览器的IP地址随心改变,适用于IP地址变更

  3. 28

    2019-10

    不同的HTTP代理IP本质上有什么不同?

    网络时代的发达,代理ip也走进了人们的生活工作,现在市面上 IP 代公司出售的 代理IP ,从隐藏级别上区分,可分为三种,即透明代理、普通代理和高匿名代理。三者区别如下:

  4. 30

    2019-07

    IP地址被屏蔽怎么切换IP

    我们在平时浏览一个网站的时候都发现,如果在一个网站上操作过快,就容易出现IP地址受限、限制登录等问题。例如在贴吧发帖的时候,怎么也发布不成功帖子,这就有可能是IP地址被屏蔽。

  5. 20

    2019-11

    代理ip如何解决爬虫ip被限制?

    做技术的或者是互联网行业的人可能都比较清楚,网络爬虫对于互联网的共享是非常大的,其中有超过一半的流量都是网络爬虫的贡献,如果一个网站不设置发爬虫机制,那就会成为一个透明的

  6. 24

    2019-05

    怎么选择代理ip?技巧和注意事项有哪些?

    黑洞HTTP的代理ip实效性较强,一般有效期在20分钟到4小时不等。在选择代理ip使用时的技巧需要十分注意,有时候选择不好,花高价钱买了代理ip可能并不适合自己,或者是虽然有很快的网速,