黑洞HTTP

黑洞HTTP

您的位置: 首页 > 新闻资讯 > HTTP代理 > 正文

代理IP如何协助爬虫爬取简书热门文章数据

发布时间:2019年04月09日 来源:互联网

想要快速获取简书上的热门文章,那么就用Python来抓取吧!今天黑洞HTTP就为大家分享一下代理IP如何协助爬虫爬取简书热门文章数据,同样,打开目标网址后,我们需要先看一下源代码,查找一下我们需要的信息。


代理IP如何协助爬虫爬取简书热门文章数据


代码如下:


#-*- coding: utf-8 -*-


import urllib2


import re


 

def GetPageContent(page_url,heads):


    try:


        req = urllib2.Request(page_url,headers=heads)


        resp = urllib2.urlopen(req)


        return resp.read().decode('utf8')


    except Exception, e:


        print "Request [%s] error. -> "%(page_url), e


        return ""


 


def GetTopNotes(cont):


    strRe = '.*?<li>.*?data-user-slug="(.*?)"'


    strRe += '.*?<h4>.*?<a.*?href="(.*?)".*?>(.*?)</a>'


    strRe += '.*?class="fa fa-comments-o".*?>.*?</i>(.*?)</a>'


    strRe += '.*?<a.*?id="like-note".*?</i>(.*?)</a>'


 


    pat = re.compile(strRe, re.S)


    items = re.findall(pat,cont)


 

    for item in items:


        for i in item:


            print "".join(i.split())


        print '==================================='



if __name__ == '__main__':


    url = 'http://www.jianshu.com/trending/now'


    user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'


    headers = {'User-Agent':user_agent}


 


    cont = GetPageContent(url, headers)


    cont = cont[cont.find('<ul class="top-notes ranking">')::]


    GetTopNotes(cont)


以上就是代理IP如何协助爬虫爬取简书热门文章数据全部 ,通过上述代码我们就可以获取到我们需要的信息了,黑洞HTTP可为您提供海量IP资源,助您不间断获取行业数据,赢在大数据时代!



相关文章内容简介

1 代理IP如何协助爬虫爬取简书热门文章数据

想要快速获取简书上的热门文章,那么就用Python来抓取吧!今天黑洞HTTP就为大家分享一下代理IP如何协助爬虫爬取简书热门文章数据,同样,打开目标网址后,我们需要先看一下源代码,查找一下我们需要的信息。代码如下:#-*- coding: utf-8 -*-import urllib2import re def GetPageContent(page_url,heads):    try:        req = urllib2.Request(page_url,headers=heads)        resp = urllib2.urlopen(req)        return resp.read().decode('ut [阅读全文]

热门标签

最新标签

推荐阅读

  1. 10

    2019-07

    怎么找http或者socks代理?

    有些项目需要的代理ip比较多,IP量不足,怎么办呢?想要建个代理ip池,难的是怎么找http或者socks代理,你用什么数据库都行,mysql,mongodb或者redis,就是简单存一个ip和port的地址,然后需要写

  2. 29

    2019-10

    免费代理ip和收费代理ip的本质区别

    随着代理ip的广泛运用,代理ip的种类也比较多,很多服务平台有免费的ip使用,为什么却很少人用,反而选择收费代理ip。虽然是免费的但是还是有很多不好的地方,黑洞http代理的免费代理ip要

  3. 15

    2019-04

    手机电脑如何切换全国各地的IP地址?

    有时我们因为各种需要,要经常更换IP地址,有些用户不知道手机电脑怎么使用全国动态IP,其实方法非常简单,使用黑洞HTTP即可,比手动拨号更换IP地址方便多了,下面跟小编学习手机电脑使

  4. 18

    2019-04

    有没有好用的IP代理或者换IP软件?

    日常工作需要换IP,知友们有没有合适的换IP软件推荐?价格公道的,最好是自动换不需要太多操作的。基本都是在电脑上操作,如果有手机客户端就更好了当然连接速度和IP质量也有要求,只是

  5. 06

    2019-06

    使用代理IP让你成为"隐形人"

    现如今,互联网已经深入人们生活中的衣食住行,可你知道吗,当你接入互联网的那一刻起,你的个人信息可能就已经泄露了。

  6. 22

    2019-08

    免费的ip代理服务器能不能够用?

    虽然很多人都比较喜欢贪小便宜,但是涉及到网络技术安全问题的时候,大家还是会显得尤其的小心谨慎,尤其是大家在听说了一些免费的ip代理服务器的时候就会觉得非常的不安。