IP代理软件,http代理,API提取-黑洞HTTP

黑洞HTTP

您的位置: 首页 > 新闻资讯 > HTTP代理 > 正文

代理IP如何协助爬虫爬取简书热门文章数据

发布时间:2019年04月09日 来源:互联网

想要快速获取简书上的热门文章,那么就用Python来抓取吧!今天黑洞HTTP就为大家分享一下代理IP如何协助爬虫爬取简书热门文章数据,同样,打开目标网址后,我们需要先看一下源代码,查找一下我们需要的信息。


代理IP如何协助爬虫爬取简书热门文章数据


代码如下:


#-*- coding: utf-8 -*-


import urllib2


import re


 

def GetPageContent(page_url,heads):


    try:


        req = urllib2.Request(page_url,headers=heads)


        resp = urllib2.urlopen(req)


        return resp.read().decode('utf8')


    except Exception, e:


        print "Request [%s] error. -> "%(page_url), e


        return ""


 


def GetTopNotes(cont):


    strRe = '.*?<li>.*?data-user-slug="(.*?)"'


    strRe += '.*?<h4>.*?<a.*?href="(.*?)".*?>(.*?)</a>'


    strRe += '.*?class="fa fa-comments-o".*?>.*?</i>(.*?)</a>'


    strRe += '.*?<a.*?id="like-note".*?</i>(.*?)</a>'


 


    pat = re.compile(strRe, re.S)


    items = re.findall(pat,cont)


 

    for item in items:


        for i in item:


            print "".join(i.split())


        print '==================================='



if __name__ == '__main__':


    url = 'http://www.jianshu.com/trending/now'


    user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'


    headers = {'User-Agent':user_agent}


 


    cont = GetPageContent(url, headers)


    cont = cont[cont.find('<ul class="top-notes ranking">')::]


    GetTopNotes(cont)


以上就是代理IP如何协助爬虫爬取简书热门文章数据全部 ,通过上述代码我们就可以获取到我们需要的信息了,黑洞HTTP可为您提供海量IP资源,助您不间断获取行业数据,赢在大数据时代!



相关文章内容简介

1 代理IP如何协助爬虫爬取简书热门文章数据

想要快速获取简书上的热门文章,那么就用Python来抓取吧!今天黑洞HTTP就为大家分享一下代理IP如何协助爬虫爬取简书热门文章数据,同样,打开目标网址后,我们需要先看一下源代码,查找一下我们需要的信息。代码如下:#-*- coding: utf-8 -*-import urllib2import re def GetPageContent(page_url,heads):    try:        req = urllib2.Request(page_url,headers=heads)        resp = urllib2.urlopen(req)        return resp.read().decode('ut [阅读全文]

热门标签

最新标签