IP代理软件,http代理,API提取-黑洞HTTP

黑洞HTTP

您的位置: 首页 > 新闻资讯 > HTTP代理 > 正文

代理IP如何协助爬虫爬取简书热门文章数据

发布时间:2019年04月09日 来源:互联网

想要快速获取简书上的热门文章,那么就用Python来抓取吧!今天黑洞HTTP就为大家分享一下代理IP如何协助爬虫爬取简书热门文章数据,同样,打开目标网址后,我们需要先看一下源代码,查找一下我们需要的信息。


代理IP如何协助爬虫爬取简书热门文章数据


代码如下:


#-*- coding: utf-8 -*-


import urllib2


import re


 

def GetPageContent(page_url,heads):


    try:


        req = urllib2.Request(page_url,headers=heads)


        resp = urllib2.urlopen(req)


        return resp.read().decode('utf8')


    except Exception, e:


        print "Request [%s] error. -> "%(page_url), e


        return ""


 


def GetTopNotes(cont):


    strRe = '.*?<li>.*?data-user-slug="(.*?)"'


    strRe += '.*?<h4>.*?<a.*?href="(.*?)".*?>(.*?)</a>'


    strRe += '.*?class="fa fa-comments-o".*?>.*?</i>(.*?)</a>'


    strRe += '.*?<a.*?id="like-note".*?</i>(.*?)</a>'


 


    pat = re.compile(strRe, re.S)


    items = re.findall(pat,cont)


 

    for item in items:


        for i in item:


            print "".join(i.split())


        print '==================================='



if __name__ == '__main__':


    url = 'http://www.jianshu.com/trending/now'


    user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'


    headers = {'User-Agent':user_agent}


 


    cont = GetPageContent(url, headers)


    cont = cont[cont.find('<ul class="top-notes ranking">')::]


    GetTopNotes(cont)


以上就是代理IP如何协助爬虫爬取简书热门文章数据全部 ,通过上述代码我们就可以获取到我们需要的信息了,黑洞HTTP可为您提供海量IP资源,助您不间断获取行业数据,赢在大数据时代!



相关文章内容简介

1 代理IP如何协助爬虫爬取简书热门文章数据

想要快速获取简书上的热门文章,那么就用Python来抓取吧!今天黑洞HTTP就为大家分享一下代理IP如何协助爬虫爬取简书热门文章数据,同样,打开目标网址后,我们需要先看一下源代码,查找一下我们需要的信息。代码如下:#-*- coding: utf-8 -*-import urllib2import re def GetPageContent(page_url,heads):    try:        req = urllib2.Request(page_url,headers=heads)        resp = urllib2.urlopen(req)        return resp.read().decode('ut [阅读全文]

热门标签

最新标签

推荐阅读

  1. 03

    2019-06

    Python如何设置User-Agent和代理IP

    爬虫为了对抗反爬虫策略,设置User-Agent和代理IP是必须的一项工作,常见的一些User-Agent这里就不再赘述了,之前写过一篇《

  2. 28

    2019-06

    购买HTTP代理IP时如何选择?

    面对种类众多的HTTP代理IP,很多新用户第一反应就是不知道如何选择。到底哪家稳定哪家好,哪家符合我们的需求呢?一家家问?费时费力不说,最后还不一定真的好使。而不问,又不知道如何

  3. 20

    2019-06

    免费代理ip和付费代理之间的差异体现在什么地方?

    现在有很多人或多或少都有使用过代理ip,那只要大家有使用过代理ip就会知道ip的代理它既有免费的,也有付费使用的,所谓的免费使用的代理ip,那么就代表着大家,根本就不需要花一分一毫

  4. 16

    2019-09

    黑洞让http代理ip更专业

    http代理ip是最常见的文本传输协议,用户使用率极高,黑洞为满足用户需求,在http安全版本设计中,让http代理ip更专业,更安全,受到了广大用户的认可与欢迎。

  5. 20

    2019-08

    为什么有的代理IP没有隐藏的效果?

    随着互联网大数据时代的到来,大家对互联网营销推广的需求越来越大,代理IP的用处越来越大,有的用IP做注册账号,有的用IP做爬虫采集,还有的用IP来进行投票等等,当然,还有很多用来隐

  6. 30

    2019-05

    网络投票用什么代理IP比较好?

    说起网络投票,大家都不陌生,经常上网的人总有被人拉来投票的经历,不管是群里还是朋友圈,还是私聊喊投票。每次有投票活动,就是各种拉票,结果票数还是涨的非常慢,花出去很多人情