IP代理软件,http代理,API提取-黑洞HTTP

黑洞HTTP

您的位置: 首页 > 新闻资讯 > HTTP代理 > 正文

代理IP如何协助爬虫爬取简书热门文章数据

发布时间:2019年04月09日 来源:互联网

想要快速获取简书上的热门文章,那么就用Python来抓取吧!今天黑洞HTTP就为大家分享一下代理IP如何协助爬虫爬取简书热门文章数据,同样,打开目标网址后,我们需要先看一下源代码,查找一下我们需要的信息。


代理IP如何协助爬虫爬取简书热门文章数据


代码如下:


#-*- coding: utf-8 -*-


import urllib2


import re


 

def GetPageContent(page_url,heads):


    try:


        req = urllib2.Request(page_url,headers=heads)


        resp = urllib2.urlopen(req)


        return resp.read().decode('utf8')


    except Exception, e:


        print "Request [%s] error. -> "%(page_url), e


        return ""


 


def GetTopNotes(cont):


    strRe = '.*?<li>.*?data-user-slug="(.*?)"'


    strRe += '.*?<h4>.*?<a.*?href="(.*?)".*?>(.*?)</a>'


    strRe += '.*?class="fa fa-comments-o".*?>.*?</i>(.*?)</a>'


    strRe += '.*?<a.*?id="like-note".*?</i>(.*?)</a>'


 


    pat = re.compile(strRe, re.S)


    items = re.findall(pat,cont)


 

    for item in items:


        for i in item:


            print "".join(i.split())


        print '==================================='



if __name__ == '__main__':


    url = 'http://www.jianshu.com/trending/now'


    user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'


    headers = {'User-Agent':user_agent}


 


    cont = GetPageContent(url, headers)


    cont = cont[cont.find('<ul class="top-notes ranking">')::]


    GetTopNotes(cont)


以上就是代理IP如何协助爬虫爬取简书热门文章数据全部 ,通过上述代码我们就可以获取到我们需要的信息了,黑洞HTTP可为您提供海量IP资源,助您不间断获取行业数据,赢在大数据时代!



相关文章内容简介

1 代理IP如何协助爬虫爬取简书热门文章数据

想要快速获取简书上的热门文章,那么就用Python来抓取吧!今天黑洞HTTP就为大家分享一下代理IP如何协助爬虫爬取简书热门文章数据,同样,打开目标网址后,我们需要先看一下源代码,查找一下我们需要的信息。代码如下:#-*- coding: utf-8 -*-import urllib2import re def GetPageContent(page_url,heads):    try:        req = urllib2.Request(page_url,headers=heads)        resp = urllib2.urlopen(req)        return resp.read().decode('ut [阅读全文]

热门标签

最新标签

推荐阅读

  1. 24

    2019-04

    最新云南代理IP哪里找?

    现在的代理IP行业出现一个不成文的怪圈现象,热门地区家家都有,冷门区域有钱也难求,好比云南省,面积39万平方千米,总人口5千万,在全国各省级行政区面积和人数中都是名列前茅的

  2. 01

    2019-09

    ip代理服务器的重要性有哪些?

    随着经济社会的迅速发展,网络技术也随之不断发展进步。然而,便捷的网络世界在给我们的工作、生活带来巨大的便利的同时,也带来了网络信息安全的隐患。因此,选择一个高质量ip代理服

  3. 19

    2019-09

    为何要使用高匿代理ip?

    虽然说电商事业发展的越来越快,但是在整个电商大行业下,还是分有很多类的。近几年兴起的电商和传统的淘宝行业还是不同的。因为淘宝处在一个被动的位置,不需要淘宝大肆宣传也会有客

  4. 30

    2019-05

    网络投票用什么代理IP比较好?

    说起网络投票,大家都不陌生,经常上网的人总有被人拉来投票的经历,不管是群里还是朋友圈,还是私聊喊投票。每次有投票活动,就是各种拉票,结果票数还是涨的非常慢,花出去很多人情

  5. 15

    2019-11

    什么情况下需要用代理IP?

    当今世界最有价值的资源是什么?不是石油,而是数据。随着科技不断发展,智能手机和互联网催生了海量数据,不仅无处不在,而且价值逐年攀升。与此同时,用于挖掘采集数据的 网络爬虫

  6. 22

    2019-08

    免费的ip代理服务器能不能够用?

    虽然很多人都比较喜欢贪小便宜,但是涉及到网络技术安全问题的时候,大家还是会显得尤其的小心谨慎,尤其是大家在听说了一些免费的ip代理服务器的时候就会觉得非常的不安。