IP代理软件,http代理,API提取-黑洞HTTP

黑洞HTTP

您的位置: 首页 > 新闻资讯 > HTTP代理 > 正文

代理IP如何协助爬虫爬取简书热门文章数据

发布时间:2019年04月09日 来源:互联网

想要快速获取简书上的热门文章,那么就用Python来抓取吧!今天黑洞HTTP就为大家分享一下代理IP如何协助爬虫爬取简书热门文章数据,同样,打开目标网址后,我们需要先看一下源代码,查找一下我们需要的信息。


代理IP如何协助爬虫爬取简书热门文章数据


代码如下:


#-*- coding: utf-8 -*-


import urllib2


import re


 

def GetPageContent(page_url,heads):


    try:


        req = urllib2.Request(page_url,headers=heads)


        resp = urllib2.urlopen(req)


        return resp.read().decode('utf8')


    except Exception, e:


        print "Request [%s] error. -> "%(page_url), e


        return ""


 


def GetTopNotes(cont):


    strRe = '.*?<li>.*?data-user-slug="(.*?)"'


    strRe += '.*?<h4>.*?<a.*?href="(.*?)".*?>(.*?)</a>'


    strRe += '.*?class="fa fa-comments-o".*?>.*?</i>(.*?)</a>'


    strRe += '.*?<a.*?id="like-note".*?</i>(.*?)</a>'


 


    pat = re.compile(strRe, re.S)


    items = re.findall(pat,cont)


 

    for item in items:


        for i in item:


            print "".join(i.split())


        print '==================================='



if __name__ == '__main__':


    url = 'http://www.jianshu.com/trending/now'


    user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'


    headers = {'User-Agent':user_agent}


 


    cont = GetPageContent(url, headers)


    cont = cont[cont.find('<ul class="top-notes ranking">')::]


    GetTopNotes(cont)


以上就是代理IP如何协助爬虫爬取简书热门文章数据全部 ,通过上述代码我们就可以获取到我们需要的信息了,黑洞HTTP可为您提供海量IP资源,助您不间断获取行业数据,赢在大数据时代!



相关文章内容简介

1 代理IP如何协助爬虫爬取简书热门文章数据

想要快速获取简书上的热门文章,那么就用Python来抓取吧!今天黑洞HTTP就为大家分享一下代理IP如何协助爬虫爬取简书热门文章数据,同样,打开目标网址后,我们需要先看一下源代码,查找一下我们需要的信息。代码如下:#-*- coding: utf-8 -*-import urllib2import re def GetPageContent(page_url,heads):    try:        req = urllib2.Request(page_url,headers=heads)        resp = urllib2.urlopen(req)        return resp.read().decode('ut [阅读全文]

热门标签

最新标签

推荐阅读

  1. 04

    2019-06

    正向代理IP、反向代理IP以及透明代理IP的简单总结

    代理IP服务器服务技术是一门很古老的技术,是在互联网初期出现就应用的技术。通常实现代理IP服务器技术的方法就是在服务器上安装代理IP服务器服务软件,让其变成一个代理IP服务器服务器

  2. 05

    2019-11

    使用代理ip访问网站却失败?

    在日常的网络工作中,很多网络工作者需要使用到代理IP来辅助完成任务,如比较常见的爬虫工作、营销发帖、网络投票、效果补量等,有是使用第三方工具,有的自己编写代码程序,通过对接A

  3. 25

    2019-11

    HTTP代理IP的使用盲点是什么?

    我们在日常的代理服务中,http代理ip可以说是比较常见的。网民也比较普遍接受这种方式.但是对于这种代理方式,许多人仍然存在使用误区,这里我们就给我大家消除这些误区

  4. 29

    2019-05

    做爬虫在哪里可以下载高效的代理IP?

    大数据时代来临,大数据从何而来?大数据来自爬虫辛勤的爬取网站信息,帮助搜索引擎成为一个辅助人们检索信息的工具。爬虫是网络数据中的重要组成部分,然而并不是所有目标网站都会让

  5. 27

    2019-07

    爬虫ip代理解决方案

    现在网络已经深入到人们生活和工作的方方面面,IP代理业也迅速发展起来,大多数人对于代理IP还是停留在一个模糊不清的状态,那么这里为大家简单说一下什么是代理IP。

  6. 24

    2019-04

    如何爬取酷狗音乐的榜单信息

    今天我们就来看下,爬虫是如何爬取酷狗音乐的榜单信息的。首先我们先打开目标网页,即酷狗音乐的TOP500榜单页面,查看源代码分析页面,我们会发现,在ul标签下有li这个标签,这里面的内