IP代理软件,http代理,API提取-黑洞HTTP

黑洞HTTP

您的位置: 首页 > 新闻资讯 > HTTP代理 > 正文

代理ip协助爬虫爬取豆瓣图书榜单信息

发布时间:2019年04月03日 来源:互联网

今天黑洞HTTP为大家分享一下爬虫是如何爬取豆瓣图书榜单信息的,我们首先打开豆瓣图书top250的网页,通过源代码检查元素,检索我们所需要的字段所在的标签。主要抓取的内容是书名、别名、信息、评分、人数、描述。


代理ip协助爬虫爬取豆瓣图书榜单信息


代码如下:


#!/usr/bin/env python


# encoding: utf-8


import re


import requests


from bs4 import BeautifulSoup


def book(target_url):


    books = []


    book = requests.get(target_url) #使用requests返回网页的整体结构


    soup = BeautifulSoup(book.text, 'lxml') # 使用lxml作为解析器,返回一个Beautifulsoup对象


    table = soup.findAll('table', {"width": "100%"}) #找到其中所有width=100%的table标签),即找到所有的书


    for item in table: #遍历table,一个item代表一本书


        name = item.div.a.text.strip() #找到书名


        r_name = name.replace('\n', '').replace(' ', '') #通过看网页的HTML结构,可以发现书名后是有换行以及空格的,将这些全部通过replace替换去除


        tmp2 = item.div.span  #判断是否存在别名


        if tmp2:


            name2 = tmp2.text.strip().replace(':', '') #因为是通过div.span判断别名 有些书的别名前面有个冒号,比如《追风筝的人》


        else:


            name2 = r_name #无别名就使用原始的名称


        url = item.div.a['href'] #获取书的链接


        info = item.find('p', {"class": "pl"}).text #获取书的信息


        score = item.find('span', {"class": "rating_nums"}).text.strip() #获取分数


        nums = item.find('span', {"class": "pl"}).text.strip() # 获取评价人数


        num = re.findall('(\d+)人评价', nums)[0]  # 通过正则取具体的数字


        if item.find('span', {"class": "inq"}): # 判断是否存在描述


            desc = item.find('span', {"class": "inq"}).text.strip()


        else:


            desc = 'no description'


        books.append((r_name, name2, url, info, score, num, desc)) #以元组存入列表


    return books #返回一页的书籍



for n in range(10):


    url1 = 'https://book.douban.com/top250?start=' + str(n*25) #top250的网页,每页25本书,共10页,“start=”后面从0开始,以25递增


    tmp = book(url1)


    with open('booktop250.xls', 'a', encoding='utf-8') as d: #新建一个文件存放数据,模式取'a',表示在后面追加;编码一定要写上,因为win下新建文件,默认是gbk编码,但是前面返回的结构是unicode的,会报编码错误


        for i in tmp:


            print(i[0]+"\t"+i[1]+"\t"+i[2]+"\t"+i[3]+"\t"+i[4]+"\t"+i[5]+"\t"+i[6], file=d)


以上就是关于爬虫如何爬取豆瓣图书榜单信息的相关介绍了,黑洞HTTP可为您提供海量IP资源,助您不间断获取行业数据,赢在大数据时代!


相关文章内容简介

1 代理ip协助爬虫爬取豆瓣图书榜单信息

今天黑洞HTTP为大家分享一下爬虫是如何爬取豆瓣图书榜单信息的,我们首先打开豆瓣图书top250的网页,通过源代码检查元素,检索我们所需要的字段所在的标签。主要抓取的内容是书名、别名、信息、评分、人数、描述。代码如下:#!/usr/bin/env python# encoding: utf-8import reimport requestsfrom bs4 import BeautifulSoupdef book(target_url):    books = []    book = requests.get(target_url) #使用requests返回网页的整体结构    soup = BeautifulSoup(book.text, 'lxml') # 使用lxml作为解析器,返回一个Beautiful [阅读全文]

热门标签

最新标签

推荐阅读

  1. 08

    2019-04

    使用代理IP进行信息采集:要警惕爬虫行为测试

    Python爬虫并不是真实的用户,他的行为模式和真正的用户还是有区别的,所以网站通常会采用测试用户行为模式去分辨目前浏览的用户到底是人还是爬虫机器。那么网站究竟通过什么途径来实现

  2. 22

    2019-04

    通过代理ip进行分布式爬虫的几种方案

    我们都知道,为了更高效地进行数据抓取,我们需要使用爬虫代理ip,假如不用代理ip,爬虫业务必定无路可行,因此大部分爬虫采集公司都会去购买安全稳定的代理ip。使用了高质量的代理ip后

  3. 06

    2019-07

    速度快的http代理ip哪里找?

    随着网络时代发展进步,衍生产业代理IP也如雨后春笋般层出不穷,挑选优质代理IP时,一定要考虑它的速度、稳定性、性价比、服务质量、是否方便连接,是否易用等方面,建议选择知名度高

  4. 18

    2019-04

    关于取消宽带48小时断线换IP的解决办法

    可以取消 48 小时断线功能的地区有:湖南电信 安徽电信 江苏电信 江西电信 ,不能取消的地区有:广东 福建 浙江 上海 海南 山东 广西 山西 贵州 重庆 四川。。。广东是态度强硬。说没有这个

  5. 07

    2019-04

    代理ip和代理服务器一样吗?

    代理ip和代理服务器在某种意义上来说是一样的,其功能就是让网络用户去取得网络信息。

  6. 07

    2019-05

    代理IP为什么能保护爬虫不被限制?

    在爬虫的过程中,我们经常会遇见很多网站采取了防爬取技术,或者说因为自己采集网站信息的轻度和采集速度太大,给对方服务器带去了太多的压力。如果你一直用同一个代理IP爬取这个网页