黑洞HTTP代理

黑洞HTTP

您的位置: 首页 > 新闻资讯 > HTTP代理 > 正文

代理ip协助爬虫爬取豆瓣图书榜单信息

发布时间:2019年04月03日 来源:互联网

今天黑洞HTTP为大家分享一下爬虫是如何爬取豆瓣图书榜单信息的,我们首先打开豆瓣图书top250的网页,通过源代码检查元素,检索我们所需要的字段所在的标签。主要抓取的内容是书名、别名、信息、评分、人数、描述。


代理ip协助爬虫爬取豆瓣图书榜单信息


代码如下:


#!/usr/bin/env python


# encoding: utf-8


import re


import requests


from bs4 import BeautifulSoup


def book(target_url):


    books = []


    book = requests.get(target_url) #使用requests返回网页的整体结构


    soup = BeautifulSoup(book.text, 'lxml') # 使用lxml作为解析器,返回一个Beautifulsoup对象


    table = soup.findAll('table', {"width": "100%"}) #找到其中所有width=100%的table标签),即找到所有的书


    for item in table: #遍历table,一个item代表一本书


        name = item.div.a.text.strip() #找到书名


        r_name = name.replace('\n', '').replace(' ', '') #通过看网页的HTML结构,可以发现书名后是有换行以及空格的,将这些全部通过replace替换去除


        tmp2 = item.div.span  #判断是否存在别名


        if tmp2:


            name2 = tmp2.text.strip().replace(':', '') #因为是通过div.span判断别名 有些书的别名前面有个冒号,比如《追风筝的人》


        else:


            name2 = r_name #无别名就使用原始的名称


        url = item.div.a['href'] #获取书的链接


        info = item.find('p', {"class": "pl"}).text #获取书的信息


        score = item.find('span', {"class": "rating_nums"}).text.strip() #获取分数


        nums = item.find('span', {"class": "pl"}).text.strip() # 获取评价人数


        num = re.findall('(\d+)人评价', nums)[0]  # 通过正则取具体的数字


        if item.find('span', {"class": "inq"}): # 判断是否存在描述


            desc = item.find('span', {"class": "inq"}).text.strip()


        else:


            desc = 'no description'


        books.append((r_name, name2, url, info, score, num, desc)) #以元组存入列表


    return books #返回一页的书籍



for n in range(10):


    url1 = 'https://book.douban.com/top250?start=' + str(n*25) #top250的网页,每页25本书,共10页,“start=”后面从0开始,以25递增


    tmp = book(url1)


    with open('booktop250.xls', 'a', encoding='utf-8') as d: #新建一个文件存放数据,模式取'a',表示在后面追加;编码一定要写上,因为win下新建文件,默认是gbk编码,但是前面返回的结构是unicode的,会报编码错误


        for i in tmp:


            print(i[0]+"\t"+i[1]+"\t"+i[2]+"\t"+i[3]+"\t"+i[4]+"\t"+i[5]+"\t"+i[6], file=d)


以上就是关于爬虫如何爬取豆瓣图书榜单信息的相关介绍了,黑洞HTTP可为您提供海量IP资源,助您不间断获取行业数据,赢在大数据时代!


相关文章内容简介

1 代理ip协助爬虫爬取豆瓣图书榜单信息

今天黑洞HTTP为大家分享一下爬虫是如何爬取豆瓣图书榜单信息的,我们首先打开豆瓣图书top250的网页,通过源代码检查元素,检索我们所需要的字段所在的标签。主要抓取的内容是书名、别名、信息、评分、人数、描述。代码如下:#!/usr/bin/env python# encoding: utf-8import reimport requestsfrom bs4 import BeautifulSoupdef book(target_url):    books = []    book = requests.get(target_url) #使用requests返回网页的整体结构    soup = BeautifulSoup(book.text, 'lxml') # 使用lxml作为解析器,返回一个Beautiful [阅读全文]

热门标签

最新标签

推荐阅读

  1. 20

    2019-05

    如何获取高匿代理IP资源

    我们知道,代理IP分为透明代理、普匿代理和高匿代理,其中透明代理会被目标服务器识别并知晓真实IP,普匿代理会被目标服务器识别使用了代理但并不知道真实IP,高匿代理不会被服务器知

  2. 17

    2019-05

    有没有物美价廉的代理IP?

    如今随着人们对互联网越来越深入的了解,提到换ip软件所有人都不陌生。可以说现在有80%的行业都需要用到代理IP,不是在很多家庭中一些普通用户在日常生活中也开始使用代理IP。不仅充分

  3. 13

    2019-04

    什么是代理,IP代理的支持以及如何帮助您?

    因此,如果这个主人在另一个国家,那就好像你是来自这个国家,你也可能会访问你可能不正常的项目。该 vpN 转发请求对你个人和直通连接转发由网站的响应.如果您使用基于美国的 vpN 来

  4. 16

    2019-05

    如何使用代理IP做京东的单

    随着淘宝后台对同一ip地址多次给同一家店铺做单进行排查,京东也实行了这一政策,这真的是要逼死做单人员的节奏啊。

  5. 25

    2019-06

    如何利用Python爬虫抓取电子图书

    俗话说“读万卷书,行万里路”,读书是一个人终身的学习过程,通过读书,我们可以收获知识、结识朋友、开阔视野,还能提高自我层次。传统纸质书籍携带不方便,收纳需要占用大量空间,

  6. 20

    2019-03

    PHP定时验证代理IP的可用性

    上一篇文章给大家介绍了如何使用PHP做一个小型网络爬虫,今天就利用上次爬到的代理IP讲一讲代理IP的验证。至于为什么说PHP是世界上最好的语言,我也不知道,听别人说的,我个人比较喜欢ja