IP代理软件,http代理,API提取-黑洞HTTP

黑洞HTTP

您的位置: 首页 > 新闻资讯 > HTTP代理 > 正文

代理ip协助爬虫爬取豆瓣图书榜单信息

发布时间:2019年04月03日 来源:互联网

今天黑洞HTTP为大家分享一下爬虫是如何爬取豆瓣图书榜单信息的,我们首先打开豆瓣图书top250的网页,通过源代码检查元素,检索我们所需要的字段所在的标签。主要抓取的内容是书名、别名、信息、评分、人数、描述。


代理ip协助爬虫爬取豆瓣图书榜单信息


代码如下:


#!/usr/bin/env python


# encoding: utf-8


import re


import requests


from bs4 import BeautifulSoup


def book(target_url):


    books = []


    book = requests.get(target_url) #使用requests返回网页的整体结构


    soup = BeautifulSoup(book.text, 'lxml') # 使用lxml作为解析器,返回一个Beautifulsoup对象


    table = soup.findAll('table', {"width": "100%"}) #找到其中所有width=100%的table标签),即找到所有的书


    for item in table: #遍历table,一个item代表一本书


        name = item.div.a.text.strip() #找到书名


        r_name = name.replace('\n', '').replace(' ', '') #通过看网页的HTML结构,可以发现书名后是有换行以及空格的,将这些全部通过replace替换去除


        tmp2 = item.div.span  #判断是否存在别名


        if tmp2:


            name2 = tmp2.text.strip().replace(':', '') #因为是通过div.span判断别名 有些书的别名前面有个冒号,比如《追风筝的人》


        else:


            name2 = r_name #无别名就使用原始的名称


        url = item.div.a['href'] #获取书的链接


        info = item.find('p', {"class": "pl"}).text #获取书的信息


        score = item.find('span', {"class": "rating_nums"}).text.strip() #获取分数


        nums = item.find('span', {"class": "pl"}).text.strip() # 获取评价人数


        num = re.findall('(\d+)人评价', nums)[0]  # 通过正则取具体的数字


        if item.find('span', {"class": "inq"}): # 判断是否存在描述


            desc = item.find('span', {"class": "inq"}).text.strip()


        else:


            desc = 'no description'


        books.append((r_name, name2, url, info, score, num, desc)) #以元组存入列表


    return books #返回一页的书籍



for n in range(10):


    url1 = 'https://book.douban.com/top250?start=' + str(n*25) #top250的网页,每页25本书,共10页,“start=”后面从0开始,以25递增


    tmp = book(url1)


    with open('booktop250.xls', 'a', encoding='utf-8') as d: #新建一个文件存放数据,模式取'a',表示在后面追加;编码一定要写上,因为win下新建文件,默认是gbk编码,但是前面返回的结构是unicode的,会报编码错误


        for i in tmp:


            print(i[0]+"\t"+i[1]+"\t"+i[2]+"\t"+i[3]+"\t"+i[4]+"\t"+i[5]+"\t"+i[6], file=d)


以上就是关于爬虫如何爬取豆瓣图书榜单信息的相关介绍了,黑洞HTTP可为您提供海量IP资源,助您不间断获取行业数据,赢在大数据时代!


相关文章内容简介

1 代理ip协助爬虫爬取豆瓣图书榜单信息

今天黑洞HTTP为大家分享一下爬虫是如何爬取豆瓣图书榜单信息的,我们首先打开豆瓣图书top250的网页,通过源代码检查元素,检索我们所需要的字段所在的标签。主要抓取的内容是书名、别名、信息、评分、人数、描述。代码如下:#!/usr/bin/env python# encoding: utf-8import reimport requestsfrom bs4 import BeautifulSoupdef book(target_url):    books = []    book = requests.get(target_url) #使用requests返回网页的整体结构    soup = BeautifulSoup(book.text, 'lxml') # 使用lxml作为解析器,返回一个Beautiful [阅读全文]

热门标签

最新标签