IP代理软件,http代理,API提取-黑洞HTTP

黑洞HTTP

您的位置: 首页 > 新闻资讯 > HTTP代理 > 正文

代理ip协助爬虫爬取豆瓣图书榜单信息

发布时间:2019年04月03日 来源:互联网

今天黑洞HTTP为大家分享一下爬虫是如何爬取豆瓣图书榜单信息的,我们首先打开豆瓣图书top250的网页,通过源代码检查元素,检索我们所需要的字段所在的标签。主要抓取的内容是书名、别名、信息、评分、人数、描述。


代理ip协助爬虫爬取豆瓣图书榜单信息


代码如下:


#!/usr/bin/env python


# encoding: utf-8


import re


import requests


from bs4 import BeautifulSoup


def book(target_url):


    books = []


    book = requests.get(target_url) #使用requests返回网页的整体结构


    soup = BeautifulSoup(book.text, 'lxml') # 使用lxml作为解析器,返回一个Beautifulsoup对象


    table = soup.findAll('table', {"width": "100%"}) #找到其中所有width=100%的table标签),即找到所有的书


    for item in table: #遍历table,一个item代表一本书


        name = item.div.a.text.strip() #找到书名


        r_name = name.replace('\n', '').replace(' ', '') #通过看网页的HTML结构,可以发现书名后是有换行以及空格的,将这些全部通过replace替换去除


        tmp2 = item.div.span  #判断是否存在别名


        if tmp2:


            name2 = tmp2.text.strip().replace(':', '') #因为是通过div.span判断别名 有些书的别名前面有个冒号,比如《追风筝的人》


        else:


            name2 = r_name #无别名就使用原始的名称


        url = item.div.a['href'] #获取书的链接


        info = item.find('p', {"class": "pl"}).text #获取书的信息


        score = item.find('span', {"class": "rating_nums"}).text.strip() #获取分数


        nums = item.find('span', {"class": "pl"}).text.strip() # 获取评价人数


        num = re.findall('(\d+)人评价', nums)[0]  # 通过正则取具体的数字


        if item.find('span', {"class": "inq"}): # 判断是否存在描述


            desc = item.find('span', {"class": "inq"}).text.strip()


        else:


            desc = 'no description'


        books.append((r_name, name2, url, info, score, num, desc)) #以元组存入列表


    return books #返回一页的书籍



for n in range(10):


    url1 = 'https://book.douban.com/top250?start=' + str(n*25) #top250的网页,每页25本书,共10页,“start=”后面从0开始,以25递增


    tmp = book(url1)


    with open('booktop250.xls', 'a', encoding='utf-8') as d: #新建一个文件存放数据,模式取'a',表示在后面追加;编码一定要写上,因为win下新建文件,默认是gbk编码,但是前面返回的结构是unicode的,会报编码错误


        for i in tmp:


            print(i[0]+"\t"+i[1]+"\t"+i[2]+"\t"+i[3]+"\t"+i[4]+"\t"+i[5]+"\t"+i[6], file=d)


以上就是关于爬虫如何爬取豆瓣图书榜单信息的相关介绍了,黑洞HTTP可为您提供海量IP资源,助您不间断获取行业数据,赢在大数据时代!


相关文章内容简介

1 代理ip协助爬虫爬取豆瓣图书榜单信息

今天黑洞HTTP为大家分享一下爬虫是如何爬取豆瓣图书榜单信息的,我们首先打开豆瓣图书top250的网页,通过源代码检查元素,检索我们所需要的字段所在的标签。主要抓取的内容是书名、别名、信息、评分、人数、描述。代码如下:#!/usr/bin/env python# encoding: utf-8import reimport requestsfrom bs4 import BeautifulSoupdef book(target_url):    books = []    book = requests.get(target_url) #使用requests返回网页的整体结构    soup = BeautifulSoup(book.text, 'lxml') # 使用lxml作为解析器,返回一个Beautiful [阅读全文]

热门标签

最新标签

推荐阅读

  1. 10

    2019-07

    HTTP代理IP应用于大数据

    HTTP代理IP应用于大数据,可能很多人并不知道,其实我们常常能在电视剧或者电影中可以看见,很多电脑高手,通过某一个或者几个特征信息,输入到电脑软件中,就能找到该目标任务的信息。

  2. 22

    2019-11

    免费ip代理的风险主要体现在哪里?

    虽然当下有很多网站比如国外的网站,会对国内访客进行放访问次数的限制,要想从他们网站抓取数据更并非易事,但也并非无计可施。目前,很多爬虫工作者或者爱好者凭借着自身精湛的技术

  3. 26

    2019-09

    获取大量IP的方法

    换 IP 的方法不少,比如通过重启路由器、手机开飞行模式等等,但这些换IP的方式只能少量换取IP,如果需要大量IP怎么办?怎么低成本获取大量IP

  4. 09

    2019-03

    当爬虫时遇到IP和访问时间间隔限制,我们该如何处理?

    我们使用爬虫时,就要考虑到反爬虫的问题。例如:ip限制、时间间隔限制、验证码限制等相关情况,都会让我们的爬虫工作无法顺利进行下去。所以我们就要用到ip代理、、调整时间限制等相

  5. 25

    2019-10

    http代理ip怎么有效的保证用户的私人信息?

    随着网络的发展,越来越多的代理ip网站出现在我们的生活工作中,但是哪个比较合适的选择,有着海量高质量 HTTP代理 IP,有着高匿名性和安全性,可以有效的保证用户的私人信息。

  6. 18

    2019-10

    哪些行业需要用到大量的ip代理?

    SEO、广告群发、邮件群发等