IP代理软件,http代理,API提取-黑洞HTTP

黑洞HTTP

您的位置: 首页 > 新闻资讯 > 高质量代理 > 正文

实战:模拟Ajax请求爬取微博数据

发布时间:2019年02月13日 来源:互联网

    虽说爬虫使用了代理IP可以突破限制,加快采集速度,但是这并不代表爬虫可以随意采集到数据的,也是需要针对网站的反爬虫机制进行研究,制定应对的方法,今天跟大家去了解下Ajax加载动态数据的问题,网络爬虫怎么获取到Ajax加载动态数据呢?


    什么是Ajax加载动态数据?我们平常搜索资料,通常都是先出现一部分的数据,若是没有找到满意的答案,可以再继续下滑即可获取到新的数据。下面跟小编去看看模拟Ajax请求爬取微博数据的案例。


    这里我们用程序模拟这些Ajax请求,将我的前10页微博全部爬取下来。


    定义一个方法来获取每次请求的结果,在请求时,page是一个可变参数,所以我们将它作为方法的参数传递进来,相关代码如下:


实战:模拟Ajax请求爬取微博数据


    首先,这里定义了base_url来表示请求的URL的前半部分。接下来,构造参数字典,其中type、value和containerid是固定参数,page是可变参数。调用urlencode()方法将参数转化为URL的GET请求参数,即类似于 type=uid&value=2830678474&containerid=1076032830678474&page=2 这样的形式。并将base_url与参数拼合形成一个新的URL。这样我们用requests请求这个链接,加入headers参数。然后判断响应的状态码,如果是200,则直接调用json()方法将内容解析为JSON返回,否则不返回任何信息。如果出现异常,则捕获并输出其异常信息。


    随后,我们需要定义一个解析方法,用来从结果中提取想要的信息,比如这次想保存微博的id、正文、赞数、评论数和转发数这几个内容,那么可以先遍历cards,然后获取mblog中的各个信息,赋值为一个新的字典返回即可:


实战:模拟Ajax请求爬取微博数据


    这里我们借助pyquery将正文中的HTML标签去掉。


    最后,遍历一下 page ,一共10页,将提取到的结果打印输出即可:


实战:模拟Ajax请求爬取微博数据


    另外,我们还可以加一个方法将结果保存到MongoDB数据库:


实战:模拟Ajax请求爬取微博数据


    这样所有功能就实现完成了。运行程序后,样例输出结果如下:


实战:模拟Ajax请求爬取微博数据


    查看一下MongoDB,相应的数据也被保存到MongoDB。


    这样,我们就顺利通过分析Ajax并编写爬虫爬取下来了微博列表。


    上文主要是介绍了模拟Ajax请求爬取微博数据的案例,目的是为了演示Ajax的模拟请求过程,爬取的结果不是重点。通过这个实例,我们主要学会了怎样去分析Ajax请求,怎样用程序来模拟抓取Ajax请求。


    当然这程序仍有很多可以完善的地方,如页码的动态计算、微博查看全文等,若感兴趣,可以尝试一下。


相关文章内容简介

1 实战:模拟Ajax请求爬取微博数据

    虽说爬虫使用了代理IP可以突破限制,加快采集速度,但是这并不代表爬虫可以随意采集到数据的,也是需要针对网站的反爬虫机制进行研究,制定应对的方法,今天跟大家去了解下Ajax加载动态数据的问题,网络爬虫怎么获取到Ajax加载动态数据呢?    什么是Ajax加载动态数据?我们平常搜索资料,通常都是先出现一部分的数据,若是没有找到满意的答案,可以再继续下滑即可获取到新的数据。下面跟小编去看看模拟Ajax请求爬取微博数据的案例。    这里我们用程序模拟这些Ajax请求,将我的前10页微博全部爬取下来。    定义一个方法来获取每次请求的结果,在请求时,page是一个可变参数,所以我们将它作为方法的参数传递进来,相关代码如下:    首先,这里定义了base_url来表示请求的URL的前半部 [阅读全文]

热门标签

最新标签

推荐阅读

  1. 08

    2019-01

    出现SOCKS/HTTP/FTP等代理启动失败怎么办?

    为啥出现SOCKS/HTTP/FTP等代理启动失败?这是因为其他软件占用了代理商端口号,造成端口号发生冲突。通常CCProxy会报告是哪个应用程序占用了端口。 您有两种办法来彻底解决这个关于HTTP以及FTP

  2. 21

    2019-02

    爬虫框架:使用Pyspider爬虫框架有什么作用

    爬虫框架有很多种,不同的框架具体作用不同,比如Pyspider,这是一个python的爬虫框架,使用也简单,优势多。下面就跟小编去了解下关于Pyspider爬虫框架。

  3. 06

    2019-05

    代理IP有几种类型?

    代理服务器 在使用中有很多种类型,最常见的是下面6种基本类型:

  4. 28

    2019-05

    代理IP提高网赚用户的工作效率

    对于做网络营销的用户来说,最麻烦的不是建立各种账号密码,而是不断的重启路由换IP和登录账号...简直是一个死循环。如果稍有哪个步骤遗忘,带来的后果可能是前功尽弃,甚至导致账号被

  5. 13

    2018-09

    网络IP地址冲突怎么办?黑洞代理帮你解决

    在局域网中,每台电脑都分配了一个独立的 IP 地址,如果、、假如出现两台或者两台以上的电脑配置了相同的 IP 地址,就会发生 IP 地址冲突。那么如果网络IP地址冲突怎么办?

  6. 10

    2019-05

    ip代理工具好处多多

    如果您从事的是销售工作,经常需要在各种各样的平台以及网站上进行操作的话,一定要选择一个比较好的ip代理工具。好的ip代理工具能够让您随时随地更换ip地址,让上网变成一件随心所欲的