IP代理软件,http代理,API提取-黑洞HTTP

黑洞HTTP

您的位置: 首页 > 新闻资讯 > HTTP代理 > 正文

零基础也能看懂的Python下载网易云音乐爬虫

发布时间:2019年04月18日 来源:http://http.hunbovps.com/News/getList/catid/8/id/335.html

  零基础也能看懂的Python下载网易云音乐爬虫,配置基础


  Python


  Selenium(配置方法参照:Selenium配置)


  Chrome浏览器(其它的也可以,需要进行相应的修改)


  解析


  以前抓取过网易云网页的朋友可能都清楚网易云有反爬虫策略的,post时要对部分信息的参数完成加密函数的模拟。为了方便,入门新手也可以了解,直接采用Selenium来模拟登录,之后用接口来下载音乐和歌词。


  实验步骤:


  通过歌手id得到当前歌手的热门歌曲信息,歌名与网址,并且存储到CSV文件里面;


  载入csv文件,通过音乐链接,获取歌曲ID,之后借助相应的接口,下载歌曲和歌词;


  将歌曲和歌词存储到本地。


  Python实现


  这里针对几个主要的函数来说明…


  抓取歌手信息


  通过Selenium就不用看对页面的请求了,能直接从页面源代码中提取对应的数据,查看歌手网页源代码能够看到在iframe框架里有我们需要的信息,因此,要先切换到iframe:


  browser.switch_to.frame('contentFrame')


  接着看下去,在id=”hotsong-list”标签中能看到需要的歌名以及链接,然后每一行对应的是一个tr标签。因此先取得全部的tr内容,然后遍历单个tr。


  data = browser.find_element_by_id("hotsong-list").find_elements_by_tag_name("tr")


  注意:前一个是find_element,后一个是find_elements,后者返回一个列表。


  然后就是解析单个tr标签的内容,得到歌名与链接,可以发现两者在class=”txt”标签中,而且链接是href属性,名字是title属性,能直接通过get_attribute()函数获取。


零基础也能看懂的Python下载网易云音乐爬虫

  链接中的数字就是歌曲的id,因此我们得到歌曲id后,能够同时从该链接下载歌词,歌词文件是json格式,因此我们还要用到json包。


  并且同时获取的歌词中,每行有一个时间轴,还要用正则表达式来去除,完整代码如下:

零基础也能看懂的Python下载网易云音乐爬虫

  链接中的数字为歌曲的id,可以直接根据歌曲的id来下载音频文件。完整代码如下:

  

零基础也能看懂的Python下载网易云音乐爬虫

相关文章内容简介

1 零基础也能看懂的Python下载网易云音乐爬虫

  零基础也能看懂的Python下载网易云音乐爬虫,配置基础  Python  Selenium(配置方法参照:Selenium配置)  Chrome浏览器(其它的也可以,需要进行相应的修改)  解析  以前抓取过网易云网页的朋友可能都清楚网易云有反爬虫策略的,post时要对部分信息的参数完成加密函数的模拟。为了方便,入门新手也可以了解,直接采用Selenium来模拟登录,之后用接口来下载音乐和歌词。  实验步骤:  通过歌手id得到当前歌手的热门歌曲信息,歌名与网址,并且存储到CSV文件里面;  载入csv文件,通过音乐链接,获取歌曲ID,之后借助相应的接口,下载歌曲和歌词;  将歌曲和歌词存储到本地。  Python实现  这里针对几个主要的函数来说明…  抓取歌手信息  通过Selenium就不用看对页面的请求了,能直接从页面源代码中提取对应的数据,查看歌手网页源代码能够看到在ifr [阅读全文]

热门标签

最新标签

推荐阅读

  1. 26

    2019-11

    黑洞http代理ip为什么能做到毫秒切换?

    现在的 IP代理 大多是可以分配一个虚拟 IP地址 的,但是每次更换IP地址需要手动的切换,比较麻烦,而好一些的IP代理可以实现自动切换IP,根据你的目标网站来切换不同的访问IP,但是转换速

  2. 17

    2019-09

    代理IP对游戏有什么作用?

    现在生活已经离不开网络,网络游戏也是深受大家的喜欢,并且还有很多人利用游戏来工作。在玩游戏的时候,很多用户喜欢多开游戏,这样能获取更多的游戏内资源。但稍有不慎,账号就会被

  3. 02

    2019-09

    给App抓包,还不懂HTTP代理吗?

    在 HTTP 协议中,最基础的就是请求和响应的报文,而报文又由报文头和报文实体组成。大多数 HTTP 协议的使用场景,都是依赖设置不同的 HTTP 请求/响应 的 Header 来实现的。

  4. 13

    2019-04

    分布式爬虫搭建好后,代理ip出问题该怎么办?

    搭建好了分布式爬虫,正准备让程序去抓取数据,服务器也搭好了。突然发现,当前代理ip地址不可用了,应该怎么办呢?

  5. 10

    2019-06

    高匿名免费HTTP代理IP怎么用

    HTTP代理IP作为最常见的一种协议模式,使用方式是十分简单的,你可以在IE上直接设置,也可以搭配程序批量操作。当前市面上有很多免费HTTP代理IP,高举高匿名大旗,小编可以很负责的告诉

  6. 20

    2019-08

    我们应该如何选择IP代理

    互联网时代,不论是企业还是个人,多多少少的都会遇到IP被封,或者是需要频繁切换IP的情况,这个时候,我们就需要使用到换IP软件来解决这个问题,那么我们该如何选择合适的换IP软件呢?