IP代理软件,http代理,API提取-黑洞HTTP

黑洞HTTP

您的位置: 首页 > 新闻资讯 > HTTP代理 > 正文

零基础也能看懂的Python下载网易云音乐爬虫

发布时间:2019年04月18日 来源:http://http.hunbovps.com/News/getList/catid/8/id/335.html

  零基础也能看懂的Python下载网易云音乐爬虫,配置基础


  Python


  Selenium(配置方法参照:Selenium配置)


  Chrome浏览器(其它的也可以,需要进行相应的修改)


  解析


  以前抓取过网易云网页的朋友可能都清楚网易云有反爬虫策略的,post时要对部分信息的参数完成加密函数的模拟。为了方便,入门新手也可以了解,直接采用Selenium来模拟登录,之后用接口来下载音乐和歌词。


  实验步骤:


  通过歌手id得到当前歌手的热门歌曲信息,歌名与网址,并且存储到CSV文件里面;


  载入csv文件,通过音乐链接,获取歌曲ID,之后借助相应的接口,下载歌曲和歌词;


  将歌曲和歌词存储到本地。


  Python实现


  这里针对几个主要的函数来说明…


  抓取歌手信息


  通过Selenium就不用看对页面的请求了,能直接从页面源代码中提取对应的数据,查看歌手网页源代码能够看到在iframe框架里有我们需要的信息,因此,要先切换到iframe:


  browser.switch_to.frame('contentFrame')


  接着看下去,在id=”hotsong-list”标签中能看到需要的歌名以及链接,然后每一行对应的是一个tr标签。因此先取得全部的tr内容,然后遍历单个tr。


  data = browser.find_element_by_id("hotsong-list").find_elements_by_tag_name("tr")


  注意:前一个是find_element,后一个是find_elements,后者返回一个列表。


  然后就是解析单个tr标签的内容,得到歌名与链接,可以发现两者在class=”txt”标签中,而且链接是href属性,名字是title属性,能直接通过get_attribute()函数获取。


零基础也能看懂的Python下载网易云音乐爬虫

  链接中的数字就是歌曲的id,因此我们得到歌曲id后,能够同时从该链接下载歌词,歌词文件是json格式,因此我们还要用到json包。


  并且同时获取的歌词中,每行有一个时间轴,还要用正则表达式来去除,完整代码如下:

零基础也能看懂的Python下载网易云音乐爬虫

  链接中的数字为歌曲的id,可以直接根据歌曲的id来下载音频文件。完整代码如下:

  

零基础也能看懂的Python下载网易云音乐爬虫

相关文章内容简介

1 零基础也能看懂的Python下载网易云音乐爬虫

  零基础也能看懂的Python下载网易云音乐爬虫,配置基础  Python  Selenium(配置方法参照:Selenium配置)  Chrome浏览器(其它的也可以,需要进行相应的修改)  解析  以前抓取过网易云网页的朋友可能都清楚网易云有反爬虫策略的,post时要对部分信息的参数完成加密函数的模拟。为了方便,入门新手也可以了解,直接采用Selenium来模拟登录,之后用接口来下载音乐和歌词。  实验步骤:  通过歌手id得到当前歌手的热门歌曲信息,歌名与网址,并且存储到CSV文件里面;  载入csv文件,通过音乐链接,获取歌曲ID,之后借助相应的接口,下载歌曲和歌词;  将歌曲和歌词存储到本地。  Python实现  这里针对几个主要的函数来说明…  抓取歌手信息  通过Selenium就不用看对页面的请求了,能直接从页面源代码中提取对应的数据,查看歌手网页源代码能够看到在ifr [阅读全文]

热门标签

最新标签

推荐阅读

  1. 05

    2019-06

    爬虫代理ip有用吗?

    IP代理作为现代网络兴起的一种上网方式,成为了很多人的日常上网习惯。特别是一些爬虫们,这种代理方式更是必须的,那么什么是爬虫代理IP呢?

  2. 04

    2019-06

    代理IP服务器软件如何提高c#爬虫抓取效率?

    c#爬虫,现在做业务越来越难,市面上的代理ip商家五花八门,试过很多代理ip的人会知道对业务效果并不理想,为什么黑洞HTTP的代理ip质量很高,下面我来介绍一下。

  3. 13

    2019-07

    爬虫工程师教你如何选择适合自己的ip代理软件?

    很多人购买ip代理软件时,都会把IP可用率作为购买第一参考因素。其实市面上的的IP资源基本都是租用代理拨号服务器,IP可用率普遍都能达到90%以上,因此每一家IP代理的可用率都差不多(此处

  4. 18

    2019-03

    IP代理:6个用好大数据的秘诀

    这篇文章里,有三位来自不同公司的大数据运营人员各自分享了他们运用大数据的经验。这三位是来自维亚康姆(Viacom)的Luzzi、Globys公司的Olly Downs以及知名市场顾问公司Dunnhumby的CEO Andy Hill。

  5. 11

    2019-06

    最适合爬虫的国内优质代理IP

    Python是一种动态解释型的编程语言,它可以在Windows、UNIX、MAC等多种操作系统以及Java、.NET开发平台上使用。如果我们想在网络上快速抓取数据,可以通过python爬虫来实现。你以为掌握python

  6. 12

    2019-02

    什么是HTTP代理?什么是Socks5代理?二者有什么区别?

    代理服务器有许多种,我们经常使用的是HTTP代理,比如浏览器使用的就是HTTP代理,像QQ/微信这些可以使用HTTP代理也能使用Socks5代理,这两种代理有什么区别呢?