IP代理软件,http代理,API提取-黑洞HTTP

黑洞HTTP

您的位置: 首页 > 新闻资讯 > HTTP代理 > 正文

ip代理详解:爬虫常用的这个库数据库urllib

发布时间:2019年03月21日 来源:http://http.hunbovps.com/News/getList/catid/8/id/169.html

urlib库为python3的HTTP内置请求库

urilib的四个模块:

urllib.request:用于获取网页的响应信息内容

urllib.error:异常处理模块,用于处理异常的模块

urllib.parse:用于解析url

urllib.robotparse:用于解析robots.txt,主要用于看哪些网站不能进行爬取,不过少用

1

urllib.request

urllib.request.urlopen(url,data=None,[timeout,]*,cafile=None,cadefault=False,context=None)

url:为请求网址

data:请求时需要发送的参数

timeout:超时设置,在该时间范围内返回请求信息内容就不会报错

示例代码:

ip代理详解:爬虫常用的这个库数据库urllib

能够使用上面的代码对某些网站进行请求了,但当需要某些反爬网站时,这就不行了,这时我们需要适当地增加请求头进行请求,这时就需要使用复杂一点的代码了,这时我们需要用到Request对象

代码示例:

ip代理详解:爬虫常用的这个库数据库urllib

这个我添加了请求头进行请求,使我发送的请求更加接近浏览器的行为。能够对应某些反爬网站了

假如网站需要进行登陆,这时需要用到post办法,用上面的也是能够的。代码如下:

ip代理详解:爬虫常用的这个库数据库urllib

这里我用到了data的参数把登陆需要的参数传进去,还加了个请求办法Method

parse.urlencode()后面有讲

这里还有另外一种添加请求头的办法

Request.add_header(): 参数有两个,分别为请求头对应的键和值,这种办法一次只能添加一个请求头,添加多个需要用到循环或者直接用前面的办法添加多个请求头

在登陆了网站之后,我们需要用到cookie来保存登陆信息,这时就需要获取cookie了。urllib获取cookie比较麻烦。

代码示例如下:

ip代理详解:爬虫常用的这个库数据库urllib

单纯地打印没什么用,我们需要把他存入文件来保存,下次使用时再次加载cookie来登陆

保存cookie为文件:

ip代理详解:爬虫常用的这个库数据库urllib

另一种保存办法:

ip代理详解:爬虫常用的这个库数据库urllib

这两种保存格式都是不一样的,需要保存的信息内容一样。

保存能够了,这时就需要用到加载了,当然也能够。代码如下:

ip代理详解:爬虫常用的这个库数据库urllib

这样就能够实现不用密码进行登陆了。

cookie小总结:在操作cookie时,都是分五步,如下:

进行导包,至关重要的一步,不导包直接出错。

获取cookie处理对象,使用cookiejar包

创建cookie处理器,使用request.HTTPCookieJarProcessor()

利用cookie处理器构建opener,使用request.build_opener()

进行请求网站,用opener.open(),这个不能用request.urlopen()

假如有时你在同一ip连续多次发送请求,会有被封ip的可能,这时我们还需要用到代理ip进行爬取,代码如下:

ip代理详解:爬虫常用的这个库数据库urllib

能够看到越复杂的请求都需要用到request.build_opener(),这个办法有点重要,请记住哈

2

urllib.error

将上面的使用代理ip的请求进行异常处理,如下:

ip代理详解:爬虫常用的这个库数据库urllib

因为有时这个ip或许也被封了,有可能会抛出异常,所以我们为了让程序运行下去进而进行捕捉程序

error.URLError: 这个是url的某些问题,这个异常只有一个reason属性

error.HTTPError:这个是error.URLError的子类,所以在与上面的混合使用时需要将这个异常放到前面,这个异常是某些请求错误,有三个办法,.reason(), .code(), .headers(),所以在捕捉异常时通常先使用这个

3

urllib.parse

解析url:urllib.parse.urlparse(url, scheme='', allow_fragments=True)

简单的使用:

ip代理详解:爬虫常用的这个库数据库urllib

能够看出加了scheme参数和没加的返回结果是有区别的。而当scheme协议加了,而前面的url也包含协议,一般会忽略后面的scheme参数

既然后解析url,那当然也有反解析url,就是把元素串连成一个url

ip代理详解:爬虫常用的这个库数据库urllib

urlparse()接收一个列表的参数,而且列表的长度是有要求的,是必须六个参数以上,要不会抛出异常

ip代理详解:爬虫常用的这个库数据库urllib

urllib.parse.urljoin():这个是将第二个参数的url缺少的部分用第一个参数的url补齐

ip代理详解:爬虫常用的这个库数据库urllib

urllib.parse.urlencode():这个办法是将字典类型的参数转为请求为get方式的字符串

ip代理详解:爬虫常用的这个库数据库urllib


相关文章内容简介

1 ip代理详解:爬虫常用的这个库数据库urllib

urlib库为python3的HTTP内置请求库urilib的四个模块:urllib.request:用于获取网页的响应信息内容urllib.error:异常处理模块,用于处理异常的模块urllib.parse:用于解析urlurllib.robotparse:用于解析robots.txt,主要用于看哪些网站不能进行爬取,不过少用1urllib.requesturllib.request.urlopen(url,data=None,[timeout,]*,cafile=None,cadefault=False,context=None)url:为请求网址data:请求时需要发送的参数timeout:超时设置,在该时间范围内返回请求信息内容就不会报错示例代码:能够使用上面的代码对某些网站进行请求了,但当需要某些反爬网站时,这就不行了,这时我们需要适当地增加请求头进行请求,这时就需要使用复杂一 [阅读全文]

热门标签

最新标签

推荐阅读

  1. 27

    2019-03

    抖音运营也要用代理IP软件吗?

    做运营的人,几乎都不会放过抖音这个平台。每天高达1亿的日活量,零成本的运营,可以说是很多运营人比较喜欢的一个平台了。

  2. 19

    2019-06

    HTTP代理IP你必须知道的几点

    HTTP代理IP在现实生活中应用越来越频繁,越来越多的网络运营、销售、推广需要这种代理方式。而在你使用HTTP代理IP时,你真的明白它的工作原理吗?你是否能根据自己实际需要选择一款最适合

  3. 12

    2019-08

    什么是代理ip,代理ip又是如何使用的?

    什么是代理ip?ip是上网需要唯一的身份地址,身份凭证,而代理ip就是我们上网过程中的一个中间平台,是由你的电脑先访问代理ip,之后再由代理ip访问你点开的页面,所以在这个页面的访问

  4. 23

    2019-05

    https代理是怎么样进行的

    我们上网的时候,有时候需要用到https代理,这个时候,就需要选择合适的服务商。在选择服务商的时候,我们可以去网络上选择服务商。如果在网络上选择服务商的话,我们需要先查询相关的

  5. 03

    2019-09

    爬取数据时,IP被封该怎么办?

    在上网的过程中,IP被封相信很多用户都遇到过,这是因为发布了不当信息或者访问频繁,被目标网站检测出,所以IP被封。那么,访问网站IP被封该怎么办?

  6. 03

    2019-04

    代理ip协助爬虫爬取豆瓣图书榜单信息

    今天黑洞HTTP为大家分享一下爬虫是如何爬取豆瓣图书榜单信息的,我们首先打开豆瓣图书top250的网页,通过源代码检查元素,检索我们所需要的字段所在的标签。主要抓取的内容是书名、别名