IP代理软件,http代理,API提取-黑洞HTTP

黑洞HTTP

您的位置: 首页 > 新闻资讯 > HTTP代理 > 正文

Python爬虫的基本抓取网页

发布时间:2019年11月18日 来源:互联网

    Python爬虫的基本抓取网页,爬虫在开发过程中也有很多复用的过程,这里先总结一下基本抓取网页和cookie处理方法,以后也能省些事情。

Python爬虫的基本抓取网页

    一、基本抓取网页


    1、get方法


    import urllib2url  "http://www.baidu.com"respons = urllib2.urlopen(url)print response.read()


    2、post方法


    import urllibimport urllib2url = "http://abcde.com"form = {'name':'abc','password':'1234'}form_data = urllib.urlencode(form)request = urllib2.Request(url,form_data)response = urllib2.urlopen(request)print response.read()


    二、cookie处理方法


    cookies是某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密),python提供了cookielib模块用于处理cookies,cookielib模块的主要作用是提供可存储cookie的对象,以便于与urllib2模块配合使用来访问Internet资源.


    代码片段:


    import urllib2, cookielibcookie_support= urllib2.HTTPCookieProcessor(cookielib.CookieJar())opener = urllib2.build_opener(cookie_support)urllib2.install_opener(opener)content = urllib2.urlopen('http://XXXX').read()


    关键在于CookieJar(),它用于管理HTTP cookie值、存储HTTP请求生成的cookie、向传出的HTTP请求添加cookie的对象。整个cookie都存储在内存中,对CookieJar实例进行垃圾回收后cookie也将丢失,所有过程都不需要单独去操作。


    手动添加cookie


    cookie = "PHPSESSID=91rurfqm2329bopnosfu4fvmu7; kmsign=55d2c12c9b1e3; KMUID=b6Ejc1XSwPq9o756AxnBAg="request.add_header("Cookie", cookie)


相关文章内容简介

1 Python爬虫的基本抓取网页

    Python爬虫的基本抓取网页,爬虫在开发过程中也有很多复用的过程,这里先总结一下基本抓取网页和cookie处理方法,以后也能省些事情。    一、基本抓取网页    1、get方法    import urllib2url  "http://www.baidu.com"respons = urllib2.urlopen(url)print response.read()    2、post方法    import urllibimport urllib2url = "http://abcde.com"form = {'name':'abc','password':& [阅读全文]

热门标签

最新标签

推荐阅读

  1. 07

    2019-11

    如何获取代理IP支撑网络工作?

    什么工作需要代理ip的帮助呢?比如网络投票、效果补量、网购下单、品牌监控、市场分析等等,没有代理IP的支撑,工作还真的不好进行下去,那么如何获取代理IP支撑网络工作?

  2. 14

    2019-11

    优秀爬虫有什么特点?

    互联网的网页数量庞大如海,所以爬虫的性能至关重要,这里的性能主要是指爬虫下载网页的抓取速度,常见的评价方式是以爬虫每秒能够下载的网页数量作为性能指标,单位时间能够下载的网

  3. 24

    2019-06

    代理IP要使用高质量正规动态ip

    运用动态IP的人日益增多,但有一个古怪的现象是,还有很多人不习惯付费运用,尽管有的IP代理是免费,但仍是有许多不足之处。今天就来和云 立方一起看看免费代理IP有哪些安全隐患?

  4. 26

    2019-06

    代理ip服务器的选择和效果

    随着大数据时代到来,代理IP行业发展十分迅速,或大或小的品牌商家如雨后春笋般破土而出,用户随时随地切换IP已不再是难事。然而因为代理IP行业门槛低,如今的市场可谓是鱼龙混杂,想要

  5. 18

    2019-06

    合适的代理IP解决访问网站等一系列问题

    在我们学习各种编程语言的时候,出现各种异常是很常见的,拿最简单最基础的爬虫采集数据为例,过程中就会面临,IP被封,爬取受限、违法操作等多种问题,所以在爬取数据之前,一定要

  6. 22

    2019-03

    爬虫如何爬取今日头条街拍美图?

    在爬取今日头条街拍美图前,我们先分析一下抓取的逻辑。打开今日头条网站首页,搜索我们需要的关键词:街拍。然后分析代码数据,我们会发现一组图就对应前面data字段中的一条数据,每