IP代理软件,http代理,API提取-黑洞HTTP

黑洞HTTP

您的位置: 首页 > 新闻资讯 > HTTP代理 > 正文

爬虫出现403问题使用代理ip吗?

发布时间:2019年11月18日 来源:互联网

    在python写爬虫的时候,html.getcode()会遇到403禁止访问的问题,这是网站对自动化爬虫的禁止。这篇文章主要介绍了Angular2进阶之如何解决爬虫出现403问题的办法,感觉觉得挺不错的,现在分享给大家,也给大家做个参考。下面开心代理过来看看吧


爬虫出现403问题使用代理ip吗?


    要解决这个问题,需要用到python的模块urllib2模块


    urllib2模块是属于一个进阶的爬虫抓取模块,有非常多的方法


    比方说连接url=http://blog.csdn.net/qysh123


    对于这个连接就有可能出现403禁止访问的问题


    解决这个问题,需要以下几步骤:


    <span style="font-size:18px;">req = urllib2.Request(url)


    req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36")


    req.add_header("GET",url)


    req.add_header("Host","blog.csdn.net")


    req.add_header("Referer","http://blog.csdn.net/")</span>


    然后html=urllib2.urlopen(req)


    print html.read()


    就可以把网页代码全部下载下来,而没有了403禁止访问的问题。


    对于以上问题,可以封装成函数,供以后调用方便使用,具体代码:


    #-*-coding:utf-8-*-


    import urllib2


    import random


    url="http://blog.csdn.net/qysh123/article/details/44564943"


    my_headers=["Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36",


    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36",


    "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0"


    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/537.75.14",


    "Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Win64; x64; Trident/6.0)"


    ]


    def get_content(url,headers):


    '''''


    @获取403禁止访问的网页


    '''


    randdom_header=random.choice(headers)


    req=urllib2.Request(url)


    req.add_header("User-Agent",randdom_header)


    req.add_header("Host","blog.csdn.net")


    req.add_header("Referer","http://blog.csdn.net/")


    req.add_header("GET",url)


    content=urllib2.urlopen(req).read()


    return content


    print get_content(url,my_headers)


    其中用到了random随机函数,自动获取已经写好的浏览器类型的User-Agent信息,在自定义函数中需要写出自己的Host,Referer,GET信息等,解决这几个问题,就可以顺利访问了,不再出现403访问的信息。


相关文章内容简介

1 爬虫出现403问题使用代理ip吗?

    在python写爬虫的时候,html.getcode()会遇到403禁止访问的问题,这是网站对自动化爬虫的禁止。这篇文章主要介绍了Angular2进阶之如何解决爬虫出现403问题的办法,感觉觉得挺不错的,现在分享给大家,也给大家做个参考。下面开心代理过来看看吧    要解决这个问题,需要用到python的模块urllib2模块    urllib2模块是属于一个进阶的爬虫抓取模块,有非常多的方法    比方说连接url=http://blog.csdn.net/qysh123    对于这个连接就有可能出现403禁止访问的问题    解决这个问题,需要以下几步骤:    <span style="font-size:18px;& [阅读全文]

热门标签

最新标签

推荐阅读

  1. 03

    2019-07

    http代理IP如何隐藏IP地址?

    我们在上网时,经常会不经意暴露自己的IP地址,在网络技术如此发达的今天,小小的IP地址也有可能成为泄漏个人隐私的罪魁祸首。为了保护自己的网络隐私安全,可以利用国内代理IP。国内代

  2. 11

    2019-07

    质量差的http代理对爬虫有什么危害?

    现在爬虫已经成了获取数据的必不可少的方式,在使用爬虫多次爬取同一网站时,经常会被网站的IP反爬虫机制给禁掉,为了解决封禁IP的问题,一般是使用http代理,使用代理之后可以让爬虫伪

  3. 24

    2019-05

    高匿代理IP和透明代理IP有什么区别?

    黑洞HTTP前面为您简述过,使用高匿代理IP后,访问者的IP跟是否在使用代理服务器将同时被保密。那么使用黑洞HTTP服务器主打的高匿代理和透明代理又有什么区别呢?

  4. 22

    2019-11

    为什么会有免费代理ip?

    免费代理存在市面上已经有非常长的一段时间了,刚开始的时候,免费 代理ip 是由一些黑客弄出来的,稳定性不好,安全也不好,风险特别大,但是随着代理IP这个市场越来越大,现在已经有非

  5. 13

    2019-05

    扒一扒代理IP软件哪家好

    有时候当我们登录某个网站或者论坛时,你会看到这样的提示“抱歉,您的IP地址不在允许范围内”,或者是这样“对不起,您的账号已被禁用,无法访问本站点”。

  6. 18

    2019-04

    有没有好用的IP代理或者换IP软件?

    日常工作需要换IP,知友们有没有合适的换IP软件推荐?价格公道的,最好是自动换不需要太多操作的。基本都是在电脑上操作,如果有手机客户端就更好了当然连接速度和IP质量也有要求,只是