IP代理软件,http代理,API提取-黑洞HTTP

黑洞HTTP

您的位置: 首页 > 新闻资讯 > HTTP代理 > 正文

使用动态IP代理爬取网站的都是哪些爬虫(二)

发布时间:2019年04月26日 来源:互联网

  使用动态IP代理爬取网站的都是哪些爬虫(二)这里是黑洞代理IP代理小编带来的使用动态IP代理爬取网站的都是哪些爬虫第二篇。


使用动态IP代理爬取网站的都是哪些爬虫(二)


  核心代码实现示例:ProxyWebsite


  class ProxyWebsite(object):


  def __init__(self, url, pattern, ip_pos, port_pos):


  self.url = url


  self.pattern = pattern


  self.ip_pos = ip_pos


  self.port_pos = port_pos


  Crawler


  class Crawler(object):


  @staticmethod


  def get_html(proxy_website):


  try:


  rsp = requests.get(proxy_website.url)


  return (0, rsp.text)


  except Exception as e:


  return (-1, e)


  Extrator


  class Extractor(object):


  @staticmethod


  def get_data(proxy_website, html):


  try:


  pattern = re.compile(proxy_website.pattern, re.M|re.S )


  return  map(lambda x:(x[proxy_website.ip_pos], x[proxy_website.port_pos]), pattern.findall(html))


  except Exception as e:


  return (-1, e)Data class Data(object):


  def __init__(self, ip, port, http_enable, https_enable):


  self.ip = ip


  self.port = port


  self.http_enable = http_enable


  self.https_enable = https_enableValidator class Validator(object):


  @staticmethod


  def get_baidu(ip, port):


  try:


  proxies = {'http': 'http://%s:%s' %(ip, port), 'https': 'http://%s:%s' %(ip, port)}


  http_valid_result  = False


  rsp = requests.get('http://www.baidu.com', proxies = proxies, verify=False, timeout=(10, 60))


  if rsp.status_code == 200:


  http_valid_result  = True


  rsp = requests.get('https://www.baidu.com', proxies = proxies, verify=False, timeout=(10, 60))


  if rsp.status_code == 200:


  https_valid_result  = True


  return (0, (http_valid_result, https_valid_result))


  except Exception as e:


  return (-1, e)


相关文章内容简介

1 使用动态IP代理爬取网站的都是哪些爬虫(二)

  使用动态IP代理爬取网站的都是哪些爬虫(二)这里是黑洞代理IP代理小编带来的使用动态IP代理爬取网站的都是哪些爬虫第二篇。  核心代码实现示例:ProxyWebsite  class ProxyWebsite(object):  def __init__(self, url, pattern, ip_pos, port_pos):  self.url = url  self.pattern = pattern  self.ip_pos = ip_pos  self.port_pos = port_pos  Crawler  class Crawler(object):  @staticmethod  def get_html(proxy_website):  try:  rsp = requests.get(proxy_website.url)  return (0, rsp.text [阅读全文]

热门标签

最新标签

推荐阅读

  1. 28

    2019-04

    动态代理ip跟普通代理ip有什么区别?

    在区分什么是动态代理IP之前,首先我们要弄清楚,什么是代理IP?就是你在你的浏览器设置选项中(IE/火狐/chrome),手动输入你的代理ip地址。然后用浏览器去搜索,比如说访问百度,在百度

  2. 18

    2019-03

    代理ip:3步教你用网络爬虫爬取股票数据

    人工智能时代,大数据的获取至关重要,利用网络爬虫获取数据是当前最有效的手段。爬虫本质上就是代替人工操作访问网站,自动找到目标数据,并获取目标数据的过程。今天不谈任何协议结

  3. 05

    2019-04

    代理IP有助于软文推广吗?

    软文推广的质量直接决定品牌的宣传和产品的转化,所以说做软文推广是需要技巧的,接下来就来为大家分析软文推广需要注意什么。

  4. 25

    2019-06

    做爬虫怎样实用国内代理IP最省钱

    网络爬虫和国内代理IP在互联网的关系堪比一对好基友,当网络爬虫遇到反爬虫障碍时,使用代理IP可以帮助网络爬虫突破IP地址限制。那么如何获取代理IP呢?

  5. 18

    2019-05

    免费代理ip软件哪个好

    大数据时代的来临,很多传统企业和新兴企业在运营模式上都面临着各种改革问题。可以说随着互联网数据的飞速发展,给原本的产业和收益模式都带来了更多的可能性。想要顺应时代发展,在

  6. 04

    2019-04

    购买ip代理时要避免的错误

    如果你打算购买代理服务。不管你是打算用来实现web抓取、价格监视、广告验证或其他类型的在线操作,都必须认真挑选。