IP代理软件,http代理,API提取-黑洞HTTP

黑洞HTTP

您的位置: 首页 > 新闻资讯 > HTTP代理 > 正文

Python爬虫通过黑洞IP代理爬取招聘信息

发布时间:2019年04月25日 来源:互联网

  Python爬虫通过黑洞IP代理爬取招聘信息使用

Python爬虫通过黑洞IP代理爬取招聘信息

  黑洞HTTP代理IP


  ,爬取招聘网站信息


  代码如下:


  from bs4 import BeautifulSoup


  import requests


  import ip_proxy


  from urllib import parse


  headers = {


  'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',


  }


  def get_boss_info(my_ip,detailed_url):


  #url = '


  目标网站页面网址


  '


  proxy = {


  'http': 'http://' + my_ip.ip_proxy_str,


  'https': 'http://' + my_ip.ip_proxy_str


  }


  response = requests.get(detailed_url, headers=headers, proxies = proxy, timeout=5)


  soup = BeautifulSoup(response.text, 'lxml')


  title = soup.find('h1').text


  #div_ele = soup.find('div', class_="name")


  #print(div_ele)


  salary = soup.find('span', class_="badge").text.replace('\n', '').strip()


  print(title)


  print(salary)


  gezhong_info = soup.select('div.info-primary > p')[0].text.replace('\n', '').strip()


  print(gezhong_info)


  gangwei_info = soup.select('div.text')[0].text


  print(gangwei_info)


  # 获取详情页的url


  def get_detail_url(my_ip, url):


  # url = '


  目标网站页面网址


  '


  proxy = {


  'http': 'http://' + my_ip.ip_proxy_str,


  'https': 'http://' + my_ip.ip_proxy_str


  }


  response = requests.get(url, headers = headers, proxies=proxy, timeout=5)


  soup = BeautifulSoup(response.text, 'lxml')


  #a_ele_list = soup.select('h3.name > a')


  a_ele_list = soup.select('div.job-list > ul > li div.info-primary > h3 > a')


  for a_ele in a_ele_list:


  # 属性值的获取可以通过类似字典的方式获取


  a_href = a_ele['href']


  # 拼接详情页的链接


  href = parse.urljoin(url, a_href)


  print('详情页的href: ' + href)


  # 重试三次, 获取代理访问boss直聘, 三次没有成功访问就跳过


  for i in range(0,3):


  try:


  # 获取详情页的信息


  get_boss_info(my_ip, href)


  break


  except Exception as e:


  print(e)


  my_ip.update_ip_proxy_str()


  def get_all_info(my_ip):


  base_url = '


  目标网站页面网址


  '


  for i in range(1,4):


  # 每一个分页的url


  url = base_url % (i, i)


  # 循环处理, 如果proxy不好使, 就需要换代理, 如果重试4次依然不好使,就跳过


  for i in range(0, 4):


  try:


  # 循环四次访问目标网站, 分页的内容


  # get_detail_url(my_ip, url)


  get_detail_url(my_ip, url)


  break


  except Exception as e:


  print(e)


  my_ip.update_ip_proxy_str()


  if __name__ == '__main__':


  my_ip = ip_proxy.ip_getter()


  # 获取一个ip


  # proxy_str = '36.27.143.72:21450'


  # print(proxy_str)


  # 获取所有的招聘信息


  get_all_info(my_ip)


  # with open('boss.html', 'wb') as f:


  #     f.write(response.content)


相关文章内容简介

1 Python爬虫通过黑洞IP代理爬取招聘信息

  Python爬虫通过黑洞IP代理爬取招聘信息使用  黑洞HTTP代理IP  ,爬取招聘网站信息  代码如下:  from bs4 import BeautifulSoup  import requests  import ip_proxy  from urllib import parse  headers = {  'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',  }  def get_boss_info(my_ip,detailed_url):  #url = '  目标网站页面网址  '  proxy = {  ' [阅读全文]

热门标签

最新标签

推荐阅读

  1. 12

    2018-09

    http是啥?http代理服务器那些事你不容错过

    超文本传输协议(HTTP,HyperText Transfer Protocol)是互联网上应用最为广泛的一种网络协议。所有的WWW文件都必须遵守这个标准。设计HTTP最初的目的是为了提供一种发布和接收HTML页面的方法。

  2. 25

    2019-10

    代理IP隐藏真实IP的原理是什么?

    ip地址隐藏着我们的个人隐私,随着网络现在发展越来越快,发展也是很多样化,这就导致了在上网过程中容易泄露个人信息。这时,只要用代理IP就可以解决这个问题。

  3. 10

    2019-09

    代理ip作用于什么地方?

    代理IP现在是很常见的工具,很多用户都需要代理IP的帮助,解决IP限制问题。代理IP的作用有很多,很多人不是特别了解,今天就为大家进行简单的介绍。

  4. 20

    2019-08

    我们应该如何选择IP代理

    互联网时代,不论是企业还是个人,多多少少的都会遇到IP被封,或者是需要频繁切换IP的情况,这个时候,我们就需要使用到换IP软件来解决这个问题,那么我们该如何选择合适的换IP软件呢?

  5. 26

    2019-03

    代理IP是网红直播提高人气的秘诀吗?

    最近一年,除了各种各样的问答平台火爆发展,网红和直播更是一直保持着迅猛发展,各种小视频、游戏主播平台捧红了万千人心中的男神女神,除了之前的老牌平台斗鱼、YY,现在正在发展的

  6. 14

    2019-05

    国内ip代理工具的特点和功能

    黑洞HTTP是一款国内ip代理工具,免费试用,主要功能有:对代理ip批量验证;循环ip;在众多ip中快速找到可用代理;支持一键设置代理ip功能。方便快捷,实用。本站提供网页代理国内ip代理工具,