Python爬虫通过黑洞IP代理爬取招聘信息使用
,爬取招聘网站信息
代码如下:
from bs4 import BeautifulSoup
import requests
import ip_proxy
from urllib import parse
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
}
def get_boss_info(my_ip,detailed_url):
#url = '
目标网站页面网址
'
proxy = {
'http': 'http://' + my_ip.ip_proxy_str,
'https': 'http://' + my_ip.ip_proxy_str
}
response = requests.get(detailed_url, headers=headers, proxies = proxy, timeout=5)
soup = BeautifulSoup(response.text, 'lxml')
title = soup.find('h1').text
#div_ele = soup.find('div', class_="name")
#print(div_ele)
salary = soup.find('span', class_="badge").text.replace('\n', '').strip()
print(title)
print(salary)
gezhong_info = soup.select('div.info-primary > p')[0].text.replace('\n', '').strip()
print(gezhong_info)
gangwei_info = soup.select('div.text')[0].text
print(gangwei_info)
# 获取详情页的url
def get_detail_url(my_ip, url):
# url = '
目标网站页面网址
'
proxy = {
'http': 'http://' + my_ip.ip_proxy_str,
'https': 'http://' + my_ip.ip_proxy_str
}
response = requests.get(url, headers = headers, proxies=proxy, timeout=5)
soup = BeautifulSoup(response.text, 'lxml')
#a_ele_list = soup.select('h3.name > a')
a_ele_list = soup.select('div.job-list > ul > li div.info-primary > h3 > a')
for a_ele in a_ele_list:
# 属性值的获取可以通过类似字典的方式获取
a_href = a_ele['href']
# 拼接详情页的链接
href = parse.urljoin(url, a_href)
print('详情页的href: ' + href)
# 重试三次, 获取代理访问boss直聘, 三次没有成功访问就跳过
for i in range(0,3):
try:
# 获取详情页的信息
get_boss_info(my_ip, href)
break
except Exception as e:
print(e)
my_ip.update_ip_proxy_str()
def get_all_info(my_ip):
base_url = '
目标网站页面网址
'
for i in range(1,4):
# 每一个分页的url
url = base_url % (i, i)
# 循环处理, 如果proxy不好使, 就需要换代理, 如果重试4次依然不好使,就跳过
for i in range(0, 4):
try:
# 循环四次访问目标网站, 分页的内容
# get_detail_url(my_ip, url)
get_detail_url(my_ip, url)
break
except Exception as e:
print(e)
my_ip.update_ip_proxy_str()
if __name__ == '__main__':
my_ip = ip_proxy.ip_getter()
# 获取一个ip
# proxy_str = '36.27.143.72:21450'
# print(proxy_str)
# 获取所有的招聘信息
get_all_info(my_ip)
# with open('boss.html', 'wb') as f:
# f.write(response.content)
相关资讯
相关文章内容简介
1 Python爬虫通过黑洞IP代理爬取招聘信息
Python爬虫通过黑洞IP代理爬取招聘信息使用 黑洞HTTP代理IP ,爬取招聘网站信息 代码如下: from bs4 import BeautifulSoup import requests import ip_proxy from urllib import parse headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36', } def get_boss_info(my_ip,detailed_url): #url = ' 目标网站页面网址 ' proxy = { ' [阅读全文]
推荐阅读
06
2019-10
服务器代理ip选择要素
随着互联网的快速发展,用户对于ip代理服务的需求也越来越多。然而如今市场上的ip代理服务是非常少见的,很多用户虽然想要使用ip代理服务,却很难找寻到合适的ip代理软件,因此很多用户
14
2019-11
效果补量用什么代理IP?
在网络大爆炸时代,很多场景都需要效果补量,如电商营销、直播流量、文章点击等。那么,效果补量用什么代理IP比较好呢?
19
2019-03
python爬虫批量抓取ip代理
使用爬虫抓取数据时,经常要用到多个ip代理,防止单个ip访问太过频繁被封禁。
16
2019-05
物美价廉的代理IP是否存在?
如今IP代理对于所有人来说应该都不陌生,因为IP代理现在应用于各个行业,并且对于普通用户也非常实用。从事于网络营销的人,需要添加更多的人群来销售自己的产品。这个时候他们通
07
2019-08
爬虫工作如何选择代理IP类型?
之前为大家介绍过代理IP的类型分别是透明代理IP、匿名代理IP、高匿名代理IP、混淆代理IP。那么,爬虫工作如何选择代理IP类型?
21
2019-06
免费代理IP的主要功能有哪些
近年来互联网各种免费代理IP的推出吸引了不少人的关注,到底什么是免费代理IP呢?简单的讲代理IP指的是代理服务器,它存在于网络连接的中间段,使用代理IP可以伪装用户真实IP地址,也
热门文章
注意: 严禁一切违规违法的业务,一经发现直接封帐号
Powered by wanchen tech. © | 粤ICP备18047396号-6 广州万宸软件科技有限公司http代理 版权所有