IP代理软件,http代理,API提取-黑洞HTTP

黑洞HTTP

您的位置: 首页 > 新闻资讯 > HTTP代理 > 正文

代理IP如何帮助爬虫爬取京东商品信息数据的

发布时间:2019年04月16日 来源:互联网

  代理IP如何帮助爬虫爬取京东商品信息数据的?今天黑洞HTTP就为大家分享一下爬虫如何爬取京东商品信息数据的。首先我们先打开网页,输入需要搜索的关键词,然后进行页面分析,提取我们需要的内容。这里我们主要抓取京东某个商品前50页的信息,主要包括名称、价格、图片和商店。


代理IP如何帮助爬虫爬取京东商品信息数据的


  代码如下:


  def get_jd():


  #循环获得网页url


  for i in range(1, 51):


  #定义请求头


  headers = {


  'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) '


  'AppleWebKit/537.36 (KHTML, like Gecko) '


  'Chrome/63.0.3239.132 Safari/537.36',


  'upgrade-insecure-requests': '1',


  }


  url = 'https://search.jd.com/Search?keyword={}&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&page={}'.format(input_name, 2*i-1)


  #获取网页


  html = requests.get(url, headers=headers).content.decode('utf-8')


  #分析网页


  soup = BeautifulSoup(html, 'lxml')


  li_list = soup.find_all('li', class_='gl-item')


  detail_list = []


  for li in li_list:


  #提取需要内容


  image = 'https:' + li.find('div', class_='p-img').find('a').find('img')['source-data-lazy-img']


  price = li.find('div', class_='p-price').find('i').text


  name = li.find('div', class_='p-name').find('i').text


  shop = li.find('div', class_='p-shopnum').text


  #生成字典


  dict1 = {


  'name': name,


  'image': image,


  'price': price,


  'shop': shop


  }


  detail_list.append(dict1)


  return detail_list


  def save_content(contents):


  #定义文件标题


  filename = input_name + '.txt'


  for content in contents:


  with open(filename, 'a', encoding='utf-8') as f:


  #将字典转化为json对象保存在文件中


  f.write(json.dumps(content, ensure_ascii=False))


  def main():


  content = get_jd()


  save_content(content)


  if __name__ == '__main__':


  main()


  通过上述代码,我们就可以获取到京东商品的相关信息数据。 黑洞HTTP为您提供安全稳定、高效便捷的爬虫代理IP服务,更多问题请点击官网咨询客服。


相关文章内容简介

1 代理IP如何帮助爬虫爬取京东商品信息数据的

  代理IP如何帮助爬虫爬取京东商品信息数据的?今天黑洞HTTP就为大家分享一下爬虫如何爬取京东商品信息数据的。首先我们先打开网页,输入需要搜索的关键词,然后进行页面分析,提取我们需要的内容。这里我们主要抓取京东某个商品前50页的信息,主要包括名称、价格、图片和商店。  代码如下:  def get_jd():  #循环获得网页url  for i in range(1, 51):  #定义请求头  headers = {  'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) '  'AppleWebKit/537.36 (KHTML, like Gecko) '  'Chrome/63.0.3239.132 Safari/537.36',  'upgrade [阅读全文]

热门标签

最新标签

推荐阅读

  1. 21

    2019-10

    什么是代理IP的速度和稳定性?

    我们在选择代理IP的时候,首要看的就是代理IP的速度和稳定性,很多人并不明白。那么,什么是代理IP的速度和稳定性呢?

  2. 03

    2019-08

    爬虫选择什么代理IP好

    为了获取数据,很多技术人员通过爬虫的方式抓取,爬虫程序抓取信息很方便,效率高,速度快,但同时也会受到反爬虫的限制,例如IP限制。所以,爬虫工作需要代理IP的协助。那么,爬虫选

  3. 22

    2019-08

    爬虫动态IP代理如何选择?

    由于开python培训有讲过爬虫的缘故,这个问题已经被ask无数次了,一般问的基友也都是爬虫防ban用的,总体来讲,质量好的都不便宜,便宜的质量都比较渣,一分钱一分货。

  4. 02

    2019-09

    socks代理与http代理的比较

    相较于http代理而言,socks代理工作在更底一层, 不需要知晓具体请求内容, 直接进行转发, 例如ss软件内部就使用了socks5代理技术。

  5. 05

    2019-06

    代理ip选择什么样的?

    首先,代理IP是什么原理有什么用处大家已经很清楚了,那么怎么找代理IP 呢?首先要明确你要使用的是国内的代理IP还是国外的代理IP。那么接下来就是搜索代理IP了,百度上输入代理IP,会搜索

  6. 20

    2019-07

    获取代理服务器的两种方法

    有两种方法可以获取代理服务器,从上面的内容我们已经知道,要找代理服务器其实就是要找出该服务器的IP地址、服务类型及所用端口,我们可以使用“代理猎手Proxy Hunter”这个软件来搜索,