IP代理软件,http代理,API提取-黑洞HTTP

黑洞HTTP

您的位置: 首页 > 新闻资讯 > HTTP代理 > 正文

代理IP如何帮助爬虫爬取京东商品信息数据的

发布时间:2019年04月16日 来源:互联网

  代理IP如何帮助爬虫爬取京东商品信息数据的?今天黑洞HTTP就为大家分享一下爬虫如何爬取京东商品信息数据的。首先我们先打开网页,输入需要搜索的关键词,然后进行页面分析,提取我们需要的内容。这里我们主要抓取京东某个商品前50页的信息,主要包括名称、价格、图片和商店。


代理IP如何帮助爬虫爬取京东商品信息数据的


  代码如下:


  def get_jd():


  #循环获得网页url


  for i in range(1, 51):


  #定义请求头


  headers = {


  'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) '


  'AppleWebKit/537.36 (KHTML, like Gecko) '


  'Chrome/63.0.3239.132 Safari/537.36',


  'upgrade-insecure-requests': '1',


  }


  url = 'https://search.jd.com/Search?keyword={}&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&page={}'.format(input_name, 2*i-1)


  #获取网页


  html = requests.get(url, headers=headers).content.decode('utf-8')


  #分析网页


  soup = BeautifulSoup(html, 'lxml')


  li_list = soup.find_all('li', class_='gl-item')


  detail_list = []


  for li in li_list:


  #提取需要内容


  image = 'https:' + li.find('div', class_='p-img').find('a').find('img')['source-data-lazy-img']


  price = li.find('div', class_='p-price').find('i').text


  name = li.find('div', class_='p-name').find('i').text


  shop = li.find('div', class_='p-shopnum').text


  #生成字典


  dict1 = {


  'name': name,


  'image': image,


  'price': price,


  'shop': shop


  }


  detail_list.append(dict1)


  return detail_list


  def save_content(contents):


  #定义文件标题


  filename = input_name + '.txt'


  for content in contents:


  with open(filename, 'a', encoding='utf-8') as f:


  #将字典转化为json对象保存在文件中


  f.write(json.dumps(content, ensure_ascii=False))


  def main():


  content = get_jd()


  save_content(content)


  if __name__ == '__main__':


  main()


  通过上述代码,我们就可以获取到京东商品的相关信息数据。 黑洞HTTP为您提供安全稳定、高效便捷的爬虫代理IP服务,更多问题请点击官网咨询客服。


相关文章内容简介

1 代理IP如何帮助爬虫爬取京东商品信息数据的

  代理IP如何帮助爬虫爬取京东商品信息数据的?今天黑洞HTTP就为大家分享一下爬虫如何爬取京东商品信息数据的。首先我们先打开网页,输入需要搜索的关键词,然后进行页面分析,提取我们需要的内容。这里我们主要抓取京东某个商品前50页的信息,主要包括名称、价格、图片和商店。  代码如下:  def get_jd():  #循环获得网页url  for i in range(1, 51):  #定义请求头  headers = {  'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) '  'AppleWebKit/537.36 (KHTML, like Gecko) '  'Chrome/63.0.3239.132 Safari/537.36',  'upgrade [阅读全文]

热门标签

最新标签

推荐阅读

  1. 23

    2019-11

    如何分析ip代理服务器的安全性?

    关于 IP代理服务器 的挑选方法,一直以来都是诸多网民希望得到的答案,但以实际情况分析,代理行业一直处于良好发展的状态,基于这一点,以前的挑选方法未必适用于现在,只是也有一些

  2. 25

    2019-04

    什么软件可以换IP?用代理IP!

    在如今互联网时代,如果不懂点网络知识,那肯定otu,不然你什么都不知道,,现在什么都是用网络科技信息化等等一些高科技东西,例如现在出门都不带现金了,吃饭买东西娱乐等等都可以一

  3. 20

    2019-11

    选择和使用代理ip需要注意什么?

    代理ip软件的使用事项!现在许多人都喜欢使用代理IP软件来为自己的工作提供帮助,例如爬虫、投票、补单等等都需要用到代理ip软件的辅助。那么,在使用代理ip软件的时候又有哪些需要注意的

  4. 05

    2019-11

    代理IP怎么验证有效?

    首先说说思路:将抓到的 IP 和端口从MySQL数据表中取出来,然后通过PHP中curl函数设置代理,再访问百度或者其他能访问到的网站,通过返回的状态码是否等于200来判断

  5. 18

    2019-03

    代理IP告诉你什么是顾客大数据?

    我们在搜索引擎中每一次搜索的记录、在电子商城中每一次的商品浏览和购买记录、每一次电子支付的数据...这些看似不相干的庞杂数据,汇总在一起,经过分析提炼,即可描绘出你这个人的行

  6. 04

    2019-06

    中国ip地址的a,b,c 类是什么意思?

    在互联网络上,现在做业务如爬虫、刷单、抢购等等都离不开代理IPip,很多用户对代理IPip知识了解的也比较少,有人咨询代理IP云,什么是ip地址的abc类。每个IP地址都包括两个标识码(ID):网络