IP代理软件,http代理,API提取-黑洞HTTP

黑洞HTTP

您的位置: 首页 > 新闻资讯 > HTTP代理 > 正文

代理IP如何帮助爬虫爬取京东商品信息数据的

发布时间:2019年04月16日 来源:互联网

  代理IP如何帮助爬虫爬取京东商品信息数据的?今天黑洞HTTP就为大家分享一下爬虫如何爬取京东商品信息数据的。首先我们先打开网页,输入需要搜索的关键词,然后进行页面分析,提取我们需要的内容。这里我们主要抓取京东某个商品前50页的信息,主要包括名称、价格、图片和商店。


代理IP如何帮助爬虫爬取京东商品信息数据的


  代码如下:


  def get_jd():


  #循环获得网页url


  for i in range(1, 51):


  #定义请求头


  headers = {


  'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) '


  'AppleWebKit/537.36 (KHTML, like Gecko) '


  'Chrome/63.0.3239.132 Safari/537.36',


  'upgrade-insecure-requests': '1',


  }


  url = 'https://search.jd.com/Search?keyword={}&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&page={}'.format(input_name, 2*i-1)


  #获取网页


  html = requests.get(url, headers=headers).content.decode('utf-8')


  #分析网页


  soup = BeautifulSoup(html, 'lxml')


  li_list = soup.find_all('li', class_='gl-item')


  detail_list = []


  for li in li_list:


  #提取需要内容


  image = 'https:' + li.find('div', class_='p-img').find('a').find('img')['source-data-lazy-img']


  price = li.find('div', class_='p-price').find('i').text


  name = li.find('div', class_='p-name').find('i').text


  shop = li.find('div', class_='p-shopnum').text


  #生成字典


  dict1 = {


  'name': name,


  'image': image,


  'price': price,


  'shop': shop


  }


  detail_list.append(dict1)


  return detail_list


  def save_content(contents):


  #定义文件标题


  filename = input_name + '.txt'


  for content in contents:


  with open(filename, 'a', encoding='utf-8') as f:


  #将字典转化为json对象保存在文件中


  f.write(json.dumps(content, ensure_ascii=False))


  def main():


  content = get_jd()


  save_content(content)


  if __name__ == '__main__':


  main()


  通过上述代码,我们就可以获取到京东商品的相关信息数据。 黑洞HTTP为您提供安全稳定、高效便捷的爬虫代理IP服务,更多问题请点击官网咨询客服。


相关文章内容简介

1 代理IP如何帮助爬虫爬取京东商品信息数据的

  代理IP如何帮助爬虫爬取京东商品信息数据的?今天黑洞HTTP就为大家分享一下爬虫如何爬取京东商品信息数据的。首先我们先打开网页,输入需要搜索的关键词,然后进行页面分析,提取我们需要的内容。这里我们主要抓取京东某个商品前50页的信息,主要包括名称、价格、图片和商店。  代码如下:  def get_jd():  #循环获得网页url  for i in range(1, 51):  #定义请求头  headers = {  'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) '  'AppleWebKit/537.36 (KHTML, like Gecko) '  'Chrome/63.0.3239.132 Safari/537.36',  'upgrade [阅读全文]

热门标签

最新标签

推荐阅读

  1. 14

    2019-11

    http代理IP用于爬虫采集有用吗?

    在整体互联网的web结构当中,一个出现频率非常高的组件就是http代理服务器,当然其他的还有浏览器,缓存服务器等等,如果想要更换的认识并了解web构架,那么我们需要理解http代理服务器

  2. 03

    2019-06

    IP代理服务器软件让爬虫效率更高

    别看网络爬虫现在这么火,其实做网络爬虫一点都不容易,辛辛苦苦写了个代码,爬着爬着就突然爬不动了,明明小心翼翼的绕过了反爬机制,可怎么又被另一个反爬机制给抓住了,正所谓明枪

  3. 28

    2019-06

    互联网时代离不开http代理ip

    一直以来,社会各界总在讨论电商模式是否能够颠覆甚至取代传统4S店模式。其实未来并不是电商颠覆4S店,而是4S店和厂家要积极拥抱互联网。随着互联网行业的不断发展,越来越多的消费者在

  4. 05

    2019-05

    代理ip速度慢怎么办?

    很多用黑洞动态转发的IP代理资源会发现,某些对速度要求比较高的业务会发现,动态转发的有点很多,但是有一个明显的缺点,就是速度相对会慢一些,毕竟多了一层转发,那么这种情况就没

  5. 19

    2019-09

    为何要使用高匿代理ip?

    虽然说电商事业发展的越来越快,但是在整个电商大行业下,还是分有很多类的。近几年兴起的电商和传统的淘宝行业还是不同的。因为淘宝处在一个被动的位置,不需要淘宝大肆宣传也会有客

  6. 13

    2019-07

    多账号注册用代理ip可以吗?

    很多用户在注册账号时都遇到IP受限问题,这是目标网站为了防止用户恶意注册达到某种目的的限制。这种限制除了影响了恶意注册用户,也影响了一些有多账号操作需求的常规用户,对此该怎