最新文章专题视频专题问答1问答10问答100问答1000问答2000关键字专题1关键字专题50关键字专题500关键字专题1500TAG最新视频文章推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37视频文章20视频文章30视频文章40视频文章50视频文章60 视频文章70视频文章80视频文章90视频文章100视频文章120视频文章140 视频2关键字专题关键字专题tag2tag3文章专题文章专题2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章专题3
问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501
当前位置: 首页 - 科技 - 知识百科 - 正文

node.js爬取中关村的在线电瓶车信息

来源:懂视网 责编:小采 时间:2020-11-27 22:04:04
文档

node.js爬取中关村的在线电瓶车信息

node.js爬取中关村的在线电瓶车信息:背景 学习nodejs已经有段时间,网上很多nodejs爬虫的文章,所以着手练习写一段,最近打算买一辆电瓶车来上下班,但又不知道哪个好,网上是各说纷纭啊,于是就想着,干脆用node.js自己写一个小爬虫,来爬一下中关村在线里面电瓶车的信息吧。 简介 该d
推荐度:
导读node.js爬取中关村的在线电瓶车信息:背景 学习nodejs已经有段时间,网上很多nodejs爬虫的文章,所以着手练习写一段,最近打算买一辆电瓶车来上下班,但又不知道哪个好,网上是各说纷纭啊,于是就想着,干脆用node.js自己写一个小爬虫,来爬一下中关村在线里面电瓶车的信息吧。 简介 该d

背景

学习nodejs已经有段时间,网上很多nodejs爬虫的文章,所以着手练习写一段,最近打算买一辆电瓶车来上下班,但又不知道哪个好,网上是各说纷纭啊,于是就想着,干脆用node.js自己写一个小爬虫,来爬一下中关村在线里面电瓶车的信息吧。

简介

该demo采用node.js作为爬虫,为方便,有些地方使用es6语法,如有不懂,欢迎咨询😊

步骤

第一步,引入需要的库

var cheerio = require('cheerio');
var fetch = require('node-fetch');

// cheerio 是一个类似浏览器端的jQuery,用来解析HTML的
// fetch 用来发送请求

第二步,设置初始的爬取的入口(我身处杭州,所以地区选了杭州的🤣)

// 初始url
var url = "http://detail.zol.com.cn/convenienttravel/hangzhou/#list_merchant_loc"
// 由于每个a标签下是相对路径,故需要一个根地址来拼接,如下
var urlRoot = "http://detail.zol.com.cn" 
// 存放所有url,之所以用set,是为了防止有相同的而重复爬去
var urls = new Set()
// 存储所有数据
var data = [] 

至此,我们的准备部分结束了😅,接下来,开始表演了

分析网页,思考爬取的方式


每行4款,每页是48款,一共16页

思路:

  • 每次获取当前页48个链接,并点进去之后,拿到该电瓶车的名称和价格(其他信息获取方式一样,自行改就好😂)
  • 第一页的全部完成之后,翻到下一页,继续爬,直到最后一页结束
  • 首先我们定义一个函数如下

    // 这是得到每个页面的48个链接,并开始发送请求
    
    function ad(arg){
    // 参数 arg 先不管
    // 本地化一下需要爬取的链接
    let url2 = arg || url;
    // 请求第一页该网页,拿到数据之后,复制给 app
    var app = await fetch(url2).then(res=>res.text())
    // 然后假装用jQuery解析了
    var $ = cheerio.load(app)
    // 获取当前页所有电瓶车的a标签
    var ele = $("#J_PicMode a.pic")
    // 存放已经爬取过的url,防止重复爬取
    var old_urls = []
    var urlapp = []
    //拿到所有a标签地址之后,存在数组里面,等会儿要开始爬的
    for (let i = 0; i < ele.length; i++) {
    old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text()))
    }
    // 用把URL一块丢给promise处理
    urlapp = await Promise.all(old_urls)
    // 处理完成之后,循环加入jQuery😂
    for (let i = 0; i < urlapp.length; i++) {
    let $2 = cheerio.load(urlapp[i],{decodeEntities: false})
    data.push({
    name:$2(".product-model__name").text(),
    price:$2(".price-type").text()
    })
    }
    // 至此,一页的数据就爬完了
    // console.log(data);
    
    // 然后开始爬取下一页
    var nextURL = $(".next").attr('href')
    // 判断当前页是不是最后一页
    if (nextURL){
    let next = await fetch(urlRoot+nextURL).then(res=>res.text())
    // 获取下一页的标签,拿到地址,走你
    ad(urlRoot+nextURL)
    }
    return data
    }
    ad()

    完整代码如下

    var cheerio = require('cheerio');
    var fetch = require('node-fetch');
    var url = "http://detail.zol.com.cn/convenienttravel/hangzhou/#list_merchant_loc"
    var urlRoot = "http://detail.zol.com.cn"
    // var url = "http://localhost:3222/app1"
    var urls = new Set()
    var data = [] 
    async function ad(arg){
    let url2 = arg || url;
    var app = await fetch(url2).then(res=>res.text())
    var $ = cheerio.load(app)
    var ele = $("#J_PicMode a.pic")
    var old_urls = []
    var urlapp = []
    for (let i = 0; i < ele.length; i++) {
    old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text()))
    }
    urlapp = await Promise.all(old_urls)
    for (let i = 0; i < urlapp.length; i++) {
    let $2 = cheerio.load(urlapp[i],{decodeEntities: false})
    data.push({
    name:$2(".product-model__name").text(),
    price:$2(".price-type").text()
    })
    }
    
    var nextURL = $(".next").attr('href')
    if (nextURL){
    let next = await fetch(urlRoot+nextURL).then(res=>res.text())
    ad(urlRoot+nextURL)
    }
    return data
    }
    ad()

    总结

    声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。TEL:177 7030 7066 E-MAIL:11247931@qq.com

    文档

    node.js爬取中关村的在线电瓶车信息

    node.js爬取中关村的在线电瓶车信息:背景 学习nodejs已经有段时间,网上很多nodejs爬虫的文章,所以着手练习写一段,最近打算买一辆电瓶车来上下班,但又不知道哪个好,网上是各说纷纭啊,于是就想着,干脆用node.js自己写一个小爬虫,来爬一下中关村在线里面电瓶车的信息吧。 简介 该d
    推荐度:
    • 热门焦点

    最新推荐

    猜你喜欢

    热门推荐

    专题
    Top