为了账号安全,请及时绑定邮箱和手机立即绑定

Nodejs爬取新闻列表

标签:
Node.js

爬取地址

https://www.thepaper.cn/

使用到的库

  • superagent (页面数据下载)

  • cheerio (页面数据解析)

代码

app.js

// 引入依赖const superagent = require('superagent'); // superagent是nodejs里一个非常方便的客户端请求代码模块const cheerio = require('cheerio'); // 可以理解为一个Node.js版本的Jquery// 爬取地址const url = 'https://www.thepaper.cn/';// 读取页面数据superagent.get(url).end((err, res) => {  if (err) throw Error(err);  let postlist = getFilterHtml(res.text);  // 存入数据库操作...})// 过滤数据function getFilterHtml(html) {  let $ = cheerio.load(html); // 使用cheerio
  let postList = []; // 存放新闻列表的数组

  // F12分析后的节点数据,用Jquery的语法进行过滤、摘取
  $('#listContent .news_li').each((index, item) => {    let elem = $(item);    let post = {      icon: elem.find('.tiptitleImg img').attr('src'),      title: elem.find('h2 a').text(),      intro: elem.find('p').text(),      link: elem.find('h2 a').attr('href'),      target: elem.find('.pdtt_trbs a').text(),      hot: elem.find('.pdtt_trbs .trbszan').text()
    }
    postList.push(post);
  })  return postList;
}



作者:daydreammoon
链接:https://www.jianshu.com/p/2cf813594bb2


点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消