为了账号安全,请及时绑定邮箱和手机立即绑定

一个关于机器学习二元分类的问题?

/ 猿问

一个关于机器学习二元分类的问题?

海绵宝宝撒 2018-07-06 18:06:23

需求
目前每天人工从1000~2000篇抓取的文章中 挑选出10~20篇高质量的文章 推送给客户
想要改成机器自动筛选

想问一下 用机器学习实现这个需求该怎么做呢?

样本大概是这样:
平台 标题 内容 内容长度 是否推送(label)


查看完整描述

2 回答

?
偶然的你

样本有多大呢?有100W吗?如果样本很大的话,可以直接深度学习。如果不是太大的话,根据你给出的样本可以直接上逻辑回归。不过要自己提取特征,特征太小可能推荐不精准,特征太大又可能过拟合。还是要自己尝试一下。

查看完整回答
反对 回复 2018-07-21
?
凤凰求蛊

先从特征工程上仔细思考?在抓取新闻过程中更多维度的抓取。然后重点落在高质量如何判断。

  • 如出现次数,评论数,互评数,长度,是否广告,都可能是影响文章“质量”的因素。

  • 然后再以上述数据作为输入传入模型(LR/DT/SVM),输出结果。

除此之外,如果不想做特征工程,可以考虑深度学习。将每条新闻,以一串长文本形式进行word embedding作为序列传入神经网络,输出是否高质量的二分类。word embedding可以采用预训练好的或在训练模型时同时训练。


查看完整回答
反对 回复 2018-07-21

添加回答

回复

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信