我不确定如何解决以下问题,我正在寻找一些指导:我有一个文件,其中每行包含一个随机广告标题。我需要做的是将每个标题分类为smartphone或not-smartphone,具体取决于广告是否销售手机。很抱歉文件不是英文的,但这里有一张截图显示了它的一点点: 完整文件在这里我遇到的问题:一些广告标题与智能手机有关,但它们实际上并不是在销售手机,而是与其相关的东西(配件)。示例:销售 Iphone X 手机壳的广告有些广告标题甚至没有手机品牌,只有型号。示例:“白色小米 Mi Mix 2s Global 64GB”或“J7 Pro 64gb 4g J730”。如果有一种方法可以从标题中提取准确的手机型号,那就太完美了,但是由于每个广告标题的格式不同,我找不到方法来做到这一点。通常品牌会生产多种产品,而智能手机只是其中一种产品。因此,当我按品牌名称过滤时,它通常会返回与智能手机(平板电脑、电视、充电器等)完全无关的广告。需要更多过滤即使允许我使用它,我也找不到包含所有智能手机型号列表的数据库,或者我不知道如何从中检索信息。到目前为止我的想法是:如果我可以访问包含大量智能手机型号的数据库,我可以直接在文件中搜索每个型号名称(例如“Iphone 5s”或“Moto G6”)。我尝试使用 FonoAPI https://fonoapi.freshpixl.com(这是一个智能手机数据库,用于使用 java、php 等查询有关手机的数据)来搜索特定品牌的智能手机型号,但 api 只会返回一个最大值每次 100 个结果。所以为了使用它,我需要从标题中提取产品型号名称,这样我就可以检查它是否列在 FonoAPI 数据库中因此,由于文件中的每个广告标题的格式都不同,我正在寻找有关如何执行此操作的一些想法,因为我找不到从标题中提取产品模型以与 FonoAPI 数据库进行比较的方法,两者都无法访问一些包含大量模型的大数据库直接在文件中查找它们。
1 回答

holdtom
TA贡献1805条经验 获得超10个赞
我的回答不是很准确,更像是我想提出的想法(因为我喜欢这个问题并且很乐意得到文件,似乎不可能从你的链接中得到它)。
首先,对于所有 NLP 问题,您需要确保所有文本的格式都相同。
获取手机型号数据库。我会尝试获取包含手机品牌的数据库。然后去一个销售网站做网页抓取。这样你会得到很多手机型号。
我会尝试使用像 LDA 这样的 NLP 模型,但使用另一种格式化方式(比如在 gb 和手机品牌之后去掉超出限制的词。我们希望所有的手机都接近这些词)。
这可能是愚蠢的想法,但我想分享(我不能评论 :D)。
添加回答
举报
0/150
提交
取消