为了账号安全,请及时绑定邮箱和手机立即绑定

怎么对词库中的词语进行高效的编码?

怎么对词库中的词语进行高效的编码?

慕丝7291255 2019-03-09 20:43:52
自己现在有两种方案,一种是直接用数进行增长// let weight=//     {//         '美国': 10,//         '军区': 5,//         '雇员': 7,//         '灰色': 4,//         '外星人': 7,//         'ufo': 3,//     }另一种是将字符用utf8的方式进行解析出来。let str='国'function hash(str){    let strcode=0     for (const iterator of str)      {         strcode += iterator.codePointAt(0).toString(2)     }    return strcode }console.log(hash(str))//0101011011111101但是两者的的编码仍然不能缩小数据量。计算这个是为了后面能够进行,文本相似度的计算。谢谢。
查看完整描述

2 回答

?
湖上湖

TA贡献2003条经验 获得超2个赞

编码当然不能缩小数据量,压缩才可以减小数据量。

查看完整回答
反对 回复 2019-03-09
?
HUX布斯

TA贡献1876条经验 获得超6个赞

计算相似度前的向量化文本除了词袋模型还可以使用TF-IDF, LSI等模型

查看完整回答
反对 回复 2019-03-09
  • 2 回答
  • 0 关注
  • 631 浏览

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信