自然语言处理（NLP）文本分类实战_学习笔记

首页免费课自然语言处理（NLP）文本分类实战笔记

自然语言处理（NLP）文本分类实战

最热最新

青山烟雨青衫客 05:02
词频-你文件频率（TF-IDF）

缺点：
1. 词频（TF）和逆文件频率（IDF）的统计和计算都直接从语料统计得出，当增加语料的时候，TF和IDF往往需要重新计算，无法增量更新，每次添加语料，需要重新计算词频。
2. 没有考虑特征词的位置因素对文本的区分度，词条出现在文档的不同位置时，对区分度贡献大小是不一样的。
3. 按照传统TF-IDF，往往一些生僻词的IDF（反文档频率）会比较高、因此这些生僻词往往会被误认为是文档关键词。
查看全部

0 采集收起来源：TF-IDF
2024-11-09
青山烟雨青衫客 04:26

One-Hot缺点：
1.词通常很多，几十万个词，那就需要句子长度x几十万的矩阵才能表示这个句子
2.这种方法效率低下，矩阵包含很多零
3.无法表达相似性
4.新加一个词我们需要重新计算

查看全部

0 采集收起来源：One Hot
2024-11-09
青山烟雨青衫客 02:48

One-Hot理解：
先给句子分词，分词组从词表，词表有索引，然后编码形成矩阵

查看全部

0 采集收起来源：One Hot
2024-11-09
青山烟雨青衫客 02:45

文本表示方法：One-Hot、TF-IDF、Word2Vec

查看全部

0 采集收起来源：文本表征介绍
2024-11-09
落日映江红 04:17

缺点:
浪费空间,不利于计算
体现不出单词间的关系

优点:
长度远小于字典长度
向量加爵代表相似度
可以增量添加新词

查看全部

0 采集收起来源：Word2vec
2024-09-10
落日映江红 03:10

一个朴素的想法就是,我们把One-Hot中0的位置也利用起来,并且用浮点数来表示词特性,这样我们就可以用固定的,较小的维度来表达海量的信息

查看全部

0 采集收起来源：Word2vec
2024-09-10
落日映江红 01:22

IDF 是逆文件频率，表示关键词的普遍程度。
如果包含词条i的文档越少，IDF越大，则说明该词条具有很好的类别区分能力。
某一特定词语的IDF，可以由总文件数目除以包含该词语的文件数目，再将得到的商取对数得到。

查看全部

0 采集收起来源：TF-IDF
2024-09-09
丶丨Coud 18:45

不懂的名词儿：
卷积
过拟合
loss
激活函数
embedding层

查看全部

0 采集收起来源：中文文本分类实战（上）
2024-03-22
慕慕3476723 20:19

试试笔记功能，调阈值

查看全部

0 采集收起来源：模型评估
2023-10-17
weixin_慕的地1184413 00:07

老师，代码在哪里呀？4章和5 章

查看全部

0 采集收起来源：文本分类
2023-02-25
weixin_慕虎4452475 07:25

建模区别：

查看全部

0 采集收起来源：分类任务
2023-01-02
慕后端8096530

1111

查看全部

0 采集收起来源：课程总览
2022-08-18
慕后端8096530 01:00

1111111

查看全部

0 采集收起来源：课程总览
2022-08-18
慕后端8096530 00:05

22222

查看全部

0 采集收起来源：课程总览
2022-08-18
moocer9527 01:13

github

查看全部

0 采集收起来源：One Hot代码实践
2022-07-27
moocer9527 05:37

独热编码的缺点

查看全部

0 采集收起来源：One Hot
2022-07-27
moocer9527 02:37

独热编码（one-hot）

查看全部

0 采集收起来源：One Hot
2022-07-27
moocer9527 03:20

文本表示方法

查看全部

0 采集收起来源：文本表征介绍
2022-07-27
moocer9527 01:33

文本分类任务描述

查看全部

0 采集收起来源：文本表征介绍
2022-07-27
moocer9527 00:55

文本分类任务描述

查看全部

0 采集收起来源：文本表征介绍
2022-07-27
moocer9527 10:56

应用——知识点抽取

查看全部

0 采集收起来源：课程总览
2022-07-27
moocer9527 09:15

应用-----非结构化信息提取

查看全部

0 采集收起来源：课程总览
2022-07-27
moocer9527 06:37

应用--意图识别

查看全部

0 采集收起来源：课程总览
2022-07-27
moocer9527 05:36

应用，情感分析

查看全部

0 采集收起来源：课程总览
2022-07-27
moocer9527 03:39

文本分类任务描述

查看全部

0 采集收起来源：课程总览
2022-07-27
小风满楼 03:00

我的笔记笔记笔记，自然期刊
下载视频

查看全部

0 采集收起来源：课程总览
2021-11-30
小风满楼 02:33

我的笔记笔记笔记，自然自然
下载视频

查看全部

0 采集收起来源：课程总览
2021-11-30
小风满楼 02:20

我的笔记笔记笔记，自然
下载视频

查看全部

0 采集收起来源：课程总览
2021-11-30
小风满楼 01:56

我的笔记笔记笔记，自然

查看全部

0 采集收起来源：课程总览
2021-11-30
小风满楼 01:35

我的笔记啊啊啊我的笔记啊啊啊我的笔记啊啊啊我的笔记啊啊啊我的笔记啊啊啊

查看全部

0 采集收起来源：课程总览
2021-11-30
小风满楼 01:08

我的笔记啊啊啊

查看全部

0 采集收起来源：课程总览
2021-11-30
小风满楼 00:35

下载视频

查看全部

0 采集收起来源：课程总览
2021-11-30
小风满楼 00:23

下载视频

查看全部

0 采集收起来源：课程总览
2021-11-30
慕桂英1504269

你是

查看全部

0 采集收起来源：课程总览
2021-11-01
慕数据5133711

噻。噻. ..xx t … x ，哦

查看全部

0 采集收起来源：TF-IDF
2021-10-20
慕桂英1504269

哈哈哈哈哈哈哈哈哈1111

查看全部

0 采集收起来源：课程总览
2021-10-25
慕桂英8051469 00:02

呢几天不知道🤷‍♀️、不过

那种习惯真的不好吃的

查看全部

0 采集收起来源：课程总览
2021-09-28
慕桂英8051469 00:02

里来来去去

查看全部

0 采集收起来源：课程总览
2021-09-28
慕桂英8051469 00:06

笔记为啥看不了呢

查看全部

0 采集收起来源：课程总览
2021-09-28
慕莱坞9364016 01:39

特别好

查看全部

1 采集收起来源：课程总览
2021-08-13
Eileen16

场景应用

查看全部

0 采集收起来源：课程总览
2021-08-09
遇见未来的你 05:53

夸克星8805
在自然语言处理中，若有个字典或字库里有N个单字，则每个单字可以被一个N维的one-hot向量代表。譬如若字库里仅有apple（苹果），banana（香蕉），以及pineapple（凤梨）这三个单字，则他们各自的one-hot向量可以为：
由于电脑无法理解非数字类的数据，One-hot编码可以将类别性数据转换成统一的数字格式，方便机器学习的算法进行处理及计算。而转换成固定维度的向量则方便机器学习算法进行线性代数上的计算。另外由于一个one-hot向量中，绝大部分的数字都是0，所以若使用稀疏矩阵的数据结构，则可以节省电脑内存的使用量
0

查看全部

0 采集收起来源：One Hot
2021-07-24
慕函数1095689 13:11

keras中交叉熵使用

查看全部

0 采集收起来源：分类任务
2021-07-23