首页手记浅谈多轮检索式对话最近的两篇SOTA-『MRFN』&a...

浅谈多轮检索式对话最近的两篇SOTA-『MRFN』&『IMN』

标签：

Java

新年第一天更博显得很有 仪式感（破音~） （虽然已经断更一个月了捂脸）
祝各位NLPer, 各位dalao 在新的一年里灵感爆棚投的offer全中万肆如意新年玉快

新年第一天日常网上冲浪竟然发现MRFN终于被放出来了啊啊啊~~

这篇论文我从去年十月一直等到现在

在这期间中不乏有Bert这种神器爆出来

但并没有打消我对这篇SOTA的期待

IMN 则是上个月中科院几位博士在arXiv在线发表的一篇论文主要是被数据吓坏了有、厉害

粗粗看可能觉得这两篇文章没什么关系一个是多粒度fusion 一个是类似于Bert的深层次网络处理

但仔细思考 IMN dot 之后的结构与MRFN的FLS有异曲同工的作用 不负责的猜测 FLS的设计思路会成为今后一段时间follow的点

PS: 以上两篇paper 都承诺开源code(虽然repository里面都没有code)之后会跟一下code 看一下具体效果

概括一下 MRFN
在原来SMN DAM 两粒度基础上提出三粒度6种表示
提出多表示匹配-合并(Matching-Aggregation)的三种策略
使用大量实验验证各个表示的作用，验证context轮次、平均对话长度变化时各个表示的作用情况
提出的多表示匹配-合并策略可推广到其他模型并在SMN中进行试验
比DAM快1.9x的训练速度
IMN
EMbedding层加入character-EMbedding 解决OOV
EMbedding层后接类似ELMo思路的BiLSTM(paper中这个结构最work)
dot之后做两个粒度的分析

`MRFN`

MRFN = Multi-Representation Fusion Network

MRFN是严睿老师组里陶重阳博士，小冰组徐粲学长，武威dalao去年的工作论文发表在WSDM2019上

全文看下来包括Motivation，实验设计都给我一种很舒服的感觉感觉一切都顺理成章一气呵成

事实上去年十月底在EMNLP2018的tutorial上严老师和武威dalao就已经把MRFN的结果秀出来了

之后徐学长回来分享的时候也提到这篇论文但论文一直没放出来

`Motivation`

这篇文章的Motivation是建立在最近几年多轮检索式对话基于的面向交互的思想

回想一下从Multi-view引入交互，到SMN完全基于交互，再到DAM多层交互

交互的粒度越多越work已经是大家的共识了

但如何更好的设计各个粒度之间的层次关系减少不必要的性能浪费

作者提出把粒度划分为word, short-term, long-term三个粒度6种表示

Word

思路和小夕dalao总结的调小fastText窗口大小解决OOV思路一致

character EMbedding: 利用字符级别的CNN（n-gram）解决typos/OOV的问题
Word2Vec: 这里很简单的用了word2Vec 很显然用ELMo Bert等会有更好的效果当然效率上面就不太划算

Contextual

CNN中卷积和池化相对于获取中心词周围N-gram的信息

RNN能保留短距离词之间的关系相对于sub-sequential

Sequential: 借用GRU的结构实现句子中间子串信息的获取
Local: 利用CNN获取N-gram的信息

Attention-based

self-Attention
cross-Attention

`Model`

但怎么把这些粒度有效的融合在一起

回想一下SMN在CNN之后才将word和short-term两个粒度的信息融合在一起

image

很自然的想到如果在之前/之后做fuse效果会怎么样？

这个思路就很像NIPS14年那篇讨论是应该先dot还是应该先做CNN的paper

作者就提出前中后三种fusion策略

image

其中左侧是之前设计的6钟表示

U->U*的过程是简单的把多个矩阵拼接成一个矩阵

$U^*_i \in R^{d^* \times n_i}(d^*=\sum d_k)$

而fusion则是利用类似CNN的公式

$t_{i,j}=f(\hat{e_{i,j}},\bar{e_{i,j}})=ReLU(W_p[(\hat{e_{i,j}}-\bar{e_{i,j}}) \odot \hat{e_{i,j}}-\bar{e_{i,j}});\hat{e_{i,j}} \odot \bar{e_{i,j}}]+b_p)$

其中

$w_{j,k}^i=V_a^T tanh(W_a[\hat{e_{i,j}\oplus \hat{e_{r,k}}]+b_a})$

$\alpha_{j,k}^i=\frac{exp(\omega_{j,k}^i)}{\sum(exp(\omega_{j,k}^i))}$

$\bar{e_{i,j}}=\sum{\alpha_{j,k}^i}\hat{e_{r,k}}$

之后就跟上GRU和MLR得到相应的score值

`Experiment`

本文做了大量的实验羡慕MSRA有用不完的机器呜呜呜

先是对比之前存在的一些模型

image

可以看出FLS效果比DAM提升比较显著即使是 FIS在Dubbo数据集上也比DAM略微好一点

然后还做了把模型结构中各个部分去掉之后的一些结果

image

可以看出Contextual两个部分效果略有重叠导致了去除其一掉点不会太多总的来说Contextual在模型中提点最大

还做了模型拓展性方面的实验把fusion三策略移到SMN也得到了不错的结果

image

最后还探究了多轮对话Context轮次对话长度变化时各个表示的作用占比情况

image

全篇看下来对于一个做系统出身的出身来看十分舒服可以说是比较Science 得到的结果也比较significantly

`IMN`

IMN = Interactive Matching Network

相对而言 IMN 论文写得有点随意取名字也有、(不是喷吐槽一下)

image

同样 IMN的作者也想到了用character来减缓OOV的问题

创新点在于 EMbedding层之后用了一个类似ELMo的处理策略来获取Sentence之间的信息

（当然如果现在来做用Bert做同样的事情可能会更好）

除了上述的idea之外作者还在dot完之后分成两个粒度做处理

仔细一想这和MRFN的FLS本质上是一种思路把fusion的过程往后推迟

image

然后这个result确实厉害 ym dalao

`References`

作者：gunjianpan
链接：https://www.jianshu.com/p/01a0ec0370c4

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

慕虎7371278

手记
篇

粉丝

201

获赞与收藏

871

关注作者，订阅最新文章

阅读免费教程

Java并发工具

23个小节 18530 300

Java 并发原理入门教程

26个小节 37427 552

Java 入门教程

50个小节 329392 3047

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

浅谈多轮检索式对话最近的两篇SOTA-『MRFN』&amp;『IMN』

MRFN

Motivation

Model

Experiment

IMN

References

阅读免费教程

浅谈多轮检索式对话最近的两篇SOTA-『MRFN』&『IMN』

`MRFN`

`Motivation`

`Model`

`Experiment`

`IMN`

`References`