知行编程网知行编程网  2022-06-17 15:00 知行编程网 隐藏边栏 |   抢沙发  1 
文章评分 0 次,平均分 0.0

SIGIR 2020 | 一文综述Learning to Match各种方法对比

来自 | 知乎   作者 | 坏星星是大脸猫
链接 | https://zhuanlan.zhihu.com/p/163358322
编辑 | 深度传送门
这是一篇SIGIR 2020上的关于Learning to Match 方法的一些对比。文章实验很充分,对各种模型的对比也比较全面。是一篇好的Learning to Match 方法的总结。

SIGIR 2020 | 一文综述Learning to Match各种方法对比

文章地址:https://arxiv.org/pdf/2007.10296.pdf

GitHub 地址:https://github.com/arezooSarvi/sigir2020-eComWorkshop-LTM-for-product-search

Vocabulary Gap 一直是信息检索领域的核心挑战,特别是在电商的搜索场景下,Vocabulary Gap的问题比网络搜索更加严重。本文对最近使用的Learning to Match 的方法进行了比较,进行比较的目的是为了更好的理解现有的流行方案并选择好的模型。

首先文章给出了如下结论:

1.一些短文本匹配的方式,例如 MV-LSTM 和DRMMTKS,仍然是最好的几个模型之一。如果兼顾时效性和准确性而言ARC-I 应该是首选的模型

2.最新的基于BERT的模型的效果中等,可能是BERT文本经过预训练的样本与产品搜索中的文本有很大不同。(这块我感觉的原因有如下几个1.bert 需要在搜索的预料进行再次的预训练 2.需要对bert进行fine-tune)

Implications of the vocabulary gap in product search.

在电商搜索中,query和title 的不匹配是常见的问题。虽然bm25仍然是比较常用的算法。但是现在越来越过的神经网络的工作通过有限维向量空间中表示查询和文档并 计算它们在该空间中的相似度,这些方法超过了原有的关键字匹配的方案。vocabulary gap 在电商搜索中挑战更加严峻 是由于 商品标题和query往往很短,并且title不一定是结构良好的句子,而是由短语或关键字的简单组合组成。

LEARNING TO MATCH METHODS

Learning to Match methods 一版分为如下几类 representation-based,interaction-based ,Hybrid Models。

SIGIR 2020 | 一文综述Learning to Match各种方法对比


Representation-Based Models

representation 的model一版是通过分别学习query和doc的低维向量表示,然后通过一种匹配函数计算向量间的相似度。这种模型的优势在于模型简单,时效性好。

DSSM:DSSM是第一个提出深度语义匹配的模型。

SIGIR 2020 | 一文综述Learning to Match各种方法对比

CDSSM:将DSSM中的MLP换成了CNN。

SIGIR 2020 | 一文综述Learning to Match各种方法对比

MV-LSTM

SIGIR 2020 | 一文综述Learning to Match各种方法对比

ARC-I.

SIGIR 2020 | 一文综述Learning to Match各种方法对比

Interaction-Based Models

Interaction model 一般是先对query和doc进行共同表示,然后在通过网络进行特征提取,输出相似度。

ARC-II.

SIGIR 2020 | 一文综述Learning to Match各种方法对比

DRMM

SIGIR 2020 | 一文综述Learning to Match各种方法对比

DRMMTKS

专用于短文本匹配,并将DRMM匹配的直方图替换为top-k最大池化层

MatchPyramid

SIGIR 2020 | 一文综述Learning to Match各种方法对比

K-NRM

SIGIR 2020 | 一文综述Learning to Match各种方法对比

CONV-KNRM

SIGIR 2020 | 一文综述Learning to Match各种方法对比

Hybrid Models

同时包含Representation和Interaction 的方式

DUET

SIGIR 2020 | 一文综述Learning to Match各种方法对比

BERT:通过预训的bert然后再采用cls作为向量表示信息,通过另一个线性变换层进行预测。

SIGIR 2020 | 一文综述Learning to Match各种方法对比

实验数据:

SIGIR 2020 | 一文综述Learning to Match各种方法对比

模型的表现:

SIGIR 2020 | 一文综述Learning to Match各种方法对比

query长短对模型的影响:


SIGIR 2020 | 一文综述Learning to Match各种方法对比

query的流行度对模型的影响:

SIGIR 2020 | 一文综述Learning to Match各种方法对比

训练/推理时间与模型表现

SIGIR 2020 | 一文综述Learning to Match各种方法对比

总的来说,文章总结了12中Learning to Match的方法一些对比。实验还是很丰富,正好本人也正在做一些类似的事情在工业级的数据集上。我们的数据将会比文章数据规模大10倍以上,同时对于bert 我们也会先进行一些fine-tune,另外我们也正在对比一些传统的模型。等实验完全做完之后。我们会放出一些实验记录情况。欢迎持续关注。

<section style="white-space: normal;line-height: 1.75em;text-align: center;"><strong style="color: rgb(0, 0, 0);font-family: -apple-system-font, system-ui, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;widows: 1;background-color: rgb(255, 255, 255);font-size: 16px;max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;letter-spacing: 0.5px;font-size: 14px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><strong style="max-width: 100%;font-size: 16px;letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;letter-spacing: 0.5px;box-sizing: border-box !important;overflow-wrap: break-word !important;">—</span></strong>完<strong style="max-width: 100%;font-size: 16px;letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;letter-spacing: 0.5px;font-size: 14px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><strong style="max-width: 100%;font-size: 16px;letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;letter-spacing: 0.5px;box-sizing: border-box !important;overflow-wrap: break-word !important;">—</span></strong></span></strong></span></strong></section><pre><pre style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="max-width: 100%;letter-spacing: 0.544px;white-space: normal;font-family: -apple-system-font, system-ui, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;widows: 1;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section powered-by="xiumi.us" style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="margin-top: 15px;margin-bottom: 25px;max-width: 100%;opacity: 0.8;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="max-width: 100%;letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section powered-by="xiumi.us" style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="margin-top: 15px;margin-bottom: 25px;max-width: 100%;opacity: 0.8;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section><section style="margin-bottom: 15px;padding-right: 0em;padding-left: 0em;max-width: 100%;color: rgb(127, 127, 127);font-size: 12px;font-family: sans-serif;line-height: 25.5938px;letter-spacing: 3px;text-align: center;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;color: rgb(0, 0, 0);box-sizing: border-box !important;overflow-wrap: break-word !important;"><strong style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;font-size: 16px;font-family: 微软雅黑;caret-color: red;box-sizing: border-box !important;overflow-wrap: break-word !important;">为您推荐</span></strong></span></section><section style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;max-width: 100%;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;text-align: center;box-sizing: border-box !important;overflow-wrap: break-word !important;">长尾分布下图像分类问题最新综述(2019-2020)</section><section style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;max-width: 100%;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;text-align: center;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="font-size: 14px;">LSTM终获正名,获IEEE 2021神经网络先驱奖!</span><br  /></section><section style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;max-width: 100%;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;text-align: center;box-sizing: border-box !important;overflow-wrap: break-word !important;">特朗普拿H1B签证开刀,LeCun吴恩达等实名谴责!</section><section style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;max-width: 100%;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;text-align: center;box-sizing: border-box !important;overflow-wrap: break-word !important;">数据分析入门常用的23个牛逼Pandas代码</section><section style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;max-width: 100%;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;text-align: center;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="color: rgb(87, 107, 149);font-size: 14px;">如何在科研论文中画出漂亮的插图?</span><br  /></section></section></section></section></section></section></section></section></section>
SIGIR 2020 | 一文综述Learning to Match各种方法对比

本篇文章来源于: 深度学习这件小事

本文为原创文章,版权归所有,欢迎分享本文,转载请保留出处!

知行编程网
知行编程网 关注:1    粉丝:1
这个人很懒,什么都没写

发表评论

表情 格式 链接 私密 签到
扫一扫二维码分享