链接 | https://zhuanlan.zhihu.com/p/163358322
编辑 | 深度传送门
文章地址:https://arxiv.org/pdf/2007.10296.pdf
GitHub 地址:https://github.com/arezooSarvi/sigir2020-eComWorkshop-LTM-for-product-search
Vocabulary Gap 一直是信息检索领域的核心挑战,特别是在电商的搜索场景下,Vocabulary Gap的问题比网络搜索更加严重。本文对最近使用的Learning to Match 的方法进行了比较,进行比较的目的是为了更好的理解现有的流行方案并选择好的模型。
首先文章给出了如下结论:
1.一些短文本匹配的方式,例如 MV-LSTM 和DRMMTKS,仍然是最好的几个模型之一。如果兼顾时效性和准确性而言ARC-I 应该是首选的模型
2.最新的基于BERT的模型的效果中等,可能是BERT文本经过预训练的样本与产品搜索中的文本有很大不同。(这块我感觉的原因有如下几个1.bert 需要在搜索的预料进行再次的预训练 2.需要对bert进行fine-tune)
Implications of the vocabulary gap in product search.
在电商搜索中,query和title 的不匹配是常见的问题。虽然bm25仍然是比较常用的算法。但是现在越来越过的神经网络的工作通过有限维向量空间中表示查询和文档并 计算它们在该空间中的相似度,这些方法超过了原有的关键字匹配的方案。vocabulary gap 在电商搜索中挑战更加严峻 是由于 商品标题和query往往很短,并且title不一定是结构良好的句子,而是由短语或关键字的简单组合组成。
LEARNING TO MATCH METHODS
Learning to Match methods 一版分为如下几类 representation-based,interaction-based ,Hybrid Models。
Representation-Based Models
representation 的model一版是通过分别学习query和doc的低维向量表示,然后通过一种匹配函数计算向量间的相似度。这种模型的优势在于模型简单,时效性好。
DSSM:DSSM是第一个提出深度语义匹配的模型。
CDSSM:将DSSM中的MLP换成了CNN。
MV-LSTM
ARC-I.
Interaction-Based Models
Interaction model 一般是先对query和doc进行共同表示,然后在通过网络进行特征提取,输出相似度。
ARC-II.
DRMM
DRMMTKS
专用于短文本匹配,并将DRMM匹配的直方图替换为top-k最大池化层
MatchPyramid
K-NRM
CONV-KNRM
Hybrid Models
同时包含Representation和Interaction 的方式
DUET
BERT:通过预训的bert然后再采用cls作为向量表示信息,通过另一个线性变换层进行预测。
实验数据:
模型的表现:
query长短对模型的影响:
query的流行度对模型的影响:
训练/推理时间与模型表现
总的来说,文章总结了12中Learning to Match的方法一些对比。实验还是很丰富,正好本人也正在做一些类似的事情在工业级的数据集上。我们的数据将会比文章数据规模大10倍以上,同时对于bert 我们也会先进行一些fine-tune,另外我们也正在对比一些传统的模型。等实验完全做完之后。我们会放出一些实验记录情况。欢迎持续关注。
<section style="white-space: normal;line-height: 1.75em;text-align: center;"><strong style="color: rgb(0, 0, 0);font-family: -apple-system-font, system-ui, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;widows: 1;background-color: rgb(255, 255, 255);font-size: 16px;max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;letter-spacing: 0.5px;font-size: 14px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><strong style="max-width: 100%;font-size: 16px;letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;letter-spacing: 0.5px;box-sizing: border-box !important;overflow-wrap: break-word !important;">—</span></strong>完<strong style="max-width: 100%;font-size: 16px;letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;letter-spacing: 0.5px;font-size: 14px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><strong style="max-width: 100%;font-size: 16px;letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;letter-spacing: 0.5px;box-sizing: border-box !important;overflow-wrap: break-word !important;">—</span></strong></span></strong></span></strong></section><pre><pre style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="max-width: 100%;letter-spacing: 0.544px;white-space: normal;font-family: -apple-system-font, system-ui, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;widows: 1;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section powered-by="xiumi.us" style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="margin-top: 15px;margin-bottom: 25px;max-width: 100%;opacity: 0.8;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="max-width: 100%;letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section powered-by="xiumi.us" style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="margin-top: 15px;margin-bottom: 25px;max-width: 100%;opacity: 0.8;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section><section style="margin-bottom: 15px;padding-right: 0em;padding-left: 0em;max-width: 100%;color: rgb(127, 127, 127);font-size: 12px;font-family: sans-serif;line-height: 25.5938px;letter-spacing: 3px;text-align: center;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;color: rgb(0, 0, 0);box-sizing: border-box !important;overflow-wrap: break-word !important;"><strong style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;font-size: 16px;font-family: 微软雅黑;caret-color: red;box-sizing: border-box !important;overflow-wrap: break-word !important;">为您推荐</span></strong></span></section><section style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;max-width: 100%;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;text-align: center;box-sizing: border-box !important;overflow-wrap: break-word !important;">长尾分布下图像分类问题最新综述(2019-2020)</section><section style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;max-width: 100%;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;text-align: center;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="font-size: 14px;">LSTM终获正名,获IEEE 2021神经网络先驱奖!</span><br /></section><section style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;max-width: 100%;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;text-align: center;box-sizing: border-box !important;overflow-wrap: break-word !important;">特朗普拿H1B签证开刀,LeCun吴恩达等实名谴责!</section><section style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;max-width: 100%;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;text-align: center;box-sizing: border-box !important;overflow-wrap: break-word !important;">数据分析入门常用的23个牛逼Pandas代码</section><section style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;max-width: 100%;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;text-align: center;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="color: rgb(87, 107, 149);font-size: 14px;">如何在科研论文中画出漂亮的插图?</span><br /></section></section></section></section></section></section></section></section></section>
本篇文章来源于: 深度学习这件小事
本文为原创文章,版权归知行编程网所有,欢迎分享本文,转载请保留出处!
内容反馈