“弱监督”下的神经排序模型

来源: www.leiphone.com 发表于 2017-05-17
本篇文章 939 字,读完约 3 分钟

Beating the Teacher: Neural Ranking Models with Weak Supervision》,雷锋网独家首发。

  • 问题一:单凭来自无监督IR模型的标签作为弱监督训练数据,比如BM25,有可能完成一个神经排序模型的训练吗?

  • 问题二:在这样的情况下,什么样的输入表征和学习目标是最适合模型训练的?

  • 问题三:弱监督的操作过程,尤其是在标记数据有限的情况下,能否优化有监督的学习模型?

排序的体系结构

我们对三种神经排序模型进行了尝试:

1、分数模型

2、排序模型

3、试验排序模型

输入表征

在实验中,我们对三种不同的输入层表征展开了研究:

1、密集向量表征

2、稀疏向量表征

3、“嵌入”表征

机器能够从训练数据中提取有识别力的信号,而这些输入表征决定了网络提取信号的能力,也决定了不同的网络推广行为。

因为我们仅使用了BM25作为模型训练的监督,并且经过训练的模型甚至还超越了BM25,所以现在来说,模型的表现已经非常了不起了。

如何工作

关键信息:

从我们的“弱监督”模型训练实验中,我大致总结了一些关键信息:

主要内容:利用大量的无监督数据来推断“弱标签”,并把那些“弱标签”的弱信号用于有监督模型的学习。

  • 定一个能够让你的模型远离弱监督数据缺陷的目标。

  • 让机器自己决定采用哪种表征,并让它自己提取其中的特征。向机器人工输入特征,会扼杀模型的创造力!

  • 如果输入的特征数据是经过设计的,那么模型的普遍性就很有可能会被削弱,你可能会面临“过度拟合”的问题。

  • 假如你有足够多的训练数据,那么你的机器就能仅通过一个个本地的案例,轻松掌握全球范围内的信息。

  • 如果你有足够的数据源,你可以学习与你的任务更加匹配的“嵌入”。通过不断的更新,“嵌入”与你的任务会更加匹配。但前提是你有足够多的数据源。

  • 当你的模型中不存在表征学习时,神经网络中的非线性部分的用处不大。深度神经网络最重要的优越性在于它高效的表征学习的能力,当你的深度网络“深”到一定程度的时候,它的优越性就不起作用了。

本文新闻来源www.leiphone.com,版权归原作者所有,内容仅代表作者本人观点,不代表企查查的立场。如有任何疑问或需要删除,请联系 kf@qichacha.com