直接学习更为丰富的输出

一个图像分类算法可以输入一个图像 $x$ ,并输出一个表示对象类别的整数。那么一个算法可以输出一个完整的句子来对图像进行描述吗?

举个例子——

输入 $x$ 为:

输出 $y$ 为:“一辆黄色的公共汽车在路上开着,背景是绿色的树和绿色的草。 ”

传统的监督学习应用学得一个函数:$h:X \mapsto Y$ ,其中输出 $Y$ 通常是一个整数或者实数。例如:

问题 X Y
垃圾邮件分类 邮件 垃圾邮件/非垃圾邮件 (0/1)
图像识别 图像 整数值标签
房价预测 房屋特征 美元价格
产品推荐 产品与用户特征 购买机率

端到端深度学习中最令人兴奋的进展之一是,它让我们直接学习比数字复杂得多的 $y$ . 在上面的图像配字示例中,你可以使用一个神经网络输入一个图像($x$),并直接输出一个标题($y$).

下面有更多的例子:

问题 X Y 文献引用
图像配字 图像 文本 Mao et al., 2014
机器翻译 英语文本 法语文本 Mao et al., 2014
问题回答 (文本,问题)对 回答文本 Bordes et al., 2015
语音识别 音频 转录 Hannun et al., 2015
文本转语音 文本特征 音频 van der Oord et al., 2016

这体现了深度学习的高速变化趋势:当你有正确的(输入,输出)标签对的时候,有时可以进行端到端学习,即使输出是一个句子、图像、音频,或者其它的比一个数字更丰富的输出形式。


改进当前页面