直接学习更为丰富的输出
一个图像分类算法可以输入一个图像 $x$ ,并输出一个表示对象类别的整数。那么一个算法可以输出一个完整的句子来对图像进行描述吗?
举个例子——
输入 $x$ 为:
输出 $y$ 为:“一辆黄色的公共汽车在路上开着,背景是绿色的树和绿色的草。 ”
传统的监督学习应用学得一个函数:$h:X \mapsto Y$ ,其中输出 $Y$ 通常是一个整数或者实数。例如:
问题 | X | Y |
---|---|---|
垃圾邮件分类 | 邮件 | 垃圾邮件/非垃圾邮件 (0/1) |
图像识别 | 图像 | 整数值标签 |
房价预测 | 房屋特征 | 美元价格 |
产品推荐 | 产品与用户特征 | 购买机率 |
端到端深度学习中最令人兴奋的进展之一是,它让我们直接学习比数字复杂得多的 $y$ . 在上面的图像配字示例中,你可以使用一个神经网络输入一个图像($x$),并直接输出一个标题($y$).
下面有更多的例子:
问题 | X | Y | 文献引用 |
---|---|---|---|
图像配字 | 图像 | 文本 | Mao et al., 2014 |
机器翻译 | 英语文本 | 法语文本 | Mao et al., 2014 |
问题回答 | (文本,问题)对 | 回答文本 | Bordes et al., 2015 |
语音识别 | 音频 | 转录 | Hannun et al., 2015 |
文本转语音 | 文本特征 | 音频 | van der Oord et al., 2016 |
这体现了深度学习的高速变化趋势:当你有正确的(输入,输出)标签对的时候,有时可以进行端到端学习,即使输出是一个句子、图像、音频,或者其它的比一个数字更丰富的输出形式。
- 上一页
- 下一页