Getting Started

机器学习为什么需要策略

如何使用此书来帮助你的团队

先修知识与符号说明

规模驱动机器学习发展

Setting up development and test sets

开发集和测试集的定义

开发集和测试集应该服从同一分布

开发集和测试集应该有多大？

使用单值评估指标进行优化

优化指标和满意度指标

通过开发集和度量指标加速迭代

何时修改开发集、测试集和指标

小结：建立开发集和测试集

Basic Error Analysis

快速构建并迭代你的第一个系统

误差分析：根据开发集样本评估想法

在误差分析时并行评估多个想法

清洗误标注的开发集和测试集样本

将大型开发集拆分为两个子集，专注其一

Eyeball 和 Blackbox 开发集该设置多大？

小结：基础误差分析

Bias and Variance

偏差和方差：误差的两大来源

偏差和方差举例

与最优错误率比较

处理偏差和方差

偏差和方差间的权衡

减少可避免偏差的技术

训练集误差分析

减少方差的技术

Learning curves

诊断偏差与方差：学习曲线

绘制训练误差曲线

解读学习曲线：高偏差

解读学习曲线：其它情况

绘制学习曲线

Comparing to human-level performance

为何与人类表现水平进行对比

如何定义人类表现水平

超越人类表现水平

Training and testing on different distributions

何时在不同的分布上训练与测试

如何决定是否使用你所有的数据

如何决定是否添加不一致的数据

给数据加权重

从训练集泛化到开发集

辨别偏差、方差和数据不匹配误差

解决数据不匹配问题

人工合成数据

Debugging inference algorithms

优化验证测试

优化验证测试的一般形式

强化学习举例

End-to-end deep learning

端到端学习的兴起

端到端学习的更多例子

端到端学习的优缺点

流水线组件的选择：数据可用性

流水线组件的选择：任务简单性

直接学习更为丰富的输出

Error analysis by parts

根据组件进行误差分析

误差归因至某个组件

误差归因的一般情况

组件误差分析与人类水平对比

发现有缺陷的机器学习流水线

Conclusion

建立超级英雄团队 - 让你的队友阅读这本书吧！

直接学习更为丰富的输出

一个图像分类算法可以输入一个图像 $x$ ，并输出一个表示对象类别的整数。那么一个算法可以输出一个完整的句子来对图像进行描述吗？

举个例子——

输入 $x$ 为：

输出 $y$ 为：“一辆黄色的公共汽车在路上开着，背景是绿色的树和绿色的草。 ”

传统的监督学习应用学得一个函数：$h:X \mapsto Y$ ，其中输出 $Y$ 通常是一个整数或者实数。例如：

问题	X	Y
垃圾邮件分类	邮件	垃圾邮件/非垃圾邮件（0/1）
图像识别	图像	整数值标签
房价预测	房屋特征	美元价格
产品推荐	产品与用户特征	购买机率

端到端深度学习中最令人兴奋的进展之一是，它让我们直接学习比数字复杂得多的 $y$ . 在上面的图像配字示例中，你可以使用一个神经网络输入一个图像（$x$），并直接输出一个标题（$y$）.

下面有更多的例子：

问题	X	Y	文献引用
图像配字	图像	文本	Mao et al., 2014
机器翻译	英语文本	法语文本	Mao et al., 2014
问题回答	（文本，问题）对	回答文本	Bordes et al., 2015
语音识别	音频	转录	Hannun et al., 2015
文本转语音	文本特征	音频	van der Oord et al., 2016

这体现了深度学习的高速变化趋势：当你有正确的（输入，输出）标签对的时候，有时可以进行端到端学习，即使输出是一个句子、图像、音频，或者其它的比一个数字更丰富的输出形式。

改进当前页面