快速构建并迭代你的第一个系统

当你想要构建一个新的垃圾邮件过滤系统时,团队可能会有各式各样不同的想法:

  • 收集海量的垃圾邮件作为训练集。例如,设置一个 “蜜罐(honeypot,计算机安全领域又称为诱饵)”,故意地向垃圾邮件系统发送一些虚假邮件地址,以便于能够自动收集到垃圾邮件系统发送到这些地址的垃圾邮件内容。
  • 开发用于理解邮件文本内容的功能。
  • 开发用于理解邮件信封或邮件头部特征的功能,据此了解邮件经由了哪些网络服务器进行中转。
  • 更多…

虽然我在反垃圾邮件领域已经有了一定的经验,却依然难以保证每次都能顺利在上面的方向中进行抉择。如果你在此领域并不是一个专家,难度会变得更大。

如果在一开始就试图设计和构建出完美的系统会显得有些困难,不妨先花几天时间构建并训练一个最基础的系统。

这个建议旨在帮助那些想要构建 AI 应用的读者,而不是那些想要发表研究论文的人,我将会在之后的内容中提到与研究有关的话题。

或许这个最基础的系统与我们所能构建的 “最佳” 系统相去甚远,但研究其中的基础功能也是很有价值的:你能快速找到一些线索来帮助你决定在什么方向上投入时间。后面的一些章节会向你剖析该如何解读这些线索。


改进当前页面