AI 蛇油

标签
AI技术
正文

AI产品可能存在过度营销和虚假效果的问题,尤其在预测分析和自动驾驶领域。尽管AI技术在不断进步,但它无法真正预测未来,用户需理性管理期望,避免盲目追捧。

日期
March 6, 2025

本书的原名 《AI Snake Oil》,就算英文不怎么好也可以猜出所谓蛇油是啥意思 - 就是从前江湖郎中所兜售的假药,骗子们为了谋利,宣称自家神药如何神乎其技,如何做到让百病消散。

实际上,历史上还真有其事。"蛇油"(Snake Oil)源自19世纪美国的历史典故。当时中国铁路工人带来了用蛇油制成的中药,确实对肌肉酸痛有一定效果。后来,一些投机商人开始兜售假冒的"蛇油",声称它能治百病。

这些假药往往只是一些廉价油类混合物,根本不含真正的蛇油成分。商贩们通过夸大其词的广告和华丽的包装,欺骗消费者购买这些无效的产品。因此,"蛇油"(Snake Oil)在英语中逐渐成为"骗人的产品"、"虚假营销"的代名词。本书用这个比喻来形容某些AI产品和服务可能存在类似的问题:过度营销、夸大效果,实际效用却远不及宣传。

image
image

暂且把这些冷知识放在一边,让我们回到书的主题。在当今AI如潮水般席卷一切的时代,竟然有人出版了一本书,指出AI可能存在"卖假药"的嫌疑,这绝不仅仅是简单地泼冷水或不识时务。不妨想象一下你在校园时的情景:课堂上,每个女生的课本下都藏着一本琼瑶、三毛或席慕蓉的作品,男生们则沉迷于魂斗罗或金庸小说。此时,如果教导主任突然跳出来,声称要向琼瑶、三毛、金庸以及KONAMI这些"垃圾贩卖者"宣战,这简直就像是在反潮流、反时代,反人民,反革命,不论是为了哗众取宠还是什么其他的动机。

而这个贩卖反潮流论调的作者,是普林斯顿大学计算机专业的教授,还被认为是当代对AI最有影响力的若干个老家伙之一(当然没有Hinton或者LeCun那么旗帜性),所以这本书绝对没有哗众取宠或者倚老卖老的嫌疑。实际上,就算这本书显得与AI大潮格格不入,也仅仅是在标题层面而已,副标题以下部分就开始不那么反革命了,副标题 - 人工智能能做什么,不能做什么,如何区分。

闲话说完,让我们简要讨论正题:AI究竟可以分为哪些类型?它们各自能做什么?哪些领域目前仍然效果不佳?以及哪些任务从理论上就无法实现(这一点最为关键,我敢说你可能会对我的观点持不同意见)。顺便说一下,现在的AI是一天一个样,一个月换一个境界,所以现在对AI的论述保质期实在是短的可怜,好在这本书是2024年底出版,也不至于那么快就OUT。

根据本书的分类,AI主要应用于以下领域:

  • 预测分析:基于历史数据预测个人或事件的未来发展。例如,评估借款人的贷款违约风险,或是法院判断候审人员的再犯罪、潜逃风险以决定是否批准保释。在这类场景中,AI模型本质上是一个分类器,它根据训练数据和具体案例的参数,为每个案例提供相应的分类结果。这种场景当中的AI在绝大多数状况下都可信度存疑 - 这就是通常说的AI假药。 原因?简单说来,就是过去的数据无法预测未来,这不是形而上的哲学问题,而是一个非常明显的数学规律。
  • 生成式AI,也就是这两年大行其道的OpenAI、Claude、DeepSeek等。这类AI的性能和输出前景广阔。目前为止,只要我们能继续投入无节制的模型参数、训练数据、海量算力和电力,就能持续期待更高的性能。但我们需要了解生成式AI的本质:这类模型本质上是在字词和语句级别上的预测器。它根据用户的输入,不断计算下一个最合理的词,一个接一个地生成内容。至于多模态的图片和视频,原理也类似,只是在矩阵中预测每个像素的色彩编码罢了。
  • 响应式AI是一个广泛的概念,指根据外部输入做出决策的模型系统 — 比如社交媒体平台用于内容审核的AI,或自动驾驶AI。作者虽然没有直接评判这些AI的有效性,但实践显示,纯靠AI进行社交媒体内容审核的尝试基本已经失败。而在自动驾驶领域,现实证明AI模型所需的训练要求远超预期,且模型的实际应用也面临重大挑战。

那我们能从这里得到什么启示?很简单,在AI热潮之下,不要头脑发热,要正确理性地管理自己的期望,对AI祛魅,消除不必要的焦虑和恐惧。AI正在取得全面突破这点不假,但我们所目睹的也只是一项伟大工具的诞生(而已),说破了天也就是又一次技术革命(而已)…

以下部分是作者的OS,这些台词按照规范是不应该在这里的,但我们不是AI,我不管这些。

【你会说:"不然呢?难道我对AI做出了超出这个范围的非分之想?"】

【我反驳:"岂止,现在大家不都已经把AI捧上神坛了吗?Deepseek最大任务不是算命和预测国运吗?"】

【你恼羞成怒:"我没干过那些事!"】

【我不依不饶:"可你没少看那些愚蠢的微信公众号,你敢说没有吗?"】

【你反唇相讥:"我只是看别人用AI生产垃圾,而你可是亲自用AI生产垃圾,上周的报告就是用DeepSeek写的吧?"】

【我无语……沈吟片刻,突然扔出一句:"所以你承认那些是AI垃圾?"】

【你无语:"……"】

以上的文字还有另外一个目的:证明这篇文章不是AI写的。好了,我从小就抑制这种意识流式样的写作方法,但现在AI汹涌而来,我也只好放飞自我,以此贴上自我的标签以利于在机器文字的洪流中中流击水,以正声色!

最后加一段,如果你真的读到了这一段,我先给您磕一个,再扔出我自家认为最为重要的观点 - 其实在这本书里也提到了:AI没有办法预测未来,这是必然的。因为AI的实质只是一个数学模型而已,而数学模型本身就有无法突破的局限性:他可以用过去的数据来模拟未来,但无法预测未来;在最好的情况下,他可以接近未来的状况,而在最坏的情况下模型会对以往的数据给出100%正确的结果,而对于没有见过的(也就是未来的数据)给出完全不着边际的预测结果 - 这在数学上叫做过拟合(over-fitting)。

而作为杠精的你,又要本色再现,反驳道:那前文的生成式AI又怎么说?

好吧,既然你穷追不舍以命相逼,那我就大发慈悲,以德报怨。博尔赫斯【我最爱的四位作家之一】写过一篇著名的短篇小说《巴别图书馆》。在这个故事中,他描述了一个包含所有可能的书籍组合的图书馆 - 通过将26个字母、标点符号和空格进行所有可能的排列组合。这个图书馆里包含了一切已经写过和将要写的文字,包括对未来的所有可能描述。但这恰恰证明了我的观点:即使我们拥有包含所有可能性的图书馆,我们依然无法预知哪一本书准确描述了未来。生成式AI也是如此,它能产生各种可能的组合,并挑一个目前看起来最有吸引力的版本给你,但它从来就没打算真正"预测"未来。它只是在已知的概率空间中进行采样和重组。