这期播客是 Jacob Effron 主持的 Unsupervised Learning 嘉宾是 AI 领域的传奇研究员 Lukasz Kaiser (他是奠定现代 AI 基础的 Transformer 论文《Attention Is All You Need》的共同作者之一,曾先后在 Google Brain 和 OpenAI 任职)。

在这场长达 1 个多小时的深度对话中,Lukasz 极其坦诚地分享了关于大模型瓶颈、架构演进、AI 编程(Coding)爆发以及他在 OpenAI 的经历。以下是无遗漏的详细内容总结:

1. 泛化与“后 Transformer”时代的争论

泛化能力的瓶颈:Lukasz 提到一个有趣的观察,人类可以通过极少的数据掌握概念,而大语言模型(LLM)更像是“在穷尽了所有其他错误选项后,才会极不情愿地学会真正的概念” [03:10]。它们需要万亿级(Trillion)的 Token 才能把表面现象和底层逻辑区分开。

空气中的那股“味道”(Whiff in the air):目前旧金山 AI 圈(特别是各种派对和 NeoLabs 创业潮中)有一种强烈的直觉:Transformer 架构可能存在某种极限 [05:05]。许多研究员纷纷跳出大厂成立新实验室,试图寻找能用更少数据、实现更深层理解的“下一代架构”。