Lukasz Kaiser（Transformer八子之一）谈后 Transformer

这期播客是 Jacob Effron 主持的 Unsupervised Learning 嘉宾是 AI 领域的传奇研究员 Lukasz Kaiser （他是奠定现代 AI 基础的 Transformer 论文《Attention Is All You Need》的共同作者之一，曾先后在 Google Brain 和 OpenAI 任职）。

在这场长达 1 个多小时的深度对话中，Lukasz 极其坦诚地分享了关于大模型瓶颈、架构演进、AI 编程（Coding）爆发以及他在 OpenAI 的经历。以下是无遗漏的详细内容总结：

1. 泛化与“后 Transformer”时代的争论

泛化能力的瓶颈：Lukasz 提到一个有趣的观察，人类可以通过极少的数据掌握概念，而大语言模型（LLM）更像是“在穷尽了所有其他错误选项后，才会极不情愿地学会真正的概念” [03:10]。它们需要万亿级（Trillion）的 Token 才能把表面现象和底层逻辑区分开。

空气中的那股“味道”（Whiff in the air）：目前旧金山 AI 圈（特别是各种派对和 NeoLabs 创业潮中）有一种强烈的直觉：Transformer 架构可能存在某种极限 [05:05]。许多研究员纷纷跳出大厂成立新实验室，试图寻找能用更少数据、实现更深层理解的“下一代架构”。

1. 泛化与“后 Transformer”时代的争论

Lukasz Kaiser（Transformer八子之一）谈后 Transformer

Lukasz Kaiser（Transformer八子之一）谈后 Transformer

Other newsrooms on this story

Related reading

Transformers 中的涌现类比推理

Manifest AI联创Jacob谈Transformer的不足与提出 Power Retention

Transformers — The Architecture That Changed AI (Part 1 of 3)

The Sequence Knowledge #874: Transformers or Not?

The Sequence Knowledge #878: Beyond Transformer: What We Learned

Vision Transformers — How Transformers Learned to See (Part 2 of 3)

Other newsrooms on this story

Related reading

Transformers 中的涌现类比推理

Manifest AI联创Jacob谈Transformer的不足与提出 Power Retention

Transformers — The Architecture That Changed AI (Part 1 of 3)

The Sequence Knowledge #874: Transformers or Not?

The Sequence Knowledge #878: Beyond Transformer: What We Learned

Vision Transformers — How Transformers Learned to See (Part 2 of 3)