Machine Learning Posts

VAGEN: Teaching Vision-Language Models to Build World Models Through Reinforcement Learning

Kangrui Wang, Pingyue Zhang, Zihan Wang, Yaning Gao, Linjie Li, Qineng Wang, Hanyang Chen, Chi Wan, Yiping Lu, Zhengyuan Yang, Lijuan Wang, Ranjay Krishna, Jiajun Wu, Li Fei-Fei, Yejin Choi, Manling Li

We introduce VAGEN, a reinforcement learning framework that trains vision-language model (VLM) agents to build internal world models through explicit visual state reasoning.

Fantastic Bugs and Where to Find Them in AI Benchmarks

Sang T. Truong, Yuheng Tu, Michael Hardy, Anka Reuel, Zeyu Tang, Jirayu Burapacheep, Jonathan Jude Perera, Chibuike Uwakwe, Benjamin W. Domingue, Nick Haber, Sanmi Koyejo

Machine Learning Posts

Machine Learning Posts

Other newsrooms on this story

Related reading

R&B-EnCoRe: Self-Improving Pretraining of Embodied Reasoning…

Mastering Agentic Techniques: AI Agent Reinforcement Learning | NVIDIA…

AI Techniques Archives

Pretrained to Imagine, Fine-Tuned to Act: The Rise of World-Action Models |…

Vision Language Models — When AI Learns to See and Talk (Part 3 of 3)

AI Concepts and Techniques in 2026: Memory, Inference, Fine-Tuning & Tokens

Other newsrooms on this story

Related reading

R&B-EnCoRe: Self-Improving Pretraining of Embodied Reasoning…

Mastering Agentic Techniques: AI Agent Reinforcement Learning | NVIDIA…

AI Techniques Archives

Pretrained to Imagine, Fine-Tuned to Act: The Rise of World-Action Models |…

Vision Language Models — When AI Learns to See and Talk (Part 3 of 3)

AI Concepts and Techniques in 2026: Memory, Inference, Fine-Tuning & Tokens