Public At

International Conference on Learning Representations (ICLR) 2025

最近在找論文的 idea 剛好找到這篇,發表在 ICLR 2025,不過被 Reject 了有點可惜

這篇主要是把 RAG 應用到 VLM ,讓模型在回答問題時可以利用外部知識

在很多 VQA 的任務中,答案其實不在圖片裡面,而是需要額外的背景知識