📄Paper: RORA-VLM: Robust Retrieval Augmentation for Vision Language Models

Public At

International Conference on Learning Representations (ICLR) 2025

最近在找論文的 idea 剛好找到這篇，發表在 ICLR 2025，不過被 Reject 了有點可惜

這篇主要是把 RAG 應用到 VLM ，讓模型在回答問題時可以利用外部知識

在很多 VQA 的任務中，答案其實不在圖片裡面，而是需要額外的背景知識

Related reading