Un gruppo di ricercatori della Huazhong University of Science and Technology sostiene di aver sviluppato un framework capace di competere con i più grandi modelli AI commerciali per l’editing generativo delle immagini, usando una frazione delle risorse normalmente richieste.
Il sistema si chiama Moebius e punta a rivoluzionare l’image inpainting, la tecnica che consente di ricostruire parti mancanti di una fotografia mantenendo coerenza semantica, prospettiva e dettagli visivi. Secondo i dati pubblicati dagli autori, Moebius raggiunge risultati comparabili a FLUX.1 Fill Dev utilizzando appena 220 milioni di parametri contro gli oltre 11 miliardi del modello di riferimento.
Come Moebius ottiene risultati con meno parametri
Il cuore della ricerca è una nuova architettura denominata LλMI (Local Lambda Mix Interaction), che riprogetta il backbone del modello di diffusione per evitare che la riduzione delle dimensioni comporti perdita di qualità rappresentativa.
Il sistema utilizza due componenti, Local Lambda e Interactive Lambda, che condensano informazioni spaziali e relazioni semantiche globali in matrici compatte, preservando le interazioni più rilevanti tra gli elementi dell’immagine. La seconda innovazione riguarda un sistema di adaptive multi-granularity distillation: il modello compatto apprende da una rete molto più grande lavorando nello spazio latente, senza costose operazioni di decodifica a livello di pixel.






