Articoli di ricerca IA selezionati quotidianamente con traduzioni
Superare i limiti cognitivi umani rappresenta una frontiera cruciale nell'addestramento degli LLM. Sistemi agentici proprietari come DeepResearch hanno dimostrato capacità sovrumane su benchmark estremamente complessi per la ricerca di informazioni, come BrowseComp, un risultato precedentemente irraggiungibile. Proponiamo che il loro successo dipenda da un modello di ragionamento sofisticato assente nei modelli open-source: la capacità di ridurre sistematicamente l'incertezza estrema quando si naviga in vasti paesaggi informativi. Basandoci su questa intuizione, introduciamo WebSailor, una metodologia completa di post-addestramento progettata per instillare questa capacità cruciale. Il nostro approccio prevede la generazione di nuovi compiti ad alta incertezza attraverso campionamento strutturato e offuscamento delle informazioni, avvio a freddo con RFT e un efficiente algoritmo di addestramento RL agentico, Duplicating Sampling Policy Optimization (DUPO). Con questa pipeline integrata, WebSailor supera significativamente tutti gli agenti open-source in compiti complessi di ricerca di informazioni, eguagliando le prestazioni degli agenti proprietari e riducendo il divario di capacità.
Il recupero di strutture 3D con comprensione della scena a vocabolario aperto a partire da immagini 2D è un compito fondamentale ma impegnativo. Recenti sviluppi hanno raggiunto questo obiettivo eseguendo un'ottimizzazione per scena con informazioni linguistiche incorporate. Tuttavia, questi metodi si basano fortemente sul paradigma di ricostruzione a vista densa calibrata, soffrendo quindi di gravi artefatti di rendering e sintesi semantiche implausibili quando sono disponibili solo viste limitate. In questo articolo, introduciamo un nuovo framework generativo, denominato LangScene-X, per unificare e generare informazioni multimodali 3D coerenti per la ricostruzione e la comprensione. Grazie alla capacità generativa di creare osservazioni nuove più coerenti, possiamo costruire scene 3D con linguaggio incorporato generalizzabili a partire solo da viste sparse. Nello specifico, addestriamo prima un modello di diffusione video TriMap che può generare aspetto (RGB), geometria (normali) e semantica (mappe di segmentazione) da input sparsi attraverso un'integrazione progressiva della conoscenza. Inoltre, proponiamo un Compressore Quantizzato Linguistico (LQC), addestrato su grandi dataset di immagini, per codificare in modo efficiente gli embedding linguistici, consentendo la generalizzazione tra scene senza necessità di riaddestramento per scena. Infine, ricostruiamo i campi di superficie linguistici allineando le informazioni linguistiche sulla superficie delle scene 3D, abilitando query linguistiche aperte. Esperimenti estensivi su dati del mondo reale dimostrano la superiorità del nostro LangScene-X rispetto ai metodi più avanzati in termini di qualità e generalizzabilità. Pagina del progetto: https://liuff19.github.io/LangScene-X.
I recenti progressi nel ragionamento multimodale sono stati significativamente avanzati dal paradigma del Chain-of-Thought (CoT) testuale, in cui i modelli conducono il ragionamento all'interno del linguaggio. Questo approccio centrato sul testo, tuttavia, tratta la visione come un contesto statico e iniziale, creando un "divario semantico" fondamentale tra i dati percettivi ricchi e il pensiero simbolico discreto. La cognizione umana spesso trascende il linguaggio, utilizzando la visione come una tavoletta mentale dinamica. Una simile evoluzione si sta ora verificando nell'IA, segnando un cambiamento di paradigma fondamentale da modelli che semplicemente pensano alle immagini a modelli che possono veramente pensare con le immagini. Questo paradigma emergente è caratterizzato da modelli che sfruttano le informazioni visive come passaggi intermedi nel loro processo di pensiero, trasformando la visione da un input passivo in uno spazio cognitivo dinamico e manipolabile. In questa rassegna, tracciamo questa evoluzione dell'intelligenza lungo una traiettoria di crescente autonomia cognitiva, che si svolge attraverso tre fasi chiave: dall'esplorazione di strumenti esterni, attraverso la manipolazione programmatica, fino all'immaginazione intrinseca. Per strutturare questo campo in rapida evoluzione, la nostra rassegna offre quattro contributi chiave. (1) Stabiliamo i principi fondamentali del paradigma del pensare con le immagini e il suo framework a tre fasi. (2) Forniamo una revisione completa dei metodi principali che caratterizzano ciascuna fase di questa roadmap. (3) Analizziamo il panorama critico dei benchmark di valutazione e delle applicazioni trasformative. (4) Identifichiamo sfide significative e delineiamo promettenti direzioni future. Fornendo questa panoramica strutturata, miriamo a offrire una roadmap chiara per la ricerca futura verso un'IA multimodale più potente e allineata con l'uomo.
Nonostante i significativi progressi nei modelli di diffusione testo-immagine, ottenere un controllo spaziale preciso sugli output generati rimane una sfida. ControlNet affronta questo problema introducendo un modulo di condizionamento ausiliario, mentre ControlNet++ perfeziona ulteriormente l'allineamento attraverso una perdita di consistenza ciclica applicata solo agli ultimi passi di denoising. Tuttavia, questo approccio trascura le fasi intermedie della generazione, limitandone l'efficacia. Proponiamo InnerControl, una strategia di addestramento che impone la consistenza spaziale in tutti i passi di diffusione. Il nostro metodo addestra sonde convoluzionali leggere per ricostruire i segnali di controllo in input (ad esempio, bordi, profondità) dalle caratteristiche intermedie della UNet in ogni passo di denoising. Queste sonde estraggono efficientemente i segnali anche da latenti altamente rumorosi, consentendo controlli pseudo ground truth per l'addestramento. Minimizzando la discrepanza tra le condizioni previste e quelle target durante l'intero processo di diffusione, la nostra perdita di allineamento migliora sia la fedeltà del controllo che la qualità della generazione. Combinato con tecniche consolidate come ControlNet++, InnerControl raggiunge prestazioni all'avanguardia attraverso diversi metodi di condizionamento (ad esempio, bordi, profondità).
Nonostante il ruolo cruciale dei modelli di ricompensa (RMs) nell'apprendimento per rinforzo basato sul feedback umano (RLHF), gli attuali modelli open RMs all'avanguardia si comportano male nella maggior parte dei benchmark di valutazione esistenti, fallendo nel catturare lo spettro delle preferenze umane sfumate e sofisticate. Anche gli approcci che incorporano tecniche di addestramento avanzate non hanno portato a miglioramenti significativi delle prestazioni. Ipotesizziamo che questa fragilità derivi principalmente dalle limitazioni nei dataset di preferenze, che sono spesso ristretti nel campo di applicazione, etichettati sinteticamente o privi di un rigoroso controllo di qualità. Per affrontare queste sfide, presentiamo un dataset di preferenze su larga scala composto da 40 milioni di coppie di preferenze, denominato SynPref-40M. Per consentire la cura dei dati su larga scala, progettiamo una pipeline sinergica uomo-AI in due fasi che sfrutta i punti di forza complementari della qualità delle annotazioni umane e della scalabilità dell'AI. In questa pipeline, gli esseri umani forniscono annotazioni verificate, mentre i modelli linguistici di grandi dimensioni eseguono la cura automatica basata sulla guida umana. Addestrando su questa miscela di preferenze, introduciamo Skywork-Reward-V2, una suite di otto modelli di ricompensa che vanno da 0,6B a 8B di parametri, addestrati su un sottoinsieme accuratamente curato di 26 milioni di coppie di preferenze da SynPref-40M. Dimostriamo che Skywork-Reward-V2 è versatile in un'ampia gamma di capacità, tra cui l'allineamento con le preferenze umane, la correttezza oggettiva, la sicurezza, la resistenza ai bias stilistici e la scalabilità best-of-N, raggiungendo prestazioni all'avanguardia in sette principali benchmark di modelli di ricompensa. Studi di ablazione confermano che l'efficacia del nostro approccio deriva non solo dalla scala dei dati, ma anche dalla cura di alta qualità. La serie Skywork-Reward-V2 rappresenta un progresso sostanziale nei modelli di ricompensa open, evidenziando il potenziale inesplorato dei dataset di preferenze esistenti e dimostrando come la sinergia di cura uomo-AI possa sbloccare una qualità dei dati significativamente superiore.
Presentiamo IntFold, un modello di base controllabile per la previsione sia generale che specializzata della struttura biomolecolare. IntFold dimostra un'accuratezza predittiva paragonabile allo stato dell'arte AlphaFold3, utilizzando un kernel di attenzione personalizzato superiore. Oltre alla previsione standard della struttura, IntFold può essere adattato per prevedere stati allosterici, strutture vincolate e affinità di legame attraverso l'uso di adattatori individuali. Inoltre, introduciamo una nuova testa di confidenza per stimare la qualità del docking, offrendo una valutazione più sfumata per target complessi come i complessi anticorpo-antigene. Infine, condividiamo le intuizioni acquisite durante il processo di addestramento di questo modello computazionalmente intensivo.
Recenti lavori hanno dimostrato che la perdita durante l'addestramento scala come una legge di potenza sia con la dimensione del modello che con il numero di token, e che per ottenere modelli ottimali in termini di calcolo è necessario scalare insieme la dimensione del modello e il conteggio dei token. Tuttavia, queste leggi di scala presuppongono una fornitura infinita di dati e si applicano principalmente in contesti limitati dal calcolo. Poiché i moderni modelli linguistici di grandi dimensioni si basano sempre più su enormi dataset di scala internet, l'assunzione che siano limitati dal calcolo sta diventando meno valida. Questo cambiamento evidenzia la necessità di architetture che privilegino l'efficienza dei token. In questo lavoro, indaghiamo l'uso del Transformer 2-simpliciale, un'architettura che generalizza l'attenzione a prodotto scalare standard a funzioni trilineari attraverso un'implementazione efficiente del kernel Triton. Dimostriamo che il Transformer 2-simpliciale raggiunge una migliore efficienza dei token rispetto ai Transformer standard: per un budget fisso di token, modelli di dimensioni simili superano le loro controparti a prodotto scalare in compiti che coinvolgono matematica, codifica, ragionamento e logica. Quantifichiamo questi guadagni dimostrando che l'attenzione 2-simpliciale modifica l'esponente nelle leggi di scala per compiti di conoscenza e ragionamento rispetto all'attenzione a prodotto scalare.
Le esigenze di informazioni complesse negli scenari di ricerca del mondo reale richiedono un ragionamento approfondito e una sintesi di conoscenze provenienti da fonti diverse, aspetti che le pipeline tradizionali di generazione aumentata dal recupero (RAG) faticano a gestire in modo efficace. Gli approcci basati sul ragionamento attuali presentano una limitazione fondamentale: utilizzano un unico modello per gestire sia la pianificazione di alto livello che l'esecuzione dettagliata, portando a un ragionamento inefficiente e a una scalabilità limitata. In questo articolo, introduciamo HiRA, un framework gerarchico che separa la pianificazione strategica dall'esecuzione specializzata. Il nostro approccio scompone i compiti di ricerca complessi in sottotask focalizzati, assegna ciascun sottotask ad agenti specifici per dominio dotati di strumenti esterni e capacità di ragionamento, e coordina i risultati attraverso un meccanismo di integrazione strutturato. Questa separazione impedisce che i dettagli esecutivi disturbino il ragionamento di alto livello, consentendo al sistema di sfruttare competenze specializzate per diversi tipi di elaborazione delle informazioni. Esperimenti condotti su quattro benchmark complessi di ricerca profonda cross-modale dimostrano che HiRA supera significativamente i sistemi RAG e basati su agenti all'avanguardia. I nostri risultati mostrano miglioramenti sia nella qualità delle risposte che nell'efficienza del sistema, evidenziando l'efficacia della pianificazione e dell'esecuzione disaccoppiate per compiti di ricerca di informazioni multi-step. Il nostro codice è disponibile all'indirizzo https://github.com/ignorejjj/HiRA.
Le tecniche di calcolo al momento dell'inferenza, analoghe al pensiero di Sistema 2 umano, sono recentemente diventate popolari per migliorare le prestazioni dei modelli. Tuttavia, la maggior parte degli approcci esistenti presenta diverse limitazioni: sono specifici per una modalità (ad esempio, funzionano solo con il testo), specifici per un problema (ad esempio, domini verificabili come la matematica e la programmazione) o richiedono supervisione/addestramento aggiuntivo oltre al pre-addestramento non supervisionato (ad esempio, verificatori o ricompense verificabili). In questo articolo, ci chiediamo: "È possibile generalizzare questi approcci di pensiero di Sistema 2 e sviluppare modelli che imparano a pensare esclusivamente dall'apprendimento non supervisionato?" Interessantemente, scopriamo che la risposta è sì, imparando a verificare esplicitamente la compatibilità tra input e previsioni candidate, e poi riformulando i problemi di previsione come ottimizzazione rispetto a questo verificatore. Nello specifico, addestriamo Energy-Based Transformers (EBT) — una nuova classe di Energy-Based Models (EBM) — per assegnare un valore di energia a ogni coppia input-predizione candidata, consentendo previsioni attraverso la minimizzazione dell'energia basata sulla discesa del gradino fino alla convergenza. Sia nelle modalità discrete (testo) che continue (visive), scopriamo che gli EBT scalano più velocemente dell'approccio dominante Transformer++ durante l'addestramento, raggiungendo un tasso di scalabilità fino al 35% superiore rispetto a dati, dimensione del batch, parametri, FLOP e profondità. Durante l'inferenza, gli EBT migliorano le prestazioni con il pensiero di Sistema 2 del 29% in più rispetto al Transformer++ nei compiti linguistici, e gli EBT superano i Diffusion Transformers nella rimozione del rumore dalle immagini utilizzando meno passaggi in avanti. Inoltre, scopriamo che gli EBT ottengono risultati migliori rispetto ai modelli esistenti nella maggior parte dei task downstream a parità o peggiori prestazioni di pre-addestramento, suggerendo che gli EBT generalizzano meglio rispetto agli approcci esistenti. Di conseguenza, gli EBT rappresentano un nuovo paradigma promettente per scalare sia le capacità di apprendimento che di pensiero dei modelli.
La revisione tra pari è fondamentale per la ricerca scientifica, ma il crescente volume di pubblicazioni ha intensificato le sfide di questo processo ad alta intensità di competenze. Sebbene i modelli linguistici di grandi dimensioni (LLM) mostrino promesse in vari compiti scientifici, il loro potenziale nell'assistere la revisione tra pari, in particolare nell'identificazione dei limiti degli articoli, rimane poco studiato. Presentiamo innanzitutto una tassonomia completa dei tipi di limiti nella ricerca scientifica, con un focus sull'intelligenza artificiale. Guidati da questa tassonomia, per lo studio dei limiti, presentiamo LimitGen, il primo benchmark completo per valutare la capacità degli LLM di supportare feedback nelle fasi iniziali e di integrare la revisione tra pari umana. Il nostro benchmark è composto da due sottoinsiemi: LimitGen-Syn, un dataset sintetico creato con cura attraverso perturbazioni controllate di articoli di alta qualità, e LimitGen-Human, una raccolta di limiti reali scritti da esseri umani. Per migliorare la capacità dei sistemi LLM di identificare i limiti, li arricchiamo con il recupero della letteratura, essenziale per ancorare l'identificazione dei limiti a precedenti risultati scientifici. Il nostro approccio potenzia le capacità dei sistemi LLM di generare limiti nei documenti di ricerca, consentendo loro di fornire feedback più concreti e costruttivi.
Il ragionamento rimane un compito impegnativo per i grandi modelli linguistici (LLM), specialmente nell'ambiente logicamente vincolato della dimostrazione automatica di teoremi (ATP), a causa delle ricompense sparse e della vasta scala delle dimostrazioni. Queste sfide sono amplificate in benchmark come PutnamBench, che contiene problemi di livello universitario che richiedono un ragionamento complesso e multi-step. Per affrontare questo problema, introduciamo gli MDP condizionati da obiettivi auto-generati (sG-MDP), un nuovo framework in cui gli agenti generano e perseguono i loro sotto-obiettivi in base allo stato evolutivo della dimostrazione. Grazie a questa generazione più strutturata di obiettivi, il problema risultante diventa più adatto alla ricerca. Applichiamo quindi algoritmi simili al Monte Carlo Tree Search (MCTS) per risolvere gli sG-MDP, implementando il nostro approccio in Bourbaki (7B), un sistema modulare che può combinare più LLM da 7B per la generazione di sotto-obiettivi e la sintesi di tattiche. Su PutnamBench, Bourbaki (7B) risolve 26 problemi, raggiungendo nuovi risultati all'avanguardia per modelli di questa scala.
Sebbene i grandi modelli linguistici (LLM) siano diventati trasformativi, commettono ancora errori e possono esplorare percorsi di ragionamento improduttivi. L'autocorrezione è una capacità importante per un LLM affidabile, in particolare per un LLM autoregressivo. Mentre gli LLM possono identificare errori negli input degli utenti, mostrano un sistematico "punto cieco dell'autocorrezione" - non riescono a correggere errori identici nei propri output. Per studiare sistematicamente questo fenomeno, introduciamo Self-Correction Bench, un framework sistematico per misurare questo fenomeno attraverso l'iniezione controllata di errori a tre livelli di complessità. Testando 14 modelli, troviamo un tasso medio di punto cieco del 64,5%. Troviamo molteplici prove che questa limitazione è legata alla composizione dei dati di addestramento: le dimostrazioni di addestramento umano mostrano prevalentemente risposte prive di errori piuttosto che sequenze di correzione degli errori, a differenza dei modelli addestrati con RL che apprendono la correzione degli errori attraverso il feedback sui risultati. Sorprendentemente, semplicemente aggiungendo "Aspetta" si riducono i punti ciechi dell'89,3%, suggerendo che la capacità esiste ma richiede attivazione. Il nostro lavoro evidenzia una limitazione critica negli attuali LLM e offre potenziali vie per migliorarne l'affidabilità e la fiducia.
I meccanismi di attenzione lineare offrono vantaggi significativi per i Large Language Models (LLM) garantendo una complessità computazionale lineare, consentendo un'elaborazione efficiente di sequenze ultra-lunghe (ad esempio, contesto di 1M). Tuttavia, i metodi esistenti di Parallelismo di Sequenza (SP), essenziali per distribuire questi carichi di lavoro tra i dispositivi, diventano il principale collo di bottiglia a causa di un sovraccarico di comunicazione sostanziale. In questo articolo, introduciamo ZeCO (Zero Communication Overhead) parallelismo di sequenza per modelli di attenzione lineare, un nuovo metodo SP progettato per superare queste limitazioni e raggiungere una scalabilità quasi lineare end-to-end per l'addestramento di sequenze lunghe. Ad esempio, addestrare un modello con una lunghezza di sequenza di 1M su 64 dispositivi utilizzando ZeCO richiede all'incirca lo stesso tempo dell'addestramento con una sequenza di 16k su un singolo dispositivo. Al centro di ZeCO si trova All-Scan, un nuovo primitivo di comunicazione collettiva. All-Scan fornisce a ciascun rango SP esattamente lo stato iniziale dell'operatore di cui ha bisogno, mantenendo un'impronta di comunicazione minima, eliminando efficacemente il sovraccarico di comunicazione. Teoricamente, dimostriamo l'ottimalità di ZeCO, mostrando che introduce solo un trascurabile sovraccarico di tempo e spazio. Empiricamente, confrontiamo i costi di comunicazione di diverse strategie di parallelismo di sequenza e dimostriamo che All-Scan raggiunge la comunicazione più veloce negli scenari SP. In particolare, su 256 GPU con una lunghezza di sequenza di 8M, ZeCO raggiunge un miglioramento del 60\% rispetto al metodo SP attualmente più avanzato (SOTA). Crediamo che ZeCO stabilisca un percorso chiaro verso l'addestramento efficiente delle prossime generazioni di LLM su lunghezze di sequenza precedentemente intrattabili.
Il fine-tuning supervisionato (SFT) è ampiamente utilizzato per allineare i grandi modelli linguistici (LLM) con compiti di estrazione di informazioni (IE), come il riconoscimento di entità nominate (NER). Tuttavia, annotare etichette così granulari e addestrare modelli specifici per dominio è costoso. Le opere esistenti tipicamente addestrano un modello unificato su più domini, ma tali approcci mancano di adattabilità e scalabilità poiché non tutti i dati di addestramento giovano ai domini target e il ridimensionamento dei modelli addestrati rimane una sfida. Proponiamo il framework SaM, che seleziona e fonde dinamicamente modelli esperti al momento dell'inferenza. Nello specifico, per un dominio target, selezioniamo esperti specifici per dominio pre-addestrati su domini esistenti basandoci su (i) somiglianza del dominio con il dominio target e (ii) prestazioni su istanze campionate, rispettivamente. Gli esperti vengono poi fusi per creare modelli specifici per compito ottimizzati per il dominio target. Fondendo dinamicamente esperti vantaggiosi per i domini target, miglioriamo la generalizzazione su vari domini senza ulteriore addestramento. Inoltre, gli esperti possono essere aggiunti o rimossi comodamente, portando a una grande scalabilità. Esperimenti estesi su più benchmark dimostrano l'efficacia del nostro framework, che supera il modello unificato in media del 10%. Forniamo inoltre approfondimenti su potenziali miglioramenti, esperienze pratiche ed estensioni del nostro framework.
L'apprendimento per rinforzo (Reinforcement Learning, RL) è diventato una tecnologia fondamentale nella fase di post-addestramento dei grandi modelli linguistici (Large Language Models, LLMs). I tradizionali framework RL con task collocati soffrono di significativi colli di bottiglia nella scalabilità, mentre i framework RL con task separati affrontano sfide legate a flussi di dati complessi e al conseguente inattività delle risorse e squilibrio del carico di lavoro. Inoltre, la maggior parte dei framework esistenti è strettamente accoppiata ai motori di addestramento o inferenza dei LLM, rendendo difficile il supporto per motori progettati su misura. Per affrontare queste sfide, proponiamo AsyncFlow, un framework RL asincrono in streaming per un post-addestramento efficiente. Nello specifico, introduciamo un modulo distribuito di archiviazione e trasferimento dati che fornisce una gestione unificata dei dati e una capacità di schedulazione granulare in modalità completamente in streaming. Questa architettura facilita intrinsecamente la sovrapposizione automatica delle pipeline tra i task RL e il bilanciamento dinamico del carico. Inoltre, proponiamo un motore di flusso di lavoro asincrono basato su produttore-consumatore, progettato per minimizzare l'inattività computazionale differendo strategicamente il processo di aggiornamento dei parametri entro soglie di obsolescenza. Infine, la capacità principale di AsyncFlow è architettonicamente disaccoppiata dai motori di addestramento e inferenza sottostanti e incapsulata da interfacce utente orientate ai servizi, offrendo un'esperienza utente modulare e personalizzabile. Esperimenti estensivi dimostrano un miglioramento medio della produttività di 1,59 volte rispetto ai benchmark di stato dell'arte. L'architettura presentata in questo lavoro fornisce spunti operativi per la progettazione di sistemi di addestramento RL di prossima generazione.
La segmentazione multi-organo è un componente cruciale dell'elaborazione delle immagini mediche, essenziale affinché i medici possano formulare diagnosi accurate e sviluppare piani di trattamento efficaci. Nonostante i significativi progressi in questo campo, gli attuali modelli di segmentazione multi-organo spesso presentano dettagli imprecisi, dipendenza da prompt geometrici e perdita di informazioni spaziali. Per affrontare queste sfide, introduciamo un nuovo modello denominato CRISP-SAM2, basato su CRoss-modal Interaction e Semantic Prompting, costruito su SAM2. Questo modello rappresenta un approccio promettente per la segmentazione medica multi-organo guidata da descrizioni testuali degli organi. Il nostro metodo inizia convertendo gli input visivi e testuali in semantiche contestualizzate cross-modali utilizzando un meccanismo di interazione progressiva a cross-attention. Queste semantiche vengono poi iniettate nell'encoder di immagini per migliorare la comprensione dettagliata delle informazioni visive. Per eliminare la dipendenza dai prompt geometrici, utilizziamo una strategia di prompting semantico, sostituendo l'encoder di prompt originale per affinare la percezione di target complessi. Inoltre, viene applicata una strategia di auto-aggiornamento con ordinamento per similarità per la memoria e un processo di raffinamento delle maschere per adattarsi ulteriormente alle immagini mediche e migliorare i dettagli localizzati. Esperimenti comparativi condotti su sette dataset pubblici indicano che CRISP-SAM2 supera i modelli esistenti. Un'analisi estensiva dimostra inoltre l'efficacia del nostro metodo, confermandone le prestazioni superiori, specialmente nel risolvere le limitazioni menzionate in precedenza. Il nostro codice è disponibile all'indirizzo: https://github.com/YU-deep/CRISP\_SAM2.git.
I recenti progressi nella segmentazione visione-linguaggio hanno significativamente avanzato la comprensione visiva contestualizzata. Tuttavia, questi modelli spesso presentano allucinazioni producendo maschere di segmentazione per oggetti non presenti nel contenuto dell'immagine o etichettando erroneamente regioni irrilevanti. I protocolli di valutazione esistenti per le allucinazioni nella segmentazione si concentrano principalmente sulle allucinazioni legate alle etichette o al testo senza manipolare il contesto visivo, limitando la loro capacità di diagnosticare errori critici. In risposta, introduciamo HalluSegBench, il primo benchmark specificamente progettato per valutare le allucinazioni nel grounding visivo attraverso il ragionamento visivo controfattuale. Il nostro benchmark consiste in un nuovo dataset di 1340 coppie di istanze controfattuali che coprono 281 classi di oggetti uniche, e un insieme di metriche appositamente introdotte che quantificano la sensibilità alle allucinazioni sotto modifiche visivamente coerenti della scena. Gli esperimenti su HalluSegBench con modelli di segmentazione visione-linguaggio all'avanguardia rivelano che le allucinazioni guidate dalla visione sono significativamente più frequenti di quelle guidate dalle etichette, con i modelli che spesso persistono in segmentazioni errate, evidenziando la necessità del ragionamento controfattuale per diagnosticare la fedeltà del grounding.