Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Hoewel redeneer-gebaseerde grote taalmodellen (LLMs) uitblinken in wiskunde en programmeren, blijven hun mogelijkheden op het gebied van kennisintensieve medische vraagbeantwoording onderbelicht. Om dit aan te pakken, introduceren we ReasonMed, de grootste medische redeneerdataset, bestaande uit 370k hoogwaardige voorbeelden gedestilleerd uit 1,7 miljoen initiële redeneerpaden gegenereerd door diverse LLMs. ReasonMed is geconstrueerd via een multi-agent verificatie- en verfijningsproces, waarbij we een Error Refiner ontwerpen om de redeneerpaden te verbeteren door foutgevoelige stappen te identificeren en te corrigeren die door een verifier zijn gemarkeerd. Door gebruik te maken van ReasonMed, onderzoeken we systematisch de beste praktijken voor het trainen van medische redeneermodellen en ontdekken we dat het combineren van gedetailleerde Chain-of-Thought (CoT) redenering met beknopte antwoordsamenvattingen de meest effectieve fine-tuningstrategie oplevert. Op basis van deze strategie trainen we ReasonMed-7B, dat een nieuwe standaard zet voor modellen onder de 10B, door de vorige beste prestatie met 4,17% te overtreffen en zelfs LLaMA3.1-70B op PubMedQA met 4,60% te verslaan.
Het opbouwen van grootschalige datasets voor de GitHub-issue-oplossingstaak is cruciaal voor zowel het trainen als het evalueren van de software engineering-capaciteiten van Large Language Models (LLMs). Het traditionele proces voor het creëren van dergelijke benchmarks is echter berucht uitdagend en arbeidsintensief, met name in de fasen van het opzetten van evaluatieomgevingen, het beoordelen van testresultaten en het valideren van taakinstanties. In dit artikel stellen we SWE-Factory voor, een geautomatiseerde pijplijn die ontworpen is om deze uitdagingen aan te pakken. Om deze problemen te tackelen, integreert onze pijplijn drie kern geautomatiseerde componenten. Ten eerste introduceren we SWE-Builder, een multi-agent systeem dat de constructie van evaluatieomgevingen automatiseert, waarbij vier gespecialiseerde agenten in een collaboratieve, iteratieve lus werken en gebruikmaken van een omgevingsgeheugenpool om de efficiëntie te verbeteren. Ten tweede introduceren we een gestandaardiseerde, exit-code-gebaseerde beoordelingsmethode die de noodzaak voor het handmatig schrijven van aangepaste parsers elimineert. Tot slot automatiseren we het fail2pass validatieproces met behulp van deze betrouwbare exit-code-signalen. Experimenten op 671 issues in vier programmeertalen tonen aan dat onze pijplijn effectief geldige taakinstanties kan construeren; bijvoorbeeld, met GPT-4.1-mini construeert onze SWE-Builder 269 geldige instanties tegen 0.045 per instantie, terwijl met Gemini-2.5-flash vergelijkbare prestaties worden behaald tegen de laagste kosten van 0.024 per instantie. We laten ook zien dat onze exit-code-gebaseerde beoordeling een nauwkeurigheid van 100% bereikt in vergelijking met handmatige inspectie, en dat onze geautomatiseerde fail2pass validatie een precisie van 0.92 en een recall van 1.00 bereikt. We hopen dat onze geautomatiseerde pijplijn de verzameling van grootschalige, hoogwaardige GitHub-issue-oplossingsdatasets voor zowel training als evaluatie zal versnellen. Onze code en datasets zijn vrijgegeven op https://github.com/DeepSoftwareAnalytics/swe-factory.
We introduceren Magistral, Mistral's eerste redeneermodel en onze eigen schaalbare reinforcement learning (RL) pijplijn. In plaats van te vertrouwen op bestaande implementaties en RL-trajecten die zijn gedistilleerd uit eerdere modellen, volgen we een grond-up aanpak, waarbij we uitsluitend vertrouwen op onze eigen modellen en infrastructuur. Opmerkelijk is dat we een stack demonstreren die het mogelijk maakte om de grenzen van pure RL-training van LLMs te verkennen, een eenvoudige methode presenteren om de redeneertaal van het model te forceren, en aantonen dat RL op tekstdata alleen het merendeel van de capaciteiten van het initiële checkpoint behoudt. We ontdekken dat RL op tekst het multimodale begrip, het volgen van instructies en het aanroepen van functies behoudt of verbetert. We presenteren Magistral Medium, getraind voor redeneren bovenop Mistral Medium 3 met alleen RL, en we open-sourcen Magistral Small (Apache 2.0) dat verder koude-startdata van Magistral Medium omvat.
Ondanks snelle vooruitgang in videogeneratiemodellen, blijft het genereren van samenhangende verhalende video's die meerdere scènes en personages omvatten een uitdaging. Huidige methoden zetten vaak vooraf gegenereerde keyframes rigide om in clips met vaste lengte, wat resulteert in onsamenhangende verhalen en pacingproblemen. Bovendien betekent de inherente instabiliteit van videogeneratiemodellen dat zelfs een enkele kwalitatief slechte clip de logische samenhang en visuele continuïteit van de gehele outputanimatie aanzienlijk kan aantasten. Om deze obstakels te overwinnen, introduceren we AniMaker, een multi-agent framework dat efficiënte generatie van meerdere clipkandidaten en storytellingbewuste clipselectie mogelijk maakt, waardoor wereldwijd consistente en verhalend samenhangende animatie uitsluitend vanuit tekstinput wordt gecreëerd. Het framework is gestructureerd rond gespecialiseerde agents, waaronder de Director Agent voor storyboardgeneratie, de Photography Agent voor videoclipgeneratie, de Reviewer Agent voor evaluatie, en de Post-Production Agent voor bewerking en voiceover. Centraal in de aanpak van AniMaker staan twee belangrijke technische componenten: MCTS-Gen in de Photography Agent, een efficiënte Monte Carlo Tree Search (MCTS)-geïnspireerde strategie die intelligent door de kandidaatruimte navigeert om hoogwaardige clips te genereren terwijl het resourcegebruik wordt geoptimaliseerd; en AniEval in de Reviewer Agent, het eerste framework specifiek ontworpen voor evaluatie van multi-shot animatie, dat kritieke aspecten beoordeelt zoals verhalingsniveauconsistentie, actievoltooiing en animatiespecifieke kenmerken door elke clip in de context van zijn voorgaande en volgende clips te beschouwen. Experimenten tonen aan dat AniMaker superieure kwaliteit bereikt zoals gemeten door populaire metrieken, waaronder VBench en ons voorgestelde AniEval-framework, terwijl de efficiëntie van multi-kandidaatgeneratie aanzienlijk wordt verbeterd, waardoor AI-gegenereerde verhalende animatie dichter bij productiestandaarden komt.
Beeldrestauratie heeft als doel gedegradeerde afbeeldingen te herstellen. Bestaande, op diffusie gebaseerde restauratiemethoden, ondanks hun grote succes bij het herstellen van natuurlijke afbeeldingen, hebben echter vaak moeite om tekstuele regio's in gedegradeerde afbeeldingen nauwkeurig te reconstrueren. Deze methoden genereren vaak geloofwaardige maar incorrecte tekstachtige patronen, een fenomeen dat we tekst-beeld hallucinatie noemen. In dit artikel introduceren we Text-Aware Image Restoration (TAIR), een nieuwe restauratietaak die het gelijktijdig herstellen van visuele inhoud en tekstuele nauwkeurigheid vereist. Om deze taak aan te pakken, presenteren we SA-Text, een grootschalige benchmark van 100K hoogwaardige scène-afbeeldingen die dicht geannoteerd zijn met diverse en complexe tekstinstanties. Verder stellen we een multi-task diffusiekader voor, genaamd TeReDiff, dat interne kenmerken van diffusiemodellen integreert in een tekstspottingmodule, waardoor beide componenten kunnen profiteren van gezamenlijke training. Dit maakt het mogelijk om rijke tekstrepresentaties te extraheren, die worden gebruikt als prompts in latere denoising-stappen. Uitgebreide experimenten tonen aan dat onze aanpak consistent beter presteert dan state-of-the-art restauratiemethoden, met aanzienlijke verbeteringen in de nauwkeurigheid van tekstherkenning. Zie onze projectpagina: https://cvlab-kaist.github.io/TAIR/
We presenteren VRBench, de eerste langdurige narratieve videobenchmark ontwikkeld voor het evalueren van de multi-stap redeneervaardigheden van grote modellen, waarbij beperkingen in bestaande evaluaties worden aangepakt die temporeel redeneren en procedurele geldigheid over het hoofd zien. Het bestaat uit 1.010 lange video's (met een gemiddelde duur van 1,6 uur), samen met 9.468 door mensen gelabelde multi-stap vraag-antwoordparen en 30.292 redeneerstappen met tijdstempels. Deze video's zijn samengesteld via een meerfasig filterproces, inclusief expertbeoordeling om plotcoherentie te waarborgen. We ontwikkelen een mens-AI-samenwerkingskader dat coherente redeneerketens genereert, elk vereist meerdere temporeel verankerde stappen, die zeven typen omvatten (bijv. gebeurtenistoeschrijving, impliciete inferentie). VRBench ontwerpt een meerfasige evaluatiepijplijn die modellen beoordeelt op zowel uitkomst- als procesniveau. Naast de meerkeuzevragen voor de eindresultaten, stellen we een voortgangsgerichte LLM-gestuurde scoringsmetriek voor om de kwaliteit van de redeneerketen vanuit meerdere dimensies uitgebreid te evalueren. Door uitgebreide evaluaties van 12 LLM's en 16 VLM's op VRBench, voeren we een grondige analyse uit en bieden we waardevolle inzichten die het veld van multi-stap redeneren vooruithelpen.
Discrete audiotokens zijn compacte representaties die ernaar streven de perceptuele kwaliteit, fonetische inhoud en sprekerskenmerken te behouden, terwijl ze efficiënte opslag en inferentie mogelijk maken, evenals competitieve prestaties in diverse downstream taken. Ze bieden een praktisch alternatief voor continue kenmerken, waardoor spraak en audio kunnen worden geïntegreerd in moderne grote taalmodellen (LLMs). Naarmate de interesse in tokengebaseerde audiobewerking groeit, zijn verschillende tokenisatiemethoden ontstaan, en hebben verschillende overzichten de laatste ontwikkelingen op dit gebied besproken. Bestaande studies richten zich echter vaak op specifieke domeinen of taken en missen een uniforme vergelijking over verschillende benchmarks. Dit artikel presenteert een systematische review en benchmark van discrete audiotokenizers, waarbij drie domeinen worden behandeld: spraak, muziek en algemene audio. We stellen een taxonomie voor van tokenisatiebenaderingen op basis van encoder-decoder, kwantisatietechnieken, trainingsparadigma, streamability en toepassingsdomeinen. We evalueren tokenizers op meerdere benchmarks voor reconstructie, downstream prestaties en akoestische taalmodellering, en analyseren afwegingen via gecontroleerde ablatiestudies. Onze bevindingen belichten belangrijke beperkingen, praktische overwegingen en open uitdagingen, en bieden inzicht en richtlijnen voor toekomstig onderzoek in dit snel evoluerende gebied. Voor meer informatie, inclusief onze belangrijkste resultaten en tokenizerdatabase, verwijzen we naar onze website: https://poonehmousavi.github.io/dates-website/.
Recente begeleidingsmethoden in diffusiemodellen sturen de omgekeerde sampling door het model te verstoren om een impliciet zwak model te construeren en de generatie ervan weg te leiden. Onder deze benaderingen heeft aandachtverstoring sterke empirische prestaties getoond in onvoorwaardelijke scenario's waar classifier-free begeleiding niet van toepassing is. Bestaande methoden voor aandachtverstoring missen echter principiële benaderingen om te bepalen waar verstoringen moeten worden toegepast, vooral in Diffusion Transformer (DiT)-architecturen waar kwaliteitsgerelateerde berekeningen over lagen zijn verdeeld. In dit artikel onderzoeken we de granulariteit van aandachtverstoringen, variërend van het laagniveau tot individuele aandachtskoppen, en ontdekken we dat specifieke koppen verschillende visuele concepten beheersen, zoals structuur, stijl en textuurkwaliteit. Op basis van dit inzicht stellen we "HeadHunter" voor, een systematisch framework voor het iteratief selecteren van aandachtskoppen die aansluiten bij gebruikersgerichte doelstellingen, waardoor fijnmazige controle over generatiekwaliteit en visuele attributen mogelijk wordt. Daarnaast introduceren we SoftPAG, dat de aandachtmatrix van elke geselecteerde kop lineair interpoleert naar een identiteitsmatrix, wat een continue knop biedt om de verstoringssterkte af te stemmen en artefacten te onderdrukken. Onze aanpak vermindert niet alleen de overmatige gladheid van bestaande laagniveau verstoring, maar maakt ook gerichte manipulatie van specifieke visuele stijlen mogelijk door compositorische kopselectie. We valideren onze methode op moderne grootschalige DiT-gebaseerde tekst-naar-beeldmodellen, waaronder Stable Diffusion 3 en FLUX.1, en tonen superieure prestaties aan in zowel algemene kwaliteitsverbetering als stijlspecifieke begeleiding. Ons werk biedt de eerste kopniveau-analyse van aandachtverstoring in diffusiemodellen, waarbij interpreteerbare specialisatie binnen aandachtlagen wordt onthuld en praktisch ontwerp van effectieve verstoringsstrategieën mogelijk wordt gemaakt.
We introduceren~Domain2Vec, een nieuwe aanpak die elke dataset ontbindt in een lineaire combinatie van verschillende meta-domeinen, een nieuw concept ontworpen om de belangrijkste onderliggende kenmerken van datasets vast te leggen. Domain2Vec onderhoudt een vocabulaire van meta-domeinen en gebruikt een classifier om elke gegeven dataset te ontbinden in een domeinvector die overeenkomt met een verdeling over dit vocabulaire. Deze domeinvectoren maken het mogelijk om de optimale datamix voor het vooraf trainen van taalmodel (LM) te identificeren op een trainingsvrije manier onder de \textbf{Distributie-Uitlijningsaanname} (DA^{2}), die suggereert dat wanneer de datadistributies van de trainingsset en de validatieset beter zijn uitgelijnd, een lagere validatieverlies wordt bereikt. Bovendien kan Domain2Vec naadloos worden geïntegreerd in eerdere werken om de relatie tussen domeinvectoren en LM-prestaties te modelleren, waardoor de efficiëntie en schaalbaarheid van eerdere methoden aanzienlijk worden verbeterd. Uitgebreide experimenten tonen aan dat Domain2Vec helpt bij het vinden van de datamix die de prestaties van downstream taken verbetert met minimale rekenkundige overhead. Specifiek behaalt Domain2Vec hetzelfde validatieverlies op Pile-CC met slechts 51,5% van de benodigde berekeningen bij het trainen op de originele mix van de Pile-dataset. Onder een gelijkwaardig rekenbudget verbetert Domain2Vec de downstream prestaties gemiddeld met 2,83%.
We stellen Ming-Omni voor, een uniform multimodaal model dat in staat is om afbeeldingen, tekst, audio en video te verwerken, terwijl het een sterke vaardigheid toont in zowel spraak- als beeldgeneratie. Ming-Omni maakt gebruik van toegewijde encoders om tokens uit verschillende modaliteiten te extraheren, die vervolgens worden verwerkt door Ling, een MoE-architectuur uitgerust met nieuw voorgestelde modaliteitsspecifieke routers. Dit ontwerp maakt het mogelijk dat een enkel model efficiënt multimodale invoer kan verwerken en samenvoegen binnen een uniform raamwerk, waardoor diverse taken mogelijk worden zonder afzonderlijke modellen, taakspecifieke fine-tuning of structurele herontwerpen. Belangrijk is dat Ming-Omni verder gaat dan conventionele multimodale modellen door audio- en beeldgeneratie te ondersteunen. Dit wordt bereikt door de integratie van een geavanceerde audio-decoder voor natuurlijk klinkende spraak en Ming-Lite-Uni voor hoogwaardige beeldgeneratie, waardoor het model ook contextbewust kan chatten, tekst-naar-spraakconversie kan uitvoeren en veelzijdige beeldbewerking kan uitvoeren. Onze experimentele resultaten tonen aan dat Ming-Omni een krachtige oplossing biedt voor uniforme waarneming en generatie over alle modaliteiten. Opmerkelijk is dat ons voorgestelde Ming-Omni het eerste open-source model is waarvan wij weten dat het GPT-4o evenaart in modaliteitsondersteuning, en we geven alle code en modelgewichten vrij om verder onderzoek en ontwikkeling in de gemeenschap aan te moedigen.
Het genereren van esthetische posters is uitdagender dan het maken van eenvoudige ontwerpafbeeldingen: het vereist niet alleen nauwkeurige tekstweergave, maar ook de naadloze integratie van abstracte artistieke inhoud, opvallende lay-outs en algehele stilistische harmonie. Om dit aan te pakken, stellen we PosterCraft voor, een uniform raamwerk dat afstand neemt van eerdere modulaire pijplijnen en rigide, vooraf gedefinieerde lay-outs, waardoor het model vrij kan experimenteren met samenhangende, visueel aantrekkelijke composities. PosterCraft maakt gebruik van een zorgvuldig ontworpen, gecascadeerde workflow om het genereren van hoogwaardige posters te optimaliseren: (i) grootschalige tekstweergave-optimalisatie op ons nieuw geïntroduceerde Text-Render-2M-dataset; (ii) regio-gebaseerde supervised fine-tuning op HQ-Poster100K; (iii) esthetische-tekst-versterkend leren via best-of-n voorkeursoptimalisatie; en (iv) gezamenlijke visie-taal feedbackverfijning. Elke fase wordt ondersteund door een volledig geautomatiseerde data-constructiepijplijn die is afgestemd op de specifieke behoeften, waardoor robuuste training mogelijk is zonder complexe architectuurwijzigingen. Uit evaluaties van meerdere experimenten blijkt dat PosterCraft open-source basislijnen significant overtreft in weergavenauwkeurigheid, lay-outcoherentie en algehele visuele aantrekkingskracht, waarbij het de kwaliteit van SOTA commerciële systemen benadert. Onze code, modellen en datasets zijn te vinden op de Projectpagina: https://ephemeral182.github.io/PosterCraft
Onlangs hebben agenten gebaseerd op multimodale grote taalmodellen (MLLMs) opmerkelijke vooruitgang geboekt in verschillende domeinen. Het bouwen van een generalistische agent met capaciteiten zoals waarneming, planning, actie, verankering en reflectie in open-wereldomgevingen zoals Minecraft blijft echter een uitdaging: onvoldoende domeinspecifieke data, interferentie tussen heterogene taken en visuele diversiteit in open-wereldomgevingen. In dit artikel gaan we deze uitdagingen aan door middel van drie belangrijke bijdragen. 1) We stellen een kennisversterkte datageneratiepijplijn voor om schaalbare en hoogwaardige trainingsdata te leveren voor de ontwikkeling van agenten. 2) Om interferentie tussen heterogene taken te verminderen, introduceren we een Mixture-of-Experts (MoE)-architectuur met taakniveau-routering. 3) We ontwikkelen een Multimodale Redenering-Versterkte Reinforcement Learning-benadering om het redeneervermogen van de agent te verbeteren voor visuele diversiteit in Minecraft. Gebaseerd op deze innovaties presenteren we Optimus-3, een algemeen inzetbare agent voor Minecraft. Uitgebreide experimentele resultaten tonen aan dat Optimus-3 zowel generalistische multimodale grote taalmodellen als bestaande state-of-the-art agenten overtreft in een breed scala aan taken in de Minecraft-omgeving. Projectpagina: https://cybertronagent.github.io/Optimus-3.github.io/
Hoe kosteneffectief kunnen we sterk redeneervermogen in taalmodelen opwekken door gebruik te maken van hun onderliggende representaties? We beantwoorden deze vraag met Resa, een familie van 1,5B redeneermodellen die zijn getraind via een nieuwe en efficiënte sparse autoencoder-tuning (SAE-Tuning) procedure. Deze methode traint eerst een SAE om redeneervermogen vast te leggen vanuit een bronmodel, en gebruikt vervolgens de getrainde SAE om een standaard supervised fine-tuning proces te begeleiden om dergelijk vermogen op te wekken in een doelmodel, waarbij uitsluitend gebruik wordt gemaakt van geverifieerde vraag-antwoordgegevens zonder redeneersporen. Opmerkelijk is dat, wanneer toegepast op bepaalde basismodellen vóór verdere RL-post-training, SAE-Tuning >97% van het redeneervermogen van zijn RL-getrainde tegenhanger behoudt, terwijl de trainingskosten met >2000x worden verlaagd tot ongeveer \$1 en de trainingsduur met >450x wordt teruggebracht tot ongeveer 20 minuten. Bovendien, wanneer toegepast op licht RL-getrainde modellen (bijvoorbeeld binnen 1 uur op 2 GPU's), maakt het redeneervermogen mogelijk zoals 43,33% Pass@1 op AIME24 en 90% Pass@1 op AMC23 voor slechts ongeveer 1 extra kosten. Verrassend genoeg zijn de redeneervermogens die via SAE's worden geëxtraheerd mogelijk zowel generaliseerbaar als modulair. Generaliseerbaarheid betekent dat vermogens die uit één dataset zijn geëxtraheerd, de prestaties op een groter en overlappend corpus nog steeds verbeteren. Modulariteit betekent dat vermogens die uit Qwen of Qwen-Math zijn geëxtraheerd, tijdens de testfase aan het R1-Distill model kunnen worden gekoppeld, zonder enige hertraining, en vergelijkbare verbeteringen opleveren. Uitgebreide ablatie-experimenten valideren deze bevindingen en alle artefacten zijn volledig open-source beschikbaar.
Shojaee et al. (2025) melden dat Large Reasoning Models (LRMs) een "nauwkeurigheidsinstorting" vertonen bij planningspuzzels die bepaalde complexiteitsdrempels overschrijden. Wij tonen aan dat hun bevindingen voornamelijk experimentele ontwerpbeperkingen weerspiegelen in plaats van fundamentele redeneerfouten. Onze analyse onthult drie kritieke problemen: (1) Tower of Hanoi-experimenten overschrijden systematisch de uitvoertokenlimieten van modellen op de gerapporteerde faalpunten, waarbij modellen deze beperkingen expliciet erkennen in hun uitvoer; (2) Het geautomatiseerde evaluatieraamwerk van de auteurs maakt geen onderscheid tussen redeneerfouten en praktische beperkingen, wat leidt tot een verkeerde classificatie van modelmogelijkheden; (3) Het meest zorgwekkend is dat hun River Crossing-benchmarks wiskundig onmogelijke instanties bevatten voor N > 5 vanwege onvoldoende bootcapaciteit, maar modellen worden beoordeeld als falend omdat ze deze onoplosbare problemen niet oplossen. Wanneer we deze experimentele artefacten controleren door het genereren van functies te vragen in plaats van uitgebreide beweginglijsten, geven voorlopige experimenten over meerdere modellen een hoge nauwkeurigheid aan bij Tower of Hanoi-instanties die eerder als volledige mislukkingen werden gerapporteerd. Deze bevindingen benadrukken het belang van zorgvuldig experimenteel ontwerp bij het evalueren van AI-redeneervaardigheden.
Lang video begrip (LVU) vormt een aanzienlijke uitdaging voor huidige multi-modale grote taalmodellen (MLLMs) vanwege de inherente complexiteit van de taak en de beperkingen van het contextvenster. Er wordt algemeen aangenomen dat het aanpakken van LVU-taken foundation MLLMs vereist met uitgebreide contextvensters, sterke visuele waarnemingscapaciteiten en deskundige domeinkennis. In dit werk dagen we deze gangbare opvatting uit door VideoDeepResearch te introduceren, een nieuw agent-gebaseerd framework voor lang video begrip. Onze aanpak maakt uitsluitend gebruik van een tekst-gebaseerd groot redeneermodel (LRM) in combinatie met een modulair multi-modale toolkit, waaronder multi-modale retrievers en visuele waarnemers, die allemaal praktisch beschikbaar zijn. Voor elke LVU-taak formuleert het systeem een probleemoplossende strategie door middel van redenering, terwijl het selectief essentiële video-inhoud benadert en gebruikt via toolgebruik. We voeren uitgebreide experimenten uit op populaire LVU-benchmarks, waaronder MLVU, Video-MME en LVBench. Onze resultaten tonen aan dat VideoDeepResearch aanzienlijke verbeteringen behaalt ten opzichte van bestaande MLLM-baselines, en de vorige state-of-the-art overtreft met 9,6%, 6,6% en 3,9% op respectievelijk MLVU (test), LVBench en LongVideoBench. Deze bevindingen onderstrepen de belofte van agent-gebaseerde systemen bij het overwinnen van belangrijke uitdagingen in LVU-problemen.
Large Language Model (LLM)-agents hebben groot potentieel getoond bij het aanpakken van real-world data science-problemen. LLM-gestuurde data science-agents beloven de volledige machine learning-pijplijn te automatiseren, maar hun effectiviteit in de praktijk blijft beperkt. Bestaande frameworks zijn afhankelijk van rigide, vooraf gedefinieerde workflows en inflexibele coderingsstrategieën; als gevolg daarvan presteren ze alleen goed bij relatief eenvoudige, klassieke problemen en slagen ze er niet in de empirische expertise te benutten die menselijke beoefenaars inzetten bij complexe, innovatieve taken. In dit werk introduceren we AutoMind, een adaptief, kennisrijk LLM-agentframework dat deze tekortkomingen overwint door drie belangrijke verbeteringen: (1) een samengestelde expertkennisbank die de agent grondt in domeinexpertkennis, (2) een agent-gebaseerde kennisrijke boomzoekalgoritme dat strategisch mogelijke oplossingen verkent, en (3) een zelf-adaptieve coderingsstrategie die codegeneratie dynamisch afstemt op de complexiteit van de taak. Evaluaties op twee geautomatiseerde data science-benchmarks tonen aan dat AutoMind superieure prestaties levert ten opzichte van state-of-the-art referentiemodellen. Aanvullende analyses bevestigen gunstige effectiviteit, efficiëntie en kwalitatieve oplossingskwaliteit, wat AutoMind benadrukt als een efficiënte en robuuste stap richting volledig geautomatiseerde data science.
Recente vooruitgang in Large Language Models (LLM's) en multimodale tegenhangers heeft aanzienlijke interesse gewekt in de ontwikkeling van webagentschappen — AI-systemen die autonoom kunnen navigeren en taken kunnen voltooien binnen webomgevingen. Hoewel ze veelbelovend zijn voor het automatiseren van complexe webinteracties, worden huidige benaderingen geconfronteerd met aanzienlijke uitdagingen vanwege de fundamentele mismatch tussen door mensen ontworpen interfaces en de mogelijkheden van LLM's. Bestaande methoden worstelen met de inherente complexiteit van webinputs, of het nu gaat om het verwerken van enorme DOM-bomen, het vertrouwen op schermafbeeldingen aangevuld met extra informatie, of het volledig omzeilen van de gebruikersinterface via API-interacties. Dit position paper pleit voor een paradigmaverschuiving in onderzoek naar webagentschappen: in plaats van webagentschappen te dwingen zich aan te passen aan interfaces die voor mensen zijn ontworpen, moeten we een nieuw interactieparadigma ontwikkelen dat specifiek is geoptimaliseerd voor agentische mogelijkheden. Hiertoe introduceren we het concept van een Agentic Web Interface (AWI), een interface die specifiek is ontworpen voor agentschappen om een website te navigeren. We stellen zes leidende principes vast voor het ontwerp van AWI's, waarbij veiligheid, efficiëntie en standaardisatie worden benadrukt, om rekening te houden met de belangen van alle primaire belanghebbenden. Deze herformulering heeft tot doel fundamentele beperkingen van bestaande interfaces te overwinnen, waardoor de weg wordt vrijgemaakt voor efficiënter, betrouwbaarder en transparanter ontwerp van webagentschappen, wat een gezamenlijke inspanning zal zijn waarbij de bredere ML-gemeenschap betrokken is.
Grote taalmodellen (LLMs) worden steeds vaker toegepast op taken voor de automatische detectie van schadelijke inhoud, waarbij ze moderatoren helpen bij het identificeren van beleidsschendingen en de algehele efficiëntie en nauwkeurigheid van inhoudsbeoordeling verbeteren. Bestaande bronnen voor de detectie van schadelijke inhoud zijn echter voornamelijk gericht op Engels, terwijl Chinese datasets schaars blijven en vaak beperkt zijn in omvang. Wij presenteren een uitgebreide, professioneel geannoteerde benchmark voor de detectie van schadelijke inhoud in het Chinees, die zes representatieve categorieën omvat en volledig is opgebouwd uit real-world data. Ons annotatieproces levert verder een kennisregelbasis op die expliciete expertkennis biedt om LLMs te ondersteunen bij de detectie van schadelijke Chinese inhoud. Daarnaast stellen we een kennis-augmented baseline voor die zowel door mensen geannoteerde kennisregels als impliciete kennis van grote taalmodellen integreert, waardoor kleinere modellen prestaties kunnen bereiken die vergelijkbaar zijn met state-of-the-art LLMs. Code en data zijn beschikbaar op https://github.com/zjunlp/ChineseHarm-bench.
Grafisch ontwerp speelt een cruciale rol in zowel commerciële als persoonlijke contexten, maar het creëren van hoogwaardige, bewerkbare en esthetisch aantrekkelijke grafische composities blijft een tijdrovende en vaardigheidsintensieve taak, vooral voor beginners. Huidige AI-tools automatiseren delen van de workflow, maar hebben moeite om door gebruikers aangeleverde assets nauwkeurig te integreren, bewerkbaarheid te behouden en een professionele visuele aantrekkingskracht te bereiken. Commerciële systemen, zoals Canva Magic Design, vertrouwen op uitgebreide templatebibliotheken, die onpraktisch zijn om te repliceren. In dit artikel introduceren we CreatiPoster, een framework dat bewerkbare, meerlaagse composities genereert uit optionele natuurlijke-taalinstructies of assets. Een protocolmodel, een RGBA groot multimodaal model, produceert eerst een JSON-specificatie die elke laag (tekst of asset) gedetailleerd beschrijft met precieze lay-out, hiërarchie, inhoud en stijl, plus een beknopte achtergrondprompt. Een conditioneel achtergrondmodel synthetiseert vervolgens een samenhangende achtergrond, afhankelijk van deze gerenderde voorgrondlagen. We construeren een benchmark met geautomatiseerde metrieken voor grafisch-ontwerpgeneratie en tonen aan dat CreatiPoster toonaangevende open-source benaderingen en propriëtaire commerciële systemen overtreft. Om verder onderzoek te stimuleren, geven we een auteursrechtvrije corpus vrij van 100.000 meerlaagse ontwerpen. CreatiPoster ondersteunt diverse toepassingen zoals canvasbewerking, tekstoverlay, responsief schalen, meertalige aanpassing en geanimeerde posters, waardoor de democratisering van AI-ondersteund grafisch ontwerp wordt bevorderd. Projecthomepage: https://github.com/graphic-design-ai/creatiposter
Recente vooruitgang in multimodale foundation-modellen die beeldbegrip en -generatie verenigen, heeft spannende mogelijkheden geopend voor het aanpakken van een breed scala aan visie-taal taken binnen één enkel raamwerk. Ondanks de vooruitgang vereisen bestaande verenigde modellen doorgaans uitgebreide voorafgaande training en hebben ze moeite om hetzelfde prestatieniveau te bereiken als modellen die specifiek voor elke taak zijn ontworpen. Bovendien lijden veel van deze modellen onder trage beeldgeneratiesnelheden, wat hun praktische inzet in realtime of resourcebeperkte omgevingen beperkt. In dit werk stellen we Layerwise Timestep-Expert Flow-based Transformer (LaTtE-Flow) voor, een nieuwe en efficiënte architectuur die beeldbegrip en -generatie verenigt binnen één multimodaal model. LaTtE-Flow bouwt voort op krachtige vooraf getrainde Vision-Language Models (VLMs) om sterke multimodale begripscapaciteiten te erven, en breidt deze uit met een nieuwe Layerwise Timestep Experts flow-based architectuur voor efficiënte beeldgeneratie. LaTtE-Flow verdeelt het flow-matching proces over gespecialiseerde groepen Transformer-lagen, waarbij elke groep verantwoordelijk is voor een afzonderlijke subset van timesteps. Dit ontwerp verbetert de samplingefficiëntie aanzienlijk door slechts een kleine subset van lagen bij elke sampling-timestep te activeren. Om de prestaties verder te verbeteren, stellen we een Timestep-Conditioned Residual Attention mechanisme voor voor efficiënt hergebruik van informatie tussen lagen. Experimenten tonen aan dat LaTtE-Flow sterke prestaties levert op multimodale begripstaken, terwijl het competitieve beeldgeneratiekwaliteit bereikt met ongeveer 6x snellere inferentiesnelheid vergeleken met recente verenigde multimodale modellen.
Naarmate fine-tuning (FT) op grote schaal steeds onpraktischer wordt, komt probing naar voren als het voorkeursprotocol voor evaluatie bij zelfgestuurd leren (SSL). Echter faalt het standaard lineaire probing (LP) om het potentieel van modellen die getraind zijn met Masked Image Modeling (MIM) adequaat weer te geven, vanwege de gedistribueerde aard van patch-tokens. Dit motiveert de behoefte aan attentive probing, een alternatief dat aandacht gebruikt om patch-level kenmerken selectief te aggregeren. Ondanks de groeiende adoptie blijft attentive probing onderbelicht, waarbij bestaande methoden lijden onder overmatige parameterisatie en slechte rekenkundige efficiëntie. In dit werk herzien we attentive probing vanuit het perspectief van de nauwkeurigheid-efficiëntie afweging. We voeren een systematische studie uit van bestaande methoden, analyseren hun mechanismen en benchmarken hun prestaties. We introduceren efficient probing (EP), een multi-query cross-attention mechanisme dat overbodige projecties elimineert, het aantal trainbare parameters vermindert en tot een 10-voudige snelheidswinst behaalt ten opzichte van conventionele multi-head attention. Ondanks zijn eenvoud overtreft EP LP en eerdere attentive probing benaderingen over zeven benchmarks, generaliseert het goed buiten MIM naar diverse voorafgaande trainingsparadigma's, produceert het interpreteerbare aandachtkaarten en behaalt het sterke winsten in low-shot en layer-wise instellingen. Code beschikbaar op https://github.com/billpsomas/efficient-probing.
Recente vooruitgang in grote taalmodellen (LLMs) en AI-systemen heeft geleid tot een paradigmaverschuiving in het ontwerp en de optimalisatie van complexe AI-werkstromen. Door het integreren van meerdere componenten zijn samengestelde AI-systemen steeds beter geworden in het uitvoeren van geavanceerde taken. Naarmate deze systemen echter complexer worden, ontstaan er nieuwe uitdagingen in het optimaliseren van niet alleen individuele componenten, maar ook hun onderlinge interacties. Hoewel traditionele optimalisatiemethoden zoals supervised fine-tuning (SFT) en reinforcement learning (RL) fundamenteel blijven, biedt de opkomst van feedback in natuurlijke taal veelbelovende nieuwe benaderingen, vooral voor het optimaliseren van niet-differentieerbare systemen. Dit artikel biedt een systematisch overzicht van recente vooruitgang in het optimaliseren van samengestelde AI-systemen, waarbij zowel numerieke als taalgebaseerde technieken worden behandeld. We formaliseren het concept van optimalisatie van samengestelde AI-systemen, classificeren bestaande methoden langs verschillende belangrijke dimensies, en belichten open onderzoeksuitdagingen en toekomstige richtingen in dit snel evoluerende veld. Een lijst van de onderzochte artikelen is publiekelijk beschikbaar op https://github.com/MiuLab/AISysOpt-Survey.
Naarmate grote taalmodellen (LLMs) zijn geëvolueerd naar meer mensachtige communicatie en mens-AI-interacties steeds gebruikelijker zijn geworden, is prompting naar voren gekomen als een beslissend onderdeel. Er bestaat echter beperkte conceptuele consensus over wat precies natuurlijke taalprompts kwantificeert. Wij proberen deze vraag te beantwoorden door een meta-analyse uit te voeren van meer dan 150 prompting-gerelateerde papers uit toonaangevende NLP- en AI-conferenties van 2022 tot 2025 en blogs. Wij stellen een eigenschap- en mensgericht raamwerk voor om de kwaliteit van prompts te evalueren, waarbij 21 eigenschappen in zes dimensies worden onderverdeeld. Vervolgens onderzoeken wij hoe bestaande studies hun impact op LLMs beoordelen, wat een ongelijke ondersteuning over modellen en taken aan het licht brengt, evenals aanzienlijke onderzoekslacunes. Daarnaast analyseren wij correlaties tussen eigenschappen in hoogwaardige natuurlijke taalprompts, wat leidt tot aanbevelingen voor prompting. Vervolgens verkennen wij empirisch multi-eigenschap promptverbeteringen in redeneertaken, waarbij wij opmerken dat verbeteringen van één eigenschap vaak de grootste impact hebben. Tot slot ontdekken wij dat instructie-afstemming op prompts met verbeterde eigenschappen kan resulteren in betere redeneermodellen. Onze bevindingen leggen een basis voor eigenschapgerichte promptevaluatie en -optimalisatie, waardoor de kloof tussen mens-AI-communicatie wordt overbrugd en nieuwe onderzoeksrichtingen voor prompting worden geopend.
De schaaldiversiteit van pointcloud-gegevens vormt aanzienlijke uitdagingen bij het ontwikkelen van geüniformeerde representatietechnieken voor 3D-visie. Momenteel zijn er weinig geüniformeerde 3D-modellen, en geen enkele bestaande voorafgaande trainingsmethode is even effectief voor zowel object- als scèniveau pointclouds. In dit artikel introduceren we UniPre3D, de eerste geüniformeerde voorafgaande trainingsmethode die naadloos kan worden toegepast op pointclouds van elke schaal en 3D-modellen van elke architectuur. Onze aanpak voorspelt Gaussische primitieven als de voorafgaande trainings taak en maakt gebruik van differentieerbare Gaussische splatting om afbeeldingen te renderen, waardoor nauwkeurige pixel-niveau supervisie en end-to-end optimalisatie mogelijk worden. Om de complexiteit van de voorafgaande trainings taak verder te reguleren en de focus van het model op geometrische structuren te richten, integreren we 2D-functies van vooraf getrainde beeldmodellen om goed ingeburgerde textuurkennis op te nemen. We valideren de universele effectiviteit van onze voorgestelde methode door middel van uitgebreide experimenten over een verscheidenheid aan object- en scèniveau taken, waarbij we diverse pointcloud-modellen als backbones gebruiken. Code is beschikbaar op https://github.com/wangzy22/UniPre3D.
Reinforcement learning met verifieerbare beloningen (RLVR) is een belangrijke techniek geworden voor het verbeteren van grote taalmodelen (LLMs), waarbij verificatie-engineering een centrale rol speelt. Best practices voor RL bij instructievolging blijven echter onderbelicht. In dit werk onderzoeken we de verificatie-uitdaging bij RL voor instructievolging en introduceren we VerIF, een verificatiemethode die regelgebaseerde codeverificatie combineert met LLM-gebaseerde verificatie van een groot redeneermodel (bijvoorbeeld QwQ-32B). Om deze aanpak te ondersteunen, hebben we een hoogwaardige dataset voor instructievolging, VerInstruct, samengesteld, die ongeveer 22.000 instanties bevat met bijbehorende verificatiesignalen. We passen RL-training met VerIF toe op twee modellen en behalen aanzienlijke verbeteringen op verschillende representatieve benchmarks voor instructievolging. De getrainde modellen bereiken state-of-the-art prestaties onder modellen van vergelijkbare grootte en generaliseren goed naar onbekende beperkingen. We observeren verder dat hun algemene capaciteiten onaangetast blijven, wat suggereert dat RL met VerIF kan worden geïntegreerd in bestaande RL-recepten om de algehele modelprestaties te verbeteren. We hebben onze datasets, code en modellen vrijgegeven om toekomstig onderzoek te faciliteren op https://github.com/THU-KEG/VerIF.
Grote taalmodelen hebben natuurlijke taalverwerking getransformeerd, maar supervised fine-tuning (SFT) blijft rekenintensief. Dit artikel bewijst formeel dat de capaciteiten die via SFT worden verworven, kunnen worden benaderd door een basistransformermodel met behulp van inference-time technieken, specifiek in-context learning (ICL), zonder de modelparameters te wijzigen, onder geïdealiseerde aannames zoals onbeperkte rekenbronnen en toegang tot de fine-tuning dataset. We breiden deze resultaten uit naar praktische scenario's met beperkte contextlengtes en gedeeltelijke datasettoegang. Voor tekstgeneratietaken met een vaste uitvoerlengte l volstaan datasets van grootte Oleft( m V{varepsilon^2} log m{delta} right) of, bij beperkte context, Oleft( l log V{varepsilon^2} log 1{delta} right) om het fine-tuned gedrag te benaderen over m contexten binnen een foutmarge varepsilon, waarbij V de vocabulairegrootte is en delta de faalkans. Voor lineaire classificatie volstaan datasets van grootte Oleft( d{varepsilon} right) of, bij vaste context, Oleft( 1{varepsilon^2} log 1{delta} right), waarbij d de invoerdimensie is. Geworteld in de Turingvolledigheid van transformermodellen, bieden deze resultaten een theoretische basis voor de resource-efficiënte inzet van grote taalmodelen, waarbij praktische technieken zoals retrieval-augmented generation de kloof tussen theorie en real-world toepassingen overbruggen.
Een centraal doel van mechanistische interpreteerbaarheid is het identificeren van de juiste analyse-eenheden in grote taalmodellen (LLMs) die hun outputs causaal verklaren. Terwijl vroeger onderzoek zich richtte op individuele neuronen, heeft het bewijs dat neuronen vaak meerdere concepten coderen, een verschuiving gemotiveerd naar het analyseren van richtingen in de activatieruimte. Een belangrijke vraag is hoe richtingen te vinden die interpreteerbare kenmerken op een onbewaakte manier vastleggen. Huidige methoden vertrouwen op woordenboekleren met sparse autoencoders (SAEs), die doorgaans worden getraind over residustroomactivaties om richtingen vanaf nul te leren. SAEs hebben echter vaak moeite met causale evaluaties en missen intrinsieke interpreteerbaarheid, omdat hun leren niet expliciet gekoppeld is aan de berekeningen van het model. Hier pakken we deze beperkingen aan door MLP-activaties direct te ontbinden met semi-non-negatieve matrixfactorisatie (SNMF), zodat de geleerde kenmerken (a) sparse lineaire combinaties zijn van geactiveerde neuronen, en (b) gekoppeld zijn aan hun activerende inputs, waardoor ze direct interpreteerbaar zijn. Experimenten op Llama 3.1, Gemma 2 en GPT-2 laten zien dat SNMF-afgeleide kenmerken SAEs en een sterke bewaakte baseline (verschil-in-gemiddelden) overtreffen op causale sturing, terwijl ze aansluiten bij door mensen interpreteerbare concepten. Verdere analyse onthult dat specifieke neuroncombinaties worden hergebruikt over semantisch verwante kenmerken, wat een hiërarchische structuur in de activatieruimte van de MLP blootlegt. Samen positioneren deze resultaten SNMF als een eenvoudig en effectief hulpmiddel voor het identificeren van interpreteerbare kenmerken en het ontleden van conceptrepresentaties in LLMs.
Het trainen van grote taalmodellen gebeurt over het algemeen via optimalisatiemethoden op clusters die tienduizenden accelerators bevatten, die communiceren via een hoogbandbreedte-interconnect. Het opschalen van deze clusters is kostbaar en kan onpraktisch worden, waardoor er limieten worden opgelegd aan de grootte van modellen die getraind kunnen worden. Verschillende recente studies hebben trainingsmethoden voorgesteld die minder communicatie-intensief zijn, waardoor een sterk verbonden rekencluster niet nodig is. Deze state-of-the-art trainingsmethoden met weinig communicatie gebruiken nog steeds een synchronisatiestap voor modelparameters, die, wanneer deze wordt uitgevoerd over alle modelreplica's, kostbaar kan worden op een netwerk met lage bandbreedte. In dit werk stellen we een nieuwe optimalisatiemethode voor, NoLoCo, die niet expliciet alle modelparameters synchroniseert tijdens het trainen en als gevolg daarvan geen collectieve communicatie vereist. NoLoCo synchroniseert modelgewichten impliciet via een nieuwe variant van de Nesterov momentum-optimalisator door modelgewichten gedeeltelijk te middelen met een willekeurig geselecteerd ander gewicht. We bieden zowel een theoretische convergentieanalyse voor onze voorgestelde optimalisator als empirische resultaten van het trainen van taalmodellen. We testen NoLoCo op een breed scala aan aantallen accelerators en modelgroottes, tussen 125M en 6,8B parameters. Onze methode vereist aanzienlijk minder communicatie-overhead dan volledig gesharde data-parallelle training of zelfs de veelgebruikte trainingsmethode met weinig communicatie, DiLoCo. De synchronisatiestap zelf wordt geschat op een magnitude sneller te zijn dan de all-reduce die wordt gebruikt in DiLoCo voor enkele honderden accelerators die trainen via het internet. We hebben ook geen globale blokkerende communicatie die de inactiviteitstijd van accelerators vermindert. Vergeleken met DiLoCo observeren we ook tot 4% snellere convergentiesnelheid bij een breed scala aan modelgroottes en aantallen accelerators.
In e-commerce en digitale marketing is het genereren van hoogwaardige mens-product demonstratievideo's belangrijk voor een effectieve productpresentatie. De meeste bestaande frameworks slagen er echter niet in om de identiteiten van zowel mensen als producten te behouden of missen een begrip van de ruimtelijke relaties tussen mens en product, wat leidt tot onrealistische representaties en onnatuurlijke interacties. Om deze uitdagingen aan te pakken, stellen we een op Diffusion Transformer (DiT) gebaseerd framework voor. Onze methode behoudt gelijktijdig menselijke identiteiten en product-specifieke details, zoals logo's en texturen, door gepaarde mens-product referentie-informatie te injecteren en een aanvullende gemaskeerde cross-attention mechanisme te gebruiken. We gebruiken een 3D lichaamsmesh-sjabloon en productbegrenzingsvakken om precieze bewegingsrichtlijnen te bieden, waardoor een intuïtieve uitlijning van handgebaren met productplaatsingen mogelijk wordt. Daarnaast wordt gestructureerde tekstcodering gebruikt om categorie-niveau semantiek te integreren, wat de 3D-consistentie verbetert tijdens kleine rotatieveranderingen tussen frames. Getraind op een hybride dataset met uitgebreide data-augmentatiestrategieën, presteert onze aanpak beter dan state-of-the-art technieken in het behouden van de identiteitsintegriteit van zowel mensen als producten en het genereren van realistische demonstratiebewegingen. Projectpagina: https://submit2025-dream.github.io/DreamActor-H1/.
Classifier-free guidance (CFG) is een essentieel onderdeel geworden van moderne diffusiemodellen om zowel de generatiekwaliteit als de afstemming met invoervoorwaarden te verbeteren. CFG vereist echter specifieke trainingsprocedures en is beperkt tot conditionele generatie. Om deze beperkingen aan te pakken, stellen we Token Perturbation Guidance (TPG) voor, een nieuwe methode die verstoringsmatrices rechtstreeks toepast op tussenliggende tokenrepresentaties binnen het diffusienetwerk. TPG maakt gebruik van een normbehoudende shuffeloperatie om effectieve en stabiele begeleidingssignalen te bieden die de generatiekwaliteit verbeteren zonder architectuurwijzigingen. Hierdoor is TPG trainingsvrij en onafhankelijk van invoervoorwaarden, wat het direct toepasbaar maakt voor zowel conditionele als onvoorwaardelijke generatie. We analyseren verder de begeleidingsterm die door TPG wordt geboden en laten zien dat het effect op de steekproef meer lijkt op CFG in vergelijking met bestaande trainingsvrije begeleidingstechnieken. Uitgebreide experimenten op SDXL en Stable Diffusion 2.1 tonen aan dat TPG een bijna 2-voudige verbetering in FID bereikt voor onvoorwaardelijke generatie ten opzichte van de SDXL-basislijn, terwijl het CFG nauwgezet evenaart in promptafstemming. Deze resultaten vestigen TPG als een algemene, voorwaarde-onafhankelijke begeleidingsmethode die CFG-achtige voordelen biedt aan een bredere klasse van diffusiemodellen. De code is beschikbaar op https://github.com/TaatiTeam/Token-Perturbation-Guidance.
De toenemende adoptie van kunstmatige intelligentie in de telecommunicatie heeft de interesse gewekt in de mogelijkheden van Large Language Models (LLMs) om domeinspecifieke, wiskundig intensieve taken aan te pakken. Hoewel recente vooruitgang de prestaties van LLMs in algemeen wiskundig redeneren heeft verbeterd, blijft hun effectiviteit binnen gespecialiseerde domeinen, zoals signaalverwerking, netwerkoptimalisatie en prestatieanalyse, grotendeels onontgonnen. Om dit hiaat te dichten, introduceren we TeleMath, de eerste benchmarkdataset die specifiek is ontworpen om de prestaties van LLMs te evalueren bij het oplossen van wiskundige problemen met numerieke oplossingen in het telecommunicatiedomein. Bestaande uit 500 vraag-antwoordparen (QnA), bestrijkt TeleMath een breed scala aan onderwerpen binnen het telecommunicatieveld. Dit artikel beschrijft de voorgestelde QnA-generatiepijplijn, beginnend bij een geselecteerde set problemen die zijn opgesteld door vakdeskundigen. De evaluatie van een breed scala aan open-source LLMs laat zien dat de beste prestaties op TeleMath worden behaald door recente modellen die expliciet zijn ontworpen voor wiskundig of logisch redeneren. Daarentegen worstelen algemene modellen, zelfs die met een groot aantal parameters, vaak met deze uitdagingen. We hebben de dataset en de evaluatiecode vrijgegeven om de reproduceerbaarheid van resultaten te vergemakkelijken en toekomstig onderzoek te ondersteunen.
Het optimaliseren van inferentie voor Large Language Models (LLMs) met lange context wordt steeds belangrijker vanwege de kwadratische rekenkracht en lineaire geheugencomplexiteit van Transformers. Bestaande benaderingsmethoden, zoals het laten vallen van de key-value (KV) cache, sparse attention en promptcompressie, vertrouwen doorgaans op ruwe voorspellingen van het belang van tokens of KV-paren. Wij stellen een nieuw raamwerk voor voor benaderende LLM-inferentie dat gebruikmaakt van kleine draft-modellen om het belang van tokens en KV-paren nauwkeuriger te voorspellen. Specifiek introduceren we twee uitvoeringen van ons voorgestelde raamwerk: (i) SpecKV, dat een draft-uitvoer gebruikt om het belang van elk KV-paar nauwkeurig te beoordelen voor effectiever laten vallen van de KV-cache, en (ii) SpecPC, dat de aandachtactivaties van het draft-model gebruikt om onbelangrijke prompt-tokens te identificeren en te verwijderen. Voor zover wij weten, is dit het eerste werk dat draft-modellen gebruikt voor benaderende LLM-inferentieversnelling, waardoor hun nut wordt uitgebreid voorbij traditioneel verliesvrij speculatief decoderen. We motiveren onze methoden met theoretische en empirische analyses en tonen een sterke correlatie aan tussen de aandachtpatronen van draft- en doelmodellen. Uitgebreide experimenten op benchmarks met lange context laten zien dat onze methoden consistent een hogere nauwkeurigheid bereiken dan bestaande baselines, terwijl dezelfde verbeteringen in geheugengebruik, latentie en doorvoer behouden blijven. Onze code is beschikbaar op https://github.com/furiosa-ai/draft-based-approx-llm.
Large Language Model (LLM) unlearning heeft als doel ongewenste kennis binnen het model te wissen of te onderdrukken, wat belofte biedt voor het beheersen van schadelijke of privé-informatie om misbruik te voorkomen. Recente studies benadrukken echter de beperkte effectiviteit ervan in real-world scenario's, wat de praktische adoptie belemmert. In deze studie identificeren we een wijdverbreid probleem dat ten grondslag ligt aan veel downstream-fouten: de effectiviteit van bestaande unlearning-methoden hangt sterk af van de vorm van de trainingsvoorbeelden en slaagt er vaak niet in om te generaliseren naar alternatieve uitdrukkingen van dezelfde kennis. We karakteriseren dit probleem formeel als Form-Dependent Bias en onderzoeken systematisch de specifieke manifestatiepatronen ervan in verschillende downstream-taken. Om de prevalentie ervan te kwantificeren en toekomstig onderzoek te ondersteunen, introduceren we ORT, een nieuwe benchmark ontworpen om de robuustheid van unlearning-methoden te evalueren tegen variaties in kennisuitdrukking. De resultaten tonen aan dat Form-Dependent Bias zowel wijdverbreid als ernstig is onder de huidige technieken. We beargumenteren dat LLM unlearning vorm-onafhankelijk zou moeten zijn om de eindeloze vormen van downstream-taken aan te pakken die worden aangetroffen in real-world, veiligheidskritieke scenario's. Naar dit doel toe introduceren we Rank-one Concept Redirection (ROCR), een nieuwe trainingsvrije methode, als een veelbelovende oplossingsrichting. ROCR voert unlearning uit door zich te richten op de invarianten in downstream-taken, specifiek de geactiveerde gevaarlijke concepten. Het is in staat om modelparameters binnen enkele seconden aan te passen om de perceptie van het model van een specifiek unlearning-doelconcept om te leiden naar een ander onschadelijk concept. Uitgebreide experimenten tonen aan dat ROCR de effectiviteit van unlearning aanzienlijk verbetert in vergelijking met traditionele methoden, terwijl het zeer natuurlijke outputs genereert.
De snelle evolutie van wetenschappelijke vakgebieden brengt uitdagingen met zich mee bij het organiseren en terugvinden van wetenschappelijke literatuur. Hoewel door experts samengestelde taxonomieën traditioneel in deze behoefte voorzien, is dit proces tijdrovend en kostbaar. Bovendien vertrouwen recente methoden voor automatische taxonomieconstructie ofwel (1) te sterk op een specifiek corpus, wat ten koste gaat van de generaliseerbaarheid, ofwel (2) te veel op de algemene kennis van grote taalmodelen (LLMs) die in hun vooraf getrainde datasets zijn opgenomen, waarbij vaak het dynamische karakter van evoluerende wetenschappelijke domeinen over het hoofd wordt gezien. Daarnaast houden deze benaderingen geen rekening met de veelzijdige aard van wetenschappelijke literatuur, waarbij een enkel onderzoeksartikel kan bijdragen aan meerdere dimensies (bijv. methodologie, nieuwe taken, evaluatiemetrices, benchmarks). Om deze tekortkomingen aan te pakken, stellen we TaxoAdapt voor, een raamwerk dat een door een LLM gegenereerde taxonomie dynamisch aanpast aan een gegeven corpus over meerdere dimensies. TaxoAdapt voert iteratieve hiërarchische classificatie uit, waarbij zowel de breedte als de diepte van de taxonomie wordt uitgebreid op basis van de thematische verdeling van het corpus. We demonstreren zijn state-of-the-art prestaties over een diverse reeks computerwetenschappelijke conferenties door de jaren heen om zijn vermogen te tonen om de evolutie van wetenschappelijke velden te structureren en vast te leggen. Als een multidimensionale methode genereert TaxoAdapt taxonomieën die 26,51% beter granulariteit behouden en 50,41% coherenter zijn dan de meest competitieve baseline-methoden, beoordeeld door LLMs.
Beweringen die door individuen of entiteiten worden gemaakt, zijn vaak genuanceerd en kunnen niet eenduidig als volledig "waar" of "onwaar" worden bestempeld — wat vaak het geval is bij wetenschappelijke en politieke beweringen. Een bewering (bijvoorbeeld "vaccin A is beter dan vaccin B") kan echter worden opgedeeld in zijn integrale aspecten en subaspecten (bijvoorbeeld effectiviteit, veiligheid, distributie), die individueel gemakkelijker te valideren zijn. Dit maakt een meer uitgebreid, gestructureerd antwoord mogelijk dat een goed afgerond perspectief biedt op een bepaald probleem, terwijl de lezer ook de mogelijkheid krijgt om specifieke invalshoeken binnen de bewering te prioriteren (bijvoorbeeld veiligheid voor kinderen). Daarom stellen we ClaimSpect voor, een op retrieval-augmented generation gebaseerd raamwerk voor het automatisch construeren van een hiërarchie van aspecten die typisch worden overwogen bij het behandelen van een bewering, en deze te verrijken met corpus-specifieke perspectieven. Deze structuur verdeelt een invoercorpus hiërarchisch om relevante segmenten op te halen, die helpen bij het ontdekken van nieuwe subaspecten. Bovendien maken deze segmenten het mogelijk om verschillende perspectieven ten opzichte van een aspect van de bewering te ontdekken (bijvoorbeeld ondersteuning, neutraal of tegenstand) en hun respectievelijke prevalentie (bijvoorbeeld "hoeveel biomedische artikelen geloven dat vaccin A beter vervoerbaar is dan B?"). We passen ClaimSpect toe op een breed scala aan real-world wetenschappelijke en politieke beweringen die zijn opgenomen in onze geconstrueerde dataset, waarbij we de robuustheid en nauwkeurigheid ervan demonstreren in het deconstrueren van een genuanceerde bewering en het representeren van perspectieven binnen een corpus. Door real-world casestudies en menselijke evaluatie valideren we de effectiviteit ervan ten opzichte van meerdere baselines.
Het construeren van een fysiek realistisch en nauwkeurig geschaalde gesimuleerde 3D-wereld is cruciaal voor de training en evaluatie van taken voor belichaamde intelligentie. De diversiteit, realisme, lage kosten, toegankelijkheid en betaalbaarheid van 3D-data-assets zijn essentieel voor het bereiken van generalisatie en schaalbaarheid in belichaamde AI. De meeste huidige taken voor belichaamde intelligentie zijn echter nog steeds sterk afhankelijk van traditionele 3D-computergraphics-assets die handmatig zijn gemaakt en geannoteerd, wat gepaard gaat met hoge productiekosten en beperkt realisme. Deze beperkingen belemmeren de schaalbaarheid van data-gedreven benaderingen aanzienlijk. Wij presenteren EmbodiedGen, een fundamenteel platform voor de interactieve generatie van 3D-werelden. Het maakt de schaalbare generatie mogelijk van hoogwaardige, controleerbare en fotorealistische 3D-assets met nauwkeurige fysieke eigenschappen en realistische schaal in het Unified Robotics Description Format (URDF) tegen lage kosten. Deze assets kunnen direct worden geïmporteerd in verschillende fysica-simulatie-engines voor fijnmazige fysieke controle, wat ondersteuning biedt voor downstream taken in training en evaluatie. EmbodiedGen is een gebruiksvriendelijke, volledig uitgeruste toolkit die bestaat uit zes belangrijke modules: Image-to-3D, Text-to-3D, Texture Generation, Articulated Object Generation, Scene Generation en Layout Generation. EmbodiedGen genereert diverse en interactieve 3D-werelden die bestaan uit generatieve 3D-assets, waarbij gebruik wordt gemaakt van generatieve AI om de uitdagingen van generalisatie en evaluatie aan te pakken in lijn met de behoeften van onderzoek gerelateerd aan belichaamde intelligentie. Code is beschikbaar op https://horizonrobotics.github.io/robot_lab/embodied_gen/index.html.
Een betrouwbare evaluatie van de capaciteiten van taalmodelen is cruciaal voor het afleiden van bruikbare inzichten die de modelontwikkeling kunnen informeren. Echter, rigoureuze causale evaluaties in dit domein worden geconfronteerd met aanzienlijke methodologische uitdagingen, waaronder complexe verstorende effecten en ondoenlijke rekenkosten die gepaard gaan met uitgebreide hertraining. Om deze uitdagingen aan te pakken, stellen we een causaal representatieleerframework voor waarin de waargenomen benchmarkprestaties worden gemodelleerd als een lineaire transformatie van enkele latente capaciteitsfactoren. Cruciaal is dat deze latente factoren worden geïdentificeerd als causaal met elkaar verbonden na het adequaat controleren voor het basismodel als een gemeenschappelijke verstorende factor. Door deze aanpak toe te passen op een uitgebreide dataset die meer dan 1500 modellen omvat die zijn geëvalueerd over zes benchmarks van de Open LLM Leaderboard, identificeren we een beknopte lineaire causale structuur met drie knooppunten die de waargenomen prestatievariaties betrouwbaar verklaart. Verdere interpretatie van deze causale structuur biedt aanzienlijke wetenschappelijke inzichten die verder gaan dan eenvoudige numerieke rangschikkingen: specifiek onthullen we een duidelijke causale richting die begint bij algemene probleemoplossende capaciteiten, voortschrijdt naar vaardigheid in het opvolgen van instructies, en culmineert in wiskundig redeneervermogen. Onze resultaten benadrukken de essentiële rol van het zorgvuldig controleren van variaties in het basismodel tijdens evaluatie, een stap die cruciaal is voor het nauwkeurig blootleggen van de onderliggende causale relaties tussen latente modelcapaciteiten.
Foundation models hebben een revolutie teweeggebracht in domeinen zoals natuurlijke taalverwerking en computervisie door algemeen toepasbaar leren over diverse taken en datasets mogelijk te maken. Het bouwen van vergelijkbare modellen voor menselijke mobiliteit blijft echter een uitdaging vanwege de privacygevoelige aard van mobiliteitsgegevens en de daaruit voortvloeiende datasilo's tussen instellingen. Om deze kloof te overbruggen, stellen we MoveGCL voor, een schaalbare en privacybeschermende framework voor het trainen van mobiliteits-foundationmodellen via generatief continu leren. Zonder ruwe data te delen, maakt MoveGCL gedecentraliseerde en progressieve modelontwikkeling mogelijk door synthetische trajecten te herhalen die gegenereerd zijn door een bevroren leraarmodel, en versterkt het kennisbehoud via een op maat gemaakte distillatiestrategie die catastrofaal vergeten tegengaat. Om de heterogeniteit van mobiliteitspatronen aan te pakken, integreert MoveGCL een Mixture-of-Experts Transformer met een mobiliteitsbewuste expertrouteringsmechanisme, en gebruikt het een laaggewijze progressieve aanpassingsstrategie om continue updates te stabiliseren. Experimenten op zes real-world stedelijke datasets tonen aan dat MoveGCL prestaties bereikt die vergelijkbaar zijn met gezamenlijke training en significant beter presteert dan federated learning-baselines, terwijl het sterke privacybescherming biedt. MoveGCL markeert een cruciale stap richting het ontsluiten van foundationmodellen voor mobiliteit, en biedt een praktisch blauwdruk voor open, schaalbare en privacybeschermende modelontwikkeling in het tijdperk van foundationmodellen.
Bijschriften bij figuren zijn cruciaal om lezers te helpen de kernboodschap van een figuur te begrijpen en te onthouden. Er zijn veel modellen ontwikkeld om deze bijschriften te genereren, wat auteurs helpt om gemakkelijker bijschriften van betere kwaliteit te schrijven. Toch moeten auteurs vrijwel altijd generieke, door AI gegenereerde bijschriften aanpassen om deze af te stemmen op hun schrijfstijl en de stijl van het domein, wat de noodzaak van personalisatie benadrukt. Ondanks de vooruitgang in personalisatie van taalmodel (LaMP), richten deze technologieën zich vaak op tekstgerichte instellingen en behandelen ze zelden scenario's waarin zowel invoer als profielen multimodaal zijn. Dit artikel introduceert LaMP-Cap, een dataset voor gepersonaliseerde generatie van bijschriften bij figuren met multimodale figuurprofielen. Voor elke doelafbeelding biedt LaMP-Cap niet alleen de benodigde invoer, zoals afbeeldingen van figuren, maar ook maximaal drie andere figuren uit hetzelfde document—elk met zijn afbeelding, bijschrift en alinea's die naar de figuur verwijzen—als een profiel om de context te karakteriseren. Experimenten met vier LLM's laten zien dat het gebruik van profielinformatie consistent helpt om bijschriften te genereren die dichter bij de originele, door de auteur geschreven bijschriften liggen. Ablatiestudies onthullen dat afbeeldingen in het profiel nuttiger zijn dan alinea's die naar figuren verwijzen, wat het voordeel benadrukt van het gebruik van multimodale profielen ten opzichte van alleen tekstuele profielen.
Naarmate geautomatiseerde aanvalstechnieken zich snel ontwikkelen, blijven CAPTCHA's een cruciaal verdedigingsmechanisme tegen kwaadaardige bots. Bestaande CAPTCHA-systemen omvatten echter een breed scala aan modaliteiten – van statische vervormde tekst en verborgen afbeeldingen tot interactieve klikken, schuifpuzzels en logica-gebaseerde vragen – maar de gemeenschap beschikt nog steeds niet over een uniforme, grootschalige, multimodale benchmark om hun beveiligingsrobuustheid rigoureus te evalueren. Om dit gat te dichten, introduceren we MCA-Bench, een uitgebreide en reproduceerbare benchmarkingsuite die heterogene CAPTCHA-typen integreert in een enkel evaluatieprotocol. Door gebruik te maken van een gedeeld vision-language model, fine-tunen we gespecialiseerde kraakagentschappen voor elke CAPTCHA-categorie, wat consistente, cross-modale beoordelingen mogelijk maakt. Uitgebreide experimenten tonen aan dat MCA-Bench effectief het kwetsbaarheidsspectrum van moderne CAPTCHA-ontwerpen in kaart brengt onder verschillende aanvalsinstellingen, en cruciaal biedt het de eerste kwantitatieve analyse van hoe uitdagingscomplexiteit, interactiediepte en modeloplosbaarheid met elkaar samenhangen. Op basis van deze bevindingen stellen we drie praktische ontwerp principes voor en identificeren we belangrijke open uitdagingen, waarmee de basis wordt gelegd voor systematische CAPTCHA-verharding, eerlijke benchmarking en bredere gemeenschapssamenwerking. Datasets en code zijn online beschikbaar.
Real-time reconstructie van dynamische 3D-scènes uit ongekalibreerde videostreams is cruciaal voor tal van real-world toepassingen. Bestaande methoden hebben echter moeite om drie belangrijke uitdagingen tegelijkertijd aan te pakken: 1) het verwerken van ongekalibreerde inputs in real time, 2) het nauwkeurig modelleren van dynamische scène-evolutie, en 3) het behouden van langetermijnstabiliteit en rekenkundige efficiëntie. Daarom introduceren wij StreamSplat, het eerste volledig feed-forward framework dat ongekalibreerde videostreams van willekeurige lengte omzet in dynamische 3D Gaussian Splatting (3DGS) representaties op een online manier, in staat om scènedynamiek te herstellen uit temporeel lokale observaties. Wij stellen twee belangrijke technische innovaties voor: een probabilistisch samplingmechanisme in de statische encoder voor 3DGS positievoorspelling, en een bidirectioneel vervormingsveld in de dynamische decoder dat robuust en efficiënt dynamisch modelleren mogelijk maakt. Uitgebreide experimenten op statische en dynamische benchmarks tonen aan dat StreamSplat consistent beter presteert dan eerdere werken in zowel reconstructiekwaliteit als dynamisch scènemodelleren, terwijl het uniek online reconstructie van willekeurig lange videostreams ondersteunt. Code en modellen zijn beschikbaar op https://github.com/nickwzk/StreamSplat.