Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
LLM-Agenten operieren zunehmend in großen Tool-Ökosystemen, in denen reale Aufgaben das Auffinden relevanter Tools, das Ableiten impliziter Teilziele und die Anpassung an dynamische Umgebungen über lange Zeithorizonte erfordern. Bestehende Benchmarks evaluieren jedoch selten die Planung unter einer durch Retrieval eingeschränkten Tool-Sichtbarkeit. Um diese Lücke zu schließen, führen wir PlanBench-XL ein, einen interaktiven Benchmark mit 327 Einzelhandelsaufgaben über 1.665 Tools, der testet, ob Agenten iterativ nutzbare Tools abrufen, sie einsetzen können, um Zwischennachweise für nachfolgende Aufrufe in Richtung des Endziels zu ermitteln. PlanBench-XL bietet zudem einen optionalen Blockierungsmechanismus, der die Unvorhersehbarkeit der realen Welt durch fehlende, fehlerhafte oder ablenkende Tool-Funktionen simuliert und Agenten zwingt, unterbrochene Pfade zu erkennen und zur Laufzeit anzupassen. Experimente mit zehn führenden LLMs zeigen, dass die Planung mit massiven Tool-Mengen weiterhin eine Herausforderung darstellt: Während GPT-5.4 in blockierungsfreien Einstellungen eine Genauigkeit von 51,90 % erreicht, sinkt diese unter der schwersten Blockierungsbedingung auf 11,36 % ab. Weitere Analysen zeigen, dass Agenten besonders anfällig sind, wenn Fehlern explizite Fehlersignale fehlen oder wenn die Wiederherstellung längere alternative Tool-Nutzungspfade erfordert. Diese Ergebnisse etablieren PlanBench-XL als Testumgebung zur Diagnose agentischer Planungsfehler und unterstreichen die Notwendigkeit einer robusten adaptiven Planung für langfristige Aufgaben mit großen, unvollkommenen Tool-Umgebungen.
Moderne Agentensysteme leiden häufig unter fragmentierten Laufzeitzuständen: Transkripte, Werkzeugeffekte, Speicherereignisse, Arbeitsbereichsplatzierungen, Abzweigherkünfte und Wiedergabenachweise werden getrennt erfasst und sind schwer zu prüfen oder zu reproduzieren. OpenRath begegnet diesem Problem mit einem PyTorch-ähnlichen Programmiermodell für Multi-Agenten- und Multi-Sitzungssysteme. Die Analogie bezieht sich auf die Rolle einer zentralen erstklassigen Laufzeitabstraktion, nicht auf Tensorberechnungen. Seine Kernabstraktion ist die Session, der Laufzeitwert, der zwischen Agenten und Workflows übergeben wird. Eine Session ist verzweigbar, prüfbar, wiederholbar, backend-bewusst und zusammensetzbar. Sie zeichnet Gesprächsabschnitte, Sandbox-Platzierungen, Abstammungsmetadaten, Tokenverbrauch, anstehende Arbeiten und Werkzeugnachweise auf und definiert, wo Speicherinteraktionen in den Laufzeitdatensatz eingehen. Da dieser Zustand durch denselben Wert getragen wird, der bei der Programmausführung verwendet wird, werden Fork, Merge und Replay zu expliziten Laufzeitoperationen und nicht zu Zuständen, die aus externen Spuren rekonstruiert werden. OpenRath definiert ferner Sandbox, Werkzeug, Agent, Speicher, Workflow und Selektor, wobei der Selektor den Kontrollfluss in laufzeitgesteuerte Entscheidungen umwandelt. Dieser Bericht stellt das Programmiermodell, die Architektur, geprüfte Meilensteine und das Nachweisprotokoll vor. Seine Behauptungen beschränken sich auf kontrollierte Laufzeiteigenschaften, während breite quantitative Vergleiche, Live-Anbieterqualität, optionale Backend-Verfügbarkeit und Speicherqualität für eine Folgebewertung offen bleiben. Die zentrale These ist, dass die Session Agentensystemen einen erstklassigen Laufzeitwert für prüfbare Komposition bietet.
Massive unstrukturierte multimodale Ströme weisen eine hohe „Datenentropie“ auf, was sowohl die effiziente menschliche Wissensaneignung als auch hochwertiges KI-Post-Training behindert. Bestehende passive Annotationsparadigmen, die stark auf heuristischen Regeln oder allgemeinen VLMs basieren, sind kostspielig, monoton und können die tief in Rohdaten eingebettete prozedurale Logik nicht erschließen. Wir erheben die Datenverarbeitung zu einer erlernbaren Fähigkeit und schlagen einen Paradigmenwechsel hin zum agentenbasierten Daten-Tailoring vor, bei dem Daten aktiv verfeinert und strukturiert werden, um sie an unterschiedliche Nutzer- und Downstream-Intentionen anzupassen. Um den Engpass der Datenknappheit beim Training solch hochrangiger Fähigkeiten zu überwinden, entwerfen wir eine zweistufige Pipeline, die generative semantische Synthese in deterministischen faktischen Ankern (Factual Anchors) verankert und einen groß angelegten Datensatz über fünf zentrale physikalische und digitale Domänen hinweg erzeugt. Darauf aufbauend kombiniert das DataClaw_0-9B-Modell Supervised Fine-Tuning (SFT) mit Group Relative Policy Optimization (GRPO) und erreicht eine robuste Ausrichtung auf komplexe Verfeinerungs- und Tailoring-Intentionen. Um diese Fähigkeit systematisch zu quantifizieren, konstruieren wir DataClaw_0-val, den ersten Benchmark, der der Datenverfeinerung gewidmet ist. Entscheidend ist, dass wir das nachgelagerte Post-Training als ultimativen Validierungsmaßstab verwenden. Auswertungen zur Videogenerierung, echten VQA und GUI-Navigation bestätigen, dass DataClaw_0 maßgeschneiderte Daten mit hoher Informationsdichte liefert und so eine effiziente Modellanpassung an neue Aufgaben unter begrenzten Trainingsdaten ermöglicht. Projektseite: https://czjdsg.github.io/MakeAnyData
Unternehmensagenten operieren zunehmend in Arbeitsbereichen: Sie lesen heterogene Dateien, rufen Werkzeuge auf und liefern betriebliche Artefakte aus. Wir stellen EnterpriseClawBench vor, einen Benchmark für Unternehmensagenten, der auf proprietären, realen Agentensitzungen basiert. Ausgehend von einem großen Archiv an Arbeitsplatzsitzungen generiert EnterpriseClawBench 852 reproduzierbare Aufgaben, jeweils versehen mit wiederhergestellten Fixtures, umgeschriebenen Prompts, Rollenklassen, Fertigkeitsunterklassen, harten Regeln und semantischen Bewertungsrichtlinien. Da die Sitzungen unternehmensinterne Inhalte enthalten, veröffentlichen wir die Benchmarkdaten nicht; unser wiederverwendbarer Beitrag besteht vielmehr im Konstruktions- und Evaluierungsprotokoll. Auf EnterpriseClawBench erreicht die beste Konfiguration lediglich 0,663 (Codex mit GPT-5.5). Diese Ergebnisse zeigen, dass die Evaluierung von Unternehmensagenten Kombinationen aus Prüfstand und Modell, Artefaktauslieferung, visuelle Qualität, Kosten, Laufzeit und Fertigkeitstransferverhalten berichten muss, anstatt die Leistung auf eine einzelne Kennzahl zu reduzieren. Code: https://github.com/FrontisAI/EnterpriseClawBench
Self-Attention ist zentral für die Leistungsfähigkeit von Transformatoren und stellt bei langen Kontextlängen oft den rechenintensivsten Teil dar, da ihre paarweisen Token-Interaktionen quadratisch mit der Sequenzlänge skalieren. Standardmäßige dichte Aufmerksamkeit wendet zudem unabhängig von der Schwierigkeit oder dem Informationsgehalt eines Tokens denselben Satz von Aufmerksamkeitsköpfen auf jedes Token an. Diese gleichförmige Aktivierung kann Rechenleistung verschwenden, insbesondere wenn Sequenzen länger werden und die Kosten für die Aufmerksamkeit rapide steigen. Wir schlagen Grouped Query Experts (GQE) vor – eine Mixture-of-Experts-Schicht oberhalb der gruppierten Query-Aufmerksamkeit (GQA). Innerhalb jeder GQA-Gruppe wählt ein Router pro Token k Query-Head-Experten aus, während alle Key-Value-(KV)-Köpfe dicht und unverändert bleiben. Somit bewahrt GQE die Vorteile des KV-Cache von GQA und reduziert nur die aktive Berechnung der Query-Köpfe. Bei einem festen Budget von 30 Milliarden Token auf der 250-Millionen-Parameter-Skala erreicht GQE die gleiche Downstream-Genauigkeit wie die vollaktive GQA-Baseline, während pro Token nur die Hälfte der Query-Köpfe aktiviert wird.
Mit zunehmender Skalierung von Retrieval-Systemen gewinnt eine qualitativ hochwertige Neubewertung (Reranking) stetig an Bedeutung. Die meisten bestehenden Reranker – sowohl encoder- als auch decoderbasierte – kodieren jedoch Abfrage und Passagen gemeinsam, was deren Berechnung eng koppelt sowie die Effizienz und Flexibilität des Einsatzes einschränkt. Wir stellen KaLM-Reranker-V1 vor, einen schnellen, aber nicht spät interagierenden (FBNL) Reranker, der die Berechnung von Abfrage und Passagen entkoppelt und dennoch eine ausdrucksstarke Relevanzmodellierung beibehält. KaLM-Reranker-V1 basiert auf einer Encoder-Decoder-Architektur: Der Encoder kodiert Passagen mittels Matroschka-Einbettungs-Pooling vor, während der Decoder die Systemanweisung, die Benutzeranweisung und die Abfrageintention modelliert; die Kreuzaufmerksamkeit (Cross-Attention) erfasst anschließend die Relevanz zwischen dem Abfragekontext und den Passagenrepräsentationen. Dieses Design macht KaLM-Reranker-V1 durch entkoppelte Passagenkodierung effizient, aber dennoch nicht spät interagierend, da eine reichhaltige Relevanzmodellierung über Kreuzaufmerksamkeit erhalten bleibt. Wir instanziieren KaLM-Reranker-V1 in drei Größen – Nano, Small und Large – mit 0,27 Mrd., 1 Mrd. bzw. 4 Mrd. aktivierten Parametern. Umfangreiche Experimente auf BEIR, MIRACL und LMEB zeigen, dass KaLM-Reranker-V1 starke Reranking-Leistung bei überlegener Effizienz erzielt. Auf BEIR erreicht KaLM-Reranker-V1 eine Spitzenleistung, die mit starken industriellen Modellen wie der Qwen3-Reranker-Serie vergleichbar ist; auf MIRACL zeigt KaLM-Reranker-V1 trotz fehlender umfangreicher Trainingsdaten für mehrsprachige Daten weiterhin exzellente Reranking-Ergebnisse. Darüber hinaus weisen Reranking-Modelle auf LMEB einen deutlichen Vorteil auf – selbst das 0,27-Milliarden-Parameter-Nano-Modell bleibt wettbewerbsfähig mit 7-12-Milliarden-Einbettungsmodellen.
World Action Models (WAMs) sind verkörperte prädiktive Aktionsmodelle, die eine Vorhersage der Zukunft für Handlungen bereitstellen. Aktuelle WAMs funktionieren große Videogenerierungsmodelle um, während eine parallele Forschungslinie auf Sprach- oder Vision-Language-Grundgerüsten ohne Videogenerierungskern basiert. Diese rasche Expansion hat die Grenzen zwischen breiten Weltmodellen, Videogenerierungsmodellen, handlungsfundierten Video-Weltmodellen, Vision-Language-Action-Policys und WAMs verschwimmen lassen. Diese Übersichtsarbeit liefert dem Feld eine gemeinsame Darstellung. Sie klärt zunächst diese Grenzen, um dann bestehende Arbeiten durch zwei komplementäre Perspektiven zu ordnen. Die erste Perspektive fragt, was jede Methode generieren muss – dies umfasst gerenderte Zukünfte, latente Zukünfte und videogenerierungsfreie Aktionsschlussfolgerung. Die zweite Perspektive zerlegt jede Methode nach prädiktivem Substrat, Grundgerüst, Aktionskopplung und Einsatzregime. Diese Anatomie ermöglicht eine einheitliche Diskussion von Interagierbarkeit, Kausalität, Persistenz, physikalischer Plausibilität und Generalisierung, gefolgt von Daten, Evaluation und offenen Herausforderungen. Über diese Achsen hinweg zeichnet sich ein einheitliches Entwurfsmuster ab: WAMs sind nicht einfach Videogeneratoren mit Aktionsköpfen, sondern prädiktive Aktionsmethoden, deren Designentscheidungen Repräsentationsreichtum gegen Rechenleistung, Speicher, Latenz und Aktionslabelkosten abwägen. Das Feld bewegt sich hin zu Methoden, die weniger von der Zukunft generieren, dabei aber bewahren, was die Steuerung erfordert. Die Übersichtsseite ist verfügbar unter https://world-action-models.github.io/.
Während neuere LLM-basierte Terminal-Agenten vielversprechende Fähigkeiten gezeigt haben, bleibt die Knappheit an hochwertigen, ausführbaren Trainingsdaten ein kritischer Engpass. Bestehende Synthese-Pipelines skalieren typischerweise, indem sie oberflächliche Artefakte nachträglich in Aufgaben einfügen, was häufig zu mehrdeutigen Anweisungen, oberflächlichen Ausführungspfaden und fragilen Tests führt, die schwache Lernsignale liefern. Um dies zu überwinden, führen wir CLI-Universe ein, eine prinzipienbasierte Synthese-Engine zur Konstruktion von Terminal-Agenten-Aufgaben. CLI-Universe generiert Kandidatenaufgaben durch das Sampling von Kombinationen aus einer mehrdimensionalen Fähigkeitstaxonomie (Domäne, Fertigkeitstyp, Fähigkeit und technologische Säule) und verankert dann jeden Kandidaten durch evidenzgeführte Tiefenrecherche über reale technische Materialien. Um eine strenge Überwachung zu gewährleisten, werden validierte Blaupausen in Docker-Umgebungen instanziiert und einer mehrstufigen Pipeline zur Überprüfung der Ausführbarkeit unterzogen, die eine rubricengesteuerte Testkonstruktion, eine hinweisbedingte Filterung und eine strenge Fail-to-Pass-Prüfung umfasst. Über die gesamte Pipeline hinweg, von der Kandidatengenerierung bis zur Verifikation, werden etwa zwei Drittel der Kandidaten verworfen, sodass nur solche erhalten bleiben, die echt, verifizierbar und nicht trivial herausfordernd sind. Zur Validierung unseres Frameworks instanziieren wir einen hochgradig destillierten Datensatz von 6.000 Trajektorien namens CLI-Universe-6K. Bemerkenswerterweise erreicht das Feintuning von Qwen3-32B auf CLI-Universe-6K 33,4 % auf Terminal-Bench 2.0. Dies setzt einen neuen Stand der Technik für Modelle, die auf Open-Source-Daten mit maximal 32B Parametern trainiert wurden, und übertrifft mehrere Modelle, die eine Größenordnung größer sind, was die tiefgreifende Dateneffizienz strukturierter, hochgenauer Synthese demonstriert.
Bestehende Embedding-Modelle sind inhärent statisch: Sie kodieren Textsegmente isoliert, ohne ihren umgebenden Kontext und ihre zeitliche Abfolge zu berücksichtigen. In diesem Beitrag wird EvoEmbedding vorgestellt, ein neuartiges Embedding-Modell, das evolvierbare Repräsentationen für das Retrieval erzeugt. Es ist speziell für Langkontext-Szenarien konzipiert, in denen Informationen dynamisch, sequenziell sind und eine kontinuierliche Zustandsverfolgung erfordern. Unser Design ist einfach: EvoEmbedding pflegt einen kontinuierlich aktualisierten latenten Speicher, während es Eingaben sequenziell verarbeitet, und nutzt diesen zusammen mit dem rohen Inhalt, um gemeinsam evolvierbare Embeddings zu erzeugen. Dadurch passt unser Modell für dieselbe Abfrage seine Repräsentation an, um je nach sich entwickelndem Kontext unterschiedliche Ziele abzurufen – weit über statische semantische Suche hinaus. Um das Modell mit dieser Fähigkeit auszustatten, konstruieren wir EvoTrain-180K, einen vielfältigen Datensatz zur gemeinsamen Optimierung von latentem Speicher und Retrieval. Darüber hinaus führen wir eine Speicherwarteschlange (Memory Queue) ein, um einen Repräsentationskollaps während der rekursiven Kodierung zu verhindern, sowie Segment-Batching-Techniken, die erhebliche Längenvariationen bewältigen und das Training um das 3,8-fache beschleunigen. Umfangreiche Experimente zeigen, dass unser Modell nicht nur größere Spezialisten (z. B. Qwen3-Embedding-8B und KaLM-Embedding-Gemma3-12B) in einer Reihe von Langkontext-Retrieval-Benchmarks übertrifft, sondern sich auch gut auf nachgelagerte Aufgaben (z. B. Personalisierung) mit Kontexten verallgemeinern lässt, die zehnmal länger sind als sein Trainingsfenster. Bemerkenswerterweise lässt sich EvoEmbedding nahtlos in agentische Arbeitsabläufe integrieren, um die Leistung zu steigern. So übertrifft eine naive RAG-Pipeline, die mit unserem Modell ausgestattet ist, dedizierte agentische Gedächtnissysteme. Projektseite: https://clare-nie.github.io/EvoEmbedding.
Wir stellen BioMatrix vor, das erste multimodale Foundation-Modell, das Sequenzen, Strukturen und natürliche Sprache sowohl für Moleküle als auch für Proteine nativ in einer reinen Decoder-Architektur integriert. Bisherige biologische Foundation-Modelle verfolgen native Multimodalität und breite Entitätsabdeckung getrennt: Modelle, die mehrere Modalitäten unter einer gemeinsamen Zielsetzung fusionieren, bleiben auf einen einzigen Entitätstyp beschränkt, während Modelle, die mehrere Entitätstypen abdecken, entweder auf explizite Strukturmodellierung verzichten oder auf Adapter-basierten Designs beruhen, bei denen das Modell die Modalitäten, die es lesen kann, nicht nativ erzeugen kann. BioMatrix schließt diese Lücke, indem es Molekülsequenzen (die sowohl SMILES- als auch SELFIES-Notationen unterstützen), Molekülstrukturen, Proteinsequenzen, Proteinstrukturen und natürliche Sprache durch ein einheitliches Tokenisierungsverfahren in einen gemeinsamen diskreten Token-Raum abbildet, sodass alle Modalitäten unter einer einzigen Next-Token-Prediction-Zielsetzung einheitlich konsumiert und erzeugt werden – ohne externe Encoder, Projektionsadapter oder modalitätsspezifische Ausgabeköpfe. Aufbauend auf dem Qwen3-Sprachmodell (1,7B und 4B) wird BioMatrix kontinuierlich auf 304,4 Milliarden Token vortrainiert, die allgemeine und domänenspezifische Texte, Sequenz- und Strukturansichten von Molekülen und Proteinen sowie crossmodale Korpora umfassen, die biomolekulare Entitäten mit wissenschaftlichem Text verschränken und verschiedene Entitäten durch Molekül-Protein- und Protein-Protein-Interaktionsdaten verknüpfen. Nach der Abstimmung auf eine umfassende Suite von nachgelagerten Anwendungen, die 80 Aufgaben in 6 Kategorien abdeckt – darunter Einzel- und Mehrentitäten-Verständnis- und Generierungsaufgaben innerhalb und zwischen Modalitäten – erzielt BioMatrix auf 77 von 80 Aufgaben eine State-of-the-Art- oder wettbewerbsfähige Leistung, was zeigt, dass ein einziges, nativ multimodales Generalisten-Modell spezialisierte Ansätze in einem breiten Spektrum biologischer Aufgaben effektiv erreichen oder übertreffen kann.
Die quadratische Komplexität von Attention stellt einen kritischen Engpass für die Verarbeitung langer Kontexte dar und weckt Interesse an hybriden Attention-Designs. Die meisten Open-Source-Hybridmodelle verwenden eine schichtweise Strategie. Doch frühere Arbeiten haben auf die inhärente Schwierigkeit der Integration von Linear Attention (LA) mit Full Attention (FA) hingewiesen, was darauf hindeutet, dass der Entwurfsraum der Attention-Hybridisierung noch wenig erforscht ist. Um diesen Raum zu untersuchen, führen wir eine Interpretierbarkeitsanalyse durch und beobachten, dass Schichten blockweise funktionale Ähnlichkeit aufweisen, während einzelne Köpfe innerhalb derselben Schicht trotz gemeinsamer Eingabemerkmale eine unterschiedliche funktionale Spezialisierung zeigen. Diese Heterogenität auf Kopfebene legt nahe, dass die Kopfdimension eine natürliche und prinzipientreue Granularität für die Fusion heterogener Attention-Signale bietet. Aufbauend auf dieser Erkenntnis stellen wir HydraHead vor, eine neuartige Architektur, die FA und LA entlang der Kopfachse hybridisiert. HydraHead zeichnet sich durch zwei zentrale Innovationen aus: (1) eine interpretierbarkeitsgesteuerte Auswahlstrategie, die abrufkritische Köpfe identifiziert und FA nur für diese beibehält, und (2) ein skalennormalisiertes Fusionsmodul, das den Verteilungsunterschied zwischen FA- und LA-Kopfausgaben ausgleicht. Durch die Nutzung einer dreistufigen Transfer-Pipeline mit Parameterwiederverwendung und Distillation erreichen wir leistungsstarke Hybridmodelle mit minimalem Trainingsaufwand. Unter einem einheitlichen Trainingssetup übertrifft HydraHead andere hybride Designs bei langen Kontextaufgaben und behält gleichzeitig eine starke allgemeine Argumentationsfähigkeit bei. Mit interpretierbarkeitsgesteuerter Kopfauswahl erreicht es die Langkontextleistung eines 3:1-schichtweisen Hybriden bei einem LA-zu-FA-Verhältnis von 7:1. Entscheidend ist, dass HydraHead, trainiert mit nur 15B Tokens, eine Verbesserung von über 69% gegenüber der Baseline bei einer Kontextlänge von 512K erzielt und damit an Qwen3.5 heranreicht, ein führendes Modell vergleichbarer Größe mit einer nativen Kontextlänge von 256K. Dies unterstreicht das erhebliche Skalierungspotenzial der Hybridisierung auf Kopfebene.
Computer-Use-Agenten (CUAs) werden zunehmend in dynamischen interaktiven Umgebungen eingesetzt, was einen wachsenden Bedarf an kontinuierlichem Fertigkeitenlernen während der Interaktion schafft. Aktuelle Ansätze begegnen dieser Herausforderung, indem sie wiederverwendbare Fertigkeiten aus erfolgreichen Trajektorien lernen. Diese Methoden zum Fertigkeitenlernen gehen jedoch weitgehend von statischen und sicheren Umgebungen aus und vernachlässigen Risiken durch adversariale Interaktionen (z. B. Prompt-Injektionen) sowie Umweltdynamiken (z. B. Pop-ups). In dynamischen Umgebungen können solche Annahmen zu riskantem Fertigkeitenlernen und brüchiger Ausführung führen, was die Zuverlässigkeit von CUAs untergräbt. Dies wirft die Frage auf: Wie können CUAs Fertigkeiten in dynamischen Umgebungen sicher erlernen und nutzen? Zur Lösung dieses Problems schlagen wir SkillHarness vor, ein Framework für sicheres Fertigkeitshandhaben in dynamischen Umgebungen. SkillHarness geht über statische Fertigkeitsabstraktionen hinaus, indem es das Lernen und die Nutzung von Fertigkeiten als sicherheitsbeschränkten Interaktionsprozess modelliert. Insbesondere führen wir die Fertigkeitsgrenze ein, die multi-quellenbasierte Überwachungssignale nutzt, um sichere Fertigkeiten aus Interaktionstrajektorien zu identifizieren, und während des gesamten Fertigkeitslebenszyklus selbstverbessernde Sicherheitsbeschränkungen konstruiert. Darüber hinaus führt SkillHarness eine selektive Fertigkeitswiederverwendung ein, bei der Aufgaben kontextabhängig zerlegt und durch die selektive Aktivierung von Fertigkeitsteilmengen abgeschlossen werden. Unsere Experimente zeigen, dass SkillHarness die Unsicherheitsrate gelernter Fertigkeiten um 57,1 % signifikant reduziert und die Ausführungsstabilität unter dynamischen Umweltveränderungen konsequent verbessert, wobei es bestehende Basislinien übertrifft.
Die autoregressive Generierung in großen Sprachmodellen (LLMs) dekodiert herkömmlicherweise aus der letzten Schicht, unter der Annahme, dass tiefere Repräsentationen zuverlässigere Vorhersagen des nächsten Tokens liefern. Wir überprüfen diese Annahme, indem wir eine wiederkehrende Guess-Refine-Perturb-Dynamik aufdecken: frühe Schichten bilden grobe Schätzungen, mittlere Schichten verfeinern reasoning-relevante Semantiken, und letzte Schichten können diese verfeinerten Vorhersagen in Richtung generischer oder alignment-präferierter Tokens stören. Wir führen Confident Decoding ein, eine trainingsfreie Dekodierungsstrategie, die dynamisch die zuverlässigste nahezu letzte Schicht durch entropiegesteuerte konservative Rückwärtssuche auswählt. Wir liefern ferner eine theoretische Formulierung der Schichtauswahl als optimales Stoppproblem und zeigen, dass unter beschränktem Projektionsrauschen und dominanter späten Alignment-Störung unsere Suchregel die Störung filtert, während sie den Verlust relativ zur Orakel-Verfeinerungsschicht begrenzt. Experimente mit dichten und Mixture-of-Experts-LLMs zeigen konsistente Verbesserungen bei anspruchsvollen Reasoning-Benchmarks, darunter GPQA-Diamond, Omni-MATH und HLE, bei null Speicher-Overhead und weniger als 2 % Latenzsteigerung. Diese Ergebnisse legen nahe, dass das dynamische Umgehen von Störungen in den letzten Schichten ein stärkeres Reasoning-Verhalten ausgerichteter LLMs freisetzen kann.
Selbst-Destillation verbessert das Denken in großen Sprachmodellen, indem sie die eigenen Ausrollungen des Modells als Trainingssignal nutzt, typischerweise durch implizite Logit-Ebenen-Angleichung, die die KL-Divergenz in Richtung einer privilegierten Zielverteilung minimiert. Da diese Überwachung jedoch durch unkontrolliertes Sampling erzeugt wird, bietet sie weder diagnostische Einblicke in die spezifischen Fehler des Modells noch korrigierende Hinweise für dessen individuelle Fehlermuster. Folglich lernt das Modell, eine privilegierte Verteilung zu imitieren, anstatt feinkörnige Korrekturen zu erhalten, die genau zeigen, wo und warum sein Denken versagt. In diesem Papier schlagen wir die Trajektorien-angereicherte Politikoptimierung (TAPO) vor, die die Selbst-Destillation von impliziter Verteilungsangleichung zu expliziter Trajektorienkonstruktion weiterentwickelt. Während des RL-Trainings erzeugt das Modell sowohl korrekte als auch inkorrekte Ausrollungen zur selben Anfrage, und TAPO nutzt diese kontrastive Struktur, um mikroreflektive Korrekturen zu konstruieren – neue Trainings-Trajektorien, die das fehlerhafte Denken des Modells bis zum Fehlerpunkt beibehalten und dann eine Diagnose in natürlicher Sprache sowie ein korrigiertes Denken einfügen, das von einer korrekten Referenz aus derselben Stichprobengruppe geleitet wird. Da jede Trajektorie im eigenen Präfix und in den Lösungen des Lernenden verankert ist, bewahrt das korrigierende Signal die On-Policy-Verteilung des Modells in größerem Maße als die positionsweise Angleichung, die von KL-basierten Methoden auferlegt wird. Um diese Trajektorien zu integrieren, führt TAPO eine schwierigkeitsbewusste Kandidatenauswahl an der Fähigkeitsgrenze des Modells und eine entkoppelte Vorteilsschätzung ein, um Gradientenkontamination zu verhindern. Experimente mit AIME 2024, AIME 2025 und HMMT 2025 zeigen, dass TAPO unter gleicher Anzahl von Trainingsschritten konsistente Verbesserungen gegenüber GRPO erzielt. Weitere Analysen demonstrieren, dass TAPO sowohl das erstmalige Denken als auch die Wirksamkeit der Fehlerkorrektur stärkt.
In jüngster Zeit haben End-to-End-OCR-Modelle, allen voran DeepSeek OCR, die optische Zeichenerkennung erneut in den Fokus gerückt. Eine weit verbreitete Ansicht besagt, dass der Einsatz eines großen Sprachmodells (LLM) als Dekoder dem Modell ermöglicht, die vorherige Sprachverteilung zu nutzen, was zu einer verbesserten OCR-Leistung führt. Der Nachteil ist jedoch ebenso offensichtlich: Mit zunehmender Länge der Ausgabesequenz steigt der kumulierte KV-Cache den Speicherverbrauch an und verlangsamt zunehmend die Generierung. Dies steht in deutlichem Gegensatz zum Menschen, der bei langen Kopieraufgaben keine derartige Effizienzabnahme zeigt. In diesem technischen Bericht stellen wir Unlimited OCR vor, ein Modell, das die menschliche Arbeitsgedächtnis beim Parsen nachbilden soll. Aufbauend auf DeepSeek OCR als Basis ersetzen wir alle Aufmerksamkeitsschichten im Dekoder durch unsere vorgeschlagene Reference Sliding Window Attention (R-SWA), die die Berechnungskosten für die Aufmerksamkeit reduziert und gleichzeitig einen konstanten KV-Cache während des gesamten Dekodierungsprozesses aufrechterhält. Durch die Kombination der hohen Kompressionsrate des Encoders von DeepSeek OCR mit unserem konstanten KV-Cache-Design kann Unlimited OCR Dutzende von Dokumentenseiten in einem einzigen Durchlauf unter einer standardmäßigen maximalen Länge von 32K transkribieren. Noch wichtiger ist, dass R-SWA ein allgemeiner Parsing-Aufmerksamkeitsmechanismus ist – über die OCR hinaus ist er gleichermaßen auf Aufgaben wie ASR, Übersetzung usw. anwendbar. Codes und Modellgewichte sind öffentlich unter http://github.com/baidu/Unlimited-OCR verfügbar.
Tiefgehende Forschungsagenten sind Systeme, die auf großen Sprachmodellen (Large Language Models, LLMs) basieren und für autonomes, mehrschrittiges wissenschaftliches Denken konzipiert sind. Sie bergen ein enormes Potenzial, um die Forschung in den Naturwissenschaften zu beschleunigen. Dennoch fehlt es bislang an umfassenden und tiefgreifenden Evaluierungen ihrer Fähigkeiten in diesem Bereich. Um diese Lücke zu schließen, stellen wir PhySciBench vor, einen Benchmark, der für die physikalische Forschung hochrelevant ist. Er umfasst 200 fachkundig kuratierte Fragen, die ausgewogen zwischen Physik und Chemie sind und sechs Aufgabenkategorien abdecken, die reale wissenschaftliche Arbeitsabläufe widerspiegeln. Evaluierungen modernster Modelle und Agentensysteme auf PhySciBench zeigen eine begrenzte Leistungsfähigkeit; selbst die stärkste Baseline, Gemini Deep Research, erreicht lediglich eine Genauigkeit von 33,5 %. Eine Analyse der Fehlerfälle deckt drei wiederkehrende Schwächen auf: Fragilität in erweiterten Argumentationsketten, eingeschränkter Wissenstransfer über Schritte hinweg und ein Mangel an physikbasierter Selbstverifikation. Motiviert durch diese Erkenntnisse entwickeln wir DelveAgent, ein modulares Multi-Agenten-Framework, das mit einer adaptiven Planungsschleife, einem Gedächtnis mit dualer Granularität und einem hierarchischen, physikfundierten Reflexionsmechanismus ausgestattet ist. In vier wissenschaftlichen Benchmarks verbessert DelveAgent die Genauigkeit um bis zu 7,5 Prozentpunkte, während die Inferenzkosten auf etwa ein Drittel der stärksten Baseline reduziert werden. Diese Ergebnisse unterstreichen die Bedeutung von PhySciBench als kritischen Benchmark für die Evaluierung von KI-Systemen in den Naturwissenschaften und zeigen, dass architektonische Spezialisierung die Zuverlässigkeit autonomer wissenschaftlicher Forschung effektiv verbessern kann.
Langzeithorizontaufgaben sind in realen Robotereinsätzen üblich, doch die Fehlererkennung für solche Aufgaben ist noch wenig erforscht. Die Erkennung von Fehlern in langfristigen Roboteraufgaben ist besonders anspruchsvoll, da der Fehlerbeginn oft mehrdeutig ist und in der Regel keine dichten zeitlichen Annotationen vorliegen. Wir präsentieren Foresight, ein Rahmenwerk zur Fehlererkennung, das Manipulationstrajektorien mithilfe latenter Repräsentationen aus einem handlungsbedingten Weltmodell überwacht. Foresight wird ausschließlich mit endgültigen aufgabenbezogenen Erfolgs- oder Fehlerlabels trainiert. Durch die Nutzung prädiktiver Weltmodell-Einbettungen bietet unsere Methode ein einheitliches Rahmenwerk zur Fehlererkennung über verschiedene Politiken hinweg. Darüber hinaus verwenden wir funktionale konforme Vorhersage (FCP), um Erkennungsschwellen adaptiv zu kalibrieren. Wir evaluieren Foresight mit modernsten Vision-Language-Action-Politiken in Simulationen auf LIBERO-Long, ManiSkill-Long und BEHAVIOR-1K, vergleichen es mit modernsten Fehlererkennungsmethoden und validieren es an echten Robotern mit drei langfristigen Aufgaben an einem ReactorX-200-Arm und einer Aufgabe an einem Franka-Arm. Unsere Ergebnisse deuten darauf hin, dass handlungsbedingte Weltmodell-Einbettungen eine skalierbare Repräsentation für zuverlässige Fehlerüberwachung bei langfristigen Manipulationen bieten.
Lange Agentenspuren, bestehend aus Gedankenketten und Werkzeugaufrufen, sammeln veraltete Inhalte an, die nachfolgende Generationen verankern, und überschreiten schließlich das Kontextfenster. Bestehende Gerüste mildern dies durch eine Kompaktierung in festen Intervallen, die durch einen Token-Schwellenwert ausgelöst wird. Solche Auslöser ignorieren die Trajektorienstruktur und riskieren, Teilergebnisse während einer Ableitung oder Suche zu verwerfen. Wir schlagen SelfCompact vor, ein Gerüst, das es dem Modell selbst ermöglicht zu entscheiden, wann und wie kompaktiert werden soll. Konkret kombiniert es zwei Inferenzzeitelemente: (i) ein Kompaktierungswerkzeug, das vom Modell aufgerufen wird, um den angesammelten Kontext zusammenzufassen, und (ii) eine leichtgewichtige Richtlinie, die festlegt, wann es ausgelöst werden soll (ein Teilproblem wurde gelöst oder die Trajektorie konvergiert) und wann es unterdrückt werden soll (während einer Ableitung oder bei Blockade). Beide sind erforderlich. Das Werkzeug allein wird von Open-Weight-Modellen uneinheitlich genutzt, oft zu ungünstigen Zeitpunkten oder gar nicht; die Richtlinie allein kann nicht handeln. Zusammen bewirken sie eine effektive adaptive Kompaktierung ohne jegliches Feintuning oder externe Überwachung. Wir präsentieren empirische Ergebnisse zu sechs Benchmarks (Wettbewerbsmathematik und agentische Suche) und sieben Modellen. Unsere Ergebnisse zeigen, dass SelfCompact die Kompaktierung in festen Intervallen zu einem Bruchteil der Token-Kosten erreicht oder übertrifft und dabei die Basislinie ohne Zusammenfassung um bis zu 18,1 Punkte bei Mathematik und 5–9 Punkte bei agentischer Suche bei 30–70 % niedrigeren Kosten pro Frage verbessert. Unsere Ergebnisse decken eine metakognitive Lücke auf: Obwohl unaufgeforderte Modelle nicht zuverlässig erkennen können, wann ihr eigener Kontext veraltet, schließt eine leichtgewichtige Richtlinie diese Lücke und definiert das Wann der Kompaktierung als eine Fähigkeit, die Gerüste ohne Training bereitstellen können.
Smartphones werden zunehmend zu einer wichtigen Ausführungsumgebung für universelle Agenten, jedoch bleibt das Training offener Modelle für eine zuverlässige Smartphone-Nutzung schwierig, da die für die Bereitstellung relevante Umgebung – reale Geräte mit echten Apps – langsam, zustandsabhängig, nebenwirkungsbehaftet und schwer zurückzusetzen oder zu verifizieren ist, während skalierbare Mock-Umgebungen nur eine Annäherung an das reale Verhalten darstellen. Wir präsentieren PhoneBuddy, ein Trainingsrezept und eine Modellreihe für agentische Smartphone-Nutzung, das eine Umgebung mit echten Apps mit einer Mock-App-Umgebung, PhoneWorld, kombiniert, die aus der realen GUI-Nutzungsstruktur ausführbare Mock-Apps rekonstruiert. PhoneBuddy erstellt zunächst eine gemeinsame Phase des überwachten Feintunings aus Trajektorien, die in beiden Umgebungen gesammelt wurden, und vergleicht dann Reinforcement Learning (RL) mit echten Apps mit gemischtem RL über beide Umgebungen hinweg. In einer 150 Aufgaben umfassenden menschlichen Evaluation auf echten Smartphones, die Apps, Mini-Apps und abteilungsübergreifende Workflows umfasst, verbessert sich die Aufgabenerfolgsrate von 36,67 % nach überwachtem Feintuning auf 40,67 % nach RL mit echten Apps und 45,33 % nach gemischtem RL. Auf AndroidWorld steigt dieselbe Progression von 60,3 % auf 77,2 % auf 83,2 %. Diese Ergebnisse zeigen, dass Mock-App-Training kein Ersatz für RL mit echten Apps ist, sondern eine komplementäre Quelle für skalierbare, zurücksetzbare und automatisch überprüfbare Interaktionen darstellt. Die größten Verbesserungen treten bei App- und Mini-App-Aufgaben auf, während langfristige abteilungsübergreifende Workflows eine wichtige offene Herausforderung bleiben.
Arbeitsabläufe wissenschaftlicher Entdeckungen stützen sich in der Regel stark auf Laboraufzeichnungen, in denen Forscher Beobachtungen festhalten, unsichere Ergebnisse interpretieren und Folgeexperimente planen. Diese aufschlussreichen Laboraufzeichnungen bewahren die sich entwickelnde wissenschaftliche Argumentation und die Unsicherheit des Autors, anstatt der glattpolierten Endergebnisse, die in Publikationen präsentiert werden, und bieten somit eine wertvolle Gelegenheit für KI, sich auf einer umfassenderen und tieferen Ebene an wissenschaftlicher Erkundung zu beteiligen. Der Großteil der bisherigen Arbeiten zu wissenschaftlichen Texten konzentriert sich jedoch auf Fachartikel, Protokolle oder strukturierte Datenbanken, während informelle Laboraufzeichnungen als Eingaben für KI-Agenten in der Wissenschaft kaum erforscht sind. Diese Lücke ist bedeutsam, da Laboraufzeichnungen oft validierte Beobachtungen, vorläufige Beurteilungen und mögliche nächste experimentelle Schritte innerhalb derselben Passage miteinander vermischen. Wenn diese Signale vermischt werden, könnte ein KI-Agent unsichere wissenschaftliche Beurteilungen mit bestätigten Schlussfolgerungen oder ausführbaren Aktionen verwechseln. Zu diesem Zweck stellen wir Notes2Skills vor, ein zweistufiges Framework, das Labornotizen in überprüfbare Fähigkeiten für wissenschaftliche KI-Agenten umwandelt und dabei die Sicherheit des Autors bewahrt. Über sieben Bedingungen und drei Nasslabor-Sitzungen hinweg ist Notes2Skills die einzige Konfiguration, die unsichere Notizen weder für feste Anweisungen hält noch feste verwirft. Wir zeigen, dass die Bewahrung der Sicherheit das fehlende Puzzlestück zwischen Labornotizen und zuverlässigen Agentenfähigkeiten ist, und eröffnen damit einen Weg zu sichereren KI-Ko-Wissenschaftlersystemen.
Suchagenten (SAs) nutzen typischerweise große Sprachmodelle (LLMs), um komplexe informationssuchende Aufgaben zu unterstützen, indem sie autonom Webquellen erkunden und Informationen zu umfassenden Antworten synthetisieren. Für die Bewertung von SAs konzentrieren sich frühere Benchmarks hauptsächlich auf spezialisierte Aufgaben, die in realen Benutzerszenarien unwahrscheinlich auftreten. Darüber hinaus schränkt ihre Abhängigkeit von groben aufgabenbezogenen Rubriken oft die Interpretierbarkeit der Bewertung ein. Um diese Lücke zu schließen, stellen wir DailyReport vor, einen offenen Benchmark zur Bewertung von SA-Fähigkeiten bei täglichen Suchaufgaben. Er enthält 150 offene Aufgaben mit 3.546 zugehörigen Rubriken, die weit diskutierte und zeitnahe Informationsbedürfnisse realer Nutzer abbilden. Jede Aufgabe wird in Teilaufgaben zerlegt und mit Kaskadenrubriken über entkoppelte Dimensionen hinweg bewertet. Durch Kaskaden-Leistungszuordnung und nutzerzentrierte Aggregation leiten wir hochgradig interpretierbare Bewertungen für jede Dimension sowie einen Benutzerpräferenzwert ab. Unsere Ergebnisse an 17 agentischen Systemen zeigen, dass aktuelle Systeme noch hinter den Erwartungen der Nutzer zurückbleiben. Um zukünftige Forschung zu erleichtern, stellen wir unseren Datensatz und Code unter https://github.com/AGI-Eval-Official/DailyReport öffentlich zur Verfügung.
Terminal-Agenten haben sich schnell zur beliebtesten Downstream-Anwendung von Sprachmodellen entwickelt. Trotz ihrer weiten Verbreitung gibt es relativ wenige akademische Arbeiten zum RL-basierten Training dieser Modelle, was vermutlich an schwierigen Benchmarks, einem Mangel an Daten und dem Fehlen einfacher Basisrezepte liegt. Wir stellen Tmax vor, das bisher stärkste offene RL-Rezept für Terminal-Agenten, das offene Datenrezepte näher an die Spitzenforschung heranführt. Trotz seiner Einfachheit erreicht unser Rezept mit nur 9B Parametern 27 % auf Terminal-Bench 2.0 und übertrifft damit deutlich größere Modelle aus früheren Arbeiten. Konkret generieren wir Daten mithilfe einer neuartigen Taxonomie, die Schwierigkeitskontrolle, Personas und Verifier-Diversifizierung kombiniert, sodass wir kostengünstig große Mengen an Terminal-Umgebungen für RL- und SFT-Training erzeugen können. Wir veröffentlichen unseren Terminal-Datensatz als Open Source, der mehr als 2,5-mal größer ist als zuvor veröffentlichte Terminal-Agenten-Datensätze. Anschließend trainieren wir Modelle mit offenen Gewichten mittels RL auf unseren Daten, unter Verwendung eines einfachen, rein ergebnisbasierten Rezepts. Wir geben unsere Daten, Modelle und unseren Code als starke Baseline für zukünftige offene akademische Arbeiten zu Terminal-Agenten unter https://github.com/hamishivi/tmax frei.
Die Ausrichtung von Text-zu-Bild-Flow-Matching-Modellen an menschlichen Präferenzen mittels direkter Belohnungs-Rückpropagation ist stichprobeneffizient, wird jedoch durch zwei bekannte Pathologien behindert: Aktivierungen können in modernen Modellskalen nicht über die gesamte Sampling-Trajektorie gespeichert werden, und verkettete Jacobi-Produkte über mehrere Schritte blähen den Belohnungsgradienten auf, während er zu frühen Indizes zurückwandert. Connector-basierte Methoden wie LeapAlign begegnen diesen Problemen, indem sie die vollständige Rückwärtstrajektorie durch einen kurzen fixierten Pfad ersetzen und so eine nützliche Entkopplung von Sampling und Optimierung aufzeigen. Allerdings hängt die Qualität des resultierenden Gradienten davon ab, wie genau dieser kurze Pfad den vollständigen Rollout approximiert, insbesondere über lange Intervalle. Wir schlagen FlowBP vor, ein einheitliches Surrogat-Trajektorien-Framework, das die Rückwärtstrajektorie selbst als Designobjekt behandelt. FlowBP behält einen gradientenfreien zwischengespeicherten Rollout für das Sampling bei und baut dann ein leichtgewichtiges Rückwärtssurrogat aus zwischengespeicherten und selektiv erneut weitergeleiteten Geschwindigkeiten auf. Diese Sichtweise trennt vier Entscheidungen: die Eingabe des Belohnungsmodells, die aktive Menge, die Integrationsgewichte und die Bridge-Kopplung, und fasst frühere direkte Gradientenmethoden als spezielle Fälle. Innerhalb dieses Frameworks instantiieren wir drei Varianten: FlowBP-Sparse verwendet eine dünnbesetzte Euler-Rekonstruktion, FlowBP-Bridge fügt eine kontrollierte Bridge-Kopplung hinzu und FlowBP-Lagrange erhöht die Ordnung der Sprungquadratur. Alle drei begrenzen den Speicher durch die Größe der aktiven Menge und beschränken die Gradientenverkettung auf höchstens einen Jacobi-Faktor. Über SD3.5-M, FLUX.1-dev und FLUX.2-Klein-base hinweg erzielen die drei Varianten bei Präferenz-, Qualitäts- und Kompositionsmetriken Verbesserungen gegenüber direkten Gradienten-Baselines bei den meisten Metriken.
Flow-Matching hat sich kürzlich als robustes Paradigma für modernste Text-zu-Bild-Generierung (T2I) etabliert, das qualitativ hochwertige Ergebnisse mit nur wenigen Abtastschritten ermöglicht. Da diese Modelle zunehmend in reale Anwendungen integriert werden, wird die Gewährleistung einer sicheren und nichtsensiblen Inhaltserzeugung zu einer kritischen Anforderung. Allerdings bleibt die Anpassung von Sicherheits- und Konzeptentfernungsmethoden an dieses neue Generierungsframework eine offene Herausforderung. Insbesondere bauen bisherige Methoden stark auf iterativer Trajektorienlenkung über mehrere Entrauschungsschritte oder auf CLIP-zentrierter Prompt-Embedding-Manipulation auf. Diese Designannahmen stellen grundlegende Engpässe für die Sicherheit in Flow-Matching-basierter T2I-Generierung dar, da begrenzte Abtastschritte iterative Korrekturen einschränken und moderne kontextbewusste Text-Encoder die Wirksamkeit von Eingriffen auf Embedding-Ebene verringern. In diesem Papier schlagen wir VESFlow vor, eine trainingsfreie Sicherheitsmethode, die auf Flow-Matching mit extrem wenigen Abtastschritten zugeschnitten ist. Unter Ausnutzung der Tatsache, dass Flow-Matching-Modelle die marginale Geschwindigkeit lernen, bearbeiten wir das Geschwindigkeitsfeld direkt über ein sicherheitsbedingtes Posterior. VESFlow lenkt die Trajektorie in Richtung sicherer Ausgaben, während der konditionierende Prompt unverändert bleibt. Basierend auf der Beobachtung, dass VESFlow die Ausgaben unter benignen Prompts unverändert lässt, führen wir zudem eine risikobasierte Filterung ein, die die Geschwindigkeitsbearbeitung umgeht, um den Rechenaufwand zu reduzieren und gleichzeitig die Erzeugung benigner Prompts zu bewahren. Auf dieser Filterung aufbauend schlagen wir VESFlow+ vor, eine stärkere Variante von VESFlow, die die Geschwindigkeit nicht nur in die sichere Richtung bearbeitet, sondern sie auch von der unsicheren Richtung wegdrängt. Experimentelle Ergebnisse zeigen, dass VESFlow+ das Zielkonzept entfernt und die Angriffserfolgsrate von NudeNet auf 6,3% bei Ring-A-Bell und 6,8% bei MMA-Diffusion im 4-Schritt-MeanFlow-Modell reduziert, während die Wiedergabetreue bei benignen Prompts erhalten bleibt.
Open-Weight Large Language Models (LLMs) ermöglichen wissenschaftlichen Fortschritt und eine breite Anwendung. Allerdings erschweren sie die Kontrolle des Zugriffs auf sensible Fähigkeiten. Die derzeitige Praxis unterdrückt gefährliche Fähigkeiten entweder vor der Veröffentlichung oder vermittelt den Zugang über geschlossene Dienste, die spezialisierte Modellvarianten, Ein-/Ausgabeüberwachung und API-Berechtigungen nutzen. Ersteres ist anfällig für Jailbreaks und opfert dabei die Leistungsfähigkeit für alle Nutzer, um die von wenigen ausgehenden Risiken zu mindern. Letzteres ist grundsätzlich nicht mit der Veröffentlichung offener Gewichte vereinbar. In diesem Papier schlagen wir Tiered Language Models (TLMs) vor, bei denen ein einzelner Satz veröffentlichter Gewichte mehrere Leistungsstufen unterstützt. In seiner standardmäßigen öffentlichen Konfiguration verhält sich ein TLM wie ein herkömmliches LLM. Ein kompakter geheimer Schlüssel spezifiziert eine Permutation über eine kleine Teilmenge von Parametern, wodurch ein alternativer Berechnungsgraph über dieselben Gewichte induziert wird, der zusätzliche Fähigkeiten freischaltet. Wir entwickeln ein Trainingsprotokoll, das beide Konfigurationen von Grund auf gemeinsam vortrainiert und dann die geschlüsselte Konfiguration auf privaten Daten mit Regularisierung feinabstimmt, um das Verhalten des öffentlichen Modells zu bewahren. Wir trainieren TLMs mit 180 Millionen bzw. 650 Millionen Parametern vor und zeigen, dass die geschlüsselte Konfiguration eine neue Sprache erlernen, Anweisungen befolgen und privates Faktenwissen speichern kann, während die öffentliche Konfiguration keine dieser Fähigkeiten aufweist. Darüber hinaus zeigen wir, dass sich unser Ansatz auf natürliche Weise auf mehrere hierarchische Ebenen erweitern lässt. Da die Autorisierung auf der Gewichtsstruktur des Modells und nicht im Eingaberaum erfolgt, widersteht der Mechanismus einer auf Feintuning basierenden Extraktion und einer teilweisen Kompromittierung des Schlüssels. Insgesamt stellen TLMs einen Schritt dar, um die Veröffentlichung offener Gewichte mit einer selektiven Fähigkeitskontrolle zu versöhnen.
Latentes Aktions-Pretraining lernt Repräsentationen visueller Veränderungen aus Beobachtungspaaren, jedoch kodieren bestehende Methoden typischerweise jeden Übergang als eine einzelne unstrukturierte Repräsentation, die Übergangsausmaß und Übergangsmodus vermischt. Wir führen Polare Latente Aktionen mit Radialstruktur (PoLAR) ein, die eine radial-gerichtete Struktur auf latente Aktionen aufprägt, wobei der Radius das Übergangsausmaß und die Richtung den Übergangsmodus kodieren soll. PoLAR nutzt den zeitlichen Abstand zwischen zwei Beobachtungen als schwachen Proxy für das Übergangsausmaß und regt an, dass latente Aktionen aus Beobachtungspaaren mit größeren zeitlichen Abständen größere Radien einnehmen. Wir instanziieren diese Struktur im hyperbolischen Raum, dessen mit dem Radius zunehmendes Volumen eine natürliche Passform für vielfältigere Übergangsmodi bei größeren Ausmaßen bietet. In Aufgaben-internen und groß angelegten Pretraining-Umgebungen verbessert PoLAR die nachgelagerte Policy-Leistung in Simulationen und realen Roboter-Experimenten und übertrifft latente Aktions-Baselines und starke vortrainierte VLAs. Diese Ergebnisse deuten darauf hin, dass die Geometrie des latenten Aktionsraums eine wichtige Designentscheidung für die Übertragung von visuellem Pretraining auf nachgelagertes Robot-Policy-Lernen ist.
Diese Arbeit stellt ein allgemeines Framework für das Training großer Sprachmodelle (Large Language Models, LLMs) zur "Connect the Dots" (CoD) vor, einer Metafähigkeit, die für langlebige Agenten erforderlich ist: Wenn ein LLM-basierter KI-Agent in einer Umgebung eingesetzt wird, löst er eine lange Sequenz von Aufgaben, während er kontinuierlich die Umgebung erkundet, aus seinen eigenen Erfahrungen lernt und seinen Kontext über die Umgebung iterativ selbst aktualisiert, wodurch er auf zukünftigen Aufgaben, die auf dem aktualisierten Kontext basieren, schrittweise bessere Leistungen erzielt. Zu den Hauptkomponenten des CoD-Frameworks gehören: (1) Algorithmusdesign und Infrastruktur für End-to-End Reinforcement Learning (RL) mit langen Rollout-Sequenzen, die Solve-Task- und Update-Context-Episoden miteinander verweben; (2) Aufgaben und Umgebungen, um die angestrebte Metafähigkeit in LLMs während des Trainings zu incentivieren und zu fördern sowie um Fortschritte während der Evaluierung getreu zu messen. Wir stellen Proof-of-Concept-Implementierungen des CoD-Frameworks vor, darunter einen GRPO-artigen RL-Algorithmus mit feinkörniger Kreditzuweisung sowie Aufgaben und Umgebungen, die auf die angestrebte Metafähigkeit zugeschnitten sind (und nicht auf domänenspezifische LLM-Fähigkeiten oder standardmäßiges aufgabenweises RL). Empirische Ergebnisse bestätigen die Wirksamkeit des End-to-End-RL-Trainings im CoD-Setting und demonstrieren das Potenzial für eine Verallgemeinerung außerhalb der Verteilung – innerhalb der Trainingsdomänen, über verschiedene Domänen hinweg und von CoD zu Ralph-Loop-Settings – der induzierten Metafähigkeit. Unsere Untersuchung von CoD verbindet mehrere Linien früherer Arbeiten und eröffnet neue Möglichkeiten für die Weiterentwicklung von LLMs und KI-Agenten. Um weitere Forschung und Anwendungen zu erleichtern, veröffentlichen wir unsere Implementierungen unter https://github.com/agentscope-ai/Trinity-RFT/tree/research/cod/examples/research_cod.
Jüngste Versuche, große Sprachmodelle (Large Language Models, LLMs) mit kausaler Entdeckung zu kombinieren, fordern Modelle dazu auf, paarweise Richtungen abzuleiten, Graphstrukturen vorzuschlagen oder Ausgaben von Sprachmodellen als Priorwissen und Einschränkungen einzubringen. Diese Ansätze versprechen schnellere Analysen, verschleiern jedoch auch, ob eine kausale Evidenz durch Daten und Annahmen oder durch textuelle Assoziationen, Prompt-Artefakte und halluzinierte Mechanismen gestützt wird. Wir plädieren für eine andere Rolle von Agenten in der kausalen Entdeckung. Agenten sollten Daten untersuchen, Kontext abrufen, Methodenannahmen erklären und Graphausgaben erläutern, aber sie sollten keine Kanten, Orientierungen, Priorwissen, Einschränkungen oder kausale Schlussfolgerungen liefern. Wir schlagen das Prinzip vor, dass Agenten den Arbeitsablauf unterstützen, während kausale Behauptungen auf Daten, expliziten Annahmen, formalen Algorithmen, Diagnostiken sowie Entscheidungen von Nutzern oder Fachexperten beruhen bleiben. Wir setzen dieses Prinzip in causal-learn+ um, einer Online-Plattform, die Datenanalyse, Vorverarbeitung, Methodenempfehlung, Einbeziehung von Expertenwissen, formale Entdeckung und Interpretation rund um das algorithmische Ökosystem von causal-learn koordiniert. Eine Fallstudie mit Big-Five-Persönlichkeitsdaten veranschaulicht eine agentengestützte Pipeline kausaler Entdeckung, ohne die Unzuverlässigkeit von Sprachmodellen in kausale Evidenz umzuwandeln. Die Plattform ist unter causallearn.com verfügbar.
Moderne Sprachmodelle – einschließlich Transformer-, rekurrenter und speicherbasierter Varianten – teilen sich ein gemeinsames Grundgerüst: einen Stapel identischer Schichten, in denen Parameter gleichmäßig über die Tiefe verteilt werden. Diese Voreinstellung stammt vom ursprünglichen Transformer und ist seither weitgehend unverändert geblieben, obwohl eine wachsende Zahl von Belegen darauf hindeutet, dass die Schichten nicht gleichmäßig zum endgültigen Output beitragen – spätere Schichten verfeinern den Residuenstrom eher, als ihn zu transformieren. Wir fragen uns, ob die Parameterkapazität diese Asymmetrie widerspiegeln sollte. Unser kontrolliertes Experiment zeigt, dass bei einem festen Budget die Zuweisung von mehr Kapazität zu früheren Schichten und weniger zu späteren die Perplexität gegenüber einer Baseline mit gleichmäßiger Breite verbessert, während die umgekehrte Zuweisung schadet. Ausgehend von diesem Ergebnis führen wir „Tapered Language Models“ (TLMs) ein, ein Architekturprinzip, bei dem eine parameterhaltige Komponente unter einem festen Gesamtbudget monoton über die Tiefe verjüngt wird (monotonically tapered). MLPs sind der natürliche Ort für diese Umsetzung: Sie dominieren die Parameteranzahl aller modernen LM-Familien und bieten mit der Breite eine einzelne, saubere Variationsebene. Über drei Modellgrößen und vier Architekturen (Transformer, Gated Attention, Hope-Attention und Titans) hinweg verbessert die Verjüngung der MLP-Breite mittels eines glatten Kosinusverlaufs (smooth cosine schedule) durchgängig die Perplexität und die Leistung bei nachgelagerten Benchmarks im Vergleich zu gleichmäßigen Baselines – ohne zusätzlichen Parameter- oder Rechenaufwand. Diese Ergebnisse etablieren die tiefenbewusste Kapazitätsverteilung als eine einfache, architekturunabhängige Achse des Sprachmodelldesigns – einen offensichtlichen, aber bislang verborgenen freien Hebel.
Da immer komplexere mehrschrittige Aufgaben von agentischen Systemen bewältigt werden, stellt die Evaluierung ihrer Handlungsabläufe (Trajektorien) einen erheblichen Engpass dar – die manuelle Annotation einer einzigen Trajektorie in gängigen agentischen Benchmarks kann Stunden dauern, was die Skalierung von Evaluierungen zur Leistungsmessung oder zur Zusammenstellung von Trainingsdaten erschwert. Dies hat zu einer weit verbreiteten Abhängigkeit von automatisierten Ansätzen wie dem LLM-als-Richter (LLMJ) geführt, um Agenten auf Prozess- und Ergebnisebene in großem Umfang zu kritisieren. Die Validität von LLMJ-Kritiken bleibt jedoch oft ungemessen. Hier stellen wir Counsel vor, den ersten öffentlichen Datensatz von Meta-Evaluierungen für agentische Aufgaben. Counsel besteht aus Kritiken auf Prozessebene von Open-Weight-LLMJs für zwei Agenten-Benchmarks: tau-bench (Kundendienst-Agenten) und DA-Code (Codierungs-Agenten), sowie menschlichen Meta-Evaluierungen dieser Kritiken. Menschliche Annotatoren bewerten Kritiken zu jedem markierten Fehler als „vollkommen richtig“, „korrekte Stelle, aber schwache Begründung“ oder „hätte nicht markiert werden sollen“ und erzielen dabei eine zuverlässige Inter-Annotator-Übereinstimmung (Krippendorffs Alpha von 0,78). Der resultierende Datensatz stratifiziert LLMJ-Kritiken nach menschlicher Übereinstimmung sowohl in Bezug auf die Fehlerstelle innerhalb einer Trajektorie als auch auf die Begründungsqualität und dient als wertvolle Datenquelle zur Kalibrierung, Verbesserung oder zum Training von LLMJs für Agenten. Beim Vergleich von Open-Weight-Richtern stellen wir fest, dass sowohl leistungsfähigere Richtermodelle als auch ein höherer Begründungsaufwand eine verbesserte Übereinstimmung mit Menschen ermöglichten, wobei der stärkste Richter eine Übereinstimmung von ~88% bei der Fehlerstelle und ~65% bei der Begründung erreichte. Counsel wird mit Open-Weight-Modellen erstellt und unter einer freizügigen Lizenz für die breite Nutzung durch die Gemeinschaft bereitgestellt, in der Hoffnung, dass dies eine gründliche Untersuchung und eine verbesserte Ausrichtung von LLM-basierten Evaluatoren für agentische Systeme ermöglicht.
Multi-View-3D-Visual-Question-Answering (MV3D-VQA) erfordert die Integration partieller Beobachtungen in eine kohärente 3D-Szenenrepräsentation sowie die Auswahl informativer Blickwinkel für mehrschrittiges räumliches Denken. Aktuelle multimodale große Sprachmodelle (LLMs) werden jedoch typischerweise mit spärlicher, antwortbezogener Überwachung trainiert, was häufig zu inkonsistenten blickübergreifenden Schlussfolgerungen und einer fragilen Blickwinkelauswahl führt. Wir stellen DR-MV3D (Dense Reward for MV3D-VQA) vor, ein kartengestütztes Lernframework, das dichte, verifizierbare Belohnungen zur Überwachung des Denkprozesses bereitstellt. Unser Ansatz zerlegt MV3D-VQA in (i) allozentrische globale Kartenerstellung, (ii) fragestellungsabhängige Blicktrajektorienplanung und (iii) egozentrische Verankerung zur Antwortvorhersage. Um Zwischenschritte ohne manuelle Annotationen lernbar zu machen, führen wir zwei Belohnungen ein: eine globale Konsistenzbelohnung, die die vorhergesagte Karte mit geometrisch konsistenten Pseudo-Zielen aus eingefrorenen 3D-Grundlagenmodellen der Bildverarbeitung (z. B. VGGT + SAM3) abgleicht, und eine lokale Trajektorienbelohnung, die die geordnete Blickwinkelauswahl überwacht. Wir optimieren die gesamte Pipeline mittels Trajektorien-basierter Policy-Optimierung (GRPO). Experimente auf MindCube, VSI-Bench und BLINK (MV) zeigen, dass DR-MV3D durchgängig Verbesserungen gegenüber starken Multi-Image-Baselines erzielt, was die Wirksamkeit einer prozessbezogenen dichten Überwachung für multi-perspektivisches 3D-Denken unterstreicht.
Vision-Language-Action (VLA)-Modelle bieten ein einheitliches Paradigma für die Robotermanipulation, jedoch wird ihr praktischer Einsatz oft durch die Ausführungseffizienz begrenzt. Während sich bestehende Ansätze vorwiegend auf rechenzentrierte Effizienz zur Reduzierung der Inferenzlatenz pro Schritt konzentrieren, bleibt die intrinsische Policy-Effizienz dieser Modelle weitgehend unerforscht. Die Policy-Effizienz wird grundlegend von zwei Faktoren beeinflusst: der effektiven ausführbaren Länge der vorhergesagten Aktionsblöcke und der Gesamtzahl der physikalischen Schritte, die zur Erledigung einer Aufgabe erforderlich sind. Diese beiden Faktoren bestimmen gemeinsam die Gesamtzahl der Vorwärtsinferenzaufrufe während der Ausführung. Wir beobachten, dass aktuelle VLA-Policies unter Planungsunzuverlässigkeit und Aktionsredundanz leiden, mit einer schwerwiegenden Vorhersageverschlechterung am Ende von Aktionsblöcken und der Neigung, unnötig redundante physikalische Schritte zu erzeugen. Um dies zu adressieren, schlagen wir PolicyTrim vor, ein auf Reinforcement Learning basierendes Post-Training-Framework, das die zuverlässige Aktionsblocklänge verlängert und redundante physikalische Schritte reduziert. Für die zuverlässige Blockverlängerung setzen wir eine dynamische Erkundungsstrategie ein, die explizit die erfolgreiche Ausführung längerer ausführbarer Längen belohnt und so den vertrauenswürdigen Vorhersagehorizont schrittweise bis an seine empirische Grenze erweitert. Für die Schritteffizienz entwerfen wir eine redundanzbewusste Belohnung, die direkt erfolgreiche Aufgabenabschlüsse mit weniger Schritten begünstigt und gleichzeitig nicht reproduzierbare Abkürzungen bestraft, wodurch redundante physikalische Aktionen effektiv eliminiert werden. Umfangreiche Experimente über drei Benchmarks und drei VLA-Modelle hinweg zeigen, dass PolicyTrim die Aktionsblocknutzung um das Dreifache verbessert und die Anzahl physikalischer Ausführungsschritte um 51,4 % reduziert. Letztlich erzielt unser Framework eine bis zu 5,83-fache End-to-End-Bereitstellungsbeschleunigung, ohne die Aufgabenabschlussraten zu beeinträchtigen.
Es ist verlockend anzunehmen, dass jede durch ein kurzes Programm lösbare Aufgabe einem Modell als dessen Gedankenkette beigebracht werden kann: die Schritte aufschreiben, feinabstimmen, und das Modell folgt ihnen. Diese Arbeit zeigt, dass diese Annahme für eine identifizierbare Klasse von Verfahren fehlschlägt. Das Testfeld besteht aus neun Denkaufgaben, die jeweils von einem deterministischen Generator stammen; öffentliche und verborgene Aufteilungen teilen sich die Generatoren, sodass ausgelassene Daten als Proxy für die Testgenauigkeit dienen. Ich rekonstruiere die Generatoren rückwärts in Python-Löser, stelle sie als Gedankenketten dar und destilliere sie in eine LoRA mit Rang ≤ 32 über einem Nemotron-Modell mit 30B (3,5B aktiv). Vorwärts berechenbare Aufgaben lassen sich leicht installieren: Nachschlage-/Rechenaufgaben und eine 8-Bit-Boolesche Aufgabe übertragen sich (≥ 0,99 bzw. 0,68). Kryptarithm hingegen nicht: Die Destillation seiner Backtracking-Suche verharrt bei 0,01–0,07 über elf Gedankenketten-Designs, RL aus überprüfbaren Belohnungen und Selbsttraining, obwohl ein Suchlöser 71 % der Instanzen beantwortet. Dies ist keine Fähigkeitslücke. Das Modell führt die Arithmetik in 97–100 % der Zeilen aus und ordnet die korrekte Chiffre in 71 % der Fälle unter die ersten acht; es kann die Suche nicht als links-nach-rechts-Ableitung vorantreiben. Die Feinabstimmung erlernt die Form eines überprüfbaren Eliminationsschritts, während seine Urteile zu unbedingten Vorlagen werden, die nur in 16–57 % der Fälle korrekt sind („Verdict-as-Token“). Diese Obergrenze bleibt über Backbones von 3B bis 671B sowie über Feinabstimmung und Prompting hinweg bestehen; ein kontrollierter Eingriff isoliert die Ursache: Die Offenlegung des Chiffrierschlüssels, welche die Ableitung vorwärtsgerichtet macht, hebt dieselben Instanzen von 0,03 auf 0,57. Wenn die einzige Lösung eines Verfahrens eine Suche über eine informationsfreie Struktur ist, existiert keine getreue vorwärtsgerichtete Gedankenkette zur Nachahmung. Die Aufgabe wird nur dadurch erlernbar, dass man die Suche entfernt, ihren kombinatorischen Kern vorab in einen Katalog berechnet und die Ablaufverfolgung auf Abruf plus Verifikation reduziert; die erstplatzierte Lösung erreicht auf diese Weise Private LB 0,92. Was destilliert wird, ist Auswendiglernen und Verifikation, nicht Suche.
Video-Diffusionsmodelle haben bemerkenswerte Fortschritte bei der Generierung und Bearbeitung von Videos ermöglicht. Dennoch bleibt die Inhaltserhaltung eine zentrale Herausforderung: Bestehende Methoden regenerieren jedes Pixel und verändern oft Elemente, die unverändert bleiben sollten, wie Figuren oder Hintergrundszenen. Wir stellen Vera vor, ein geschichtetes Diffusionsframework zur inhaltserhaltenden Videobearbeitung. Anstatt das gesamte Video neu zu generieren, erzeugt Vera eine Bearbeitungsschicht zusammen mit einer Alpha-Matte für die Compositing mit dem Quellvideo, wodurch kreative Bearbeitung und Inhaltserhaltung von Grund auf getrennt werden. Um eine kohärente Compositing mit dem Quellvideo zu fördern, erweitern wir das Text-zu-Video DiT zu einer Mixture-of-Transformers (MoT)-Architektur mit separaten DiTs für jede Schicht, die durch gemeinsame Selbstaufmerksamkeit interagieren. Zur Unterstützung des Trainings von Vera erstellen wir zudem einen qualitativ hochwertigen geschichteten Datensatz mit präzisen Alpha-Matten, vielfältigen Szenen und Dynamiken sowie visuellen Effekten. In unserer quantitativen Benchmark- und Präferenzstudie übertrifft Vera führende Open-Source-Videobearbeitungsmodelle in der Inhaltserhaltung, während es bei der Bearbeitungsqualität wettbewerbsfähig bleibt – und das mit nur 486.000 Frames geschichteter Trainingsdaten.
Bestärkendes Lernen (RL) ist ein zentraler Ansatz zur Verbesserung der Reasoning-Fähigkeiten großer Sprachmodelle (LLMs), wobei die Trainingseffizienz entscheidend davon abhängt, wie Probleme während der Optimierung ausgewählt werden. Bestehende adaptive Curriculumsmethoden priorisieren typischerweise Aufgaben mittleren Schwierigkeitsgrads und behandeln die Problemauswahl als ein gewöhnliches Banditenproblem mit unabhängigen Armen, wobei sie die strukturierte, heterogene Beschaffenheit des Aufgabenraums außer Acht lassen. In dieser Arbeit betrachten wir die Problemauswahl als ein manifold-strukturiertes Banditenproblem mit endogener Nichtstationarität: Probleme sind über den latenten Repräsentationsraum des Modells miteinander verbunden, und Auswahlentscheidungen können steuern, wie sich Lernsignale über diesen Raum hinweg entwickeln. Um diese Perspektive zu operationalisieren, führen wir das Bayesian Manifold Curriculum (BMC) ein, ein strukturbewusstes Framework, das Probleme in einen hierarchischen Aufgabenbaum organisiert und Bayessches Lernen zur Steuerung der Auswahl anwendet. Empirisch stellen wir fest, dass verschiedene Auswahlstrategien zu nicht-trivialen Zielkonflikten zwischen Produktivität (Lernsignal), Diversität (Abdeckung der Aufgaben-Mannigfaltigkeit) und Nutzen (Evaluationsrelevanz) führen. Diese Ergebnisse zeigen, dass die alleinige Priorisierung des Schwierigkeitsgrades für eine starke nachgelagerte Leistung nicht ausreicht, und unterstreichen die Bedeutung der Einbeziehung von Struktur und Typbewusstsein in die Problemauswahl.
Lineare Sonden werden in der Interpretierbarkeitsforschung häufig verwendet und oft mittels Kosinusähnlichkeit verglichen. Die Mahalanobis-Kosinusähnlichkeit (MCS) zwischen zwei Richtungen, die das Skalarprodukt durch die Kovarianz der Testdaten umgewichtet, stellt eine natürliche aufgabenbewusste Verfeinerung dar. Ying et al. (2026) berichten, dass die MCS einer Sonde zu einer Referenzsonde, die auf außerhalb der Verteilung liegenden (out-of-distribution, OOD) Daten trainiert wurde, den OOD-AUROC der Sonde nahezu perfekt linear vorhersagt (R² = 0,98). Hier erweitern wir diesen empirischen Befund auf Modelle, Schichten und Konzeptdomänen und beweisen dieses allgemeine Phänomen in geschlossener Form: Für balancierte Klassen, deren Projektionen gaußsch sind, sind OOD-AUROC und MCS zur Referenzsonde linear, da beide sigmoidförmige Funktionen des Signal-Rausch-Verhältnisses (SNR) der Sonde auf den Testdaten sind. Die Theorie sagt auch voraus, wann diese Linearität versagt, was wir empirisch überprüfen. Die MCS bietet eine theoretisch fundierte und empirisch wirksame Alternative zur euklidischen Kosinusähnlichkeit für den Vergleich linearer Sonden.
Während große und vielfältige Datensätze die jüngsten Fortschritte bei großen Modellen ermöglicht haben, bleibt die Identifizierung der optimalen Datenmischung für das Pre-Training und Post-Training ein bedeutendes offenes Problem. Wir begegnen dieser Herausforderung mit FASTMIX, einem neuartigen Rahmenwerk, das die automatisierte Entdeckung von Datenmischungen ermöglicht, während nur ein einziges Proxy-Modell trainiert wird. Anstatt auf vordefinierte Heuristiken oder ressourcenintensive Simulationen angewiesen zu sein, optimiert FASTMIX gleichzeitig die Mischungskoeffizienten und die Modellparameter, was die Effizienz und Skalierbarkeit im Vergleich zu früheren Ansätzen erheblich verbessert. Im Kern von FASTMIX steht eine Neuformulierung der Mischungsauswahl als ein bileveles Optimierungsproblem. Unter dieser Neuformulierung zeigen wir, dass die Optimierung der Mischungsverhältnisse mathematisch äquivalent zur Zuweisung von Quellenverlustgewichten bei gleichmäßiger Quellenabtastung ist. Dies bettet die Mischungskoeffizienten direkt in das differenzierbare iterative Optimierungsziel ein und ermöglicht eine effiziente, gradientenbasierte Optimierung sowohl der Mischung als auch des Modells. Zur Lösung des Optimierungsproblems implementiert FASTMIX ein approximatives iteratives Optimierungsverfahren, das zwischen (i) der Aktualisierung der Modellparameter auf Daten, die gemäß den aktuellen Mischungsverhältnissen abgetastet wurden (innere Schleife), und (ii) der Aktualisierung der Mischungsverhältnisse basierend auf Validierungsfeedback (äußere Schleife) wechselt. Sowohl beim Pre- als auch beim Post-Training übertrifft FASTMIX die Basislinien, während die Suchkosten drastisch reduziert werden. Code (https://github.com/hrtan/fastmix)
Vision Transformer (ViT) dominieren die Computer Vision. Allerdings behindert ihre Abhängigkeit von starren Patch-Projektoren die Übertragung auf die Erdbeobachtung (EO), bei der Eingabemodalitäten, Skalen und Auflösungen stark variieren. Wir stellen UniverSat vor, ein ViT-ähnliches Rückgrat, das auf einem Universal Patch Encoder basiert, der Patches aus beliebigen räumlichen, spektralen und zeitlichen Auflösungen sowie von optischen und nicht-optischen Sensoren mit einem gemeinsamen Gewichtssatz in einen gemeinsamen Einbettungsraum abbildet. Dies ermöglicht das Training eines einzelnen Modells auf heterogenen multimodalen Korpora mittels Selbstüberwachung, was robuste, sensorunabhängige räumliche Merkmale liefert. Wir validieren diesen Ansatz mit starken Ergebnissen bei Klassifikations- und Segmentierungsaufgaben auf den standardmäßigen EO-Benchmarks von GeoBench, PANGEABench und SpectralEarth. Unser Code und unsere Modelle sind verfügbar unter https://github.com/gastruc/UniverSat.
Da KI-Labore an eine Datengrenze stoßen, bei der die Rechenkapazität die Rate der Erzeugung neuer hochwertiger Texte übersteigt, verlagert sich das Pretraining von Sprachmodellen hin zu einem datenlimitierten, rechenintensiven Regime, das produktives Mehrepochen-Training auf festen Korpora erfordert. Standardmäßiges autoregressives (AR) Pretraining leidet in diesem Szenario stark unter Overfitting: Es erreicht sein Optimum früh und verschlechtert sich dann kontinuierlich. Wir untersuchen datenseitige Datenaugmentierung während des Trainings als Regularisierer, um dieses Overfitting abzumildern und produktives Training über Hunderte von Epochen auf denselben Daten zu ermöglichen. Wir führen drei orthogonale Kategorien der Augmentierung für AR-Pretraining ein: Rauschen auf Token-Ebene (Maskierung, zufälliges Ersetzen), Sequenzpermutationen (Rechts-nach-Links-Vorhersage, Fill-in-the-Middle) und Zielverschiebungsvorhersage (x_{t+i} für i > 1). Durch systematische Ablationen finden wir, dass einzelne Augmentierungen das Overfitting verzögern und die Validierungsverluste im Vergleich zur Baseline senken, wobei zufälliges Token-Ersetzen den besten minimalen Verlust unter den Einzelmethoden erzielt. Die Kombination von Augmentierungskategorien senkt den minimalen Validierungsverlust weiter. Unsere Experimente zeigen, dass Datenaugmentierungen die Datenineffizienz des AR-Pretrainings abschwächen und eine vielversprechende Lösung für das datenlimitierte Regime darstellen~\footnote{Der gesamte Code und die Daten sind verfügbar unter https://github.com/michaelchen-lab/data-augmentations-for-pretraining.}.
LLM-Agenten in der wissensintensiven Fragebeantwortung führen Abruf- und Reasoning-Aktionen durch, wobei sie unvollständiges Wissen darüber haben, ob ihre aktuelle Antwort unsicher, nicht gestützt oder bereits vollständig ist. Dies führt zu zwei Fehlermodi: das Eingehen auf selbstbewusste, aber nicht gestützte Antworten, was die Genauigkeit beeinträchtigt, und übermäßiges Abrufen, wenn die bereits vorliegenden Beweise ausreichen, was zu verschwendeter Rechenleistung führt. Um den Agenten ein vollständigeres Bild des Zustandsraums, in dem sie operieren, zu geben, führen wir kalibrierte Verifizierer-Telemetrie (CalVerT) ein, die den Zustand des Agenten um zusätzliche Telemetriedaten erweitert: einen kalibrierten Selbstvertrauenswert und einen Grounding-Verifizierer-Score. Wir zeigen, dass CalVerT Agenten sowohl in trainingsfreien als auch in trainingsbasierten Umgebungen verbessern kann. Auf vier QA-Benchmarks stellen wir fest, dass CalVerT den F1-Wert erhöht, indem es in Fällen, in denen Agenten übermäßig auf parametrisches Wissen vertrauen, das Abrufen auslöst, während es redundantes Abrufen in Fällen reduziert, in denen Agenten über ausreichenden Kontext zur Beantwortung verfügen. Wir zeigen, dass CalVerT bestehende QA-Frameworks ohne Training erweitern kann. Darüber hinaus verbessert CalVerT auch trainierte Systeme: Durch einfaches Erweitern des Zustands eines Agenten mit Telemetrie beobachten wir Verbesserungen nach Bestärkendem Lernen im Vergleich zu einem Agenten mit identischem Training, aber ohne CalVerT-Telemetrie.
Diskrete Text-Trigger-Optimierung – die Suche nach Textsequenzen, die, wenn sie von einem Modell aufgenommen werden, dieses in Richtung eines bestimmten Ziels lenken – liegt Modell-Red-Teaming (z. B. LLM-Jailbreaks) sowie Auditing und Interpretierbarkeit zugrunde. Der aktuelle Stand diskreter Optimierer behindert jedoch deren Übernahme und Fortschritt. Erstens sind vorhandene Optimierer, sofern überhaupt quelloffen, über Forschungs-Codebasen verstreut, die an bestimmte Modelle, Ziele und Problemdomänen gebunden sind. Zweitens vermehren sich Optimierervarianten, jede erfordert technischen Aufwand für Nutzung oder Erweiterung und bleibt schwer direkt vergleichbar. Zusammen erhöhen diese Hürden die Einstiegsschwelle für die Übernahme von Optimierern in bestehenden oder neuen Domänen sowie für deren Weiterentwicklung durch neue Strategien. Wir schließen diese Lücken mit TROPT, dem ersten Open-Source-Framework, das die Ausführung diskreter Optimierer vereinheitlicht und deren Entwicklung unter einer einzigen Schnittstelle standardisiert. TROPT erleichtert die Anpassung von Ende-zu-Ende-Optimierungsrezepten durch Austausch beliebiger Komponenten – Modelle, Ziele und Optimierer – und erweitert so seine Reichweite über Domänen und neue Anwendungen hinweg. TROPT wird derzeit mit über 30 Optimierungsrezepten ausgeliefert – die Anwendungen wie Jailbreaking und Sondieren von Modell-Innerem abdecken – aufgebaut aus über 15 Optimierern (von White-Box- bis Black-Box-Zugriff) und über 15 Verlustfunktionen, von grundlegenden bis hin zu modernsten Methoden. Um seinen Nutzen zu demonstrieren, setzen wir TROPT in mehreren Studien ein: (i) kontrollierte, groß angelegte Experimente zum Vergleich und zur Verbesserung von Optimierungsstrategien für LLM-Jailbreaks, die wirksame, aber wenig genutzte Techniken aufdecken; und (ii) Übertragung von Optimierern von einer Domäne (z. B. LLM-Jailbreak) auf neue Domänen (z. B. Korpus-vergiftende Einbettungsmodelle). Insgesamt senkt TROPT die Hürde für die Übernahme und Weiterentwicklung diskreter Textoptimierung erheblich.
Langfristige LLM-Agenten können auf leise Weise scheitern: Sie legen sich früh auf eine Interpretation der Evidenz fest und verteidigen diese dann für den Rest des Laufs. Wir nennen dies vorzeitige Festlegung. Die Bewertung der endgültigen Antwort übersieht diese Fehlerart, da sie nur die Antwort sieht, nicht aber, ob der Prozess bereits auf einen stabilen Pfad kollabiert ist. Wir definieren repräsentationale Festlegung als die Konvergenz verborgener Zustände über verschiedene Durchläufe hinweg zu einem festen Denkschritt und nutzen sie als frühes Diagnostikum für die Konsistenz der Trajektorie. Bei Llama-3.1-70B, das ReAct auf HotpotQA ausführt, sagt die Ähnlichkeit der verborgenen Zustände in Schritt 4 die nachgelagerte Verhaltenskonsistenz voraus (r = -0,35, partielles r = -0,45), mit einer lokalisierten zeitlichen und schichtenspezifischen Signatur. Das Signal reproduziert sich über Qwen-2.5-72B und Phi-3-14B sowie auf StrategyQA (r = -0,83). Es bildet nicht die Korrektheit ab: Fragen mit festgelegter falscher und festgelegter richtiger Antwort lassen sich in der Aktivierungsähnlichkeit nicht trennen. Diese Grenze ist zentral für die Behauptung. Festlegung gibt an, ob sich ein Agent festgelegt hat, nicht, ob er richtig liegt. Ein Laufzeitmonitor erkennt inkonsistente Trajektorien aus verborgenen Zuständen mit einer AUC bis zu 0,97 (0,85–0,88 unter einer strengeren Aufteilung), und eine Eingabeintervention reduziert die Verhaltensvarianz um 28% gegenüber einer token-angepassten Kontrolle, während die Genauigkeit statistisch unverändert bleibt. Wir testen außerdem, ob das Signal die Selbstkonsistenzberechnung lenken kann; bei einem schwierigeren Benchmark hilft es nur mäßig und wird von einer einfacheren ausgabebasierten Basislinie erreicht. Das Ergebnis ist ein Diagnostikum für einen versteckten Prozessfehler mit klaren Grenzen, nicht ein allgemeiner Hebel für die Genauigkeit.
Computer-Nutzungsagenten (CNAs) handeln heute im Auftrag von Nutzern in persönlichen Anwendungen wie E-Mail, Kalendern und Aufgabenlisten. Dieser anwendungsübergreifende Zugriff ist nützlich, schafft aber auch ein Datenschutzrisiko, das weitgehend übersehen wurde: Wenn ein Agent in einem Kontext arbeitet, kann er Informationen aus einem anderen Kontext abrufen, die in diesem Kontext unangemessen sind. Daher führen wir AgentCIBench ein, eine Evaluierungsumgebung, die dieses Risiko in ausführbare, deterministisch bewertbare Szenarien überführt. Wir adressieren drei häufige Fehlermodi bei CNAs: visuelle Kollokation, bei der der Agent verbotene Elemente abruft, die im UI neben dem Aufgabenobjekt platziert sind; Übermittlung aufgrund von Aufgabenunschärfe, bei der der Agent als Reaktion auf eine unzureichend spezifizierte Aufforderung umfangreiche persönliche Zustandsdaten ausgibt; sowie Empfängerfehlausrichtung, bei der der Agent Inhalte an einen Adressaten sendet, für den sie unangemessen sind. Wir evaluieren 15 führende Agenten und stellen eine überraschend hohe Fehlerrate fest: 11 von 15 Agenten geben in mehr als 50% der Szenarien Daten preis, bei einer durchschnittlichen Datenpreisgabe von 67,9%. Dieselben Fehler treten auch auf, wenn die Agenten end-to-end in der Umgebung agieren, um die Aufgabe zu erfüllen. Wir veröffentlichen AgentCIBench, um die Entwicklung sichererer Computer-Nutzungsagenten zu fördern, und positionieren das Testen kontextueller Offenlegung als Sicherheitscheck vor der Bereitstellung.
Text- und bildgesteuerte 3D-Modelle erzeugen heute überzeugende Assets, bieten jedoch nur wenig direkte Kontrolle über den Raum, den ein Objekt einnehmen oder vermeiden soll. Bei der Erstellung ist diese räumliche Absicht oft schon vor dem Generierungsprozess bekannt. Ein Stuhl sollte in eine Sitzhülle passen, ein Requisit sollte Bewegungsspielraum lassen, oder ein Bauteil sollte eine Kontaktfläche freilegen. Textvorgaben und Bildansichten sind schlechte Träger für derartige Einschränkungen, was die Notwendigkeit einer expliziten Steuerungsschnittstelle schafft. Wir stellen Arbor vor, ein trainierbares Anhängsel für textgesteuerte latente 3D-Generierung. Arbor führt Constraint-Meshes als native 3D-Steuerungsschnittstelle ein. Die Schnittstelle nutzt Hüllregionen, in denen Geometrie vorhanden sein soll, Vermeidungsregionen, die leer bleiben sollen, und Berührungsregionen, die das Objekt kontaktieren soll. Anders als bei Vervollständigungen oder der Steuerung durch ein ganzes Objektgerüst sind diese Meshes keine Zielvorgaben. Es handelt sich um lokale, typisierte Anforderungen, die auch Regionen umfassen können, in denen keine Oberfläche erscheinen soll. Arbor bewahrt dieses Signal als Geometrie, indem es Constraint-Meshes in Tokens umwandelt und eine geleitete Anbindung innerhalb eines eingefrorenen Entrauschers lernt. So kann jede latente Region den Teil des Constraints erhalten, der für ihre räumliche Position relevant ist. Wir evaluieren Arbor anhand automatischer und von Künstlern kuratierter Steuerungs-Benchmarks mit Hüllen-, Vermeidungs- und Berührungs-Constraints und vergleichen die Metrik-Trends mit einer Benutzerpräferenzstudie. Selbst ohne dedizierte Einhaltungsverluste verbessert Arbor die Constraint-Erfüllung, während Objektqualität und -variation unter festen Constraints erhalten bleiben.
Netze gehören zu den häufigsten 3D-Szenendarstellungen, aber die direkte Generierung von Netzen ist herausfordernd, da die Darstellung wichtige Symmetrien aufweist, darunter die Permutationsinvarianz von Flächen und Eckpunkten. MeshFlow lernt, Dreiecksnetze direkt als Dreieckssuppen zu erzeugen, wodurch die Notwendigkeit entfällt, Netze in lange autoregressive Sequenzen zu serialisieren. Wir verwenden äquivariante Modelle des optimalen Transports-Flussabgleichs, die die wesentlichen Symmetrien von Dreieckssuppen respektieren: beliebige Permutationen von Flächen sowie Permutationen der Eckpunkte innerhalb jeder Fläche. Zu diesem Zweck schlagen wir eine einfache, aber effektive Modifikation der Diffusionstransformator-Architektur vor, was zu einem skalierbaren Netzwerk führt, das in der Lage ist, ein Geschwindigkeitsfeld zu modellieren und gleichzeitig die gewünschte Äquivarianz zu wahren. Wir führen zudem ein auf optimalem Transport basierendes Trainingsziel ein, das die Konvergenz verbessert, indem es Aufsichtssignale eliminiert, die diese Symmetrien verletzen. MeshFlow erreicht eine mit den modernsten autoregressiven Netzgeneratoren vergleichbare Netzqualität und bietet dabei eine etwa 18-fache Beschleunigung während der Inferenz. Die Projektseite befindet sich unter https://qiisun.github.io/MeshFlow/.
Mit der raschen Verbreitung von Retrieval-Augmented Generation und semantischer Suche wird die Auswahl der richtigen Embedding- und Retrieval-Konfiguration zunehmend schwierig. Große Retrieval-Benchmarks sind zwar umfassend, aber zu aufwändig, um sie während der Entwicklung erneut auszuführen, und es gibt wenig Infrastruktur für den Vergleich von Produktionseinstellungen – Dimensionsreduktion, Quantisierung, Re-Ranking – über viele Modelle hinweg unter identischen Bedingungen. Wir stellen HAKARI-Bench vor, einen leichtgewichtigen Benchmark, der bestehende Retrieval-Sammlungen in kleine Datensätze (Nano-Sets) rekonstruiert: 35 Benchmarks und 551 Aufgaben in 43 Sprachen in einem einheitlichen Format, das einen modellagnostischen Vergleich unter gleichen Bedingungen von fünf Retrieval-Familien (BM25, dicht, sparse, Late Interaction, Re-Ranker) und ihren Effizienzvarianten ermöglicht. Über 55 Modelle hinweg reproduziert seine Gesamtrangfolge den offiziellen MTEB Retrieval v2, MMTEB v2 Retrieval und English BEIR (full) mit einem Spearman >0,97. HAKARI-Bench ersetzt keine vollständige Evaluierung; es ermöglicht schnelle Modellauswahl, Regressionserkennung und das Ablesen der Qualitäts-Effizienz-Pareto-Grenze. Code, Daten und Leaderboard werden unter der MIT-Lizenz veröffentlicht.
Die Rekonstruktion dynamischer nicht-starrer Objekte aus monokularen Videos erfordert die Integration visueller Hinweise aus direkten Beobachtungen mit datengesteuerten Prioris über Geometrie und Erscheinungsbild. Bisherige Ansätze lernen entweder, 4D-Repräsentationen direkt aus visuellen Eingaben vorherzusagen, oder initialisieren eine 3D-Repräsentation, die anschließend basierend auf Videobeweisen deformiert und verfeinert wird. Ersteres wird jedoch durch die Knappheit an 4D-Trainingsdaten eingeschränkt, während Letzteres Prioris nur für die anfängliche Rekonstruktion nutzt und danach ausschließlich auf Videobeweise angewiesen ist; keiner der Ansätze bewältigt komplexe In-the-Wild-Szenarien mit großen Deformationen und Verdeckungen gut. Wir präsentieren Lift4D, ein Optimierungsrahmenwerk zur Testzeit, das beide Einschränkungen adressiert. Zunächst passen wir ein bestehendes Einzelansicht-3D-Rekonstruktionsmodell an, um durch kausale latente Konditionierung zeitlich konsistente Vorhersagen pro Einzelbild zu erzielen, was eine kohärente Initialisierung für eine deformierbare 3D-Gaussian-Splatting-Repräsentation liefert. Anschließend „skulptieren“ wir diese Repräsentation, um sie an das Eingabevideo anzupassen, mittels einer okklusionsbewussten Optimierung, die sichtbare Oberflächendetails originalgetreu wiederherstellt, während unbeobachtete Regionen durch einen sichtbedingten Diffusions-Prior vervollständigt werden. Wir zeigen, dass Lift4D frühere 4D-Rekonstruktionsmethoden deutlich verbessert, insbesondere bei anspruchsvollen In-the-Wild-Sequenzen mit starken Verdeckungen und nicht-starrer Bewegung.
Generative Musiksysteme können mittlerweile beeindruckende Audioausgaben aus Textvorgaben erzeugen, jedoch sind Audioausgaben hinsichtlich musikalischer Struktur schwer zu überprüfen, zu bearbeiten und zu diagnostizieren. Wir stellen Libretto vor, ein agentenorientiertes Framework zur symbolischen Musikerzeugung und -revision. Libretto verwendet eine LLM-native Grammatik mit expliziten Einsatzzeitschlitzen, Stimmen und einer Organisation auf Taktebene und bewertet anschließend jedes Stück in einem korpuskalibrierten statistischen Raum, der Rhythmus, Harmonik, Melodik, Textur, Form und Variation umfasst. Dieselben Strukturachsen unterstützen Abruf, Diagnose, Kopierrisikokontrolle und iterative Selbstrevision. In den Anwendungen Lückenfüllung, referenzgeführte Gesamtstückgenerierung, graduelles Morphen und pädagogische Musikgenerierung verwandelt Libretto symbolische Musik von einer rohen Token-Sequenz in ein messbares und editierbares Objekt für Sprachmodell-Agenten.
Die Filmproduktion erfordert präzise Bewegungssteuerung und Referenzbild-Compositing – Fähigkeiten, die bestehende Methoden getrennt behandeln. Punktspur-konditionierte Bild-zu-Video-Modelle beschränken die Bildeinfügung auf den ersten Frame, während Referenz-zu-Video-Modelle keine feinkörnige räumlich-zeitliche Kontrolle darüber bieten, wie Referenzinhalte über Frames hinweg integriert werden. Wir präsentieren Go-with-the-Track, das beide Fähigkeiten vereint, indem es gemeinsam auf mehrere Referenzbilder und referenzverankerte Punktspuren konditioniert wird – dies erweitert herkömmliche Punktspuren, um explizit Korrespondenzen zwischen generierten Frames und Referenzbildern herzustellen, und ermöglicht so präzises Compositing und Bewegungssteuerung im gesamten Video. Um dies zu erreichen, führen wir ortsbewusste Punktspur-Einbettungen ein, die die vollständige Sequenz von Punktspurkoordinaten mittels eines koordinatenweisen MLP gefolgt von zeitlichem Pooling kodieren. Diese Darstellung erfasst die räumlichen Eigenschaften jeder Punktspur (als eindeutige Kennung), während die Ähnlichkeit der Einbettungen direkt mit räumlicher Nähe korreliert, was die Fähigkeit des Modells verbessert, Punktspuren zu unterscheiden und zu assoziieren. Wir injizieren diese Punktspur-Einbettungen über einen leichten Adapter in einen Video-Diffusionstransformator, wobei die Pixel-zu-Patch-Auflösungsinkongruenz behoben und der erhebliche Verlust von Bewegungsdetails vermieden wird, der bei einer naiven Punktspur-Unterabtastung inhärent ist. Wir verwenden eine hybride Trainingsstrategie, um gemeinsam auf dynamischen, statischen und synthetischen Videodatensätzen zu trainieren und so die Bewegungssteuerbarkeit zu verbessern. Experimente zeigen, dass Go-with-the-Track in einem einzigen Modell überlegene Bewegungs- und Referenzsteuerung erreicht und neue Fähigkeiten ermöglicht: Multi-Referenz-konditionierte Videogenerierung mit punktspurgesteuertem Compositing sowie Kamerasteuerung für sowohl statische als auch dynamische Szenen. Projektseite: https://eyeline-labs.github.io/Go-with-the-Track/
Die Optimierung der Zusammensetzung von Vortrainingsdaten ist entscheidend für die Generalisierung großer Sprachmodelle (LLMs). Während dynamisches Mischen statische Strategien übertrifft, indem es die sich entwickelnden Trainingsdynamiken erfasst, gelingt es aktuellen Methoden nicht, Recheneffizienz mit Stichprobeneffizienz und struktureller Flexibilität für vielfältige Pipelines in Einklang zu bringen. Wir stellen Actor-Critic Online Data Mixing (AC-ODM) vor, das Datenmischen aus einer Reinforcement-Learning-Perspektive mit einer parametrisierten Policy angeht, von der wir theoretisch beweisen, dass sie als dynamischer linearer Surrogat fungiert, der die konstruktive Interferenz von Gradienten maximiert. Um die praktische Flexibilität zu erhöhen, unterstützt AC-ODM zwei Betriebsmodi: (i) einen Proxy-Modus für feste, vorbereitete Korpora, bei dem eine an einem kleinen Modell gelernte Policy auf ein größeres Zielmodell übertragen wird; und (ii) einen Nicht-Proxy-Modus für direktes End-to-End-Training von Grund auf ohne Vorwissen. Empirisch übertrifft AC-ODM frühere Methoden in Bezug auf Konvergenzgeschwindigkeit und nachgelagerte Genauigkeit bei verschiedenen Architekturen deutlich. Auf Pythia-1B erreicht es die optimale Validierungs-Perplexität mit bis zu 66% weniger Trainingsschritten als wettbewerbsfähige Baselines, erzielt eine relative Verbesserung von 27,5% bei der MMLU-Genauigkeit und einen 2,23-fach höheren pass@1 auf HumanEval, bei einem praktisch vernachlässigbaren (0,4%) Anstieg der Wanduhrzeit pro Schritt und einem zusätzlichen Speicheraufwand von nur 2%. Der Code ist verfügbar unter https://github.com/DANG-ai/AC-ODM.
Während autonome Fahrzeuge international expandieren und multimodale Systeme wie VLMs als kognitive Grundlage für ihre Aktionsmodelle nutzen: Wie gut werden diese Systeme in neuen Umgebungen generalisieren, insbesondere in Out-of-Distribution (OOD)-Randfall-Szenarien in neuen geografischen Regionen? In dieser Arbeit untersuchen wir diese offene Frage, indem wir eine vollständige faktorielle Analyse mit menschlichen Fahrern aus Lima, menschlichen Fahrern aus New York City und VLMs durchführen und ihnen Dashcam-Aufnahmen zeigen, die in Lima und New York City gesammelt wurden – wobei wir sie mit einer Vielzahl von Fragen im Rahmen eines Paradigmas der Visuellen Fragenbeantwortung (VQA) konfrontieren. Insbesondere wählen wir diese beiden Städte, da es sich um äußerst anspruchsvolle Fahrorte handelt, in denen derzeit kein Unternehmen für autonome Fahrzeuge tätig ist, und stellen Fragen, die sich über vier Kategorien erstrecken: Fakten, Bewertungen, Kontrafaktisches und Schlussfolgerungen. Wir stellen fest, dass Menschen und VLMs in ihren Antworten divergieren – wobei dies durch die Art der gestellten Fragen moduliert wird – und dass Menschen unabhängig von ihrer Herkunft (Lima/NYC) ähnlich antworten. Zu unserer Überraschung fanden wir keinen starken Unterschied in den Antworten (von Menschen oder VLMs), der durch die Geografie moduliert wurde, was wahrscheinlich auf deren hohen Out-of-Distribution-Charakter zurückzuführen ist. Unser Datensatz ist verfügbar unter: https://huggingface.co/datasets/Artificio/robusto-2
Wir stellen ShotcreteDepth vor, einen bimodalen Datensatz aus dem Baubereich, der sowohl den aktiven Shotcrete-Prozess als auch allgemeine Bauumgebungen erfasst. Der Datensatz umfasst Stereobildpaare im RGB-Format sowie LiDAR-Punktwolken, die unter anspruchsvollen realen Bedingungen wie starker Trübung und schlechter Beleuchtung aufgenommen wurden. Diese Bedingungen beeinträchtigen die Sensormessungen und führen zu unvollständigen und verrauschten Beobachtungen, die erhebliche Herausforderungen für Wahrnehmungssysteme in autonomen Anwendungen darstellen. Zusammen mit dem Datensatz veröffentlichen wir ein leichtgewichtiges Annotationstool, das für die zeiteffiziente Kennzeichnung von LiDAR-Punktwolken entwickelt wurde. ShotcreteDepth besteht aus 11.252 zeitlich synchronisierten Datenproben, von denen 220 zu Evaluierungszwecken annotiert sind. Der Datensatz unterstützt die Forschung im Bereich Stereo Matching, Tiefenvervollständigung und Tiefenschätzung unter Bedingungen, die die operativen Komplexitäten industrieller Umgebungen widerspiegeln. Projekt-Repository: https://github.com/dtu-pas/shotcrete-depth
Wir beschreiben unseren Beitrag zum Effizienz-Track der Academic Text-to-Music (ATTM) Grand Challenge auf der ICME 2026. Über das im Challenge-Protokoll definierte FAD-CLAP- und CLAP-Score-Maß hinaus fügen wir eine gelernte, auf menschlichen Präferenzen basierende Belohnung von TuneJury hinzu – einem twin-pairweiser Ranker, trainiert auf offenen Musikpräferenz-Datensätzen. Die Belohnung dient sowohl als Konditionierungssignal während des Trainings als auch als Selektionskriterium für Stichproben. Die Pipeline vereint fünf ingenieurtechnische Entscheidungen auf einem 120M-Parameter-FluxAudio-S-Backbone – vier zur Trainingszeit und eine zur Inferenzzeit: (i) Belohnungskonditionierung während des Trainings, die gleichzeitig als CFG-Achse während der Inferenz fungiert, (ii) eine Durchsuchung von fünf Score-Konditionierungsarchitekturen, bei der Training und Inferenz unterschiedliche Varianten nutzen, (iii) Experteniteration über das obere Dezil, (iv) einen kurzen Präferenz-Feintuning-Durchlauf (CRPO) zur Audio-Text-Ausrichtung und (v) Inferenz-Nachbearbeitung mittels gemeinsamer CFG, Quellentrennung und Lautheitsnormalisierung. Eine stufenweise Zerlegung anhand von 100 Song Describer Prompts zeigt, dass die Belohnungskonditionierung zur Trainingszeit als funktionale Konditionierungsachse wirkt, die Experteniteration den dominanten Beitrag leistet, der Präferenz-Feintuning-Durchlauf lediglich einen Gewinn auf Rauschniveau erzielt und der Score-Skalar zum Zeitpunkt der Inferenz bereits am Ende der Kette gesättigt ist.
Große Sprachmodelle (Large Language Models, LLMs) werden zunehmend zur Unterstützung der Softwareentwicklung eingesetzt, doch ihr praktischer Nutzen in angewandten Spielentwicklungsumgebungen ist noch wenig erforscht, insbesondere wenn generierter Code in ein bestehendes Spielsoftwaresystem integriert werden muss. Dieser Artikel präsentiert eine explorative empirische Fallstudie mit GPT-4o in einem benutzerdefinierten Python/Pygame-Endless-Runner. Die Studie untersucht sechs ausgewählte Entwicklungsaufgaben: drei lokalisierte Refactoring-Aufgaben und drei Aufgaben zur Generierung von Spielmechaniken. Die resultierenden Implementierungen wurden anhand von Softwaremetriken, Unit-Tests und manuellen Spielbewertungen evaluiert. In dieser Fallstudie wurden alle drei ausgewählten Refactoring-Aufgaben in funktionaler Hinsicht erfolgreich abgeschlossen, während nur eine der drei ausgewählten Aufgaben zur Generierung von Spielmechaniken zu einer korrekt integrierten Funktion führte. Die Ergebnisse deuten darauf hin, dass GPT-4o in diesem Umfeld lokalisierte Transformationen zuverlässiger bewältigte als Aufgaben, die neue Spielinteraktionen über mehrere bestehende Systeme hinweg erforderten. Aufgrund des explorativen Einzelfalldesigns sind diese Ergebnisse am besten als indikative Beobachtungen zu interpretieren, nicht als verallgemeinerbare Belege für die kategoriale Modellleistung. Insgesamt liefert der Artikel einen transparenten fallbasierten Bericht über die Möglichkeiten und Grenzen LLM-gestützten Refactorings und der Generierung von Spielmechaniken in einem bestehenden Spielsoftwaresystem.
Da städtische Gebiete expandieren, wird die automatische Überwachung von Parkplätzen für effiziente und nachhaltige Städte unerlässlich. Diese Arbeit schlägt einen selbstüberwachten Ansatz zur Erkennung der Belegung von Parkplätzen vor, der keine gekennzeichneten Stichproben vom Zielparkplatz erfordert. Aufbauend auf einem selbstüberwachten Transfer-Learning-Feinabstimmungsprotokoll besteht die vorgeschlagene Trainingsstrategie aus zwei selbstüberwachten Phasen: zunächst auf unmarkierten generischen Daten und dann auf unmarkierten zielspezifischen Daten, gefolgt von einer überwachten Feinabstimmung unter ausschließlicher Verwendung von Labels generischer Parkplätze. Wir übernehmen SimCLR mit einem ResNet-50-Encoder und evaluieren die Methode unter einem Leave-One-Out-Umgebungsprotokoll an drei öffentlichen Datensätzen: PKLot, CNRPark-EXT und PLds. Wir führen auch eine zweistufige Bereitstellungsstrategie ein, bei der zunächst ein Starkes Allgemeines Modell eingesetzt wird, gefolgt von einem Spezialisierten Modell, das unmarkierte Bilder, die während der ersten N Tage des Einsatzes gesammelt wurden, auf selbstüberwachte Weise integriert. Experimentelle Ergebnisse zeigen, dass das Starke Allgemeine Modell allein überwachte und selbstüberwachte Baselines übertrifft und eine durchschnittliche Genauigkeit von 97,2 % erreicht, die sich mit der vorgeschlagenen zweistufigen Strategie weiter auf 97,8 % verbessert. Diese Ergebnisse zeigen, dass selbstüberwachtes Lernen eine skalierbare und label-effiziente Lösung für die reale Überwachung der Parkplatzbelegung ermöglicht. Unsere trainierten Modelle und der Quellcode sind öffentlich unter https://github.com/LoanMaikon/Parking-Spot-Occupancy-Recognition verfügbar.