NVIDIA Research: Neue Foundation Models für Robotik, autonomes Fahren und KI-Agenten

NVIDIA Research präsentiert auf der CVPR-Konferenz drei bahnbrechende Papers, die die physische KI voranbringen. Gemeinsam zeigen sie, wie Training im großen Maßstab Systeme entwickelt, die sich über diverse Anwendungen generalisieren lassen. Von robotischen Greifarmen bis zu schnelleren Entscheidungen im autonomen Fahren – die neuen Ansätze versprechen mehr Flexibilität und Effizienz.

GraspGen-X: Das erste Foundation Model für robotisches Greifen

Traditionelle KI-Systeme für robotisches Greifen sind Spezialisten. Ein Modell, das für einen Zweifingergreifer trainiert wurde, funktioniert nur mit eben jenem Greifer. Für jede neue Hardware ist ein aufwändiger Trainingszyklus nötig. GraspGen-X eliminiert diese Einschränkung als erstes Foundation Model für das Greifen. Ähnlich wie ein großes Sprachmodell sein Wissen auf neue Aufgaben überträgt, wendet GraspGen-X sein Verständnis von Geometrie und Kontaktflächen auf jeden beliebigen Roboterarm an – ohne zusätzliches Training. Die Forscher generierten hierfür zwei Milliarden simulierte Griffe aus Tausenden Objektformen und Greiferkonfigurationen. Für Entwickler bedeutet dies: Das Modell lässt sich out-of-the-box für gängige Greifer einsetzen und lässt sich mit der CUDA-beschleunigten Motion-Planning-Bibliothek curoboV2 kombinieren.

LCDrive: Autonome Fahrzeuge denken schneller

Bei autonomen Fahrzeugen ist nicht nur die Qualität der Entscheidung entscheidend, sondern auch die Geschwindigkeit. Textbasierte Reasoning-Verfahren erzeugen Token für Token Zwischenschritte, was auf der Hardware im Fahrzeug zu lange dauert. LCDrive ersetzt diese textbasierte Schlussfolgerung durch kompakte latente Repräsentationen. Das System denkt in einem effizienten latenten Raum, der räumliche Informationen komprimiert statt menschenlesbare Texte zu erzeugen. Es wechselt zwischen zwei Prozessen: Das Modell schlägt Kandidatenaktionen vor und prognostiziert dann den resultierenden Zustand der Welt, um seine nächste Entscheidung zu verfeinern. Das Ergebnis ist eine vergleichbare Qualität der Trajektorie bei etwa der Hälfte der Token. LCDrive wurde auf NVIDIA Alpamayo trainiert.

NitroGen: KI-Agenten in virtuellen Welten trainieren

Das Prinzip hinter NVIDIA Isaac GR00T lautet: Je mehr unterschiedliche Situationen ein Modell sieht, desto besser generalisiert es. NitroGen überträgt diesen Ansatz auf virtuelle Umgebungen und nutzt die GR00T-Architektur, um Foundation Models für embodied Agents zu trainieren. Videospiele bieten strukturierte, vielfältige Welten mit klaren Zielen und Erfolgsbedingungen – ideale Trainingsumgebungen, die sich massenhaft skalieren lassen. NitroGen wurde mit über 1.000 Spielen und 40.000 Stunden Interaktion trainiert. Die Agenten lernen, sich über unterschiedliche Genres wie Rollenspiele, Plattformer und Open-World-Spiele zu generalisieren. In Situationen mit wenigen Daten verbessert das vortrainierte Modell die Leistung um bis zu 52 Prozent gegenüber dem bisherigen Stand der Technik. NitroGen ist Open Source auf GitHub und Hugging Face verfügbar.

Gemeinsamer Nenner: Skalierung schafft Generalisierung

Alle drei Arbeiten teilen eine zentrale Erkenntnis: Training in großem Maßstab ermöglicht Systeme, die sich über verschiedene Anwendungen hinweg bewähren. Ob Greifen, Fahren oder Spielen – die Skalierbarkeit der Trainingsdaten und die Effizienz der Modelle treiben die physische KI einen entscheidenden Schritt voran.

Quelle: https://blogs.nvidia.com/blog/cvpr-research-grasping-driving-agent-training/