NVIDIA Research: Durchbrüche beim Roboter-Greifen, autonomem Fahren und Agenten-Training in großem Maßstab

NVIDIA Research präsentiert auf der diesjährigen Computer Vision and Pattern Recognition (CVPR) Konferenz drei wegweisende Papers. Die Forschungsarbeiten zeigen, wie Training in großem Maßstab Systeme schafft, die sich über diverse Anwendungen hinweg generalisieren. Von robotischem Greifen über autonomes Fahren bis hin zu virtuellen Agenten eröffnen die Ergebnisse neue Möglichkeiten für Physical AI.

Vom spezialisierten Greifen zum Foundation Model

Bisherige KI-Systeme für robotisches Greifen sind meist auf einen einzigen Greifertyp spezialisiert. Eine Policy für einen Zweifinger-Greifer funktioniert nicht mit einer mehrfingigen Dextrous-Hand. Für jede neue Hardware erfordert dies aufwendiges Retraining mit neuen Datensätzen.

GraspGen-X durchbricht diese Grenze. Als erstes Foundation Model für Zero-Shot-Greifen wurde es auf zwei Milliarden simulierten Griffen trainiert. Das Modell versteht Geometrie und Kontakt so fundiert, dass es zuverlässige Griffvorschläge für bisher unbekannte Objekte und jeden beliebigen neuen Greifer generiert. Für Entwickler entfällt damit das mühsame Training pro Greifertyp. Zusammen mit der neuen CUDA-beschleunigten Motion-Planning-Library cuRobo V2 lässt sich GraspGen-X direkt in unbekannten Umgebungen anwenden.

Schnelleres Denken für autonomes Fahren

Ketten des Denkens (Chain-of-Thought) verbessern Entscheidungen bei KI-Systemen. Doch im Auto kostet jeder Text-Token wertvolle Millisekunden. LCDrive löst dieses Problem, indem es textbasiertes Reasoning durch kompakte latente Repräsentationen ersetzt.

Das System denkt in einem verdichteten latenten Raum und wechselt zwischen zwei Prozessen: Es schlägt Kandidaten-Aktionen vor und sagt voraus, wie die Welt danach aussieht. Auf Basis dieser Vorhersagen verfeinert es seine nächsten Schritte. Das Ergebnis ist eine vergleichbare Trajektorienqualität bei nur halbierter Token-Anzahl. LCDrive wurde auf NVIDIA Alpamayo trainiert und macht komplexes Reasoning auf eingebetteter Fahrzeughardware möglich.

Virtuelle Welten als Trainingsgrundlage

NitroGen überträgt das Prinzip der NVIDIA Isaac GR00T Architektur auf virtuelle Umgebungen. Das Gameplay-KI-Foundation-Model trainiert embodimentierte Agenten über Tausende Stunden in strukturierten Videospielwelten.

Die Forscher nutzten über 1.000 Spiele und 40.000 Interaktionsstunden. Die Agenten generalisieren dabei über Genres hinweg, von Rollenspielen über Plattformer bis hin zu Open-World-Titeln. Sie beherrschen Kampf, Navigation und Exploration. Besonders in Situationen mit wenigen Trainingsdaten bietet NitroGen einen Leistungsvorsprung von bis zu 52 Prozent gegenüber bisherigen Methoden. Das Modell ist Open Source auf GitHub und Hugging Face verfügbar.

Fazit

Die drei Papers verdeutlichen ein gemeinsames Paradigma: Training at Scale schafft generalisierungsfähige Physical-AI-Systeme. Ob Greifen, autonomes Fahren oder virtuelle Agenten – NVIDIA Research treibt die Grenzen dessen voran, was auf der Hardware von heute möglich ist.

Quelle: NVIDIA Blog