In diesem Interview erklärt Diego Prado, Doktorand am Lehrstuhl für Medientechnologie und Forscher im KI.FABRIK-Projekt, wie die Kombination von Reinforcement Learning mit menschlichen Demonstrationen das Lernen von Robotern beschleunigt und die Lücke zwischen Simulation und Realität schließt, selbst bei weniger perfekten Demonstrationen.
1. Was haben Sie herausgefunden?
Wir haben herausgefunden, dass menschliche Demonstrationen die automatische Abschätzung von virtuellen Vorrichtungen (VFs) für die Roboter-Teleoperation durch Reinforcement Learning erheblich beschleunigen können. Virtuelle Vorrichtungen werden in der Regel als erweiterte sensorische Informationen definiert, die in einer realen Umgebung angezeigt werden, um die Benutzerleistung bei einer Aufgabe zu verbessern. In der Roboter-Manipulation sind sie häufig räumliche Einschränkungen, die den Benutzer dazu zwingen, sich in die richtige Richtung zu bewegen. In unseren Studien haben wir gezeigt, dass selbst bei Verwendung von „schlechten“ Demonstrationen (wenn die Demonstration die Aufgabe, die wir durch Teleoperation lösen wollten, nicht erfolgreich abgeschlossen hat) der Reinforcement Learning-Algorithmus die virtuellen Vorrichtungen erheblich schneller erlernte als ohne Demonstrationen. Diese Demonstrationen können nicht nur den Lernprozess beschleunigen, sondern auch die Gestaltung von VFs für komplexere Aufgaben ermöglichen, als es einfaches Reinforcement Learning allein könnte.
2. Welche Herausforderungen sind während Ihrer Forschung aufgetreten?
Selbst die besten Physik-Engines haben Schwierigkeiten, genaue Kräfte, Reibung und Kontakt zwischen Objekten zu simulieren. Deshalb standen wir vor mehreren Herausforderungen, als wir die simulierten Ergebnisse auf reale Roboter übertrugen (Sim2Real-Gap). Beispielsweise haben wir bei der Validierung der erlernten Fähigkeiten einer Peg-in-Hole-Einfügeaufgabe zwei 3D-gedruckte Stifte gebrochen, obwohl wir in der Simulation ein perfektes Ergebnis hatten. Dies gilt insbesondere für sogenannte „kontaktreiche“ Aufgaben, bei denen eine enge Interaktion zwischen dem Roboter und seiner Umgebung besteht. Dadurch werden die Dynamiken des Kontakts sehr komplex und die Simulation tendiert dazu, ungenau zu sein. Das bedeutet, dass die in einer Physiksimulation erlernten Fähigkeiten nicht dieselben sind wie die Fähigkeiten, die benötigt werden, um die gleiche Aufgabe in der realen Welt zu lösen.
3. Wo sehen Sie praktische Anwendungen?
Diese Methode könnte in industriellen Szenarien angewendet werden, insbesondere wenn bereits ein Digitaler Zwilling oder eine Simulation des Arbeitsbereichs existiert. Zum Beispiel bei industriellen Montageaufgaben, die hohe Präzision erfordern (z.B. Getriebemontage), sollte die Verwendung einer virtuellen Vorrichtung die Bearbeitungszeit verkürzen und die Belastung der Arbeiter reduzieren. Wir arbeiten derzeit an einer Folgestudie, in der wir testen, ob die Auswirkungen dieser automatisch geschätzten VFs in der Teleoperation den Arbeitern zugutekommen.
Die Veröffentlichung von Prado et al. war eine von drei Arbeiten, die für den IEEE Best Paper Award nominiert wurden – herzlichen Glückwunsch an alle Forschenden zu ihrer großartigen Arbeit!
Mehr Informationen: https://kifabrik.mirmi.tum.de/solutions/telepresence/
Publikation: Prado, Diego Fernandez; Larintzakis, Konstantinos; Irsperger, Jan; Steinbach, Eckehard: Accelerating Virtual Fixture Estimation for Robot Manipulation using Reinforcement Learning and Human Demonstrations. 2024 IEEE 20th International Conference on Automation Science and Engineering (CASE), 2024