MIRMI Aktuelles
IROS 2023: Maschinelles Lernen ermöglicht 3D mit nur einer Kamera
NEWS, Forschung, Robotik, Wahrnehmung, Künstliche Intelligenz |
Simon, Du bist vor zwei Jahren zur TUM gekommen und forschst nun im Bereich „Maschinelles Lernen für Roboter“. Womit beschäftigst Du Dich konkret?
Mit geht es darum, mit einer einzigen Kamera ziemlich genau zu verstehen, was in der dreidimensionalen Welt passiert. Bei einer Abseitsentscheidung im Fußball beispielsweise sind derzeit viele Kameras am Spielfeldrand verteilt, um die Entscheidung eines Linienrichters auf dem Platz bestätigen oder auch revidieren zu können. Ich versuche mit Hilfe des maschinellen Lernens das Gleiche mit nur einer Kamera. Unser Prinzip, Globally Consistent Probabilistic Human Motion Estimation (kurz GloPro) genannt, funktioniert so: Was der Mensch aus Erfahrung lernt, wie groß beispielsweise ein Laptop, ein Stuhl oder ein Handtuch ist, bekommt das System über unzählige Bilder über maschinelles Lernen beigebracht. Der „Scale“, also die Größe und der Umfang der auf dem Bild zu erkennenden Objekte lernt die Kamera nach und nach und berechnet aus diesen beigebrachten Größenordnungen, ein dreidimensionales Bild der Umgebung. Zugleich finden wir heraus, mit welcher Genauigkeit unsere Schätzungen zutreffen.
Was nützt diese Forschung der Robotik?
Uns geht es darum herauszufinden, wie Menschen und Roboter etwa in einer Fabrik gut und sicher zusammenarbeiten. Dafür ist es wichtig, dass ein Roboter auf möglichst einfachem Wege die Bewegung des Menschen versteht, im Idealfall sogar vorhersagen kann. Zunächst geht es uns darum, die Distanzen und Bewegungen gut abschätzen zu können. In der Forschung konzentrieren wir uns auf die Posen eines Menschen und dessen Haltung. Beim Einsatz von einer Kamera können wir sehr viele Datensätze nutzen, die uns darin unterstützen, recht zuverlässig die dreidimensionale Form des Menschen zu berechnen. Neu ist dabei, dass diese Berechnung auch dann zuverlässig funktioniert, wenn sich die Kamera und der Mensch gleichzeitig bewegen. Zudem haben wir in GloPro auch die Unsicherheit geschätzt, die in der Berechnung des dreidimensionalen Netzes vom menschlichen Körper liegt. Je dunkler die Punkte des beobachteten Körpers sind, umso sicherer ist, dass die Berechnung des jeweiligen Punktes stimmt (*Zu sehen ist in dem Video unten). Je weniger ein Körper verdeckt ist, umso besser treffen die Messwerte mit der Realität zusammen. Entsprechend liegt die Ungenauigkeit zwischen einem und bis zu 50 Zentimetern.
Worum geht es konkret in Deiner Doktorarbeit?
Zunächst möchte Menschen mithilfe einer Kamera verstehen und die Pose des Menschen in 3D so exakt wie möglich abschätzen. Das habe ich im Paper bereits beschrieben. Im nächsten Schritt beziehe ich den Kontext mit ein und extrahiere nicht nur den Menschen, wie es im Video zu sehen ist. Das ist dann die Voraussetzung für den wichtigsten Schritt, die Bewegungen des Menschen im Kontext zu verstehen. Das daraus resultierende Modell möchte ich dann in einer Drohne einsetzen und sie mit dem Menschen interagieren lassen.
Vorgestellte Paper des Teams von Prof. Stefan Leutenegger auf der IROS 2023 in Detroit:
1. GloPro: Globally-Consistent Uncertainty-Aware 3D Human Pose Estimation & Tracking in the Wild
2. BodySLAM++: Fast and Tightly-Coupled Visual-Inertial Camera and Human Motion Tracking