1. Was habt ihr herausgefunden?
Wir haben ein so genanntes Action Mapping für sicheres Reinforcement Learning (RL) vorgestellt. Bestehenden RL-Methoden kann man oft nicht vertrauen. Deshalb sind zusätzlich Sicherheits- und Machbarkeitsmodelle erforderlich. Die Hauptherausforderung ist nun, diese Machbarkeitsmodelle mit RL zu kombinieren. Bestehende Modelle fokussieren allerdings mehr darauf, Rahmenbedingungen zu erfüllen und nicht, effizient zu lernen. Unser „Action- Mapping-Ansatz“ lernt zuerst alle machbaren Aktionen und findet den besten unter ihnen heraus. Der Hauptvorteil liegt darin, dass das Erlernen von machbaren Aktionen keine Interaktionen mit der Umgebung erfordern, sondern lediglich Abfragen im Machbarkeitsmodell.
2. Welche Herausforderungen sind während des Projektes aufgetaucht?
Eine Hauptherausforderung bestand darin, alle machbare Aktionen generieren zu können, ohne auf Algorithmen für „self-supervised learning“ zurückzugreifen. Denn normalerweise fokussieren RL-Algorithmen darauf, nur die beste Aktion zu berechnen, nicht aber alle möglichen. Darüberhinaus ist in der Regel ein großer Datensatz für eine bestimmte Klasse erforderlich, wenn ein generatives neuronales Netz trainiert werden soll. Den hatten wir allerdings nicht. Wir mussten also einen neuen Algorithmus entwickeln, der machbare Aktionen generiert, ohne einen bestehenden Datensatz zu nutzen.
3. Welchen praktischen Nutzen hat diese Forschungsarbeit?
Diese Forschung ist für uns ein wichtiger Schritt hin zu einem Action Mapping Framework für Reinforcement Learning. Als Nächstes werden wir das Lernen stärker mit einbeziehen, um noch besser die optimale Aktion unter den machbaren herauszufinden. Falls wir erfolgreich sind, hat unser Ansatz das Potenzial, die Lerneffizienz von sicherem RL enorm zu verbessern und im Alltag einsetzbar zu machen. Hier geht es um autonome Systeme, Roboter und sämtliche sicherheitskritischen Umgebungen, in denen verlässliche Entscheidungen getroffen werden müssen.
Verantwortlicher Professor dieses Forschungsprojektes: Prof. Dr. Marco Caccomo, Lehrstuhl für Cyber-Phsische Systeme im Product Engineering, Technische Universität München (TUM)
Publikation
https://ieeexplore.ieee.org/document/10471398
Text: Andreas Schmitz