Exponat:
Airhockey-Simulation und Training eines Reinforcement Learning Agents
Leihgeber: Hochschule Heilbronn
Projektübersicht
Motivation:
- Das Potential künstlicher Intelligenz an einem anschaulichen Demonstrator aufzeigen
- Ein KI-Agent soll das Spiel auf einem Niveau erlenen, um gegen menschliche Spieler spielen zu können
Ansatz / Ziele:
- Optimierung und Anpassung einer Unity-Simulation
- Verbesserung und Erweiterung des HHN Reinforcement Learning Frameworks
- Training des Agents und Übertragung auf den realen Demonstrator mit Domain Randomization Techniken
- Einbinden der Physik-Engine MuJoCo in die Unity-Simulation
- Training des Agents mit Actor-Critic Methoden via Selfplay Parameter- und Rewardstruktur-Tuning mittels Training verschiedener Agents und Evaluation dieser mit einem Rating-Algorithmus
Airhockey-Simulation
Physik-Simulation:
- Verwendung von MuJoCo (Multi-Joint dynamics with Contact) statt Unity-Engine
- Hohe Simulationseffizienz in komplexen dynamischen Systemen mit kontaktreichem Verhalten [1]
- Genaue Parametrisierung des Reibungs- und Kontaktverhaltens des Pucks → Verkleinerung des Domain Gap
Simulation der Airhockey-Komponenten:
- Puck, menschlicher Pusher und KI-Pusher werden als Character abstrahiert, der die kinematischen Informationen beinhaltet
- ArriveSteering-Algorithmus macht Pusher
steuerbar, indem ein menschlicher Spieler eine Zielposition per Mauseingabe angibt → Simulation ist spielbar [4][5]
Visuelle Darstellung und User-Interface:
- 3D-Simulation des Airhockey-Tischs aus Spielerperspektive oder Topdown-Ansicht
- Info-Panel zur Steuerung und Themengebiet Reinforcement Learning
- Cursor-Darstellung durch menschliche Hand mit verringerter Transparenz, wenn inaktiv
- Animierte Torereignisse, Logo und Spielstände
- Einfacher Wechsel zwischen Spiel gegen KI und Selfplay-Modus per Button-Klick
- Steuerung des Cursors per Maus mit Mapping auf die Tischebene
Reinforcement Learning
Soft-Actor-Critic-Methode:
- Actor: Bestimmt Action nach seiner Policy. Nutzt Critic-Feedback zur Optimierung der Policy. Die Policy stellt dabei eine Wahrscheinlichkeitsverteilung über mögliche Actions dar.
- Critic: Bewertet Qualität der Actions und hilft dem Agenten somit den Reward zu maximieren [3]
Reward-Zusammensetzung:
- Positiver Reward: Tor erzielt, hohe Puckgeschwindigkeit erzeugt, Puck gegen gegnerische Rückwand geschossen
- Negativer Reward: Gegentor, unnötige Richtungswechsel, Puck in eigener Hälfte, unnötiges Verlassen der Position relativ zur Tormitte
Reinforcement Learning
Training im Selfplay-Modus → mehrere Kopien des Agents spielen parallel gegeneinander und lernen dabei
Bewertung eines RL-Agents
Rating-Algorithmus:
- Objektive, absolute Metriken (z.B. Tore pro Zeit) sind abhängig vom Gegner → Einführung eines relativen Ratings, dass die Spielstärke verschiedener Agents in einem Turniersystem ermittelt
Glicko2-Algorithmus:
- Iteratives Verfahren zur Berechnung des relativen Fähigkeitsniveaus von Spielern in Nullsummenspielen mit zwei Spielern
- Berücksichtigt neben dem Spielergebnis eine Schätzung der Übereinstimmung der Spielstärke mit der aktuellen Wertung
- Berücksichtigt die Volatilität der Spielstärke [2]
Zusammenfassung
Erweiterung und Anpassung der Unity-Simulation mit der Physik-Engine MuJoCo ermöglicht eine realistische Simulation der Zielumgebung
Der Agent erreicht beim Training ein durchschnittliches menschliches Spielerniveau nach ca. 24h und fortgeschrittenes Niveau nach ca. 48h
Der Rating-Algorithmus ermöglicht objektive Bewertung verschiedener Agents
Ausblick
Training neuer Agents mit verschiedenen Parameter-Konfigurationen und Bewertung mit dem Rating-Algorithmus → Bestmöglicher Agent ermitteln
Training mit Domain-Randomization-Techniken → Verkleinerung des Domain Gap
Menschliche Spieldaten sammeln und Anwendung dieser mit Offline Reinforcement Learning-Techniken
Bereitstellung des KI-Models zur Anwendung am realen Airhockey-Tisch
Quellen
[1] E. Todorov, T. Erez, and Y. Tassa, “Mujoco: A physics engine for model-based control,” in 2012 IEEE/RSJ International Conference on Intelligent Robots and Systems, pp. 5026–5033, IEEE, 2012.
[2] M. Glickman, “Example of the glicko-2 system,” 2022.
[3] R. Sutton and A. Barto, Reinforcement Learning, second edition: An Introduction. Adaptive Computation and Machine Learning series, MIT Press, 2018.
[4] E. S. de Lima, “Artificial intelligence – lecture 07 – steering behaviors,” 2020.
[5] I. Millington and J. Funge, Artificial Intelligence for Games. CRC Press, 2009.