Exponat: HHN Airhockey

Exponat:

Airhockey-Simulation und Training eines Reinforcement Learning Agents

Leihgeber: Hochschule Heilbronn

Projektübersicht

Motivation:

Das Potential künstlicher Intelligenz an einem anschaulichen Demonstrator aufzeigen
Ein KI-Agent soll das Spiel auf einem Niveau erlenen, um gegen menschliche Spieler spielen zu können

Ansatz / Ziele:

Optimierung und Anpassung einer Unity-Simulation
Verbesserung und Erweiterung des HHN Reinforcement Learning Frameworks
Training des Agents und Übertragung auf den realen Demonstrator mit Domain Randomization Techniken
Einbinden der Physik-Engine MuJoCo in die Unity-Simulation
Training des Agents mit Actor-Critic Methoden via Selfplay Parameter- und Rewardstruktur-Tuning mittels Training verschiedener Agents und Evaluation dieser mit einem Rating-Algorithmus

Airhockey-Simulation

Physik-Simulation:

Verwendung von MuJoCo (Multi-Joint dynamics with Contact) statt Unity-Engine
Hohe Simulationseffizienz in komplexen dynamischen Systemen mit kontaktreichem Verhalten [1]
Genaue Parametrisierung des Reibungs- und Kontaktverhaltens des Pucks → Verkleinerung des Domain Gap

Simulation der Airhockey-Komponenten:

Puck, menschlicher Pusher und KI-Pusher werden als Character abstrahiert, der die kinematischen Informationen beinhaltet
ArriveSteering-Algorithmus macht Pusher
steuerbar, indem ein menschlicher Spieler eine Zielposition per Mauseingabe angibt → Simulation ist spielbar [4][5]

Visuelle Darstellung und User-Interface:

3D-Simulation des Airhockey-Tischs aus Spielerperspektive oder Topdown-Ansicht
Info-Panel zur Steuerung und Themengebiet Reinforcement Learning
Cursor-Darstellung durch menschliche Hand mit verringerter Transparenz, wenn inaktiv
Animierte Torereignisse, Logo und Spielstände
Einfacher Wechsel zwischen Spiel gegen KI und Selfplay-Modus per Button-Klick
Steuerung des Cursors per Maus mit Mapping auf die Tischebene

Reinforcement Learning

Soft-Actor-Critic-Methode:

Actor: Bestimmt Action nach seiner Policy. Nutzt Critic-Feedback zur Optimierung der Policy. Die Policy stellt dabei eine Wahrscheinlichkeitsverteilung über mögliche Actions dar.
Critic: Bewertet Qualität der Actions und hilft dem Agenten somit den Reward zu maximieren [3]

Reward-Zusammensetzung:

Positiver Reward: Tor erzielt, hohe Puckgeschwindigkeit erzeugt, Puck gegen gegnerische Rückwand geschossen
Negativer Reward: Gegentor, unnötige Richtungswechsel, Puck in eigener Hälfte, unnötiges Verlassen der Position relativ zur Tormitte

Reinforcement Learning

Training im Selfplay-Modus → mehrere Kopien des Agents spielen parallel gegeneinander und lernen dabei

Bewertung eines RL-Agents

Rating-Algorithmus:

Objektive, absolute Metriken (z.B. Tore pro Zeit) sind abhängig vom Gegner → Einführung eines relativen Ratings, dass die Spielstärke verschiedener Agents in einem Turniersystem ermittelt

Glicko2-Algorithmus:

Iteratives Verfahren zur Berechnung des relativen Fähigkeitsniveaus von Spielern in Nullsummenspielen mit zwei Spielern
Berücksichtigt neben dem Spielergebnis eine Schätzung der Übereinstimmung der Spielstärke mit der aktuellen Wertung
Berücksichtigt die Volatilität der Spielstärke [2]

Zusammenfassung

Erweiterung und Anpassung der Unity-Simulation mit der Physik-Engine MuJoCo ermöglicht eine realistische Simulation der Zielumgebung
Der Agent erreicht beim Training ein durchschnittliches menschliches Spielerniveau nach ca. 24h und fortgeschrittenes Niveau nach ca. 48h
Der Rating-Algorithmus ermöglicht objektive Bewertung verschiedener Agents

Ausblick

Training neuer Agents mit verschiedenen Parameter-Konfigurationen und Bewertung mit dem Rating-Algorithmus → Bestmöglicher Agent ermitteln
Training mit Domain-Randomization-Techniken → Verkleinerung des Domain Gap
Menschliche Spieldaten sammeln und Anwendung dieser mit Offline Reinforcement Learning-Techniken
Bereitstellung des KI-Models zur Anwendung am realen Airhockey-Tisch

Quellen

[1] E. Todorov, T. Erez, and Y. Tassa, “Mujoco: A physics engine for model-based control,” in 2012 IEEE/RSJ International Conference on Intelligent Robots and Systems, pp. 5026–5033, IEEE, 2012.

[2] M. Glickman, “Example of the glicko-2 system,” 2022.

[3] R. Sutton and A. Barto, Reinforcement Learning, second edition: An Introduction. Adaptive Computation and Machine Learning series, MIT Press, 2018.

[4] E. S. de Lima, “Artificial intelligence – lecture 07 – steering behaviors,” 2020.

[5] I. Millington and J. Funge, Artificial Intelligence for Games. CRC Press, 2009.