Exponat:

Airhockey-Simulation und Training eines Reinforcement Learning Agents

Leihgeber: Hochschule Heilbronn 

Projektübersicht

Motivation:

  • Das Potential künstlicher Intelligenz an einem anschaulichen Demonstrator aufzeigen
  • Ein KI-Agent soll das Spiel auf einem Niveau erlenen, um gegen menschliche Spieler spielen zu können

Ansatz / Ziele:

  • Optimierung und Anpassung einer Unity-Simulation
  • Verbesserung und Erweiterung des HHN Reinforcement Learning Frameworks
  • Training des Agents und Übertragung auf den realen Demonstrator mit Domain Randomization Techniken
  • Einbinden der Physik-Engine MuJoCo in die Unity-Simulation
  • Training des Agents mit Actor-Critic Methoden via Selfplay Parameter- und Rewardstruktur-Tuning mittels Training verschiedener Agents und Evaluation dieser mit einem Rating-Algorithmus

Airhockey-Simulation

Physik-Simulation:

  • Verwendung von MuJoCo (Multi-Joint dynamics with Contact) statt Unity-Engine
  • Hohe Simulationseffizienz in komplexen dynamischen Systemen mit kontaktreichem Verhalten [1]
  • Genaue Parametrisierung des Reibungs- und Kontaktverhaltens des Pucks → Verkleinerung des Domain Gap

Simulation der Airhockey-Komponenten:

  • Puck, menschlicher Pusher und KI-Pusher werden als Character abstrahiert, der die kinematischen Informationen beinhaltet
  • ArriveSteering-Algorithmus macht Pusher
    steuerbar, indem ein menschlicher Spieler eine Zielposition per Mauseingabe angibt → Simulation ist spielbar [4][5]

Visuelle Darstellung und User-Interface:

  • 3D-Simulation des Airhockey-Tischs aus Spielerperspektive oder Topdown-Ansicht
  • Info-Panel zur Steuerung und Themengebiet Reinforcement Learning
  • Cursor-Darstellung durch menschliche Hand mit verringerter Transparenz, wenn inaktiv
  • Animierte Torereignisse, Logo und Spielstände
  • Einfacher Wechsel zwischen Spiel gegen KI und Selfplay-Modus per Button-Klick
  • Steuerung des Cursors per Maus mit Mapping auf die Tischebene

Reinforcement Learning

Soft-Actor-Critic-Methode:

  • Actor: Bestimmt Action nach seiner Policy. Nutzt Critic-Feedback zur Optimierung der Policy. Die Policy stellt dabei eine Wahrscheinlichkeitsverteilung über mögliche Actions dar.
  • Critic: Bewertet Qualität der Actions und hilft dem Agenten somit den Reward zu maximieren [3]

Reward-Zusammensetzung:

  • Positiver Reward: Tor erzielt, hohe Puckgeschwindigkeit erzeugt, Puck gegen gegnerische Rückwand geschossen
  • Negativer Reward: Gegentor, unnötige Richtungswechsel, Puck in eigener Hälfte, unnötiges Verlassen der Position relativ zur Tormitte

Reinforcement Learning

  • Training im Selfplay-Modus → mehrere Kopien des Agents spielen parallel gegeneinander und lernen dabei

Bewertung eines RL-Agents

Rating-Algorithmus:

  • Objektive, absolute Metriken (z.B. Tore pro Zeit) sind abhängig vom Gegner → Einführung eines relativen Ratings, dass die Spielstärke verschiedener Agents in einem Turniersystem ermittelt

Glicko2-Algorithmus:

  • Iteratives Verfahren zur Berechnung des relativen Fähigkeitsniveaus von Spielern in Nullsummenspielen mit zwei Spielern
  • Berücksichtigt neben dem Spielergebnis eine Schätzung der Übereinstimmung der Spielstärke mit der aktuellen Wertung
  • Berücksichtigt die Volatilität der Spielstärke [2]

Zusammenfassung

  • Erweiterung und Anpassung der Unity-Simulation mit der Physik-Engine MuJoCo ermöglicht eine realistische Simulation der Zielumgebung

  • Der Agent erreicht beim Training ein durchschnittliches menschliches Spielerniveau nach ca. 24h und fortgeschrittenes Niveau nach ca. 48h

  • Der Rating-Algorithmus ermöglicht objektive Bewertung verschiedener Agents

Ausblick

  • Training neuer Agents mit verschiedenen Parameter-Konfigurationen und Bewertung mit dem Rating-Algorithmus → Bestmöglicher Agent ermitteln

  • Training mit Domain-Randomization-Techniken → Verkleinerung des Domain Gap

  • Menschliche Spieldaten sammeln und Anwendung dieser mit Offline Reinforcement Learning-Techniken

  • Bereitstellung des KI-Models zur Anwendung am realen Airhockey-Tisch

Quellen

[1] E. Todorov, T. Erez, and Y. Tassa, “Mujoco: A physics engine for model-based control,” in 2012 IEEE/RSJ International Conference on Intelligent Robots and Systems, pp. 5026–5033, IEEE, 2012.

[2] M. Glickman, “Example of the glicko-2 system,” 2022.

[3] R. Sutton and A. Barto, Reinforcement Learning, second edition: An Introduction. Adaptive Computation and Machine Learning series, MIT Press, 2018.

[4] E. S. de Lima, “Artificial intelligence – lecture 07 – steering behaviors,” 2020.

[5] I. Millington and J. Funge, Artificial Intelligence for Games. CRC Press, 2009.