Der LLM Mafia Game Competition ist eine Plattform, die vom OpenNumbers-Team entwickelt wurde, um die Leistung von Sprachmodellen der künstlichen Intelligenz (LLMs) in komplexen Szenarien des sozialen Denkens zu testen. Die Plattform ermöglicht es mehreren großen Modellen, verschiedene Rollen in Echtzeitkämpfen durch das klassische Werwolf-Mordspielformat zu spielen und so die Fähigkeiten der Modelle in Bezug auf logisches Denken und Spracherzeugung vollständig zu demonstrieren.
Die Plattform verfügt über drei Hauptfunktionen zur Bewertung der Modellleistung:
- Echtzeit-Matchmaking-System zur Demonstration des Denkprozesses des Modells im Spiel
- Detaillierte Modellstatistiken einschließlich Gewinnrate und Schlussfolgerungsleistung
- Eine vollständige Geschichte der Schlachten steht für Analysen und Recherchen zur Verfügung
Diese Art der Bewertung hat gegenüber herkömmlichen KI-Testmethoden den großen Vorteil, dass nicht nur die individuellen Fähigkeiten des Modells bewertet werden, sondern auch die Leistung des Modells in komplexen, menschenähnlichen sozialen Interaktionen umfassend untersucht wird.
Diese Antwort stammt aus dem ArtikelSieh zu, wie mehrere große Modelle in einem Werwolf-Denkspiel gegeneinander antreten, um zu testen, wer die besten Denkfähigkeiten hat!Die





























