

Вештачка интелигенција (АИ) модели су играли популарну столну игру улога Дунгеонс & Драгонс (Д&Д) тако да истраживачи могу тестирати њихову способност да креирају дугорочне стратегије и сарађују са другим системима вештачке интелигенције и људским играчима.
У студији представљеној на Конференција НеурИПС 2025који је трајао од 2. до 7. децембра у Сан Дијегу, истраживачи су рекли да је Д&Д оптималан тестни кревет захваљујући јединственом споју креативности и строгих правила игре.
За експерименте, један модел би могао да преузме улогу Господара тамнице (ДМ) — појединца који креира причу и игра улогу чудовишта — као и хероја (постојао је један ДМ и четири хероја у сваком сценарију). У оквиру изграђеном за студију, названом Д&Д Агенти, модели такође могу да играју са другим ЛЛМ-има, или људски играчи могу сами испунити било коју или све улоге. На пример, ЛЛМ би могао да преузме улогу ДМ, док су два ЛЛМ и два људска играча играли хероје.
„Дунгеонс & Драгонс је природно полигон за процену планирања у више корака, придржавања правила и тимске стратегије“, виши аутор студије, Рај Амманабролудоцент на Универзитету Калифорније, Одсек за рачунарске науке и инжењерство у Сан Дијегу, рекао је у изјава. „Пошто се игра одвија кроз дијалог, Д&Д такође отвара директан пут за интеракцију између људи и вештачке интелигенције: агенти могу помоћи или сарађивати са другим људима.
Симулација не реплицира целу Д&Д кампању; уместо тога, фокусира се на борбене сусрете, извучене из унапред написане авантуре под називом „Изгубљени рудник из Пханделвера.“ Да би креирао параметре теста, тим је изабрао један од три сценарија борбе из авантуре, сет од четири лика и нивое снаге ликова (низак, средњи или висок). Свака епизода је трајала 10 окрета, а затим су се прикупљали резултати.
Оквир за стратегију и доношење одлука
Истраживачи су користили три различита АИ модела кроз симулацију — ДеепСеек-В3, Цлауде Хаику 3.5 и ГПТ-4 — и користили Д&Д као метрику за то како су модели демонстрирали, између осталог, способност планирања дугог хоризонта и могућности коришћења алата.
Они су кључни за примене у стварном свету, попут оптимизације ланца снабдевања или креирања производних линија. Такође су тестирали колико добро модели могу да координирају и планирају заједно, што би се применило на сценарије као што је моделирање одговора на катастрофе или у системима за претрагу и спасавање са више агената.
Све у свему, Цлауде Хаику 3.5 је показао најбољу борбену ефикасност, посебно у тежим сценаријима. У лакшим сценаријима, очување ресурса је било прилично слично у сва три модела. У Д&Д-у, ресурси су ствари као што су број чаролија или способности које лик може да користи сваког дана или број доступних напитака за лечење. Пошто су ово били изоловани борбени сценарији, било је мало подстицаја за чување ресурса за касније, као што бисте могли да играте потпуну авантуру.
У тежим ситуацијама, Цлауде Хаику 3.5 показао је више спремности да потроши више додељених ресурса, што је довело до бољих резултата. ГПТ-4 је био близу, а ДеепСеек-В3 се највише мучио.
Истраживачи су такође проценили колико добро модели могу остати у карактеру током симулације. Они су креирали метрику квалитета глуме која је изоловала наративни говор модела (генерисана као текстуални одговори) и балансирала колико су модели остали у карактеру са бројем гласова које су модели одржавали током игре.
Открили су да је ДеепСеек-В3 генерисао много језгровитог лајања у првом лицу и подсмеха (попут „Покрет сам лево“ или „Ухвати их!“), али да је често поново користио исте гласове. Цлауде Хаику 3.5 је, с друге стране, своју дикцију посебно прилагодио класи или чудовишту које је играо, било да се ради о Светом Паладину или Друиду који воли природу. ГПТ-4 је, у међувремену, пао негде у средини, стварајући мешавину нарације у лику и метатактичког фраза.
Неки од најзанимљивијих и најидиосинкратичнијих борбених лавежа појавили су се када су модели играли улогу чудовишта. Различита створења су почела да развијају различите личности, што је довело до тога да гоблини вриште усред битке: „Хех — сјајни човек ће крварити!“
Истраживачи су рекли да је ова врста оквира за тестирање важна за процену тога колико добро модели могу да раде без људског инпута током дугих периода. То је мера способности вештачке интелигенције да делује независно, а да притом остане кохерентан и поуздан – способност која захтева меморију и стратешко размишљање.
У будућности, тим се нада да ће имплементирати пуне Д&Д кампање које моделирају сву причу и акцију ван борбе, додатно наглашавајући креативност и способност АИ да импровизује као одговор на доприносе људи или других ЛЛМ-а.


