Super Mario Bros. použitý ako test pre modely AI

  • Výskumníci testovali rôzne modely AI s použitím Super Mario Bros.
  • Anthropic's Claude 3.7 vyčnieval nad GPT-4o a Gemini 1.5 Pro.
  • Rámec s názvom GamingAgent bol použitý na to, aby AI mohla ovládať hru.
  • Modely so zložitým uvažovaním mali väčšie ťažkosti kvôli dlhším časom spracovania.

Modely AI testujúce Super Mario Bros.

Super Mario Bros sa stalo nečakaným testovacím priestorom pre modely umelej inteligencie. Skupina výskumníkov z laboratória Hao AI, patriaceho pod Kalifornskú univerzitu v San Diegu, vykonala a experiment, v ktorom sa pomocou tejto ikonickej platformovej videohry hodnotili rôzne AI.

Experiment hľadal Analyzujte schopnosť AI reagovať na podnety v reálnom čase. V dynamickom a náročnom prostredí, akým je Super Mario Bros., boli testované rôzne modely, aby sa vyhodnotil ich výkon v klasickej videohre. Tieto typy experimentov môžu poskytnúť cenné poznatky pre budúci vývoj umelej inteligencie.

Najlepšie modely AI v teste

Niektoré modely zlyhali v Super Mario Bros.

Výsledky ukázali významné rozdiely medzi hodnotenými modelmi. Ako najefektívnejší sa ukázal Claude 3.7 od Anthropic, čím prekonal svojho predchodcu Claude 3.5. Na druhej strane široko známe modely ako napr OpenAI GPT-4o a Google Gemini 1.5 Pro nedokázali v tomto teste poskytnúť vynikajúci výkon. To podčiarkuje dôležitosť ďalšieho výskumu a hodnotenia modelov ako súčasti benchmarku AI.

Jedným z faktorov, ktoré ovplyvnili tieto výsledky, bol použitý rámec. Aby umelá inteligencia mohla efektívne interagovať s hrou, Použil sa rámec s názvom GamingAgent. Tento softvér uľahčil modelom AI ovládanie postavy v hre inštrukcie naprogramované v kóde Python.

Prečo niektoré modely zlyhali v Super Mario Bros.?

Super Mario Bros. použitý ako test pre modely AI

Kuriózne je, Modely s komplexnými schopnosťami uvažovania mali ťažkosti. Pretože ich spracovanie je zvyčajne pomalšie pri vykonávaní podrobných výpočtov alebo strategických rozhodnutí, Tieto modely vykazovali menej efektívnu odozvu v rýchlo sa rozvíjajúcom prostredí, ako je Super Mario Bros.. Toto by mohla byť oblasť, ktorú by sme mali preskúmať v budúcich experimentoch, pričom by sme sa pozreli na to, ako môžu jednoduchšie modely fungovať lepšie.

Na rozdiel od toho, Umelé inteligencie, ktoré nezávisia od procesov hlbokého uvažovania, boli obratnejšie. Modely považované za menej pokročilé dosahovali kratšie reakčné časy, čo im umožnilo lepšie sa prispôsobiť požiadavkám hrania v reálnom čase. Tento jav by mohol byť užitočný pri analýze aplikácií v iných kontextoch, napríklad pri vývoji videohier.

Hoci Tento test nemožno považovať za oficiálny benchmarkZískané výsledky ukazujú, že existuje jasný rozdiel vo výkone rôznych modelov umelej inteligencie, keď čelia podmienkam dynamickej a okamžitej odozvy.

Tieto typy experimentov môžu poskytnúť cenné poznatky pre budúci vývoj umelej inteligencie. Analýza toho, ako modely reagujú na rôzne výzvy pomôcť identifikovať zlepšenia v ich návrhu a aplikácii v rôznych kontextochAko robotikav automatizácia a hra. Získané poznatky by sa navyše mohli uplatniť v iných oblastiach technológie a zábavy, čím by sa rozšírili ich obzory.

V iných hrách bude takýchto testov viac

Zistenia ponechávajú otvorenú možnosť vykonať podobné testy v iných typoch videohier.. Napríklad v ťahových strategických hrách môžu modely so sofistikovanejším uvažovaním prevýšiť výkon a tráviť viac času strategickými rozhodnutiami bez toho, aby boli penalizované predĺženými časmi odozvy. Toto zdôrazňuje v budúcom výskume treba preskúmať rôzne žánre a štýly hry.

Experimentovanie so Super Mario Bros. ukazuje, ako možno videohry použiť na posúdenie vývoja umelá inteligencia, poskytujúce dostupné prostredie na meranie vašich schopností a obmedzení v interaktívnych a dynamických scenároch. Hoci vždy, Kto nás vo svete videohier prekvapí najviac, je ľudská bytosť.


Sledujte nás na Google News