Mimiq v2 є наступним поколінням моделі для клонування ігрової поведінки, розробленим на основі досвіду експлуатації першої версії. Як і Mimiq v1, нова версія працює виключно з візуальним потоком з екрана гри, без використання ігрових API, читання пам'яті процесу або окремих інтеграцій під конкретні проєкти. На вході моделі — кадри з екрана, на виході — дії користувача.
Перша версія моделі продемонструвала працездатність підходу навчання за демонстраціями для широкого спектра ігор. Водночас у процесі практичного використання було виявлено дві системні обмеження, які стримували стабільність поведінки агента в сценаріях, що вимагають збереження контексту протягом тривалого часу.
Обмеження Mimiq v1
Архітектура першої версії базувалася на аналізі обмеженого вікна останніх кадрів. Такий підхід забезпечував достатню якість для задач, де рішення приймаються на основі поточного стану екрана, однак виявився недостатнім для сценаріїв, що потребують урахування попередніх подій.
У практичній експлуатації це проявлялося у втраті контексту після виконання дії: модель не зберігала інформацію про вже здійснені дії, такі як ураження цілі, підбір предмета або відкриття дверей. Аналогічна проблема виникала під час руху до заданої точки: після зникнення орієнтира з поля зору агент часто втрачав напрямок і демонстрував циклічну поведінку. Причиною було відсутність механізму довгострокового збереження стану між кадрами.
Окремим обмеженням став формат обробки зображення. Mimiq v1 приводила кадр до роздільності 224×224 пікселів, що призводило до спотворення пропорцій у широкоформатних іграх зі співвідношенням сторін 16:9. Елементи інтерфейсу — індикатори здоров'я, лічильники ресурсів, іконки в кутках екрана — втрачали читабельність після масштабування, що знижувало якість прийняття рішень у ситуаціях, де ці дані мають вирішальне значення.
Рекурентна пам'ять
Ключовою зміною в Mimiq v2 стала підтримка рекурентної пам'яті. Модель веде внутрішній стан, який переноситься між кадрами протягом усієї ігрової сесії та накопичує інформацію про попередні події.
Пам'ять реалізована як багаточасовий механізм. Частина внутрішнього стану оновлюється з високою частотою та відповідає за короткостроковий контекст поточних дій. Інша частина зберігає довгострокову інформацію — напрямок руху, виконані дії, фазу поточного ігрового сценарію — протягом десятків секунд. Такий підхід дозволяє моделі однаково ефективно обробляти як миттєві реакції, так і тривалі цілеспрямовані дії.
Важливою особливістю реалізації є прив'язка пам'яті до реального часу, а не до кількості кадрів. Зниження частоти кадрів не прискорює «забування» моделлю накопиченого контексту, що забезпечує більш стабільну поведінку на різному апаратному забезпеченні.
У результаті Mimiq v2 здатна:
- зберігати контекст виконаних дій протягом тривалого часу;
- підтримувати цілеспрямований рух до заданої точки навіть після зникнення орієнтира з поля зору;
- уникати циклічної поведінки, характерної для моделей без механізму довгострокової пам'яті.
Механізм пам'яті інтегровано у всі розміри моделі v2, включно з найменшими конфігураціями. Навчання з використанням пам'яті є обов'язковим для кожного tier, а не опцією, доступною лише для великих варіантів архітектури.
Перероблене сприйняття
Другою суттєвою зміною стала модифікація модуля візуального сприйняття. Mimiq v2 обробляє кадр у рідному широкоформатному співвідношенні 16:9 без попереднього стискання до квадратного формату, що зберігає коректні пропорції зображення.
Додатково впроваджено механізм зон уваги. Замість рівномірного розподілу уваги по всьому кадру модель може окремо аналізувати ключові ділянки екрана — елементи інтерфейсу, область прицілу, інформаційні панелі — при збереженні загального огляду сцени. Це дозволяє стабільно розпізнавати дрібні, але критичні для прийняття рішень деталі, які в Mimiq v1 втрачалися під час попередньої обробки зображення.
Рекомендації щодо переходу
Mimiq v1 залишається придатною для ігор, де поведінка агента залежить виключно від поточного стану екрана і не потребує збереження контексту попередніх дій. Для проєктів, де агент повинен виконувати послідовність дій, дотримуватися маршруту або враховувати результати попередніх етапів гри, перехід на Mimiq v2 забезпечує суттєве покращення стабільності та передбачуваності поведінки.
Mimiq v2 продовжує розвиток підходу, закладеного в першій версії моделі, і є поточним рекомендованим варіантом для нових проєктів у платформі Universal Game AI.