Одним із головних викликів під час розробки першої версії моделі Wyverno Aelyne була швидкість генерації результатів. Незважаючи на високу якість створюваних налаштувань та здатність моделі коректно інтерпретувати складні текстові запити, час обробки залишався суттєвим обмеженням для практичного використання. У середньому генерація результату займала близько 90 секунд, а в окремих випадках могла досягати 250 секунд.

Саме тому після аналізу отриманого досвіду було прийнято рішення провести масштабну оптимізацію всієї системи. Результатом цієї роботи стала нова версія моделі — Wyverno Aelyne v1.5, яка забезпечує приблизно п’ятикратне прискорення інференсу без втрати якості кінцевого результату.

Передумови створення нової архітектури

Перша версія Aelyne була побудована на базі великої мовної моделі Qwen2.5 3B Instruct, яка додатково навчалася на власному датасеті, що складався з великої кількості аудіообробок та відповідних текстових описів. Такий підхід дозволив моделі ефективно інтерпретувати користувацькі запити, розуміти логіку роботи DSP-ефектів та генерувати якісні параметри для подальшої обробки аудіо.

Однак використання великої мовної моделі має і свої недоліки. Модель із трьома мільярдами параметрів потребує значних обчислювальних ресурсів як під час навчання, так і під час виконання інференсу. Для задачі генерації параметрів аудіоефектів такий підхід виявився недостатньо ефективним з точки зору співвідношення між швидкістю роботи та якістю результату.

Після проведення серії експериментів було вирішено повністю відмовитися від використання готової LLM-архітектури та створити спеціалізовану модель, розроблену безпосередньо під потреби системи.

Нова архітектура

Основою Wyverno Aelyne v1.5 стала архітектура TRM (Tiny Recursive Model). На відміну від попередньої версії, нова модель була спроєктована спеціально для вирішення конкретної задачі — аналізу аудіосигналу та генерації параметрів DSP-ефектів.

Попри суттєве зменшення розміру, модель зберегла всі ключові можливості попереднього покоління. Вона здатна якісно аналізувати промпт, розуміти принципи роботи цифрових аудіоефектів та враховувати вже існуючий ланцюг обробки. Завдяки цьому система може не лише створювати нові налаштування з нуля, але й коригувати параметри попередньо згенерованих ефектів відповідно до нових вимог.

Однією з найбільш помітних змін стала кількість параметрів моделі. Якщо перша версія використовувала приблизно 3 мільярди параметрів, то нова архітектура містить лише 11 мільйонів параметрів. Таким чином вдалося зменшити розмір моделі більш ніж у 270 разів, зберігши при цьому високу якість роботи.

Розширення навчальної вибірки

Окрему увагу під час розробки було приділено підготовці даних для навчання. Досвід експлуатації першої версії дозволив виявити низку сценаріїв, які вимагали більшого різноманіття прикладів у тренувальній вибірці.

У результаті було сформовано новий датасет, який значно перевищує попередній за своїм обсягом. Якщо під час навчання першої версії використовувалося близько 13 тисяч прикладів, то для Aelyne v1.5 було підготовлено вже понад 400 тисяч прикладів. Це дозволило моделі краще узагальнювати знання, стабільніше працювати з різними типами аудіоматеріалу та точніше підбирати параметри обробки.

Результати

Проведені зміни дозволили досягти значного приросту продуктивності. У середньому генерація нової обробки тепер займає близько 16 секунд замість 92 секунд у попередній версії. Для сценаріїв редагування вже існуючих налаштувань час виконання скоротився з 250 секунд до приблизно 48 секунд.

Крім підвищення швидкодії, нова версія демонструє покращену якість підбору параметрів та більш стабільну поведінку на складних запитах. Поєднання спеціалізованої архітектури, збільшеного датасету та оптимізованого процесу навчання дозволило отримати систему, яка є одночасно швидшою, компактнішою та ефективнішою за свого попередника.

Подальший розвиток

Випуск Wyverno Aelyne v1.5 є важливим етапом розвитку проєкту, проте він не є кінцевою точкою. Робота над моделлю продовжується, і в майбутньому планується подальше покращення якості генерації, скорочення часу інференсу та розширення можливостей системи.

Ми пишаємося досягнутими результатами та вважаємо, що нова архітектура створює міцний фундамент для наступних поколінь Aelyne.