Wyverno з радістю представляє наше нове покоління моделі — Wyverno SST v2, доступне у версіях Base та Max.
Ми провели масштабну роботу над оновленням архітектури, оптимізацією швидкодії та покращенням якості навчання, щоб зробити обробку аудіо ще точнішою, швидшою та природнішою. Нижче — детальніше про ключові зміни нового покоління.
Оновлена архітектура моделі
У попередньому поколінні, Wyverno SST v1, основний фокус був зосереджений переважно на часовому аналізі аудіосигналу. Модель добре працювала з динамікою звуку, однак спектральна складова не мала настільки глибокого окремого опрацювання.
У Wyverno SST v2 ми повністю переглянули підхід до аналізу аудіо та розділили модель на два спеціалізовані блоки:
Аналіз часової складової
Перший блок, як і раніше, відповідає за аналіз часових характеристик сигналу. Саме він дозволяє моделі точно розпізнавати:
• атаку звуку — швидкість наростання сигналу від тиші до пікового значення;
• затухання та природну динаміку;
• просторові особливості звучання;
• ритмічну структуру;
• темп та часові переходи.
Це дає змогу зберігати природність виконання та передавати найдрібніші нюанси звучання.
Аналіз частотної складової
Другий блок спеціалізується на глибокому спектральному аналізі. Завдяки цьому модель значно краще:
• розрізняє тембри та відтінки голосу;
• визначає висоту звуку;
• виявляє шуми та небажані артефакти;
• точніше працює з гармоніками та частотним балансом.
Поєднання двох підходів дозволило суттєво підвищити якість обробки в таких задачах, як:
• еквалізація;
• шумозаглушення;
• компресія;
• просторові ефекти;
• загальне стилістичне перенесення звучання.
У результаті оброблене аудіо стало ще більш чистим, деталізованим та природним.
Значно покращене навчання моделі
Оновлення архітектури — це лише частина прогресу. Не менш важливим етапом стало суттєве покращення процесу навчання.
Для Wyverno SST v2 ми підготували датасет, який у 5 разів перевищує за обсягом той, що використовувався для навчання v1.
До нього увійшли:
• записи з різними типами голосів;
• матеріал із різних акустичних середовищ;
• широкий спектр стилів мовлення та вокалу;
• різні умови запису.
Такий масштаб дозволив моделі краще узагальнювати інформацію, стабільніше працювати в реальних сценаріях та точніше передавати характер референсного звучання.
Прискорення обробки
Окрім покращення якості, одним із головних досягнень Wyverno SST v2 стало значне збільшення швидкості роботи.
Ми провели тести на Apple MacBook Pro 14” з чипом M4 Max (32 GPU Core):
• Wyverno SST v1 Max — приблизно 60 секунд обробки;
• Wyverno SST v2 Max — приблизно 4 секунди.
Це означає, що нова версія працює до 15 разів швидше, ніж попереднє покоління.
Для користувача це означає:
• суттєво менше часу очікування;
• швидший творчий процес;
• можливість оперативно тестувати більше варіантів;
• комфортну роботу навіть зі складними сценаріями обробки.
Додаткові покращення
У версії Wyverno SST v2 Max ми також інтегрували новий модуль GainNet.
Його завдання — автоматично вирівнювати гучність обробленого аудіо відповідно до рівня гучності референсного сигналу. Це дозволяє:
• уникати небажаних стрибків гучності;
• зберігати комфортне сприйняття результату;
• робити фінальний звук більш збалансованим та професійним.
Wyverno SST v2 — це не просто оновлення, а повноцінний крок вперед у якості, швидкості та точності аудіообробки.
Ми прагнули створити модель, яка не лише краще розуміє звук, а й дозволяє користувачу працювати швидше, зручніше та отримувати результат, максимально наближений до очікуваного.
Wyverno SST v2 Base та Max уже доступні — спробуйте нове покоління аудіообробки вже зараз.