Attention Labs анонсує технологію селективної слухової уваги (SAA) для розрізнення кількох одночасних голосів

Posted by 0Відгуки

Attention Labs, канадський стартап, створений командою нейробіологів та інженерів у галузі машинного навчання, оголосив про дебют технології селективної слухової уваги (SAA) – нового рішення на основі штучного інтелекту, здатного імітувати людський слух та підвищує акустичну ясність. У той час як багато компаній прагнуть покращити людський слух і вийти за його межі, Attention Labs зосередилася на тому, щоб дати машинам вибіркове людське сприйняття розмови навіть у присутності кількох голосів.

Відома проблема, пов'язана з налаштуванням системи захоплення голосу і відстеженням однієї людини, що говорить, у той час як у тому ж приміщенні відбувається безліч інших розмов, іноді навіть з більшою інтенсивністю, - це проблема, яку аудіоіндустрія намагалася вирішити різними способами. На початковому етапі деякі компанії зосередилися на створенні спрямованих мікрофонів та придушенні небажаних джерел, тоді як інші досліджували методи розпізнавання звуку та ідентифікації користувача ще до появи рішень на основі машинного навчання. Останнім часом, з появою штучного інтелекту, багато компаній використовують ідентифікацію та поділ джерел для відстеження та обробки кількох одночасно записаних звуків.

Першим великим досягненням Attention Labs став пошук рішення для обробки постійної проблеми "виючих" перешкод у 2022 році, що допомогло 40 різним платформам відеоконференцій досягти якості, необхідної для природних гібридних зустрічей.

Компанія з Торонто зараз вивчає можливості голосового ІІ та голосових персональних помічників, де її рівень штучного інтелекту SAA додасть можливість «розуміти» людські розмови. Як повідомляє компанія, SAA буде працювати на різних медіапристроях, таких як гарнітури, телевізори, розумні окуляри, планшети та роботи.

«Якщо в кімнаті чути кілька голосів, людина може розрізнити один із них, навіть якщо всі звуки мають однакову гучність. До появи SAA у машин не було такої можливості, тому виділити важливий голос у розмові було практично неможливо», - пояснює Девід Дж. Кім, генеральний директор та співзасновник Attention Labs. «Наш механізм виборчої слухової уваги працює локально на пристроях, забезпечуючи кришталево чистий звук з мілісекундною затримкою та нульовою залежністю від хмарних сервісів, що забезпечує точність у середньому 97%. Голоси зберігають миттєву синхронізацію навіть за наявності перехресних перешкод».

«SAA імітує психоакустичний феномен, відомий як ефект коктейльної вечірки, що ґрунтується на здатності людського мозку налаштовуватися на певний голос у шумній обстановці. Якщо в кімнаті чути кілька голосів, людина може розрізнити один із них, навіть якщо всі звуки мають однакову гучність», — додає він.

SAA включає рівень слухового сприйняття в реальному часі, який дозволяє системам розпізнавання голосу реагувати швидше і надійніше. «Голосовий ІІ неправильно сприймає інформацію у групових розмовах. Саме це завдання ми вирішили вирішити. Результатом став інтелектуальний аналіз розмов SAA у реальному часі, заснований на увазі. Наш вбудований у пристрій механізм розпізнає та маршрутизує відповідні голоси. ІІ розпізнає та обробляє високоякісні аудіовізуальні дані, вловлюючи просторові та розмовні нюанси групових розмов, оскільки сцена постійно змінюється залежно від акустики та поведінки», — стверджує Кім.

«Наш двигун моделює механізм вибіркової уваги в режимі реального часу на всіх пристроях, забезпечуючи динамічну інклюзивну взаємодію. Технологія підтримує від 2 до 8 мікрофонів з гнучкими налаштуваннями для вбудованих мікрофонів, гарнітур та периферійних пристроїв».

Аудіомодуль пристрою працює повністю на існуючому обладнанні, ізолюючи відповідні голоси із затримкою менше 100 мс та наднизьким енергоспоживанням. Його високочутлива аудіообробка виконується на пристрої, тому вихідні голоси та звукові ландшафти ніколи не покидають його межі. Мова розділяється локально, дані залишаються конфіденційними, час відгуку скорочується, а точність підтримується завдяки здатності ІІ розпізнавати і покращувати звучання на тлі різних акцентів або розмов, що накладаються одна на одну. Застосування ІІ до звуку допомагає зрозуміти контекст.

"SAA миттєво знаходить, фокусує і розділяє важливі голоси прямо на вашому пристрої", - додає Кім. "Підключіть його до будь-якого LLM і отримуйте відповіді з урахуванням контексту в режимі реального часу".

Attention Labs співпрацює з провідними розробниками, OEM-виробниками Tier-1 та командами розробників платформ, щоб вивести рішення на ринок.

< Previous Next >