Attention Labs анонсирует технологию селективного слухового внимания (SAA) для различения нескольких одновременных голосов

Attention Labs анонсирует технологию селективного слухового внимания (SAA) для различения нескольких одновременных голосов

Attention Labs, канадский стартап, созданный командой нейробиологов и инженеров в области машинного обучения, объявил о дебюте технологии селективного слухового внимания (SAA) – нового решения на основе искусственного интеллекта, способного имитировать человеческий слух и повышающего акустическую ясность. В то время как многие компании стремятся улучшить человеческий слух и выйти за его пределы, Attention Labs сосредоточилась на том, чтобы дать машинам избирательное человеческое восприятие разговора даже в присутствии нескольких голосов.

Известная проблема, связанная с настройкой системы захвата голоса и отслеживанием одного говорящего человека, в то время как в том же помещении происходит множество других разговоров, иногда даже с большей интенсивностью, — это проблема, которую аудиоиндустрия пыталась решить разными способами. На начальном этапе некоторые компании сосредоточились на создании направленных микрофонов и подавлении нежелательных источников, в то время как другие исследовали методы распознавания звука и идентификации пользователя ещё до появления решений на основе машинного обучения. В последнее время, с появлением искусственного интеллекта, многие компании используют идентификацию и разделение источников для отслеживания и обработки нескольких одновременно записанных звуков.

Первым крупным достижением Attention Labs стал поиск решения для обработки постоянной проблемы «воющих» помех в 2022 году, что помогло 40 различным платформам видеоконференций достичь качества, необходимого для естественных гибридных встреч.

Компания из Торонто сейчас изучает возможности голосового ИИ и голосовых персональных помощников, где её уровень искусственного интеллекта SAA добавит возможность «понимать» человеческие разговоры. Как сообщает компания, SAA будет работать на различных медиаустройствах, таких как гарнитуры, телевизоры, умные очки, планшеты и роботы.

«Если в комнате слышно несколько голосов, человек может различить один из них, даже если все звуки имеют одинаковую громкость. До появления SAA у машин не было такой возможности, поэтому выделить важный голос в разговоре было практически невозможно», — объясняет Дэвид Дж. Ким, генеральный директор и соучредитель Attention Labs. «Наш механизм избирательного слухового внимания работает локально на устройствах, обеспечивая кристально чистый звук с миллисекундной задержкой и нулевой зависимостью от облачных сервисов, что обеспечивает точность в среднем 97%. Голоса сохраняют мгновенную синхронизацию даже при наличии перекрёстных помех».

«SAA имитирует психоакустический феномен, известный как эффект коктейльной вечеринки, основанный на способности человеческого мозга настраиваться на определённый голос в шумной обстановке. Если в комнате слышно несколько голосов, человек может различить один из них, даже если все звуки имеют одинаковую громкость», — добавляет он.
 

SAA включает в себя уровень слухового восприятия в реальном времени, который позволяет системам распознавания голоса реагировать быстрее и надёжнее. «Голосовой ИИ неправильно воспринимает информацию в групповых разговорах. Именно эту задачу мы и решили решить. Результатом стал интеллектуальный анализ разговоров SAA в реальном времени, основанный на внимании. Наш встроенный в устройство механизм распознаёт и маршрутизирует соответствующие голоса. ИИ распознаёт и обрабатывает высококачественные аудиовизуальные данные, улавливая пространственные и разговорные нюансы групповых разговоров, поскольку сцена постоянно меняется в зависимости от акустики и поведения», — утверждает Ким.

«Наш движок моделирует механизм избирательного внимания в режиме реального времени на всех устройствах, обеспечивая динамичное инклюзивное взаимодействие. Технология поддерживает от 2 до 8 микрофонов с гибкими настройками для встроенных микрофонов, гарнитур и периферийных устройств».

Аудиомодуль устройства работает полностью на существующем оборудовании, изолируя соответствующие голоса с задержкой менее 100 мс и сверхнизким энергопотреблением. Его высокочувствительная аудиообработка выполняется на устройстве, поэтому исходные голоса и звуковые ландшафты никогда не покидают его пределы. Речь разделяется локально, данные остаются конфиденциальными, время отклика сокращается, а точность поддерживается благодаря способности ИИ распознавать и улучшать звучание на фоне разных акцентов или накладывающихся друг на друга разговоров. Применение ИИ к звуку помогает понять контекст.

«SAA мгновенно находит, фокусирует и разделяет важные голоса прямо на вашем устройстве», — добавляет Ким. «Подключите его к любому LLM и получайте ответы с учётом контекста в режиме реального времени».

Attention Labs сотрудничает с ведущими разработчиками, OEM-производителями Tier‑1 и командами разработчиков платформ, чтобы вывести решение на рынок.