Attention Labs, канадский стартап, созданный командой нейробиологов и инженеров в области машинного обучения, объявил о дебюте технологии селективного слухового внимания (SAA) – нового решения на основе искусственного интеллекта, способного имитировать человеческий слух и повышающего акустическую ясность. В то время как многие компании стремятся улучшить человеческий слух и выйти за его пределы, Attention Labs сосредоточилась на том, чтобы дать машинам избирательное человеческое восприятие разговора даже в присутствии нескольких голосов.
Известная проблема, связанная с настройкой системы захвата голоса и отслеживанием одного говорящего человека, в то время как в том же помещении происходит множество других разговоров, иногда даже с большей интенсивностью, — это проблема, которую аудиоиндустрия пыталась решить разными способами. На начальном этапе некоторые компании сосредоточились на создании направленных микрофонов и подавлении нежелательных источников, в то время как другие исследовали методы распознавания звука и идентификации пользователя ещё до появления решений на основе машинного обучения. В последнее время, с появлением искусственного интеллекта, многие компании используют идентификацию и разделение источников для отслеживания и обработки нескольких одновременно записанных звуков.
Первым крупным достижением Attention Labs стал поиск решения для обработки постоянной проблемы «воющих» помех в 2022 году, что помогло 40 различным платформам видеоконференций достичь качества, необходимого для естественных гибридных встреч.
Компания из Торонто сейчас изучает возможности голосового ИИ и голосовых персональных помощников, где её уровень искусственного интеллекта SAA добавит возможность «понимать» человеческие разговоры. Как сообщает компания, SAA будет работать на различных медиаустройствах, таких как гарнитуры, телевизоры, умные очки, планшеты и роботы.
«Если в комнате слышно несколько голосов, человек может различить один из них, даже если все звуки имеют одинаковую громкость. До появления SAA у машин не было такой возможности, поэтому выделить важный голос в разговоре было практически невозможно», — объясняет Дэвид Дж. Ким, генеральный директор и соучредитель Attention Labs. «Наш механизм избирательного слухового внимания работает локально на устройствах, обеспечивая кристально чистый звук с миллисекундной задержкой и нулевой зависимостью от облачных сервисов, что обеспечивает точность в среднем 97%. Голоса сохраняют мгновенную синхронизацию даже при наличии перекрёстных помех».
«SAA имитирует психоакустический феномен, известный как эффект коктейльной вечеринки, основанный на способности человеческого мозга настраиваться на определённый голос в шумной обстановке. Если в комнате слышно несколько голосов, человек может различить один из них, даже если все звуки имеют одинаковую громкость», — добавляет он.
SAA включает в себя уровень слухового восприятия в реальном времени, который позволяет системам распознавания голоса реагировать быстрее и надёжнее. «Голосовой ИИ неправильно воспринимает информацию в групповых разговорах. Именно эту задачу мы и решили решить. Результатом стал интеллектуальный анализ разговоров SAA в реальном времени, основанный на внимании. Наш встроенный в устройство механизм распознаёт и маршрутизирует соответствующие голоса. ИИ распознаёт и обрабатывает высококачественные аудиовизуальные данные, улавливая пространственные и разговорные нюансы групповых разговоров, поскольку сцена постоянно меняется в зависимости от акустики и поведения», — утверждает Ким.
«Наш движок моделирует механизм избирательного внимания в режиме реального времени на всех устройствах, обеспечивая динамичное инклюзивное взаимодействие. Технология поддерживает от 2 до 8 микрофонов с гибкими настройками для встроенных микрофонов, гарнитур и периферийных устройств».
Аудиомодуль устройства работает полностью на существующем оборудовании, изолируя соответствующие голоса с задержкой менее 100 мс и сверхнизким энергопотреблением. Его высокочувствительная аудиообработка выполняется на устройстве, поэтому исходные голоса и звуковые ландшафты никогда не покидают его пределы. Речь разделяется локально, данные остаются конфиденциальными, время отклика сокращается, а точность поддерживается благодаря способности ИИ распознавать и улучшать звучание на фоне разных акцентов или накладывающихся друг на друга разговоров. Применение ИИ к звуку помогает понять контекст.
«SAA мгновенно находит, фокусирует и разделяет важные голоса прямо на вашем устройстве», — добавляет Ким. «Подключите его к любому LLM и получайте ответы с учётом контекста в режиме реального времени».
Attention Labs сотрудничает с ведущими разработчиками, OEM-производителями Tier‑1 и командами разработчиков платформ, чтобы вывести решение на рынок.
Attention Labs анонсирует технологию селективного слухового внимания (SAA) для различения нескольких одновременных голосов
Posted by
0Отзывы