Распознавание речи для бизнеса

Обновлено: 20.06.2026

Распознавание речи применяется в бизнесе для:
- обработки обращений клиентов (в IVR)
- автоматизации исходящих маркетинговых кампаний (в Call-центрах)
- создания документов/сообщений при помощи диктовки
- ввода данных в корпоративные приложения
- преобразования голосовых сообщений в текст
- протоколирования встреч, совещаний
- в голосовых ассистентах

Ниже даны примеры использования распознавания речи для бизнеса.

2026. Google выпустил AI приложение для диктовки, которое работает без интернета

Google выпустил бесплатное iOS приложение для диктовки под названием Google AI Edge Eloquent. Оно будет конкурировать с такими приложениями, как Wispr Flow, SuperWhisper, Willow и другими. При установке приложение загружает на телефон модель автоматического распознавания речи на основе Gemma. В приложении вы можете видеть транскрипцию речи в реальном времени, а при паузе приложение автоматически отфильтровывает слова-паразиты, такие как «э-э» и «а-а», и улучшает текст. Когда облачный режим включен, приложение использует облачные модели Gemini для очистки текста. Приложение отображает историю сеансов транскрипции и позволяет осуществлять поиск по всем из них. Оно может показывать слова, продиктованные в последнем сеансе, вашу скорость чтения в минуту и общее количество произнесенных слов.

2026. Microsoft представила AI модели для генерации и распознавания речи

Microsoft продолжает развивать собственные AI-модели MAI (чтоб поддерживать независимость от партнерского OpenAI). Новая модель MAI-Transcribe-1 для преобразования речи в текст, по данным компании, показывает лучшую точность на бенчмарке FLEURS для 25 наиболее используемых языков и работает в 2,5 раза быстрее предыдущего решения Azure Fast. В Microsoft заявляют, что модель оптимизирована для реальных условий — с шумом и нестабильным звуком. Вторая новая модель, MAI–Voice-1 предназначена для генерации речи. Она способна создавать до 60 секунд аудио всего за одну секунду, сохраняя интонации и особенности голоса. Также разработчики добавили возможность создавать собственный голос на основе нескольких секунд записи, что упрощает создание голосовых интерфейсов и ИИ-агентов.

2025. Mistral представил open-source AI модель для распознавания речи

Французский AI-страртап Mistral представил свою первую аудио-модель Voxtral, предназначенную для бизнеса. Voxtral может расшифровывать до 30 минут аудио, и благодаря LLM-ядру Mistral Small, модель позволяет пользователям задавать вопросы по аудиоконтенту, создавать саммари или преобразовывать голосовые команды в сигналы в режиме реального времени. Voxtral поддерживает английский, испанский, французский, португальский, хинди, немецкий, голландский и итальянский языки. Бесплатная open-source версия доступна на Hugging Face. А облачный API стоит от $0.001/за минуту. В Mistral заявляют, что новая модель более доступна по стоимости по сравнению с конкурентами Gemini Flash, GPT-4 Transcribe, ElevenLabs Scribe, OpenAI Whisper.

2023. OpenAI представила API открытой системы преобразования речи в текст

Компания OpenAI представила API для системы Whisper, которая представляет собой инструмент преобразования речи в текст, обученный на 680 000 часов многоязычных и «многозадачных» данных, собранных из интернета. Система способна корректно воспринимать произношение с акцентом, идентифицировать фоновые шумы, а также технический жаргон. Как заявляет OpenAI, решение может «надёжно» транскрибировать речь на нескольких языках, а также осуществлять перевод с этих языков на английский. Однако у Whisper есть свои ограничения, особенно в области предиктивной расшифровки. Кроме того, качество работы Whisper различается для разных языков. Благодаря появлению Whisper API сторонние разработчики смогут интегрировать эту нейросеть в свои приложения. Поддерживается работа с файлами в различных форматах, включая M4A, MP3, MP4, MPEG, MPGA, WAV и WEBM. Стоимость использования модели Whisper large-v2 составляет $0,006 в минуту. Полученный текст затем может использоваться в других приложениях на основе нейросетей.

2022. Сервис распознавания речи Sanas привлек $32 млн

Стартап Sanas, который с помощь технологии распознавания речи обучает пользователей правильному произношению (английского языка) объявил о привлечении $32 млн. Sanas основали в 2020 году Максим Серебряков, Шон Чжан и Андрес Содери. Компания, базирующаяся в Пало-Альто, занимается разработкой ПО, предназначенного для снижения языковых барьеров и несовпадения акцентов при общении. Программное обеспечение компании представляет собой технологию перевода акцента в режиме реального времени, которая позволяет говорящим говорить с любым акцентом без заметной задержки, что позволяет пользователям лучше понимать друг друга и иметь возможность выбора стиля общения.

2021. Оки-Токи: Обновление речевой аналитики

Разработчики Оки-Токи отказались от монетизации стенограмм, сделав их бесплатными. Они сконцентрировались на том, чтобы стенограмма была не просто самостоятельной опцией, а инструментом для автоматической речевой аналитики оператора. Теперь анализ и расшифровка записей доступна для стороны оператора. Вы можете создавать свои правила, словари отслеживаемых слов, подключайте к проектам и отслеживайте в реальном времени нарушения, продажи и другие важные слова-триггеры. Комбинируйте вместе с инструментом для отдела контроля качества для ускорения проверки звонков — в звонках будут метки. Если нужно отслеживать только определенные звонки, то теперь по правилам можно также фильтровать, как по хештегам из CRM.

2021. В Microsoft Dictate появилась поддержка русского языка

Microsoft Dictate - это инструмент в майкрософтовском офисе, который позволяет распознавать речь, т.е. надиктовывать текст вместо печатания. Сегодня в нем появилась поддержка 9 новых языков, в том числе и русского. Dictate работает не как чукча (что слышу, то и пишу), а различает команды - например, когда вы говорите "точка" или "запятая", он ставит знаки препинания, когда говорите "перенос строки" - делает новую строку и т.д. Подобный инструмент уже давно есть в Google Docs, правда, работает он пока недостаточно качественно.

2021. Microsoft покупает Nuance за $19,7 млрд

Microsoft обновила Топ-5 крупнейших сделок в истории ИТ-рынка, купив (за $19,7 млрд) компанию Nuance - одного из лидеров рынка систем распознавания речи. Собственно, Nuance и создала этот рынок, выпустив программу Dragon NaturallySpeaking в начале 2000-х годов. Алгоритмы распознавания речи Nuance легли в основу голосового ассистента Apple Siri. Но наибольшего успеха компания достигла в медицине. Ее системы помогают стенографировать опросы пациентов и отчеты врачей, освобождая последних от тяжелой бумажной работы. Вероятно, именно ради медицинского бизнеса Microsoft и заплатила такую огромную сумму. В прошлом году компания представила платформу Microsoft Cloud for Healthcare, в которой используются технологии Nuance.

2021. Microsoft выпустила приложение для текстовой записи онлайн-встреч

Microsoft выпустила приложение Group Transcribe, которое позволяет прямо во время разговора нескольких человек в онлайне получить расшифровку их речи в текст, а при необходимости — и перевод расшифровки. Т.е. в реальном времени вы можете читать кто что говорит, или сохранить эту расшифровку чтобы почитать потом. Group Transcribe можно использовать как дополнение к видеовстречам через Zoom, Teams или другой сервис. Организатор должен создать в приложении комнату и пригласить туда всех участников. Т.е. звук будет идти через приложение, а видео - через ваш сервис видеосвязи. Приложение поддерживает 37 языков, среди них есть и русский. Пока оно работает только на iOS, но скоро появится и для Android. Также, Microsoft скоро выпустит специальные колонки для оффлайн встреч, которые также будут записывать текст встречи.

2021. Искусственный интеллект Microsoft превзошел людей в понимании человеческой речи

Искусственный интеллект (ИИ) DeBERTa корпорации Microsoft превзошел возможности человека бенчмарке SuperGLUE – тесте на понимание естественного языка. Он набрал 90,3 балла, тогда как показатели человека находятся на уровне 89,8 балла. Помимо полутора миллиардов параметров, у DeBERTa есть важное отличие от других ИИ-моделей, тоже сыгравшее свою роль в получении 90,3 балла в SuperGLUE. Этот ИИ по умолчанию учитывает не только значения слов, но и их позиции и роли в предложении. Для примера, в предложении «новый магазин открылся рядом с торговым центром» (a new store opened beside the new mall» он вполне в состоянии понять, что близкие по контекстному значению слово «магазин» (store) и словосочетание «торговый центр» (mall) играют разные синтаксические роли (подлежащим здесь является именно «магазин»).

2020. Распознавание речи - новая функция Zadarma

Сервис облачной телефонии Zadarma представил новую функцию распознавания речи. Теперь все клиенты, использующие бесплатную АТС Zadarma, смогут не только прослушать записи разговоров, но и увидеть их текстовую расшифровку. Сервис умеет работать с 20+ языками. Услуга распознавания платная и зависит от языка. Также в API Zadarma доступны методы по работе с распознаванием речи, можно подключить функцию к своей системе, а также не просто распознавать, но и анализировать разговоры. В ближайшее время телефония представит инструмент аналитики речи.

2019. В GoToMeeting улучшили интерфейс и распознавание речи

Американская компания LogMeIn выпустила новую версию своей популярной системы видеоконференций GoToMeeting. В ней реализован полностью обновленный пользовательский интерфейс, унифицированный для различных девайсов. Также разработчики хорошо поработали над передачей звука и обещают высокое качество даже при медленном интернете. Для фиксации результатов видео-встреч появились заметки, которые можно делать в реальном времени и функция распознавания речи, которая позволяет читать лог видеоконференции в форме диалога. Организаторы встреч теперь могут создавать брендированные виртуальные переговорные и в любое время собирать в них свою команду для общения и совместной работы. Обновлены интеграции с Office 365, Outlook, Google Calendar и Slack.

2019. Google выпустил Android 10 с распознаванием речи

Google выпустил новую версию операционной системы Android 10. Пока она доступна только для смартфонов Google Pixel, а к пользователям других телефонов долетит до конца года. Пожалуй самая интересная новая фича - это распознавание речи. Она позволяет показывать субтитры в любом видео или в камере при съемке видео. Фишка в том, что оно работает даже в отсутствии интернета. Другие новшества: темный режим (говорят, очень экономит батарею), центр управления приватностью с 50 новыми опциями, быстрая установка патчей безопасности, новый жест для возврата назад, «Умный ответ» - различные действия с уведомлениями (например, ссылку система сразу предложит открыть в Chrome, видео — в YouTube, адрес — в приложении карт).

2019. Google запустил телефонного помощника для малого бизнеса

Google запустил сервис CallJoy, который представляет собой умный автоответчик (IVR) для малого бизнеса и (по задумке) должен дать людям возможность работать, вместо того, чтоб отвечать на звонки. Разумеется, фишкой сервиса является гугловский ИИ-ассистент, который умеет распознавать речь и отвечать на более-менее стандартные вопросы. Если запрос клиента может быть обработан на сайте (например, он желает записаться на прием или сделать заказ), CallJoy может выслать нужную ссылку по SMS. Если же клиент желает поговорить с представителем организации, то помощник соединит. Он также отфильтрует нежелательные спам-звонки. Владельцу бизнеса предоставляет дашборд со списком звонков и записью разговоров. Стоимость помощника для одного номера составляет $39 в месяц.

2018. Salesforce позволяет вводить данные в CRM голосом

Менеджеры по продажам любят говорить. Фактически, их работа сводится к тому, чтоб говорить. Но когда дело доходит до ввода информации о клиентах в CRM систему - им приходится печатать. Salesforce хочет избавить продажников от такого когнитивного диссонанса. Новая фича Einstein Voice позволяет вводить данные в систему с помощью естественной речи. Представьте, садясь за руль, вы просто запускаете мобильное приложение и рассказываете виртуальному ассистенту: "Только что я встречался с Джоном Смитом. Он заинтересован в покупке, но договорились созвониться через неделю..." (все это на английском, конечно). И виртуальный ассистент аккуратно добавляет заметку в историю по данному клиенту. Правда, Salesforce нужно что-то менять с личностью виртуального ассистента. Как-то неправильно заставлять Эйнштейна выполнять такие простые задачи.

2017. Ozlo превратился в API для разговорных интерфейсов

Помните нового виртуального ассистента Ozlo? Он передумал быть виртуальным ассистентом. Вместо этого, он решил помочь разработчикам быстро создавать разговорные интерфейсы к своим приложениям (за денюжку, конечно). Ozlo предлагает свою модель мира, которая состоит из 2 млрд фактов и к ней 3 API интерфейса: Data API - для пополнения/изменения модели мира (графа знаний), Intent API - для понимания вопросов пользователей (преобразования слов в смысл), и Converse API - для формулирования ответа (преобразования смысла в слова). Пример работы Ozlo виден на картинке. Исходя из вопроса "Можно ли завалить толпой в реторан Gravity и пожрать там устриц", он определил, что в данном ресторане подают устриц и приветствуют групповые посиделки и сформулировал ответ.

2016. Microsoft добилась наилучшего в истории результата в распознавании речи

Вслед за победой на конкурсе распознавания изображений, Microsoft установила рекорд по распознаванию речи (по крайней мере так говорят в Microsoft). Нейросеть компании достигла точности распознавания 93,7%. По словам Сюэдона Хуана (на фото), главного специалиста по данной теме в Microsoft, им удалось изобрести новый тип связи между разными слоями нейронной сети. Еще одним критически важным компонентом исследования оказался нейросетевой инструментарий CNTK, который позволяет запускать глубинные обучающие алгоритмы. Шагом вперед также стала параллельная подстройка графических процессоров (GPU).