Обработка естественного языка (NLP) для бизнеса

Обновлено: 10.10.2024
Технологии обработки естественного языка используются в бизнесе для следующих приложений:
- чат-боты для поддержки клиентов
- голосовые интерфейсы в IVR
- персональные голосовые ассистенты
- анализ отзывов и эмоций клиентов в социальных сетях
- поиск информации с использованием смыслов
- распознавание документов и форм
- перевод текстов на основании смысла текста
- проверка правописания (на чужом языке)

Примеры использования языковых технологий для бизнеса приведены ниже.

2024. Google Bard переименован в Gemini. Google Assistant перешел на движок Gemini



Команда Deepmind Демиса Хассабиса победила внутри Google. Модель Gemini полностью заменит созданную внутри основной компании модель Bard. Языковой чат-бот Bard уже переименован в Gemini, а персональный голосовой ассистент Google Assistant перешел на движок Gemini (правда пока только на английском языке). Google заявляет, что Gemini соответствует и даже превосходит нейросеть GPT-4 от OpenAI во многих отношениях. Сейчас Bard использует Gemini Pro, модель среднего уровня серии Gemini. Говорят, что Gemini обрабатывает информацию как человеческий мозг и превосходит все существующие нейросети в любой сфере. Язык в этой ИИ модели - это лишь один из форматов информации, наряду с кодом, изображениями, аудио и видео.


2023. Новая ИИ-модель Phi-2 от Microsoft превзошла по эффективности всех конкурентов



Генеральный директор Microsoft Сатья Наделла представил новую передовую модель искусственного интеллекта Phi-2, которая содержит 2,7 млрд параметров. Эта модель продемонстрировала впечатляющие результаты в широком спектре тестов, включая понимание языка, решение математических задач, программирование и обработку информации. Phi-2 может конкурировать с моделями искусственного интеллекта, которые в 25 раз больше по размеру, и даже превосходить их. Эта новая модель уже доступна через Microsoft Azure AI Studio для исследователей и разработчиков, которые хотят интегрировать передовой искусственный интеллект в свои приложения. В Microsoft говорят, что несколько недель тестов показали, что новая разработка компании бьет по эффективности всех конкурентов, включая самую новую ИИ-модель от Google Gemini.


2023. Компания Илона Маска xAI запустила свой ИИ - Grok



Компания xAI, принадлежащая американскому предпринимателю Илону Маску, представила Grok - собственную языковую модель. Разработчики говорят, что Grok - это искусственный интеллект, созданный по мотивам любимой книги Маска - "Автостопом по галактике". Помните, там был суперкомпьютер, который создали для ответа на главный вопрос жизни, вселенной и всего остального. И именно он просчитал ответ 42. Что касается земного Грока - то, говорят, что он способен ответить практически на любой вопрос и, что гораздо сложнее, даже подсказать, какие вопросы следует задать. "Он также ответит на пикантные вопросы, которые отвергаются большинством других ИИ-систем", - добавляет xAI. Доступ к Grok можно получить при приобретении подписки Premium+ на платформе X (Твиттер).


2023. Amazon инвестирует $4 млрд в ИИ стартап Anthropic



Компания Amazon объявила об одной из самых больших инвестиций за всю историю своего существования. Сумма инвестиций в ИИ стартап Anthropic составит аж $4 млрд. Напомним, Microsoft заключила соглашение об инвестициях в OpenAI в размере $11 млрд. Таким образом, Anthropic официально становится главным конкурентом OpenAI (если не включать в это соревнование стартапов Гугл). Стартап Anthropic основан в 2021 году выходцами из OpenAI, и естественно, он разрабатывает языковую модель. У стартапа есть свой AI-чатбот Claude 2, выступающий конкурент ChatGPT. В рамках партнерства, модели Anthropic будут работать на мощностях Amazon Web Services. Вероятно, Amazon хочет стать эдаким one-stop shop для искусственного интеллекта: свои чипы для тренировки моделей, продажа этого сервиса, и AWS, что будет это все прорабатывать.


2023. OpenAI разрешила компаниям дообучать GPT-3,5 Turbo на собственных данных



Компании, использующие языковую модель семейства GPT-3,5 Turbo, получили возможность настраивать ее под свои нужды, загружая самостоятельно подобранные данные. Например, можно создать уникальный чатбот, который стал бы помогать клиентам, общаясь с ними на определенном языке или в определенной манере. До сих пор такие возможности предоставляли только модели GPT-3, такие как davinci-002 или babbage-002. В результате такая кастомная модель сможет сравниться или даже превзойти способности GPT-4 в выполнении узкоспециализированных задач. К преимуществам настройки относятся повышенная управляемость модели (модель лучше следует инструкциям); надежное форматирование выходных данных (если нужно предоставлять ответы в определенном формате); кастомизация тона, включая имитацию голоса бренда, например, для рекламы или внутренних коммуникаций. ИТ-компаниям модель GPT-3,5 Turbo предлагает возможность поручить ИИ создание рутинного кода или форматирование и завершение фрагментов кода.


2023. Google открыл Bard AI для всех, добавил его в GMail и Docs



3 месяца назад Google спешно запустил Барда, чтобы не прозевать хайп вокруг ChatGPT, и лишь теперь открывает его для широкой общественности. Бард (пока только на английском) стал доступен в 180 странах. Он работает на базе нейросети PaLM 2, которая, предположительно, опережает GPT-4 по количеству параметров (540 млрд). И сразу же Гугл (как и Microsoft) начал встраивать эту языковую нейросеть в свои сервисы. Например, в GMail скоро появится ИИ-помощник для написания писем, в Google Документах можно будет автоматически формировать таблицы, слайды презентаций и писать тексты договоров. В экспериментальном режиме Бард уже работает и в гугло-поиске, появляясь при запросах, требующих логический ответ, а не результаты поиска.


2023. ChatGPT научился понимать изображения и длинные тексты


Компания OpenAI выпустила новую версию своей нейросети GPT-4. Это большое обновление после GPT-3.5, которая изначально служила движком для популярного чат-бота ChatGPT. Теперь ChatGPT сможет работать не только с языком, но и с изображениями. Например, вы можете попросить его описать то, что изображено на картинке или найти картинку по описанию. Кроме того, в GPT-4 увеличен объем оперативной памяти для хранения текстовой информации (примерно до 50 страниц текста), а значит ChatGPT сможет помнить весь контекст разговора, чтобы давать ответы на его основании. Также, появилась возможность попросить бота имитировать различные личности. Теперь разработчики смогут закладывать точку зрения, стиль общения, тон или метод взаимодействия с самого начала. Кроме того, GPT-4 стал более многоязычен. Он умеет отвечать на тысячи вопросов с множественным выбором с высокой точностью на 26 языках, от итальянского до украинского и корейского.


2023. Google представил собственного конкурета ChatGPT - чат-бота Bard



Google анонсировала запуск чат-бота Bard — конкурента ChatGPT. По словам разработчиков, Bard «совмещает в себе обширные знания, доступные целому миру, а также ум и креативность языковых моделей Google». Его можно использовать, чтобы разобраться в сложных явлениях и научных открытиях, найти источники вдохновения или почитать о лучших нападающих в футболе, а потом найти упражнения с мячом. Bard работает на основе «облегчённой» версии нейросети компании LaMDA. Она требует меньше вычислительных мощностей и потому будет лучше работать у большего числа пользователей. Это позволит Google собрать необходимые отзывы на продукт, чтобы потом проанализировать их вместе с рецензиями от внутренних тестировщиков.


2023. Microsoft инвестирует $10 млрд в ChatGPT



Microsoft объявила о новых многолетних инвестициях в разработчика чат-бота с искусственным интеллектом ChatGPT — OpenAI. Microsoft уже инвестировала в OpenAI $1 млрд в 2019 году. Эти инвестиции сделали Microsoft «эксклюзивным» поставщиком услуг облачных вычислений для OpenAI. Также, Microsoft заявила, что облачный сервис Azure продолжит выступать в качестве эксклюзивного поставщика OpenAI. «Мы сформировали наше партнерство с OpenAI вокруг общего стремления ответственно продвигать передовые исследования в области ИИ и демократизировать ИИ как новую технологическую платформу», — сказал генеральный директор Microsoft Сатья Наделла. Сэм Альтман, генеральный директор OpenAI добавил, что компания рада «продолжить наши независимые исследования и работать над созданием продвинутого ИИ, который принесет пользу всем».


2023. OpenAI открыла приём заявок на доступ к платному инструменту ChatGPT Professional



По слухам, OpenAI тратит миллионы долларов в месяц, чтобы сохранять бесплатный доступ к публичному ИИ чату ChatGPT. Теперь они решили как-то окупить эту халяву. В официальном блоге OpenAI написали, что «компания задумалась о монетизации» ChatGPT, так как это способ повысить «жизнеспособность» продукта в долгосрочной перспективе. Деталей о сроках запуска и стоимости компания не привела. Вместо этого попросила пользователей рассказать, какая ежемесячная цена их устроит, а какую они считают неподъёмной. А также уточнить, какая цена была бы слишком низкой и заставила бы их усомниться в качестве продукта. Разработчик обещает, что платная версия будет быстрее отвечать на запросы и сможет давать «как минимум» в два раза больше ответов в день, чем общедоступная версия. Часть отзывов он планирует собрать в ходе небольших 15-минутных звонков.


2022. Нейросеть GPT-3.5 - улучшила человечность генерируемых текстов



Компания OpenAI представила обновление своей NLP-нейросети для обработки языка GPT-3.5, а также чат-бота ChatGPT, работающего на этом алгоритме. GPT-3.5 – это существенно улучшенная версия GPT-3. Как и GPT-3, ее учили тому, как связаны между собой предложения в тексте, слова в предложении и части слова, с помощью больших объемов контента из интернета, в частности, на статьях из «Википедии», постах в социальных сетях и интернет-новостях. Чтобы протестировать, на что способна новая версия алгоритма, нужно иметь аккаунт OpenAI. Компания открыла доступ к чат-боту, а также к Playground: сайту, где пользователи могут бесплатно тестировать ее AI-решения. Эта технология доступна и для коммерческого использования, но за деньги.


2022. Google представил обновленную языковую модель LaMDA 2



LaMDA (Language Model for Dialogue Applications) - это продвинутая нейросетевая разговорная модель. Google называет технологию прорывом в понимании естественного языка. Она создана и обучена для непринужденных и конструктивных разговоров на самые разные темы, а не коротких шаблонных ответов на конкретные вопросы по строго определенным сценариям. Алгоритм способен переключаться с одной темы на другую, как это обычно делают люди, но пока не могут машины. Пока что LaMDA работает только с текстом, но конечная цель состоит в создании универсальной системы, способной также понимать изображения и аудио. Компания планирует внедрить этот алгоритм в Google Assistant и Поиск. В последнем случае LaMDA должен заменить, либо дополнить другую схожую технологию BERT.


2021. Microsoft внедрит в облако Azure нейросеть GPT-3 и даст компаниям доступ к языковым моделям



Microsoft анонсировала OpenAI Service на основе своей облачной платформы Azure. Сервис можно использовать для разных задач — от обработки клиентских запросов и обобщения больших текстов до написания кода или генерации ответов на вопросы. В качестве примера Microsoft привела спортивную франшизу, которая разрабатывает приложение для взаимодействия с фанатами во время матчей. С помощью GPT-3 поток комментариев можно превратить в короткие подборки самых ярких моментов игры или сгенерировать оригинальный контент для соцсетей. Microsoft пообещала предоставить клиентам инструменты для фильтрации и модерации запросов и ответов пользователей. В мае компания интегрировала алгоритм GPT-3 в платформу low-code разработки Power Apps для упрощённого написания программного кода.


2021. Microsoft купила разработчика ИИ для модерации контента



Microsoft купила компанию Two Hat - разработчика решения для модерации контента в различных онлайн-сообществах. Компания использует искусственный интеллект для классификации и фильтрации миллиардов взаимодействий между людьми, анализируя текстовые сообщения, изображения, видео, имена пользователей и др. Microsoft и Two Hat являются давними партнерами: разработки Two Hat используются софтверный гигант для контроля за поведением игроков в инфраструктуре Xbox. Предполагается, что Two Hat позволит Microsoft улучшить модерацию контента в играх и сервисах. Кроме того, производитель Windows собирается распространить технологии на потребительские сервисы и клиентские сообщества.


2020. В Google Cloud появились специализированные ИИ-сервисы для медицины



Google представил два новых когнитивных API-сервиса на своей облачной платформе: Healthcare Natural Language API и AutoML Entity Extraction for Healthcare. Первый предназначен для извлечения данных из неструктурированных медицинских текстов/документов. Второй - для простого создания моделей машинного обучения для извлечения именованных сущностей из медицинских документов и записей диалогов с пациентами. Оба сервис предоставляют API для интеграции в медицинские информационные системы.


2017. Ozlo превратился в API для разговорных интерфейсов



Помните нового виртуального ассистента Ozlo? Он передумал быть виртуальным ассистентом. Вместо этого, он решил помочь разработчикам быстро создавать разговорные интерфейсы к своим приложениям (за денюжку, конечно). Ozlo предлагает свою модель мира, которая состоит из 2 млрд фактов и к ней 3 API интерфейса: Data API - для пополнения/изменения модели мира (графа знаний), Intent API - для понимания вопросов пользователей (преобразования слов в смысл), и Converse API - для формулирования ответа (преобразования смысла в слова). Пример работы Ozlo виден на картинке. Исходя из вопроса "Можно ли завалить толпой в реторан Gravity и пожрать там устриц", он определил, что в данном ресторане подают устриц и приветствуют групповые посиделки и сформулировал ответ.


2016. Google DeepMind научился говорить



Большинство популярных синтезаторов речи, например, в Siri, Cortana или Google Translate - строят речь из фрагментов записей настоящего человеческого голоса. Этот метод даёт неплохие результаты, но требует наличия в базе данных записей абсолютно всех звуков речи для каждого используемого голоса. Команда Google DeepMind представила технологию WaveNet, которая требует немного исходного материала, наговорённого человеком, и с помощью глубинного обучения нейросети позволяет генерировать любые слова для данного тембра голоса. Лингвистические правила и рекомендации позволяют WaveNet формировать осмысленную речь (т.е. ИИ понимает смысл того, что он говорит). Однако, разработчики говорят, что в ближайшей перспективе внедрение этого метода в Google Assistant вряд ли возможно из-за огромного объёма требуемых вычислений (WaveNet для синтезирования человеческой речи обрабатывает каждую секунду 16000 образцов аудио).


2016. Живой пример робота, пишущего тексты на естественном языке



Французская компания Yseop специализируется на автоматическом формировании новостей, корпоративных отчетов, писем клиентам. На сайте компании можно поиграться с живым примером: это финансовая статья, которая обновляется автоматически каждый раз, когда вы меняете исходные данные в боковой панели. Первоначально в статье рассказывается о «существенной позитивной динамике», но если ввести более низкий показатель, то текст меняется, например, на «резкое снижение».


2015. Narrative Science: к 2025 году 90% новостей будут писать роботы


Американская компания Narrative Science является пионером рынка автоматического написания текстов. Их платформа на базе искусственного интеллекта Quill находит закономерности в исходных больших данных и формирует тексты естественным (английским) языком. Конечно, это шаблонные тексты, но нейронная сеть обучена подбирать правильные шаблоны предложений для соответствующих исходных данных. Чаще всего это заметки небольшого объема, которые отражают колебания цен на акции или посвящены схожей тематике. Главным конкурентом Narrative Science является еще одна американская компания Automated Insights, чья платформа Wordsmith умеет перебирать таблицы, статистические данные и комментарии и трансформировать полученную информацию в небольшую заметку.


2015. Технология машинного перевода ABBYY Compreno пытается понять естественный язык



Как известно, самый популярный в мире автопереводчик Google Translate работает на статистическом принципе: он обучается на миллионах готовых переводов и каждый новый текст переводит на основе сформированных на опыте паттернов. Иногда получается смешно, но в целом это работает. А вот конкурирующая фирма - компания Abbyy не стала искать легких путей. Она уже более 20 лет работает над технологией Compreno, основой которой является создание синтаксической модели языка и понимание смысла текста. Т.е. каждое предложение Compreno разбивает на объекты и, определяя связи между ними, сначала формирует универсальный перевод на язык смысла, а затем уже выражает этот смысл на другом языке.


2014. IBM открыла возможности Watson для сторонних приложений


IBM запустила платформу Watson Developer Cloud, которая предоставляет разработчикам приложений использовать когнитивные возможности этого искусственного интеллекта. Реализовано это через API-интерфейсы на облачной платформе IBM BlueMix. В частности, доступны такие функции, как определение языка, машинный перевод, анализ текста, визуализация данных, а также - главная функция Watson - ответы на вопросы, заданные естественным языком (это то, для чего Watson изначально был создан). Т.е. можно попросить Watson изучить текстовые материалы по определенной теме, задавать ему вопросы и получать короткие ответы (требующие знаний, а не логического мышления). Правда, пока Watson по прежнему может отвечать на вопросы только на английском.


2013. Видео: Как Siri получила свой голос


Как известно, изначально голосовые способности Apple Siri (распознавание и синтез речи) были реализованы компанией Nuance. В этом ролике вы можете увидеть, как создавался голос Siri (это заняло более 4 месяцев).


2013. Google покупает стартап для обработки новостей за 30 млн


Только месяц назад Yahoo купила приложение Summly, которое автоматически извлекает основной смысл из новостей и формирует короткое саммари, а теперь Google покупает подобный стартап Wavii за примерно такую же сумму - $30 млн. Причем, за покупку этого стартапа Google серьезно конкурировал с Apple. По заявлениям представителей Google, технология Wavii будет использована в основном для Knowledge Graph - это база знаний, собранных их различных источников, используемая Google для повышения качества своего поиска. Карточки из этой базы знаний вы можете увидеть справа при поиске, например, какого-то знаменитого человека. Команда Wavii насчитывает 25 человек, а размер инвестиций в стартап достигал $2 млн.


2013. Yahoo! купила приложение для извлечения смысла новостей за $30 млн


Yahoo! купила мобильное приложение для чтения новостей Summly за $30 млн. Приложение это было создано пару лет назад 15-летним английским парнем Ником Д'Алоизио. Фишка Summly в том, что оно  из длинного текста каждой новости автоматически формирует саммари, содержащее наиболее важную информацию. Размер саммари - до 400 символов (чуть больше сообщения в твиттере). Для этого приложение выделяет в тексте ключевые предложения, передающие главную идею. По словам Ника, приложение использует генетические алгоритмы, которые имитируют мышление человека. Однако, эти алгоритмы придумал не Ник - они были приобретены у компании SRI - той самой, которая создала Siri и продала ее Apple.


2013. Amazon купила лучший синтезатор речи IVONA


Amazon купила польскую компанию IVONA, которая известна своей системой воспроизведения речи. IVONA поддерживает 17 языков и 44 различных голоса. На сайте компании вы можете ввести произвольный отрывок текста и система произнесет его с отличным качеством. Amazon уже некоторое время использовала технологию IVONA в читалках Kindle Fire для воспроизведения книг, но по слухам, Amazon работает над голосовым помощником аля Siri.


2012. Поиск Google начинает оперировать знаниями, а не только словами


До сих пор поисковик Google оперировал только словами, фразами, предложениями, текстовыми страницами. Он находил нужные страницы по вхождению нужных слов, независимо от смысла этих слов. В большинстве случаев это работает, но иногда - качество поиска оставляет желать лучшего. Чтобы повысить качество поиска Google создал Knowledge Graph - базу знаний из объектов (знаменитых людей, книг, фильмов, городов, ресторанов, событий ...), связанных друг с другом в одну сеть. Вы уже можете видеть карточки объектов из этой базы справа в поиске, погуглив какую-нибудь знаменитость. Но идея не только в том, чтобы предоставить быструю выжимку знаний о конкретном объекте, но и в том, чтобы понять каждый запрос пользователя на уровне объектов, а не только слов.


2011. Искусственный интеллект IBM Watson победил в телевикторине Jeopardy


С момента победы суперкомпьютера DeepBlue над чемпионом мира по шахматам Гарри Каспаровым в 1997 году, IBM искала новый способ демонстрации своей технологической мощи (и повышения рыночной стоимости). Таким способом стало создание суперкомпьютера Watson, который должен был победить чемпионов в телевикторине Jeopardy! Суть этой игры в том, что участники отвечают на вопросы, требующие скорее знаний о каких-то фактах, чем логического мышления. И Watson победил. Возможно вам покажется, что в этом нет ничего удивительного. Довольно просто загрузить в память компьютера миллионы фактов. Тем более, если этот компьютер - на самом деле кластер из 90 мощнейших серверов. Однако, основная сложность для компьютера - понять вопрос, заданный на естественном языке (в т.ч. с юмором или игрой слов) и подобрать релевантный ответ.