Распознавание голоса: Использование распознавания речи в Windows |

Содержание

Использование распознавания речи в Windows

Windows 10 Еще…Меньше

Настройка микрофона

Перед тем как настроить распознавание речи, убедитесь, что у вас настроен микрофон.

Выберите (Начните)> Параметры > Time & language > Speech.

В разделе Микрофоннажмите кнопку Начать.

Откроется окно мастера речи, и настройка начнется автоматически. Если мастер обнаружит проблемы с микрофоном, они будут указаны в диалоговом окне мастера. Вы можете выбрать параметры в диалоговом окне, чтобы указать проблему и помочь мастеру ее устранить.

Помогите компьютеру распознавать ваш голос

Вы можете Windows 11 распознавать свой голос. Настройка приложения

Нажмите Windows клавиши с логотипом+CTRL+S. Откроется окно мастера «Настройка распознавания речи» со страницей «Добро пожаловать в распознавание речи».

Совет: Если вы уже настроили распознавание речи, при нажатии клавиши Windows клавиша с логотипом+CTRL+S откроется распознавание речи, и вы будете готовы к использованию. Если вы хотите переучить компьютер распознаванию голоса, нажмите клавишу с Windows, введите Панельуправления и выберите Панель управления в списке результатов. На панели управлениявыберите Ease of Access > распознавание > обучение компьютеру, чтобы лучше понимать вас.

Выберите Далее. Следуйте инструкциям на экране, чтобы настроить распознавание речи. Мастер поможет вам в настройке.

После завершения настройки вы можете воспользоваться учебником, чтобы узнать больше о распознавании речи. Чтобы взять учебник, в окне мастера выберите начать учебник. Чтобы пропустить учебник, выберите пропустить учебник. Теперь вы можете начать использовать распознавание речи.

См. также

Команды распознавания речи Windows

Настройка микрофона

Прежде чем приступить к настройке функции распознавания речи, убедитесь, что настроен микрофон.

Нажмите кнопку Пуск , затем выберите Параметры > Время и язык > Речь.

В разделе Микрофоннажмите кнопку Начать.

Помогите компьютеру распознавать ваш голос

Можно обучить Windows 10 распознавать ваш голос. Настройка приложения

Введите в поле поиска на панели задач Распознавание речи Windows и выберите элемент Распознавание речи Windows в списке результатов.

Если вы не видите диалоговое окно с сообщением «Приветствуем вас в средстве обучения распознаванию речи», то в поле поиска на панели задач введите Панель управления и выберите Панель управления в списке результатов. Затем выберите Специальные возможности > Распознавание речи > Обучить компьютер для улучшения распознавания вашего голоса.

org/ListItem»>
Следуйте инструкциям для настройки распознавания речи.

См. также

Команды распознавания речи Windows

очень краткий вводный курс / Хабр

Рассказать неспециалисту максимально просто о работе компьютерного распознавания речи и преобразовании её в текст — задача почти непосильная. Ни один рассказ об этом не обходится без сложных формул и математических терминов. Мы попробуем максимально понятно и немного упрощённо объяснить, как ваш смартфон понимает речь, когда машины научились распознавать человеческий голос и в каких неожиданных областях используется эта технология.

Необходимое предуведомление: если вы разработчик или, тем более, математик, вы едва ли узнаете из поста что-то новое и даже посетуете на недостаточную научность материала. Наша цель — самым простым образом познакомить непосвящённых читателей с речевыми технологиями и рассказать, как и зачем Toshiba взялась за создание своего голосового ИИ.

Важные вехи в истории распознавания речи

История распознавания электронными машинами человеческой речи началась чуть раньше, чем принято думать: в большинстве случаев принято вести отсчёт с 1952 года, но на самом деле одним из первых устройств, реагировавшим на голосовые команды, был робот Televox, о котором мы уже писали. Созданный в 1927 году в США робот Герберт Телевокс представлял собой несложное устройство, в котором различные реле реагировали на звуки разной частоты. В роботе было три камертона, каждый из которых отвечал за свою тональность. В зависимости от того, какой камертон срабатывал, включалось то или иное реле.

Фактически вся «начинка» Телевокса, включая систему распознавания команд, располагалась на стойке в районе туловища «робота». Закрыть её крышкой было нельзя, иначе камертоны не смогли бы корректно «слышать» звуки. Источник: Acme Telepictures / Wikimedia

С Телевоксом можно было общаться как отдельными сигналами с помощью свистка, так и короткими словесными репликами — их камертоны тоже раскладывали на последовательность звуков. Создатель робота Рой Уэнсли даже устраивал фантастическую по тем временам демонстрацию, говоря команду «Сезам, откройся», по которой Телевокс включал реле, отвечающее за открытие двери. Никаких цифровых технологий, нейросетей, ИИ и машинного обучения — только аналоговая техника!

Следующим ключевым изобретением, открывшим путь к настоящему распознаванию человеческой речи, стала машина Audrey, разработанная в 1952 году в кузнице инноваций Bell Labs. Огромная Audrey потребляла кучу электроэнергии и была размером с хороший шкаф, но вся её функциональность сводилась к распознаванию произнесённых цифр от нуля до девяти. Всего десять слов, да, но не будем забывать, что и Audrey была аналоговой машиной.

К сожалению, история не сохранила публичных фотографий Audrey, есть только принципиальная схема. Простая на бумаге, сложная в воплощении — по воспоминаниям современников, компоненты Audrey занимали целый шкаф. Источник: Bell Labs

Работало это так: диктор проговаривал в микрофон цифры, делая между словами интервалы не менее 350 мс, Audrey переводила услышанные звуки в электрические сигналы и сравнивала их с записанными в аналоговой памяти образцами. По результатам сравнения машина подсвечивала цифру на приборной панели.

Это был прорыв, но реальной пользы от Audrey не было и быть не могло — машина распознавала голос своего создателя с точностью до 97%, другие специально тренированные дикторы получали точность 70-80%. Посторонние люди, впервые контактирующие с Audrey, как бы ни старались, видели на табло свою цифру только в 50% случаев.

Несмотря на революционные для своего времени результаты, Audrey не нашла, да и не могла найти практического применения. Предполагалось, что систему можно приспособить вместо телефонных операторов, но всё же услуги человека оказались удобней, быстрее и гораздо надёжней, чем Audrey.

Презентация похожей на Audrey, только гораздо меньших размеров, машины — IBM Shoebox. Хорошо видна скорость работы Shoebox. Машина также могла выполнять простейшие математические операции сложения и вычитания

В начале 1960-х работы по созданию машин для распознавания речи велись в Японии, Великобритании, США и даже СССР, где изобрели очень важный алгоритм динамической трансформации временной шкалы (DTW), с помощью которого удалось построить систему, знающую около 200 слов. Но все наработки были похожи друг на друга, а общим недостатком стал принцип распознавания: слова воспринимались как целостные звуковые отпечатки, и затем их сверяли с базой образцов (словарём). Любые изменения скорости, тембра и чёткости проговаривания слов значительно влияли на качество распознавания. Перед учёными встала новая задача: научить машину слышать отдельные звуки, фонемы или слоги и затем составлять из них слова. Такой подход позволил бы нивелировать эффект смены диктора, когда в зависимости от говорящего уровень распознавания резко различался.

Фонемы — это звук или множество звуков, которыми обозначается буква слова в разговорной речи в зависимости от контекста. Например, в словосочетании «пока что» буква «ч» в разговоре чаще всего звучит как «ш». А предлог «с» в словосочетаниях «с сестрой» и «с братом» в первом случае звучит как «с», а во втором — как «з». То есть, буква одна, но фонемы разные.

В 1971 году Управление перспективных исследовательских проектов Министерства обороны США (DARPA) запустило пятилетнюю программу с бюджетом $15 млн, в рамках которой была поставлена задача создать систему распознавания, знающую не менее 1000 слов. К 1976 году Университет Карнеги — Меллона представил Harpy, способную оперировать словарём из 1011 слов. Harpy не сличала целиком услышанные слова с образцами, а разделяла их на аллофоны (образец звучания фонемы в зависимости от окружающих её букв). Это был очередной успех, подтвердивший, что будущее за распознаванием отдельных фонем, а не цельных слов. Впрочем, среди недостатков Harpy был крайне низкий уровень корректного распознавания аллофонов (вариантов произношения фонем) — около 47%. При такой высокой погрешности доля ошибок росла вслед за объёмом словаря.

Описание принципа работы Harpy. Видео работы программы не сохранилось.

Опыт Harpy показал, что наращивать словари целостных звуковых отпечатков бесполезно — это лишь увеличивает время распознавания и радикально снижает точность, поэтому исследователи всего мира пошли по другому пути — распознавания фонем. В середине 1980-х машина IBM Tangora могла научиться понимать речь любого диктора с любым акцентом, диалектом и особенностями произношения, для этого лишь требовалась 20-минутная тренировка, в ходе которой накапливалась база образцов фонем и аллофонов. Применение скрытой марковской модели повысило словарный запас IBM Tangora до впечатляющих 20 000 слов — в 20 раз больше, чем было у Harpy, и уже сравнимо со словарным запасом подростка.

Все системы распознавания речи с 1950-х до середины 1990-х годов не умели считывать естественную разговорную речь человека — слова приходилось произносить отдельно, делая паузы между ними. По-настоящему революционным событием стало внедрение разработанной в 1980-х скрытой марковской модели — статистической модели, строившей точные предположения о неизвестных элементах на основе вытекающих из них известных. Упрощённо говоря, с помощью всего нескольких распознанных фонем в одном слове скрытая марковская модель очень точно подбирает недостающие фонемы, тем самым значительно повышая точность распознавания речи.

В 1996 году появилась первая коммерческая программа, способная различать не отдельные слова, а беспрерывный поток естественной речи — IBM MedSpeak/Radiology. Продукт IBM был специализированным, он использовался в медицине для стенографирования описания результатов рентгенограммой, произносимых врачом в ходе исследования. Тут мощность компьютеров наконец стала достаточной для того, чтобы распознавать отдельные слова «на лету». Плюс алгоритмы стали более совершенными, появилось корректное распознавание микропауз между произносимыми словами.

Первым универсальным движком распознавания естественной речи стала программа Dragon NaturallySpeaking 1997-го года. При работе с нею диктору (т. е. пользователю) не требовалось проходить тренировку или оперировать определённым лексиконом, как в случае с MedSpeak, — с NaturallySpeaking мог работать любой человек, даже ребёнок, программа не ставила никаких правил произношения.

Несмотря на уникальность Dragon NaturallySpeaking, ИТ-обозреватели не выказывали особого восторга от распознавания естественной речи. Среди недостатков отмечались ошибки распознавания и некорректная обработка команд, обращённых к самой программе. Источник: itWeek

Примечательно, что движок распознавания был готов ещё в 1980-х, но из-за недостаточной мощности компьютеров разработка Dragon Systems (сейчас компанией владеет Nuance Communications) не успевала «на лету» определять промежутки между словами, что необходимо для распознавания естественной речи. Без этого слова «пока лечится», например, могли быть услышаны компьютером как «покалечится».

Впереди был рост популярности систем распознавания речи, нейросети, появление голосового поиска Google на мобильных устройствах и, наконец, голосовой ассистент Siri, не просто конвертирующий речь в текст, но и адекватно отвечающий на построенные любым естественным образом запросы.

Как услышать сказанное и додумать нерасслышанное?

В наше время лучшим средством для создания движка распознавания речи стала рекуррентная нейросеть (RNN), на которой построены все современные сервисы распознавания голоса, музыки, изображений, лиц, объектов, текста. RNN позволяет с высочайшей точностью понимать слова, а также предсказывать наиболее вероятное слово в рамках контекста, если оно не было распознано.

Нейросетевая темпоральная классификация модели (CTC) выделяет в записанном аудиопотоке (слове, фразе) отдельные фонемы и расставляет их в том порядке, в котором они были произнесены. После многократного анализа, CTC очень чётко выделяет определённые фонемы, а их текстовая запись сравнивается с базой слов нейросети и затем превращается в распознанное слово.

Нейросети потому так и называются, что принцип их работы похож на работу человеческого мозга. Обучение нейросети очень похоже на обучение человека. Например, чтобы совсем маленький ребёнок научился узнавать автомобили и отличать их от мотоциклов, нужно как минимум несколько раз обратить его внимание на различные машины и каждый раз произносить соответствующее слово: это большое и красное — машина, и эта низкая чёрная — машина, а вот это и это мотоциклы. В какой-то момент ребёнок обнаружит закономерности и общие признаки для разных автомобилей, и научится безошибочно узнавать, где легковушка, где джип, где мотоцикл, а где квадроцикл, даже если мимолётом увидит их на рекламном плакате на улице. Так же и нейросеть нужно обучить базой примеров — заставить «изучить» сотни и тысячи вариантов произношения каждого слова, буквы, фонемы.

Рекуррентная нейросеть для распознавания речи хороша тем, что после длительной тренировки базой различных произношений она научится с высокой точностью различать фонемы и составлять из них слова вне зависимости от качества и характера произношения. И даже «додумывать» с высокой точностью в рамках контекста слова, которые не удалось распознать однозначно из-за фоновых шумов или нечёткого произношения.

Но с предсказаниями RNN есть нюанс — рекуррентная нейросеть может «додумать» пропущенное слово только опираясь на самый ближайший контекст примерно в пять слов. За пределами этого пространства анализ вестись не будет. А он порой ох как нужен! Например, для распознавания мы произнесли фразу «Великий русский поэт Александр Сергеевич Пушкин», в которой слово «Пушкин» (специально выделено курсивом) сказали настолько неразборчиво, что ИИ не смог точно распознать его. Но рекуррентная нейросеть, опираясь на имеющийся опыт, полученный в ходе обучения, может предположить, что рядом со словами «русский», «поэт», «Александр» и «Сергеевич» чаще всего встречается слово «Пушкин». Это достаточно простая задача для обученной на русских текстах RNN, потому что очень конкретный контекст позволяет делать предположения с высочайшей точностью.

А если контекст расплывчатый? Возьмём другой текст, в котором одно слово не сможет быть распознано: «Наше всё, Александр Сергеевич Пушкин, трагически погиб в расцвете лет после дуэли с Дантесом. Именем поэта назван Пушкинский театральный фестиваль». Если убрать слово «Пушкинский», RNN попросту не сможет угадать его, опираясь на контекст предложения, ведь в нём упомянуты лишь театральный фестиваль и отсылка к имени неизвестного поэта — возможных вариантов масса!

Вот тут вступает в дело архитектура долгой краткосрочной памяти (Long short-term memory, LSTM) для рекуррентных нейросетей, созданная в 1997 году (подробная статья о LSTM). Она специально разрабатывалась для того, чтобы добавить RNN умение учитывать контекст, удалённый от обрабатываемого события, — результаты решения предыдущих задач (то есть, распознаваний слов) проносятся сквозь весь процесс распознавания, сколь бы длинным не был монолог, и учитываются в каждом случае сомнений. Причём расстояние удаления почти не влияет на эффективность работы архитектуры. С помощью LSTM нейросеть при необходимости угадать слово будет учитывать весь имеющийся в рамках задачи опыт: в нашем примере RNN заглянет в предыдущее предложение, обнаружит, что ранее упоминались Пушкин и Дантес, поэтому «Именем поэта» скорее всего указывает на кого-то из них. Так как нет никаких данных о существовании театрального фестиваля Дантеса, то речь идёт о Пушкинском (тем более что звуковой отпечаток нераспознанного слова очень похож) — такой фестиваль был в базе для обучения нейросети.

«Исповедь голосового помощника». Когда в дело вступает хорошо обученная нейросеть, голосовой ассистент может точно додумать, что же нужно сделать с «зелёными тапочками»

Как распознавание речи делает мир лучше?

В каждом случае применения по-разному — кому-то оно помогает общаться с гаджетами, причём по данным PricewaterhouseCoopers более половины пользователей смартфонов отдают устройствам голосовые команды — среди взрослых людей (25-49 лет) доля тех, кто постоянно пользуется голосовыми интерфейсами, даже выше, чем среди молодёжи (18-25) — 65% против 59%. А в России хотя бы раз с Siri, Google Assitant или «Алисой» общались не менее 71% населения. 45 млн россиян постоянно общаются с «Алисой» от «Яндекса», причём на долю «Яндекс.Карт»/«Яндекс.Навигатора» приходится только 30% запросов.

Кому-то распознавание речи реально помогает в работе — например, как мы говорили выше, врачам: в медицине с 1996 года (когда вышел IBM MedSpeak) распознавание применяется для записи анамнеза и при исследовании снимков — медик может продолжать работу, не отвлекаясь на записи в компьютер или бумажную карту. Кстати, работа над диктовкой в медицине ведётся не только на Западе — в России существует программа Voice2Med от «Центра речевых технологий».

Есть и иные примеры — в том числе наш собственный. Организация бизнеса Toshiba подразумевает полную инклюзию, то есть равные права и возможности для людей с различными ограничениями здоровья, в том числе для сотрудников с нарушениями слуха. У нас есть корпоративная программа Universal Design Advisor System, в рамках которой люди с различными видами инвалидности участвуют в разработке продуктов Toshiba, внося предложения для повышения их удобства людям с ограничениями здоровья — то есть мы не предполагаем, как можно сделать лучше, а оперируем реальным опытом и отзывами сотрудников.

Несколько лет назад в главном офисе Toshiba в Японии мы столкнулись с очень интересной задачей, потребовавшей разработать новую систему распознавания речи. Во время работы Universal Design Advisor System мы получили важный инсайт: сотрудники с нарушениями слуха хотят участвовать в обсуждениях на встречах и лекциях в реальном времени, а не ограничиваться чтением обработанной стенограммы часы или дни спустя. Запуск распознавания речи через смартфон в таких случаях даёт очень слабый результат, поэтому специалистам Toshiba пришлось взяться за разработку специализированной системы распознавания. И, конечно, мы сразу столкнулись с проблемами.

Разговорная речь колоссально отличается от речи письменной — мы не говорим так, как пишем письма, а реальный разговор, переведённый в текст, выглядит очень неаккуратным и даже нечитабельным. То есть, если мы будем даже с высокой точностью конвертировать диалоги на утренней планёрке в текст, то получим бессвязную мешанину, изобилующую словами-паразитами, междометиями и задумчивыми «ааа», «эээ» и «ммм». Чтобы избавиться в тексте от транскрибирования ненужных звуков, слов и выражения эмоций, мы решили разработать ИИ, способный максимально безошибочно распознавать не всегда нужные элементы разговорной речи, в том числе эмоциональный окрас некоторый слов (например, «да ну» может звучать как скепсис или как искренне удивление, а это буквально противоположные значения).

Так выглядит ноутбук с комплектом периферии для распознавания голоса с помощью ИИ Toshiba (слева) и приложение с результатами для конечных устройств (справа). Источник: Toshiba

Тут пригодилась LSTM, без которой точность распознавания была недостаточной для того, чтобы полученный текст можно было читать и понимать без усилий. Причём LSTM пригодилась не только для более точного предугадывания слов в контексте, но и для корректной обработки пауз в середине предложения и междометий-паразитов — для этого мы обучили нейросеть вот этим паразитам и паузам, естественным для разговорной речи.

Значит ли это, что теперь нейросеть может убирать из стенограмм междометия? Да, может, но делать этого не нужно. Дело в том, что (ещё один полученный инсайт) люди с нарушениями слуха ориентируются в том числе на движения губ говорящего. Если губы движутся, но на экране не появляется соответствующий этим движениям текст, возникает ощущение, будто система распознавания упустила часть беседы. То есть для того, кто не может слышать, важно получать максимум информации о разговоре, включая злосчастные паузы и меджометия. Поэтому движок Toshiba оставляет эти элементы в стенограмме, но в реальном времени приглушает яркость букв, давая понять, что это необязательные для понимания текста детали.

https://www.toshiba-clip.com/en/detail/7655

Вот так на клиентском устройстве выглядит результат распознавания на лету. В серый цвет окрашиваются не несущие смысловой нагрузки части монолога

Сейчас ИИ Toshiba работает с английской, японской и китайской речью, причём возможен даже перевод между языками на лету. Его не обязательно использовать для стенографирования на лету — ИИ может быть адаптирован для работы с голосовыми ассистентами, которые наконец научатся адекватно воспринимать междометия, паузы и запинки при произношении человеком команды. В марте 2019 года система успешно использовалась для добавления субтитров к видеотрансляции IPSJ National Convention, проводимой в Японии. В ближайших планах — превращение ИИ Toshiba в общедоступный сервис и опыты с внедрением распознавания голоса на производствах.

Использовать распознавание голоса в Windows

Windows 10 Больше…Меньше

Настроить микрофон

Перед настройкой распознавания речи убедитесь, что у вас настроен микрофон.

Выберите (Пуск) > Настройки > Время и язык > Речь .
В разделе Микрофон выберите кнопку Начать .
Откроется окно мастера Speech , и установка начнется автоматически. Если мастер обнаружит проблемы с вашим микрофоном, они будут перечислены в диалоговом окне мастера. Вы можете выбрать параметры в диалоговом окне, чтобы указать проблему и помочь мастеру решить ее.

Помогите компьютеру распознать ваш голос

Вы можете научить Windows 11 распознавать ваш голос. Вот как это настроить:

Нажмите клавишу с логотипом Windows+Ctrl+S. Откроется окно мастера Настройка распознавания речи с введением на странице Добро пожаловать в распознавание речи .
Совет: Если вы уже настроили распознавание речи, нажмите клавишу с логотипом Windows+Ctrl+S, чтобы открыть распознавание речи, и вы готовы его использовать. Если вы хотите перенаучить компьютер распознавать ваш голос, нажмите клавишу с логотипом Windows, введите Панель управления и выберите Панель управления в списке результатов. В панели управления выберите Простота доступа > Распознавание речи > Обучите свой компьютер лучше понимать вас .
Выбрать Далее . Следуйте инструкциям на экране, чтобы настроить распознавание речи. Мастер проведет вас через этапы настройки.
После завершения настройки вы можете пройти обучение, чтобы узнать больше о распознавании речи. Чтобы пройти обучение, выберите Start Tutorial в окне мастера. Чтобы пропустить обучение, выберите Пропустить обучение . Теперь вы можете начать использовать распознавание речи.

См. также

Команды распознавания речи Windows

Настроить микрофон

Прежде чем настраивать распознавание голоса, убедитесь, что у вас настроен микрофон.

Нажмите кнопку Пуск , затем выберите Настройки > Время и язык > Речь .
org/ListItem»>
В разделе Микрофон выберите кнопку Начать .

Помогите компьютеру распознать ваш голос

Вы можете научить Windows 10 распознавать ваш голос. Вот как это настроить:

В поле поиска на панели задач введите Распознавание речи Windows , а затем выберите Распознавание речи Windows в списке результатов.
Если вы не видите диалоговое окно с надписью «Добро пожаловать в программу обучения распознаванию речи», введите в поле поиска на панели задач Панель управления и выберите Панель управления в списке результатов. Затем выберите Специальные возможности > Распознавание речи > Научите свой компьютер лучше понимать вас .
Следуйте инструкциям по настройке распознавания речи.

См. также

Команды распознавания речи Windows

Что такое распознавание голоса (распознавание говорящего)?

По

Джесси Скардина,
Автор новостей

Распознавание голоса или говорящего — это способность машины или программы принимать и интерпретировать диктовку или понимать и выполнять голосовые команды. Распознавание голоса приобрело известность и популярность с появлением искусственного интеллекта и интеллектуальных помощников, таких как Alexa от Amazon, Siri от Apple и Cortana от Microsoft.

Системы распознавания голоса позволяют потребителям взаимодействовать с технологиями, просто разговаривая с ними, позволяя выполнять запросы, напоминания и другие простые задачи без помощи рук.

Как работает распознавание голоса

Программное обеспечение для распознавания голоса на компьютерах требует, чтобы аналоговый звук преобразовывался в цифровые сигналы, что называется аналого-цифровым преобразованием. Чтобы компьютер расшифровал сигнал, он должен иметь цифровую базу данных или словарь слов или слогов, а также быстрое средство для сравнения этих данных с сигналами. Образцы речи хранятся на жестком диске и загружаются в память при запуске программы. Компаратор сравнивает эти сохраненные образы с выходным сигналом аналого-цифрового преобразователя — действие, называемое распознаванием образов.

На практике размер эффективного словаря программы распознавания голоса напрямую связан с объемом оперативной памяти компьютера, на котором она установлена. Программа распознавания голоса работает во много раз быстрее, если весь словарь можно загрузить в ОЗУ, по сравнению с поиском некоторых совпадений на жестком диске. Скорость обработки также имеет решающее значение, поскольку она влияет на скорость поиска компьютером совпадений в ОЗУ.

Некоторые из самых популярных систем распознавания голоса функционируют как виртуальные помощники, чтобы отвечать на вопросы о погоде или выполнять простые задачи, такие как добавление товаров в корзину онлайн-покупок.

Несмотря на то, что технология распознавания голоса возникла на ПК, она получила признание как в бизнесе, так и в потребительском пространстве на мобильных устройствах и в продуктах для домашних помощников. Популярность смартфонов открыла возможность добавить технологию распознавания голоса в карманы потребителей, в то время как домашние устройства, такие как Google Home и Amazon Echo, принесли технологию распознавания голоса в гостиные и кухни. Распознавание голоса в сочетании с растущей стабильностью датчиков Интернета вещей добавило технологический уровень ко многим потребительским продуктам, в которых ранее не было интеллектуальных возможностей.

По мере роста использования технологии распознавания голоса и взаимодействия с ней большего числа пользователей компании, внедряющие программное обеспечение для распознавания голоса, будут иметь больше данных и информации для передачи в нейронные сети, обеспечивающие работу систем распознавания голоса, тем самым улучшая возможности и точность продуктов распознавания голоса. .

Распознавание голоса использует

Использование распознавания голоса быстро росло по мере развития ИИ, машинного обучения и признания потребителей. Все домашние цифровые помощники от Google до Amazon и Apple используют программное обеспечение для распознавания голоса для взаимодействия с пользователями. То, как потребители используют технологию распознавания голоса, различается в зависимости от продукта, но может включать преобразование голоса в текст, настройку напоминаний, поиск в Интернете и ответы на простые вопросы и запросы, такие как воспроизведение музыки или обмен информацией о погоде или дорожном движении.

Правительство также ищет способы использования технологии распознавания голоса в целях безопасности. Агентство национальной безопасности использовало системы распознавания голоса с 2004 года.

Преимущества и недостатки распознавания голоса

Распознавание голоса позволяет потребителям выполнять несколько задач одновременно, обращаясь непосредственно к своему Google Home, Amazon Alexa или другой технологии распознавания голоса. Используя машинное обучение и сложные алгоритмы, технология распознавания голоса может быстро превратить вашу устную работу в письменный текст.

Хотя показатели точности улучшаются, все системы и программы распознавания голоса допускают ошибки. Фоновый шум может привести к ложному входу, чего можно избежать, используя систему в тихой комнате. Также проблема возникает со словами, которые звучат одинаково, но пишутся по-разному и имеют разное значение, например, «слышь» и «здесь». Эта проблема когда-нибудь может быть в значительной степени решена с использованием сохраненной контекстной информации. Однако для этого потребуется больше оперативной памяти и более быстрые процессоры, чем в настоящее время доступны в персональных компьютерах.

История распознавания голоса

За последние пять десятилетий наблюдается экспоненциальный рост технологий распознавания голоса. Начиная с 1976 года, компьютеры могли понимать немногим более 1000 слов. Это число подскочило примерно до 20 000 в 1980-х годах, когда IBM продолжала развивать технологию распознавания голоса.

Первый продукт для распознавания речи для потребителей был запущен в 1990 году компанией Dragon под названием DragonDictate. В 1996 году IBM представила первый продукт для распознавания голоса, способный распознавать непрерывную речь.

После запуска смартфонов во второй половине 2000-х Google запустила приложение «Голосовой поиск» для iPhone. Три года спустя Apple представила Siri, которая теперь является известным помощником по распознаванию голоса.

За последнее десятилетие несколько других технологических лидеров также разработали более сложное программное обеспечение для распознавания голоса, например Echo от Amazon с Alexa и Cortana от Microsoft, оба из которых действуют как личные помощники, реагирующие на голосовые команды.

Последнее обновление: январь 2018 г.

Продолжить чтение О распознавании голоса (распознавание говорящего)

Настройтесь на аутентификацию по распознаванию голоса

Как лучше всего использовать распознавание голоса

Разница между распознаванием речи и голосовыми метками

Следующей крупной инновацией на промышленных предприятиях является распознавание голоса

Система распознавания голоса АНБ вызывает вопросы об устройствах персонального помощника

Копните глубже в инструменты и стратегию CRM

Microsoft входит в логово дракона с приобретением Nuance
Автор: Клифф Саран
Голосовая технология ИИ имеет преимущества и ограничения
Автор: Марк Лаббе
5 технологий искусственного интеллекта в бизнесе, которые оказывают большое влияние
Автор: Джордж Лоутон
Как распознавание речи может расширить рабочие процессы объединенных коммуникаций
Автор: Кэтрин Финнелл

SearchContentManagement

Генеральный директор OpenText по искусственному интеллекту контента, облачной стратегии и гибридной работе
Генеральный директор OpenText Марк Барренечи обсуждает состояние Magellan, крупное приобретение Micro Focus, метавселенную и многое другое в . ..
8 бесплатных инструментов для исследования ключевых слов SEO, которые стоит изучить
Инструменты исследования ключевых слов SEO
могут помочь маркетинговым командам создавать контент, который хочет видеть их аудитория. Бесплатные инструменты включают Google …
Как включить социальные сети в стратегии SEO
Хотя маркетинг в социальных сетях и SEO кажутся двумя отдельными практиками, при совместном использовании они могут повысить эффективность любой организации …

ПоискЕдиные Коммуникации

Как подойти к интеграции Webex-Teams и заставить ее работать
Cisco и Microsoft наконец устраняют барьеры взаимодействия между приложениями Webex и Teams. Компании смогут …
Услуги Carrier UCaaS расширяют преимущества облачной связи
UCaaS становится все более популярным, поскольку операторы связи предоставляют пользователям более сложные и интегрированные пакеты. Узнайте, почему это может сделать …
Видео Zoom, предложения UCaaS приближаются к Teams, Webex
Компания Zoom представила множество функций для своей платформы UCaaS на конференции Zoomtopia, включая службы почты и календаря, а также неформальную …

Управление данными поиска

Как Fauna планирует продвигать технологию бессерверных баз данных
Генеральный директор поставщика бессерверных баз данных наблюдает за стремлением своей фирмы создать базу данных, ориентированную на разработчиков, в качестве API для …
7 рекомендуемых экспертами инструментов наблюдения за данными
Коммерческие инструменты наблюдения за данными могут предлагать организациям готовые компоненты и обширную поддержку поставщиков для вариантов использования данных …
6 инструментов с открытым исходным кодом для наблюдения за данными, которые следует учитывать
Узнайте о шести вариантах с открытым исходным кодом для наблюдения за данными, помогающих организациям проводить эксперименты по науке о данных, которые более . ..

SearchEnterpriseAI

Как Cisco использует ИИ для поиска разнообразных поставщиков
Гигант цифровых коммуникационных технологий нанимает поставщика машинного обучения Tealbook для получения доступа к данным, которые соответствуют типам …
Корпоративные приложения метавселенной медленно, но приближаются
От голографических аватаров до обучения хирургов — существует множество приложений метавселенной для предприятий. А вот техника для…
Что означает партнерство Microsoft и Nvidia в области суперкомпьютеров для ИИ
Суперкомпьютер в общедоступном облаке будет включать в себя графические процессоры A100 и h200, а также корпоративный программный пакет искусственного интеллекта от производителя чипов. Это будет …

ПоискERP

Microsoft выходит на новый рынок с платформой цепочки поставок
Корпорация Майкрософт раньше выполняла операции цепочки поставок в электронных таблицах Excel; теперь он предоставляет строительные блоки для компаний, чтобы .

Использование распознавания речи в Windows

Настройка микрофона

Помогите компьютеру распознавать ваш голос

См. также

Настройка микрофона

Помогите компьютеру распознавать ваш голос

См. также

очень краткий вводный курс / Хабр

Важные вехи в истории распознавания речи

Как услышать сказанное и додумать нерасслышанное?

Как распознавание речи делает мир лучше?

Использовать распознавание голоса в Windows

Настроить микрофон

Помогите компьютеру распознать ваш голос

См. также

Настроить микрофон

Помогите компьютеру распознать ваш голос

См. также

Что такое распознавание голоса (распознавание говорящего)?

Microsoft входит в логово дракона с приобретением Nuance

Голосовая технология ИИ имеет преимущества и ограничения

5 технологий искусственного интеллекта в бизнесе, которые оказывают большое влияние

Как распознавание речи может расширить рабочие процессы объединенных коммуникаций