← Назад к списку статей

Интеллектуальный модуль «Распознавание речи»

Интеллектуальный модуль Распознавание речи

 


Иконка модуля Распознавание речи Основанный на искусственном интеллекте модуль «Распознавание речи» программы для видеонаблюдения Xeoma прослушивает аудиопоток с камеры или с отдельного микрофона, распознаёт речь и сохраняет расшифровку разговоров в CSV-отчёт или накладывает этот текст на превью — по вашему выбору. Также может работать со звуковыми файлами в формате .mp3 — записями разговоров, обучающих видеороликов и т.п., расшифровывая речь и предоставляя её в виде текста.

При этом не требуется специализированное оборудование: для работы этого модуля подойдёт звуковой поток с любой камеры или отдельно стоящего микрофона и обычный компьютер с видеокартой.

Важное примечание: модуль находится в стадии бета-тестирования Важно! Модуль доступен начиная с версии 24.8.12 и находится в стадии бета-тестирования: в некоторых случаях возможны зацикливания или пропуски.

 

 

СЦЕНАРИИ ПРИМЕНЕНИЯ

Модуль «Распознавание речи» можно использовать в различных целях:

  • Колл-центр: расшифровка записей звонков для контроля соблюдения протокола и скриптов обслуживания
  • Наблюдение за пожилыми: возможность услышать мольбу о помощи
  • Городское наблюдение: антитеррористическая безопасность и распознавание слов, сулящих опасность
  • Родительский контроль: помощь в обеспечении безопасности ребёнка, защите от буллинга или общения с мошенниками
  • Полиция: в дополнение к нательным камерам расшифровка разговоров полицейского с подозреваемым и возможность обнаружить опасную ситуацию
  • Исследование, аналитика: фоновый сбор статистики по вопросам речи, частотности употребления различных слов
  • Маркетинг: возможность узнать, обсуждают ли клиенты промо-кампанию, их реакцию на баннер и т.п.
  • Любой бизнес: возможность автоматически производить контроль качества обслуживания клиентов (например, присутствие матерных слов)
  • Фильтрация и автоматизация: обнаружение в речи нежелательных, запрещённых слов либо условных фраз, после которых стоит прослушать разговор внимательнее, не тратя время на прослушивание всех разговоров

Как видите, «Распознавание речи» программы для видеонаблюдения Xeoma может использовать в широчайшем спектре сценариев, не только помогая повышать безопасность в частной жизни, жизни города и горожан, а также в коммерческой сфере, но и способствуя оптимизации бизнеса и человеческих ресурсов.

 

ПРЕИМУЩЕСТВА МОДУЛЯ РАСПОЗНАВАНИЕ РЕЧИ:
Преимущества модуля Распознавание речи: любое оборудование
Не требует специального оборудования:
Может быть использовано на обычном компьютере с практически любыми камерами и любой видеокартой.
Преимущества модуля Распознавание речи Xeoma: гибкость и универсальность
Гибкость, многофункциональность:
Различные реакции (в т.ч. свои программируемые), интеграция со сторонними системами
Работа в режиме реального времени
В режиме реального времени:
Работает с видеопотоками в режиме реального времени, без задержек. Работа происходит полностью на вашем оборудовании.
Преимущества модуля Распознавание речи Xeoma: выгодная цена
Выгодное решение:

Обычно интеллектуальные модули продаются в Xeoma по отдельной лицензии, но этот модуль уже включён в редакцию Xeoma Pro!

 

КАК ЭТО РАБОТАЕТ

Прежде всего стоит отметить, что модуль показывается в списке модулей только тогда, когда серверная часть Xeoma запущена на подходящем оборудовании. Если вы не нашли модуль в списке модулей, стоит убедиться, что используется подходящий процессор и подходящая редакция Xeoma (модуль доступен только в редакции Xeoma Pro). Поскольку модуль работает с аудиопотоком, в цепочке нужно использовать какой-либо источник звука: либо микрофон, встроенный в камеру, либо отдельный USB- или IP-микрофон.
Для примера предположим, что звук передаёт сама IP-камера. В таком случае cоздайте цепочку модулей «Универсальная камера» — «Распознавание речи» — «Просмотр и архив» в Xeoma:

Модуль с Искусственным интеллектом Распознавание речи

Нажмите на иконку «Распознавания речи» в цепочке, чтобы открыть настройки модуля. Первым шагом в работе с модулем «Распознавание речи» необходимо загрузить дополнительные ресурсы. Процесс загрузки начнётся автоматически при первом открытии настроек модуля. Когда процесс загрузки дополнительных ресурсов завершится, надпись «Идёт загрузка» пропадёт.

Модуль с Искусственным интеллектом Распознавание речи

 

Advice from the Xeoma video surveillance program Дополнительные ресурсы содержат массивы данных для искусственного интеллекта и загружаются по запросу с серверов FelenaSoft. Они не поставляются в комплекте с ПО для сохранения небольшого размера программы, поскольку требуются не во всех системах видеонаблюдения.

 

Новые опции, которые открываются после окончания загрузки дополнительных ресурсов, позволяют выбрать из нескольких моделей искусственного интеллекта, которые будут использоваться для распознавания речи. Каждая из моделей имеет свои сильные и слабые стороны — как правило, различаются они степенью точности распознавания и уровнем нагрузки на процессор. Условно они называются tiny, base, small, medium, large в порядке увеличения размера моделей, их качества распознавания и нагрузки на аппаратную часть от их использования.

Модуль с Искусственным интеллектом Распознавание речи

В поле «Язык» выберите язык, на котором будет предоставлена расшифровка речи (при этом язык речи «в кадре» задавать не требуется).

Если нужно расшифровывать все слышимые разговоры, то вы можете сразу перейти к ячейке «Сохранять данные в CSV-отчёт» и отметить её галочкой. Так расшифровка разговоров будет сохраняться в табличный файл на диске в указанной вами директории, который может быть интегрирован в другие системы, к примеру, статистические.

Также «Распознавание речи» может работать сугубо на детекцию определённых фраз или слов. Задайте искомые слова/фразы в поле «Ключевые слова для распознавания» — модуль будет прослушивать всю речь «в кадре», но реагировать только при обнаружении в потоке именно ключевых слов. Подключите после модуля «Распознавание речи» нужный модуль-реакцию, чтобы получить уведомление, начать запись или, например, отправить команду в таком случае.

В нашем случае в качестве модуля-назначения подключён модуль «Просмотр и архив», так что при обнаружении ключевых слов начнётся запись видеофрагмента с камеры. Эта опция также сочетается с сохранение в CSV-отчёт — для этого отметьте галочкой соответствующую ячейку ниже.

 

ИНТЕГРАЦИЯ С ВНЕШНИМИ ПРОГРАММАМИ

У «Распознавания речи» также есть возможности для использования из внешних программ — например, для транскрибирования разговоров Интернет-телефонии. Следуя инструкции ниже, вы можете отдать «Распознаванию речи» на расшифровку mp3-файл и получить результат в виде текста. Таким образом, этот модуль можно использовать даже для работы с рабочими местами операторов, где нет Xeoma или камер. Сделать это можно двумя путями: через API Xeoma либо через запуск файла с командой. Важно: поддерживаются только .mp3-файлы.

1. API. Для первого варианта нужно использовать API Xeoma с JSON-запросами. Используя команды, можно выполнить запрос до удалённого или локального сервера Xeoma, чтобы транскрибировать .mp3 файл в текст силами этого сервера.

Например:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=ru&denoise=true"

где
«audio_file=@speech.mp3» — путь до звукового файла на вашем компьютере;

«http://192.168.0.135:10090/api?…» — адрес сервера Xeoma (IP-адрес и порт), логин администратора Xeoma (всегда Administrator) и его пароль (в нашем примере 123);

«model=large» — выбор модели распознавания, смотрите о моделях распознавания выше;

«denoise=true» — включение использования шумоподавления при распознавании речи, которое в отдельных случаях улучшает качество распознавания;

«language=ru» — язык, на котором будет предоставлена расшифровка. При этом если язык речи, например, русский, а здесь указано «en», т.е. английский язык, то расшифровка переведёт с русского на английский. Список обозначений всех языков ниже.

Примечание: Расшифровка записи будет выведена прямо в консоль или средство отправки запроса. Если нужно сохранить результат в файл, допишите к команде

curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=ru&denoise=true">savetext.txt
где
savetext.txt — название текстового файла.

 

2. Команда. Второй вариант позволяет осуществлять распознавание не через API, а локально на ПК через ключи запуска для Xeoma.

Пример такой команды:

{Путь до исполняемого файла Xeoma - например, xeoma.exe} -speech2text file.mp3;out.log;large;ru;denoise

где
«file.mp3» — путь до mp3-файла, который нужно расшифровать;

«out.log» — путь до выходного файла, в который запишутся результаты расшифровки;

«large» — выбор модели распознавания, смотрите о моделях распознавания выше;

«ru» — язык, на котором будет предоставлена расшифровка. При этом если язык речи, например, русский, а здесь указано «en», т.е. английский язык, то расшифровка переведёт с русского на английский. Список обозначений всех языков ниже

«denoise» — указывается, если нужно использовать шумоподавление: это в отдельных случаях помогает улучшить качество расшифровки.

Список обозначений языков:
«en»: «английский»,
«zh»: «китайский»,
«de»: «немецкий»,
«es»: «испанский»,
«ru»: «русский»,
«ko»: «корейский»,
«fr»: «французский»,
«ja»: «японский»,
«pt»: «португальский»,
«tr»: «турецкий»,
«pl»: «польский»,
«ca»: «каталонский»,
«nl»: «голландский»,
«ar»: «арабский»,
«sv»: «шведский»,
«it»: «итальянский»,
«id»: «индонезийский»,
«hi»: «хинди»,
«fi»: «финский»,
«vi»: «вьетнамский»,
«he»: «иврит»,
«uk»: «украинский»,
«el»: «греческий»,
«ms»: «малайский»,
«cs»: «чешский»,
«ro»: «румынский»,
«da»: «датский»,
«hu»: «венгерский»,
«ta»: «тамильский»,
«no»: «норвежский»,
«th»: «тайский»,
«ur»: «урду»,
«hr»: «хорватский»,
«bg»: «болгарский»,
«lt»: «литовский»,
«la»: «латинский»,
«mi»: «маорийский»,
«ml»: «малаялам»,
«cy»: «валлийский»,
«sk»: «словацкий»,
«te»: «телугу»,
«fa»: «персидский»,
«lv»: «латышский»,
«bn»: «бенгальский»,
«sr»: «сербский»,
«az»: «азербайджанский»,
«sl»: «словенский»,
«kn»: «каннада»,
«et»: «эстонский»,
«mk»: «македонский»,
«br»: «бретонский»,
«eu»: «баскский»,
«is»: «исландский»,
«hy»: «армянский»,
«ne»: «непальский»,
«mn»: «монгольский»,
«bs»: «боснийский»,
«kk»: «казахский»,
«sq»: «албанский»,
«sw»: «суахили»,
«gl»: «галицкий»,
«mr»: «маратхи»,
«pa»: «панджаби»,
«si»: «сингальский»,
«km»: «кхмерский»,
«sn»: «шона»,
«yo»: «йоруба»,
«so»: «сомали»,
«af»: «африкаанс»,
«oc»: «окситанский»,
«ka»: «грузинский»,
«be»: «белорусский»,
«tg»: «таджикский»,
«sd»: «синдхи»,
«gu»: «гуджаратский»,
«am»: «амхарский»,
«yi»: «идиш»,
«lo»: «лаосский»,
«uz»: «узбекский»,
«fo»: «фарерский»,
«ht»: «гаитянский креольский»,
«ps»: «пушту»,
«tk»: «туркменский»,
«nn»: «нюнорск»
«mt»: «мальтийский»,
«sa»: «санскрит»,
«lb»: «люксембургский»,
«my»: «мьянма»,
«bo»: «тибетский»,
«tl»: «тагальский»,
«mg»: «малагасский»,
«as»: «ассамский»,
«tt»: «татарский»,
«haw»: «гавайский»,
«ln»: «лингала»,
«ha»: «хауса»,
«ba»: «башкирский»,
«jw»: «яванский»,
«su»: «сунданский»,
«yue»: «кантонский диалект»,

 

КАК ПРОТЕСТИРОВАТЬ

1. Скачайте Xeoma с нашего сайта и запустите. Убедитесь, что серверная часть Xeoma запущена на машине с подходящим процессором.
Убедитесь, что Xeoma запущена в Пробном режиме или активируйте лицензии Xeoma Pro для работы с этим модулем.
2. Добавьте камеру или подождите, пока Xeoma автоматически добавит камеры, найденные в вашей сети. При необходимости работать с отдельным, не встроенным в камеру микрофоном, подключите модуль «Микрофон» и выберите соответствующий источник звука.
3. Добавьте модуль «Распознавание речи» в цепочку и настройте его.
4. Настройте желаемую реакцию на событие — например, запись в журнал .csv, Мобильные уведомления, или любую другую реакцию.
5. Всё готово! Можно пользоваться интеллектуальным распознаванием речи.

 

Advice from the Xeoma video surveillance program *Для этой возможности есть ограничения: модуль будет показываться на системах и работать только с определенными процессорами.

Поддерживаемые процессоры — только Intel 64-бит следующих серий:
-Процессоры семейства IntelCore, начиная с 4 поколения (включая поколения 10+);
-Процессоры семейства XEON, начиная с 6 поколения;
-Процессоры семейства Atom серии «C23», «C25», «C27», «C33», «C35», «C37», «C38», «C39», «P59», «Z34», «Z35», «x5-E39», «x5-E8000»;
-Процессоры Intel Xeon E5-24 серии, i5-2450M и i7-2600.

Распознавание речи можно производить на процессоре, но для повышения быстродействия рекомендуется использовать графический адаптер (видеокарту).

 
Дополнительно:
В Xeoma также есть другие модули, работающие со звуком:
Микрофон — модуль, который позволяет выбрать в качестве источника звука USB-микрофон или отдельный IP-микрофон.
Детектор звука — модуль, который позволяет анализировать звуковые потоки и срабатывать, когда уровень звука превышает заданный предел.
Детектор звуковых событий — интеллектуальный модуль, способный узнавать определённые звуки: сигнализацию автомобиля, плач ребенка, выстрелы, крики, разбитие стекла.
 

 

Important advice from Xeoma Нужно что-то ещё? Модуль не подходит именно для ваших условий? Мы можем добавить нужный функционал в Xeoma по программе платной доработки. Подробнее о программе

 

 

ПОПРОБУЙТЕ XEOMA БЕСПЛАТНО

Попробуйте Xeoma бесплатно! Заполните поля ниже, и вы получите электронное письмо с демо-лицензией.

Для этого введите свое имя и адрес электронной почты для отправки лицензии в поля ниже и нажмите кнопку «Получить бесплатные демо-лицензии Xeoma на электронную почту».




Нашу политику конфиденциальности можно прочитать здесь
 

 

Остались вопросы? Нужна помощь? Пожалуйста, свяжитесь с нами! Мы с радостью поможем!

14 августа, 2024

Читайте также:
Цены на Дополнительные модули Xeoma
Распознавание дыма и огня в Xeoma
Искусственный интеллект для поиска подозрительного поведения