Интеллектуальный модуль «Распознавание речи»
Основанный на искусственном интеллекте модуль «Распознавание речи» программы для видеонаблюдения Xeoma прослушивает аудиопоток с камеры или с отдельного микрофона, распознаёт речь и сохраняет расшифровку разговоров в CSV-отчёт или накладывает этот текст на превью — по вашему выбору. Также может работать со звуковыми файлами в формате .mp3 — записями разговоров, обучающих видеороликов и т.п., расшифровывая речь и предоставляя её в виде текста.
При этом не требуется специализированное оборудование: для работы этого модуля подойдёт звуковой поток с любой камеры или отдельно стоящего микрофона и обычный компьютер с видеокартой.
![]() |
Важно! Модуль доступен начиная с версии 24.8.12 и находится в стадии бета-тестирования: в некоторых случаях возможны зацикливания или пропуски. |
Модуль «Распознавание речи» можно использовать в различных целях:
- Колл-центр: расшифровка записей звонков для контроля соблюдения протокола и скриптов обслуживания
- Наблюдение за пожилыми: возможность услышать мольбу о помощи
- Городское наблюдение: антитеррористическая безопасность и распознавание слов, сулящих опасность
- Родительский контроль: помощь в обеспечении безопасности ребёнка, защите от буллинга или общения с мошенниками
- Полиция: в дополнение к нательным камерам расшифровка разговоров полицейского с подозреваемым и возможность обнаружить опасную ситуацию
- Исследование, аналитика: фоновый сбор статистики по вопросам речи, частотности употребления различных слов
- Маркетинг: возможность узнать, обсуждают ли клиенты промо-кампанию, их реакцию на баннер и т.п.
- Любой бизнес: возможность автоматически производить контроль качества обслуживания клиентов (например, присутствие матерных слов)
- Фильтрация и автоматизация: обнаружение в речи нежелательных, запрещённых слов либо условных фраз, после которых стоит прослушать разговор внимательнее, не тратя время на прослушивание всех разговоров
Как видите, «Распознавание речи» программы для видеонаблюдения Xeoma может использовать в широчайшем спектре сценариев, не только помогая повышать безопасность в частной жизни, жизни города и горожан, а также в коммерческой сфере, но и способствуя оптимизации бизнеса и человеческих ресурсов.

Не требует специального оборудования:
Может быть использовано на обычном компьютере с практически любыми камерами и любой видеокартой.

Гибкость, многофункциональность:
Различные реакции (в т.ч. свои программируемые), интеграция со сторонними системами

В режиме реального времени:
Работает с видеопотоками в режиме реального времени, без задержек. Работа происходит полностью на вашем оборудовании.

Выгодное решение:
Обычно интеллектуальные модули продаются в Xeoma по отдельной лицензии, но этот модуль уже включён в редакцию Xeoma Pro!
Прежде всего стоит отметить, что модуль показывается в списке модулей только тогда, когда серверная часть Xeoma запущена на подходящем оборудовании. Если вы не нашли модуль в списке модулей, стоит убедиться, что используется подходящий процессор и подходящая редакция Xeoma (модуль доступен только в редакции Xeoma Pro). Поскольку модуль работает с аудиопотоком, в цепочке нужно использовать какой-либо источник звука: либо микрофон, встроенный в камеру, либо отдельный USB- или IP-микрофон.
Для примера предположим, что звук передаёт сама IP-камера. В таком случае cоздайте цепочку модулей «Универсальная камера» — «Распознавание речи» — «Просмотр и архив» в Xeoma:
Нажмите на иконку «Распознавания речи» в цепочке, чтобы открыть настройки модуля. Первым шагом в работе с модулем «Распознавание речи» необходимо загрузить дополнительные ресурсы. Процесс загрузки начнётся автоматически при первом открытии настроек модуля. Когда процесс загрузки дополнительных ресурсов завершится, надпись «Идёт загрузка» пропадёт.
![]() |
Дополнительные ресурсы содержат массивы данных для искусственного интеллекта и загружаются по запросу с серверов FelenaSoft. Они не поставляются в комплекте с ПО для сохранения небольшого размера программы, поскольку требуются не во всех системах видеонаблюдения. |
Новые опции, которые открываются после окончания загрузки дополнительных ресурсов, позволяют выбрать из нескольких моделей искусственного интеллекта, которые будут использоваться для распознавания речи. Каждая из моделей имеет свои сильные и слабые стороны — как правило, различаются они степенью точности распознавания и уровнем нагрузки на процессор. Условно они называются tiny, base, small, medium, large в порядке увеличения размера моделей, их качества распознавания и нагрузки на аппаратную часть от их использования.
В поле «Язык» выберите язык, на котором будет предоставлена расшифровка речи (при этом язык речи «в кадре» задавать не требуется).
Если нужно расшифровывать все слышимые разговоры, то вы можете сразу перейти к ячейке «Сохранять данные в CSV-отчёт» и отметить её галочкой. Так расшифровка разговоров будет сохраняться в табличный файл на диске в указанной вами директории, который может быть интегрирован в другие системы, к примеру, статистические.
Также «Распознавание речи» может работать сугубо на детекцию определённых фраз или слов. Задайте искомые слова/фразы в поле «Ключевые слова для распознавания» — модуль будет прослушивать всю речь «в кадре», но реагировать только при обнаружении в потоке именно ключевых слов. Подключите после модуля «Распознавание речи» нужный модуль-реакцию, чтобы получить уведомление, начать запись или, например, отправить команду в таком случае.
В нашем случае в качестве модуля-назначения подключён модуль «Просмотр и архив», так что при обнаружении ключевых слов начнётся запись видеофрагмента с камеры. Эта опция также сочетается с сохранение в CSV-отчёт — для этого отметьте галочкой соответствующую ячейку ниже.
В случае работы с модулями «Отправка НТТР команд», «Отправка Email», «Запуск приложения» при необходимости передавать в этот модуль расшифровку разговора может использоваться макрос %VOICE%.
У «Распознавания речи» также есть возможности для использования из внешних программ — например, для транскрибирования разговоров Интернет-телефонии. Следуя инструкции ниже, вы можете отдать «Распознаванию речи» на расшифровку mp3-файл и получить результат в виде текста. Таким образом, этот модуль можно использовать даже для работы с рабочими местами операторов, где нет Xeoma или камер. Сделать это можно двумя путями: через API Xeoma либо через запуск файла с командой. Важно: поддерживаются только .mp3-файлы.
1. API. Для первого варианта нужно использовать API Xeoma с JSON-запросами. Используя команды, можно выполнить запрос до удалённого или локального сервера Xeoma, чтобы транскрибировать .mp3 файл в текст силами этого сервера.
Например:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=ru&denoise=true"
где
«audio_file=@speech.mp3» — путь до звукового файла на вашем компьютере;
«http://192.168.0.135:10090/api?…» — адрес сервера Xeoma (IP-адрес и порт), логин администратора Xeoma (всегда Administrator) и его пароль (в нашем примере 123);
«model=large» — выбор модели распознавания, смотрите о моделях распознавания выше;
«denoise=true» — включение использования шумоподавления при распознавании речи, которое в отдельных случаях улучшает качество распознавания;
«language=ru» — язык, на котором будет предоставлена расшифровка. При этом если язык речи, например, русский, а здесь указано «en», т.е. английский язык, то расшифровка переведёт с русского на английский. Список обозначений всех языков ниже.
Примечание: Расшифровка записи будет выведена прямо в консоль или средство отправки запроса. Если нужно сохранить результат в файл, допишите к команде
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=ru&denoise=true">savetext.txt
где
savetext.txt — название текстового файла.
2. Команда. Второй вариант позволяет осуществлять распознавание не через API, а локально на ПК через ключи запуска для Xeoma.
Пример такой команды:
{Путь до исполняемого файла Xeoma - например, xeoma.exe} -speech2text file.mp3;out.log;large;ru;denoise
где
«file.mp3» — путь до mp3-файла, который нужно расшифровать;
«out.log» — путь до выходного файла, в который запишутся результаты расшифровки;
«large» — выбор модели распознавания, смотрите о моделях распознавания выше;
«ru» — язык, на котором будет предоставлена расшифровка. При этом если язык речи, например, русский, а здесь указано «en», т.е. английский язык, то расшифровка переведёт с русского на английский. Список обозначений всех языков ниже
«denoise» — указывается, если нужно использовать шумоподавление: это в отдельных случаях помогает улучшить качество расшифровки.
Список обозначений языков:
«en»: «английский»,
«zh»: «китайский»,
«de»: «немецкий»,
«es»: «испанский»,
«ru»: «русский»,
«ko»: «корейский»,
«fr»: «французский»,
«ja»: «японский»,
«pt»: «португальский»,
«tr»: «турецкий»,
«pl»: «польский»,
«ca»: «каталонский»,
«nl»: «голландский»,
«ar»: «арабский»,
«sv»: «шведский»,
«it»: «итальянский»,
«id»: «индонезийский»,
«hi»: «хинди»,
«fi»: «финский»,
«vi»: «вьетнамский»,
«he»: «иврит»,
«uk»: «украинский»,
«el»: «греческий»,
«ms»: «малайский»,
«cs»: «чешский»,
«ro»: «румынский»,
«da»: «датский»,
«hu»: «венгерский»,
«ta»: «тамильский»,
«no»: «норвежский»,
«th»: «тайский»,
«ur»: «урду»,
«hr»: «хорватский»,
«bg»: «болгарский»,
«lt»: «литовский»,
«la»: «латинский»,
«mi»: «маорийский»,
«ml»: «малаялам»,
«cy»: «валлийский»,
«sk»: «словацкий»,
«te»: «телугу»,
«fa»: «персидский»,
«lv»: «латышский»,
«bn»: «бенгальский»,
«sr»: «сербский»,
«az»: «азербайджанский»,
«sl»: «словенский»,
«kn»: «каннада»,
«et»: «эстонский»,
«mk»: «македонский»,
«br»: «бретонский»,
«eu»: «баскский»,
«is»: «исландский»,
«hy»: «армянский»,
«ne»: «непальский»,
«mn»: «монгольский»,
«bs»: «боснийский»,
«kk»: «казахский»,
«sq»: «албанский»,
«sw»: «суахили»,
«gl»: «галицкий»,
«mr»: «маратхи»,
«pa»: «панджаби»,
«si»: «сингальский»,
«km»: «кхмерский»,
«sn»: «шона»,
«yo»: «йоруба»,
«so»: «сомали»,
«af»: «африкаанс»,
«oc»: «окситанский»,
«ka»: «грузинский»,
«be»: «белорусский»,
«tg»: «таджикский»,
«sd»: «синдхи»,
«gu»: «гуджаратский»,
«am»: «амхарский»,
«yi»: «идиш»,
«lo»: «лаосский»,
«uz»: «узбекский»,
«fo»: «фарерский»,
«ht»: «гаитянский креольский»,
«ps»: «пушту»,
«tk»: «туркменский»,
«nn»: «нюнорск»
«mt»: «мальтийский»,
«sa»: «санскрит»,
«lb»: «люксембургский»,
«my»: «мьянма»,
«bo»: «тибетский»,
«tl»: «тагальский»,
«mg»: «малагасский»,
«as»: «ассамский»,
«tt»: «татарский»,
«haw»: «гавайский»,
«ln»: «лингала»,
«ha»: «хауса»,
«ba»: «башкирский»,
«jw»: «яванский»,
«su»: «сунданский»,
«yue»: «кантонский диалект»,
1. Скачайте Xeoma с нашего сайта и запустите. Убедитесь, что серверная часть Xeoma запущена на машине с подходящим процессором.
Убедитесь, что Xeoma запущена в Пробном режиме или активируйте лицензии Xeoma Pro для работы с этим модулем.
2. Добавьте камеру или подождите, пока Xeoma автоматически добавит камеры, найденные в вашей сети. При необходимости работать с отдельным, не встроенным в камеру микрофоном, подключите модуль «Микрофон» и выберите соответствующий источник звука.
3. Добавьте модуль «Распознавание речи» в цепочку и настройте его.
4. Настройте желаемую реакцию на событие — например, запись в журнал .csv, Мобильные уведомления, или любую другую реакцию.
5. Всё готово! Можно пользоваться интеллектуальным распознаванием речи.
![]() |
*Для этой возможности есть ограничения: модуль будет показываться на системах и работать только с определенными процессорами.
Поддерживаемые процессоры — только Intel 64-бит следующих серий: Распознавание речи можно производить на процессоре, но для повышения быстродействия рекомендуется использовать графический адаптер (видеокарту). |
Дополнительно:
В Xeoma также есть другие модули, работающие со звуком:
• Микрофон — модуль, который позволяет выбрать в качестве источника звука USB-микрофон или отдельный IP-микрофон.
• Детектор звука — модуль, который позволяет анализировать звуковые потоки и срабатывать, когда уровень звука превышает заданный предел.
• Детектор звуковых событий — интеллектуальный модуль, способный узнавать определённые звуки: сигнализацию автомобиля, плач ребенка, выстрелы, крики, разбитие стекла.
![]() |
Нужно что-то ещё? Модуль не подходит именно для ваших условий? Мы можем добавить нужный функционал в Xeoma по программе платной доработки. Подробнее о программе |
Попробуйте Xeoma бесплатно! Заполните поля ниже, и вы получите электронное письмо с демо-лицензией.
Для этого введите свое имя и адрес электронной почты для отправки лицензии в поля ниже и нажмите кнопку «Получить бесплатные демо-лицензии Xeoma на электронную почту».
Мы призываем вас не использовать email-адреса, содержащие персональные данные, и не присылать нам персональные данные иным способом. Если ваша информация содержит персональные данные, то, отправляя данную форму, вы даёте своё согласие на обработку персональных данных
Остались вопросы? Нужна помощь? Пожалуйста, свяжитесь с нами! Мы с радостью поможем!
14 августа, 2024
Читайте также:
Цены на Дополнительные модули Xeoma
Распознавание дыма и огня в Xeoma
Искусственный интеллект для поиска подозрительного поведения