Voice-to-Text: інтелектуальний модуль розпізнавання мови від Xeoma

Модуль Voice-to-Text на базі ШІ у програмному забезпеченні для відеоспостереження Xeoma «слухає» аудіопотік із камери або окремого мікрофона, розпізнає мовлення та зберігає транскрипцію у звіті CSV або накладає її текстом на попередній перегляд. Також можна налаштувати реакцію на певні слова чи фрази. Модуль підтримує роботу з аудіофайлами .mp3 (записи розмов, навчальні відео тощо), транскрибуючи мовлення та надаючи його у текстовому вигляді.
Для роботи з Voice-to-Text від Xeoma не потрібне спеціалізоване обладнання: підходять аудіопотоки з будь-якої камери або окремого мікрофона, а також звичайні комп’ютери та відеокарти.
![]() |
Увага: цей модуль доступний починаючи з версії Xeoma 24.8.12 і перебуває у стані beta, тому можливі пропуски слів або циклічні повтори. |
Модуль Voice-to-Text — це гнучкий інструмент для різних цілей:
- Кол-центри: транскрибація поточних дзвінків або їхніх записів для контролю дотримання політики компанії та скриптів розмови
- Догляд за літніми людьми: можливість миттєво реагувати на поклик про допомогу
- Міське спостереження: розпізнавання слів-маркерів загрози для забезпечення контртерористичної безпеки
- Батьківський контроль: забезпечення безпеки дитини, захист від булінгу, спілкування з шахраями чи зловмисниками
- Поліція: інтеграція з нагрудними камерами для транскрипції розмов офіцера з підозрюваним та виявлення небезпечних ситуацій
- Банки, ломбарди: «тривожна кнопка», яку не потрібно натискати фізично
- Дослідження та аналітика: фоновий збір статистики щодо частоти вживання слів та інші лінгвістичні дослідження
- Маркетинг: аналіз обговорення рекламних кампаній, реакції клієнтів на банери чи оголошення тощо
- Будь-який бізнес: автоматизований контроль якості обслуговування клієнтів (наприклад, виявлення нецензурної лексики)
- Фільтрація та автоматизація: виявлення небажаних або заборонених слів і фраз у розмовах та направлення таких епізодів на детальний перегляд без необхідності прослуховувати всі записи
Інструмент Voice-to-Text у ПЗ Xeoma ефективний у найрізноманітніших сценаріях. Він не лише підвищує рівень безпеки в приватному житті, у міському просторі та комерційній сфері, а й оптимізує бізнес-процеси.

Без спеціального обладнання:
Підходять стандартні доступні ПК і майже будь-яка камера.

Гнучкість налаштувань:
Різноманітні типи реакцій, інтеграція зі сторонніми системами.

Робота в реальному часі:
Обробка даних у режимі реального часу без затримок. Обчислення виконуються локально на вашому комп’ютері.

Доступне рішення:
Модуль уже входить до ліцензій Xeoma Pro!
Модуль відображається у списку лише тоді, коли серверна частина Xeoma працює на сумісному обладнанні. Якщо модуля немає у списку, переконайтеся, що ви використовуєте сумісний процесор та відповідну редакцію Xeoma (модуль доступний лише в редакції Xeoma Pro). Оскільки модуль працює з аудіопотоком, у ланцюжку має бути джерело звуку: вбудований мікрофон камери або окремий USB/IP-мікрофон.
Наприклад, якщо аудіопотік надходить безпосередньо з IP-камери, створіть у Xeoma ланцюжок модулів: «Universal Camera» – «Voice-to-Text» – «Preview and Archive»:

Натисніть піктограму «Голос у текст» у ланцюжку, щоб відкрити налаштування модуля. Першим кроком роботи з модулем «Голос у текст» є завантаження додаткових ресурсів, необхідних для його функціонування. Завантаження розпочнеться автоматично під час першого відкриття налаштувань модуля. Коли завантаження додаткових ресурсів завершиться, повідомлення «Триває завантаження» зникне.

![]() |
Додаткові ресурси містять масиви даних для штучного інтелекту, на яких базується модуль «Голос у текст», і завантажуються за запитом із серверів FelenaSoft. Вони не постачаються разом із ПЗ, щоб зменшити розмір програми, оскільки потрібні не в усіх системах відеоспостереження. |
Нові опції, що з'являються після завантаження додаткових ресурсів, дозволяють обрати одну з кількох моделей розпізнавання мовлення на базі ШІ. Кожна модель має свої переваги та недоліки — як правило, вони відрізняються точністю розпізнавання та рівнем навантаження на процесор. Умовно вони називаються tiny, base, small, medium, large відповідно до зростання розміру моделі, якості розпізнавання та навантаження на обладнання.

У полі «Мова» оберіть мову, якою буде надано транскрипт мовлення (зауважте, що мову самого мовлення вказувати не потрібно).
Якщо потрібно транскрибувати всі чутні розмови, активуйте прапорець «Зберігати дані у CSV-звіті». У такому разі транскрипти розмов зберігатимуться у файлі електронної таблиці в обраній директорії на диску, що дозволяє інтегрувати їх в інші системи, наприклад, статистичні.
Також «Голос у текст» може виявляти певні фрази або слова. Вкажіть шукані слова чи фрази в полі «Ключові слова для розпізнавання». Після цього модуль продовжуватиме аналізувати все мовлення в зоні дії камери або мікрофона, але реагуватиме лише на ключові слова. Підключіть потрібний модуль реакції після модуля «Голос у текст», щоб у таких випадках отримувати сповіщення, запускати запис або надсилати команду.
У нашому прикладі цільовим модулем є «Попередній перегляд та архів», тому при виявленні ключових слів розпочнеться запис потоку камери, що дозволить шукати епізоди за визначеним ключовим словом. Цю опцію можна легко поєднати зі збереженням у CSV-звіт: для цього поставте відповідний прапорець нижче.
Модуль «Голос у текст» має власний макрос — %VOICE%, який можна використовувати в цільових модулях, таких як «Надсилання Email», «Запуск програми» або «Надсилання HTTP-запиту», якщо потрібно передавати в них транскрипцію мовлення.
Функціонал «Голос у текст» від Xeoma також дозволяє використовувати його зі сторонніх програм — наприклад, для транскрибації VoIP-розмов. Дотримуючись інструкцій нижче, ви можете передати файл .mp3 у модуль «Голос у текст» для декодування та отримати результат у вигляді тексту. Таким чином, цей модуль можна використовувати навіть на робочих станціях операторів, де немає Xeoma або камер. Це можна зробити двома способами: через Xeoma API або за допомогою консольної команди. Важливо: підтримуються лише файли .mp3.
1. API. Для першого варіанту необхідно використовувати Xeoma API з JSON-запитами. За допомогою команд можна надіслати запит на віддалений або локальний сервер Xeoma, щоб той транскрибував .mp3-файл у текст.
Наприклад:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true"
де
«speech.mp3» слід замінити шляхом до аудіофайлу на комп'ютері;
«192.168.0.135:10090» слід замінити IP-адресою запущеного сервера Xeoma, на якому налаштовано «Голос у текст», та його портом (зазвичай 10090);
«Administrator» слід залишити без змін, оскільки ця функція доступна лише для профілю Administrator у Xeoma;
“123” слід замінити паролем профілю адміністратора Xeoma;
«model=large» — параметр вибору моделі розпізнавання. Більше про доступні варіанти — вище;
«denoise=true» активує шумозаглушення, що в окремих випадках підвищує точність розпізнавання;
«en» слід замінити на код мови (2–3 символи, див. нижче), якою має бути транскрибований текст. Якщо ця мова відрізняється від мови розпізнавання Voice-to-Text, текст буде автоматично перекладено вказаною вами мовою.
Примітка: цей запит виведе транскрипцію файлу безпосередньо в консоль або інший інструмент, звідки надіслано запит. Щоб зберегти транскрипцію як текстовий файл, додайте «>filename.txt» після команди:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true">savetext.txt
де
Замініть `savetext.txt` на бажану назву файлу з транскрипцією.
2. Запуск команди. Другий спосіб дає змогу виконувати розпізнавання не через API, а локально на ПК за допомогою команд у консолі.
Приклад:
{Path to Xeoma executable file} -speech2text file.mp3;out.log;large;en;denoise
де
“file.mp3” слід замінити шляхом до аудіофайлу на комп'ютері;
“out.log” слід замінити шляхом до цільового текстового файлу транскрибації та його назвою;
“large” — параметр вибору моделі розпізнавання. Докладніше про доступні варіанти див. вище;
“en” слід замінити дво- або трисимвольним кодом (див. нижче) мови, якою має бути транскрибований текст. Якщо вона відрізняється від мови мовлення, яку обробляє Voice-to-Text, текст буде автоматично перекладено на вказану мову.
"denoise" додається для увімкнення шумозаглушення, що в окремих випадках підвищує точність розпізнавання.
Список кодів мов:
“en”: “англійська”,
“zh”: “китайська”,
“de”: “німецька”,
“es”: “іспанська”,
“ru”: “російська”,
“ko”: “корейська”,
“fr”: “французька”,
“ja”: “японська”,
“pt”: “португальська”,
“tr”: “турецька”,
“pl”: “польська”,
“ca”: “каталонська”,
“nl”: “нідерландська”,
“ar”: “арабська”,
“sv”: “шведська”,
“it”: “італійська”,
“id”: “індонезійська”,
“hi”: “хінді”,
“fi”: “фінська”,
“vi”: “в'єтнамська”,
“he”: “іврит”,
“uk”: “українська”,
“el”: “грецька”,
“ms”: “малайська”,
“cs”: “чеська”,
“ro”: “румунська”,
“da”: “данська”,
“hu”: “угорська”,
“ta”: “тамільська”,
“no”: “норвезька”,
“th”: “тайська”,
“ur”: “урду”,
“hr”: “хорватська”,
“bg”: “болгарська”,
“lt”: “литовська”,
“la”: “латина”,
“mi”: “маорі”,
“ml”: “малаялам”,
“cy”: “валлійська”,
“sk”: “словацька”,
“te”: “телугу”,
“fa”: “перська”,
“lv”: “латвійська”,
“bn”: “бенгальська”,
“sr”: “сербська”,
“az”: “азербайджанська”,
“sl”: “словенська”,
“kn”: “каннада”,
“et”: “естонська”,
“mk”: “македонська”,
“br”: “бретонська”,
“eu”: “баскська”,
“is”: “ісландська”,
“hy”: “вірменська”,
“ne”: “непальська”,
“mn”: “монгольська”,
“bs”: “боснійська”,
“kk”: “казахська”,
“sq”: “албанська”,
“sw”: “суахілі”,
“gl”: “галісійська”,
“mr”: “маратхі”,
“pa”: “панджабі”,
“si”: “сингальська”,
“km”: “кхмерська”,
“sn”: “шона”,
“yo”: “йоруба”,
“so”: “сомалійська”,
“af”: “африкаанс”,
“oc”: “окситанська”,
“ka”: “грузинська”,
“be”: “білоруська”,
“tg”: “таджицька”,
“sd”: “синдхі”,
“gu”: “гуджаратська”,
“am”: “амхарська”,
“yi”: “їдиш”,
“lo”: “лаоська”,
“uz”: “узбецька”,
“fo”: “фарерська”,
“ht”: “гаїтянська креольська”,
“ps”: “пушту”,
“tk”: “туркменська”,
"nn": "нюнорск",
“mt”: “мальтійська”,
“sa”: “санскрит”,
“lb”: “люксембурзька”,
“my”: “бірманська”,
“bo”: “тибетська”,
“tl”: “тагальська”,
“mg”: “малагасійська”,
“as”: “ассамська”,
“tt”: “татарська”,
“haw”: “гавайська”,
“ln”: “лінгала”,
“ha”: “хауса”,
“ba”: “башкирська”,
“jw”: “яванська”,
“su”: “сунданська”,
“yue”: “кантонська”.
1. Завантажте Xeoma з нашого сайту та запустіть її. Переконайтеся, що серверна частина Xeoma працює на пристрої з відповідним процесором.
Також переконайтеся, що Xeoma запущена в пробній версії або активуйте ліцензію Xeoma Pro для роботи з цим модулем.
2. Додайте камеру або зачекайте, доки Xeoma автоматично знайде й додасть камери у вашій мережі. Якщо потрібно використовувати окремий мікрофон, не вбудований у камеру, підключіть модуль «Мікрофон» і виберіть відповідне джерело звуку.
3. Додайте модуль «Voice-to-Text» до ланцюжка та налаштуйте його.
4. За потреби додайте інші модулі для налаштування потрібних реакцій: запису в архів, надсилання електронного листа або власної реакції.
5. Готово! Тепер ви можете користуватися потужною системою інтелектуального розпізнавання мовлення від Xeoma.
![]() |
*Модуль «Voice-to-Text» відображається та працює лише на таких процесорах:
64-бітні процесори Intel наступних серій: Хоча цей модуль може працювати за рахунок потужності ЦП, на сервері рекомендовано мати відеокарту. |
У Xeoma є ще більше можливостей!
Xeoma також пропонує інші модулі для обробки аудіопотоків:
• Мікрофон — модуль, що дає змогу вибрати USB-мікрофон або окремий IP-мікрофон як джерело звуку.
• Детектор звуку — модуль для аналізу аудіопотоків, який активується, коли рівень звуку перевищує заданий поріг.
• Детектор звукових подій — інтелектуальний модуль, здатний розпізнавати конкретні звуки: спрацювання автосигналізації, дитячий плач, постріли, крики, биття скла.
![]() |
Потрібно щось інше? Ми можемо розробити це та інтегрувати в Xeoma як платну послугу. Детальніше |
Спробуйте Xeoma безкоштовно! Введіть своє ім'я та електронну адресу в поля нижче, щоб отримати ліцензію, і натисніть кнопку «Отримати безкоштовні демо-ліцензії Xeoma на email».
Настійливо просимо не використовувати електронні адреси, що містять персональні дані, а також не надсилати нам персональні дані будь-яким іншим способом. Якщо ви все ж таки це зробите, надсилаючи цю форму, ви підтверджуєте свою згоду на обробку ваших персональних даних
Маєте запитання? Потрібна допомога? Зв'яжіться з нами! Будемо раді допомогти!
14 серпня 2024 р
Читати далі:
Додаткові модулі в Xeoma
Прайс-лист модулів на основі ШІ в Xeoma
