← Назад до статей

Voice-to-Text: інтелектуальний модуль розпізнавання мови від Xeoma

Voice-to-Text: інтелектуальний модуль Xeoma для розпізнавання мовлення

 


Voice-to-Text на базі ШІ Модуль Voice-to-Text на базі ШІ у програмному забезпеченні для відеоспостереження Xeoma «слухає» аудіопотік із камери або окремого мікрофона, розпізнає мовлення та зберігає транскрипцію у звіті CSV або накладає її текстом на попередній перегляд. Також можна налаштувати реакцію на певні слова чи фрази. Модуль підтримує роботу з аудіофайлами .mp3 (записи розмов, навчальні відео тощо), транскрибуючи мовлення та надаючи його у текстовому вигляді.

Для роботи з Voice-to-Text від Xeoma не потрібне спеціалізоване обладнання: підходять аудіопотоки з будь-якої камери або окремого мікрофона, а також звичайні комп’ютери та відеокарти.

Поради щодо використання програми відеоспостереження Xeoma Увага: цей модуль доступний починаючи з версії Xeoma 24.8.12 і перебуває у стані beta, тому можливі пропуски слів або циклічні повтори.

 

 

СЦЕНАРІЇ ЗАСТОСУВАННЯ

Модуль Voice-to-Text — це гнучкий інструмент для різних цілей:

  • Кол-центри: транскрибація поточних дзвінків або їхніх записів для контролю дотримання політики компанії та скриптів розмови
  • Догляд за літніми людьми: можливість миттєво реагувати на поклик про допомогу
  • Міське спостереження: розпізнавання слів-маркерів загрози для забезпечення контртерористичної безпеки
  • Батьківський контроль: забезпечення безпеки дитини, захист від булінгу, спілкування з шахраями чи зловмисниками
  • Поліція: інтеграція з нагрудними камерами для транскрипції розмов офіцера з підозрюваним та виявлення небезпечних ситуацій
  • Банки, ломбарди: «тривожна кнопка», яку не потрібно натискати фізично
  • Дослідження та аналітика: фоновий збір статистики щодо частоти вживання слів та інші лінгвістичні дослідження
  • Маркетинг: аналіз обговорення рекламних кампаній, реакції клієнтів на банери чи оголошення тощо
  • Будь-який бізнес: автоматизований контроль якості обслуговування клієнтів (наприклад, виявлення нецензурної лексики)
  • Фільтрація та автоматизація: виявлення небажаних або заборонених слів і фраз у розмовах та направлення таких епізодів на детальний перегляд без необхідності прослуховувати всі записи

Інструмент Voice-to-Text у ПЗ Xeoma ефективний у найрізноманітніших сценаріях. Він не лише підвищує рівень безпеки в приватному житті, у міському просторі та комерційній сфері, а й оптимізує бізнес-процеси.

 

ПЕРЕВАГИ МОДУЛЯ VOICE-TO-TEXT:
Переваги модуля Voice-to-Text: сумісність із будь-яким обладнанням
Без спеціального обладнання:
Підходять стандартні доступні ПК і майже будь-яка камера.
Переваги модуля Voice-to-Text: гнучкість і універсальність
Гнучкість налаштувань:
Різноманітні типи реакцій, інтеграція зі сторонніми системами.
Переваги модуля Voice-to-Text: робота в режимі реального часу
Робота в реальному часі:
Обробка даних у режимі реального часу без затримок. Обчислення виконуються локально на вашому комп’ютері.
Переваги модуля Voice-to-Text: доступна вартість
Доступне рішення:

Модуль уже входить до ліцензій Xeoma Pro!

 

ЯК ЦЕ ПРАЦЮЄ:

Модуль відображається у списку лише тоді, коли серверна частина Xeoma працює на сумісному обладнанні. Якщо модуля немає у списку, переконайтеся, що ви використовуєте сумісний процесор та відповідну редакцію Xeoma (модуль доступний лише в редакції Xeoma Pro). Оскільки модуль працює з аудіопотоком, у ланцюжку має бути джерело звуку: вбудований мікрофон камери або окремий USB/IP-мікрофон.

Наприклад, якщо аудіопотік надходить безпосередньо з IP-камери, створіть у Xeoma ланцюжок модулів: «Universal Camera» – «Voice-to-Text» – «Preview and Archive»:

Приклад ланцюжка з інтелектуальним модулем Voice-to-Text

Натисніть піктограму «Голос у текст» у ланцюжку, щоб відкрити налаштування модуля. Першим кроком роботи з модулем «Голос у текст» є завантаження додаткових ресурсів, необхідних для його функціонування. Завантаження розпочнеться автоматично під час першого відкриття налаштувань модуля. Коли завантаження додаткових ресурсів завершиться, повідомлення «Триває завантаження» зникне.

Налаштування інтелектуального модуля Voice-to-Text

 

Поради щодо використання програми відеоспостереження Xeoma Додаткові ресурси містять масиви даних для штучного інтелекту, на яких базується модуль «Голос у текст», і завантажуються за запитом із серверів FelenaSoft. Вони не постачаються разом із ПЗ, щоб зменшити розмір програми, оскільки потрібні не в усіх системах відеоспостереження.

 

Нові опції, що з'являються після завантаження додаткових ресурсів, дозволяють обрати одну з кількох моделей розпізнавання мовлення на базі ШІ. Кожна модель має свої переваги та недоліки — як правило, вони відрізняються точністю розпізнавання та рівнем навантаження на процесор. Умовно вони називаються tiny, base, small, medium, large відповідно до зростання розміру моделі, якості розпізнавання та навантаження на обладнання.

Налаштування інтелектуального модуля Voice-to-Text

У полі «Мова» оберіть мову, якою буде надано транскрипт мовлення (зауважте, що мову самого мовлення вказувати не потрібно).

Якщо потрібно транскрибувати всі чутні розмови, активуйте прапорець «Зберігати дані у CSV-звіті». У такому разі транскрипти розмов зберігатимуться у файлі електронної таблиці в обраній директорії на диску, що дозволяє інтегрувати їх в інші системи, наприклад, статистичні.

Також «Голос у текст» може виявляти певні фрази або слова. Вкажіть шукані слова чи фрази в полі «Ключові слова для розпізнавання». Після цього модуль продовжуватиме аналізувати все мовлення в зоні дії камери або мікрофона, але реагуватиме лише на ключові слова. Підключіть потрібний модуль реакції після модуля «Голос у текст», щоб у таких випадках отримувати сповіщення, запускати запис або надсилати команду.

У нашому прикладі цільовим модулем є «Попередній перегляд та архів», тому при виявленні ключових слів розпочнеться запис потоку камери, що дозволить шукати епізоди за визначеним ключовим словом. Цю опцію можна легко поєднати зі збереженням у CSV-звіт: для цього поставте відповідний прапорець нижче.

Модуль «Голос у текст» має власний макрос — %VOICE%, який можна використовувати в цільових модулях, таких як «Надсилання Email», «Запуск програми» або «Надсилання HTTP-запиту», якщо потрібно передавати в них транскрипцію мовлення.

 

ІНТЕГРАЦІЯ ІЗ ЗОВНІШНІМИ ПРОГРАМАМИ

Функціонал «Голос у текст» від Xeoma також дозволяє використовувати його зі сторонніх програм — наприклад, для транскрибації VoIP-розмов. Дотримуючись інструкцій нижче, ви можете передати файл .mp3 у модуль «Голос у текст» для декодування та отримати результат у вигляді тексту. Таким чином, цей модуль можна використовувати навіть на робочих станціях операторів, де немає Xeoma або камер. Це можна зробити двома способами: через Xeoma API або за допомогою консольної команди. Важливо: підтримуються лише файли .mp3.

1. API. Для першого варіанту необхідно використовувати Xeoma API з JSON-запитами. За допомогою команд можна надіслати запит на віддалений або локальний сервер Xeoma, щоб той транскрибував .mp3-файл у текст.

Наприклад:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true"

де
«speech.mp3» слід замінити шляхом до аудіофайлу на комп'ютері;

«192.168.0.135:10090» слід замінити IP-адресою запущеного сервера Xeoma, на якому налаштовано «Голос у текст», та його портом (зазвичай 10090);

«Administrator» слід залишити без змін, оскільки ця функція доступна лише для профілю Administrator у Xeoma;

“123” слід замінити паролем профілю адміністратора Xeoma;

«model=large» — параметр вибору моделі розпізнавання. Більше про доступні варіанти — вище;

«denoise=true» активує шумозаглушення, що в окремих випадках підвищує точність розпізнавання;

«en» слід замінити на код мови (2–3 символи, див. нижче), якою має бути транскрибований текст. Якщо ця мова відрізняється від мови розпізнавання Voice-to-Text, текст буде автоматично перекладено вказаною вами мовою.

Примітка: цей запит виведе транскрипцію файлу безпосередньо в консоль або інший інструмент, звідки надіслано запит. Щоб зберегти транскрипцію як текстовий файл, додайте «>filename.txt» після команди:

curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true">savetext.txt
де
Замініть `savetext.txt` на бажану назву файлу з транскрипцією.

 

2. Запуск команди. Другий спосіб дає змогу виконувати розпізнавання не через API, а локально на ПК за допомогою команд у консолі.

Приклад:

{Path to Xeoma executable file} -speech2text file.mp3;out.log;large;en;denoise

де
“file.mp3” слід замінити шляхом до аудіофайлу на комп'ютері;

“out.log” слід замінити шляхом до цільового текстового файлу транскрибації та його назвою;

“large” — параметр вибору моделі розпізнавання. Докладніше про доступні варіанти див. вище;

“en” слід замінити дво- або трисимвольним кодом (див. нижче) мови, якою має бути транскрибований текст. Якщо вона відрізняється від мови мовлення, яку обробляє Voice-to-Text, текст буде автоматично перекладено на вказану мову.

"denoise" додається для увімкнення шумозаглушення, що в окремих випадках підвищує точність розпізнавання.

Список кодів мов:

“en”: “англійська”,
“zh”: “китайська”,
“de”: “німецька”,
“es”: “іспанська”,
“ru”: “російська”,
“ko”: “корейська”,
“fr”: “французька”,
“ja”: “японська”,
“pt”: “португальська”,
“tr”: “турецька”,
“pl”: “польська”,
“ca”: “каталонська”,
“nl”: “нідерландська”,
“ar”: “арабська”,
“sv”: “шведська”,
“it”: “італійська”,
“id”: “індонезійська”,
“hi”: “хінді”,
“fi”: “фінська”,
“vi”: “в'єтнамська”,
“he”: “іврит”,
“uk”: “українська”,
“el”: “грецька”,
“ms”: “малайська”,
“cs”: “чеська”,
“ro”: “румунська”,
“da”: “данська”,
“hu”: “угорська”,
“ta”: “тамільська”,
“no”: “норвезька”,
“th”: “тайська”,
“ur”: “урду”,
“hr”: “хорватська”,
“bg”: “болгарська”,
“lt”: “литовська”,
“la”: “латина”,
“mi”: “маорі”,
“ml”: “малаялам”,
“cy”: “валлійська”,
“sk”: “словацька”,
“te”: “телугу”,
“fa”: “перська”,
“lv”: “латвійська”,
“bn”: “бенгальська”,
“sr”: “сербська”,
“az”: “азербайджанська”,
“sl”: “словенська”,
“kn”: “каннада”,
“et”: “естонська”,
“mk”: “македонська”,
“br”: “бретонська”,
“eu”: “баскська”,
“is”: “ісландська”,
“hy”: “вірменська”,
“ne”: “непальська”,
“mn”: “монгольська”,
“bs”: “боснійська”,
“kk”: “казахська”,
“sq”: “албанська”,
“sw”: “суахілі”,
“gl”: “галісійська”,
“mr”: “маратхі”,
“pa”: “панджабі”,
“si”: “сингальська”,
“km”: “кхмерська”,
“sn”: “шона”,
“yo”: “йоруба”,
“so”: “сомалійська”,
“af”: “африкаанс”,
“oc”: “окситанська”,
“ka”: “грузинська”,
“be”: “білоруська”,
“tg”: “таджицька”,
“sd”: “синдхі”,
“gu”: “гуджаратська”,
“am”: “амхарська”,
“yi”: “їдиш”,
“lo”: “лаоська”,
“uz”: “узбецька”,
“fo”: “фарерська”,
“ht”: “гаїтянська креольська”,
“ps”: “пушту”,
“tk”: “туркменська”,
"nn": "нюнорск",
“mt”: “мальтійська”,
“sa”: “санскрит”,
“lb”: “люксембурзька”,
“my”: “бірманська”,
“bo”: “тибетська”,
“tl”: “тагальська”,
“mg”: “малагасійська”,
“as”: “ассамська”,
“tt”: “татарська”,
“haw”: “гавайська”,
“ln”: “лінгала”,
“ha”: “хауса”,
“ba”: “башкирська”,
“jw”: “яванська”,
“su”: “сунданська”,
“yue”: “кантонська”.

 

ЯК ПРОТЕСТУВАТИ

1. Завантажте Xeoma з нашого сайту та запустіть її. Переконайтеся, що серверна частина Xeoma працює на пристрої з відповідним процесором.
Також переконайтеся, що Xeoma запущена в пробній версії або активуйте ліцензію Xeoma Pro для роботи з цим модулем.
2. Додайте камеру або зачекайте, доки Xeoma автоматично знайде й додасть камери у вашій мережі. Якщо потрібно використовувати окремий мікрофон, не вбудований у камеру, підключіть модуль «Мікрофон» і виберіть відповідне джерело звуку.
3. Додайте модуль «Voice-to-Text» до ланцюжка та налаштуйте його.
4. За потреби додайте інші модулі для налаштування потрібних реакцій: запису в архів, надсилання електронного листа або власної реакції.
5. Готово! Тепер ви можете користуватися потужною системою інтелектуального розпізнавання мовлення від Xeoma.

 

Поради щодо використання програми відеоспостереження Xeoma *Модуль «Voice-to-Text» відображається та працює лише на таких процесорах:

64-бітні процесори Intel наступних серій:
-Процесори Intel Core, починаючи з 4-го покоління (включно з поколіннями 10 і новішими);
-Процесори XEON, починаючи з 6-го покоління;
-Процесори Atom серій «C23», «C25», «C27», «C33», «C35», «C37», «C38», «C39», «P59», «Z34», «Z35», «x5-E39» або «x5-E8000»;
-Процесори Intel Xeon серії E5-24, i5-2450M або i7-2600.

Хоча цей модуль може працювати за рахунок потужності ЦП, на сервері рекомендовано мати відеокарту.

 
У Xeoma є ще більше можливостей!
Xeoma також пропонує інші модулі для обробки аудіопотоків:
Мікрофон — модуль, що дає змогу вибрати USB-мікрофон або окремий IP-мікрофон як джерело звуку.
Детектор звуку — модуль для аналізу аудіопотоків, який активується, коли рівень звуку перевищує заданий поріг.
Детектор звукових подій — інтелектуальний модуль, здатний розпізнавати конкретні звуки: спрацювання автосигналізації, дитячий плач, постріли, крики, биття скла.
 

 

Перегляньте відео про Voice-to-Text від Xeoma

 

Важлива порада щодо даних тепловізійних камер Потрібно щось інше? Ми можемо розробити це та інтегрувати в Xeoma як платну послугу. Детальніше

 

 

БЕЗКОШТОВНА ПРОБНА ВЕРСІЯ XEOMA

Спробуйте Xeoma безкоштовно! Введіть своє ім'я та електронну адресу в поля нижче, щоб отримати ліцензію, і натисніть кнопку «Отримати безкоштовні демо-ліцензії Xeoma на email».




Настійливо просимо не використовувати електронні адреси, що містять персональні дані, а також не надсилати нам персональні дані будь-яким іншим способом. Якщо ви все ж таки це зробите, надсилаючи цю форму, ви підтверджуєте свою згоду на обробку ваших персональних даних
 

 

Маєте запитання? Потрібна допомога? Зв'яжіться з нами! Будемо раді допомогти!

14 серпня 2024 р

Читати далі:
Додаткові модулі в Xeoma
Прайс-лист модулів на основі ШІ в Xeoma