Voice-to-Text: Xeoma

Voice-to-Text: Интелектуалният модул на Xeoma за разпознаване на реч

Voice-to-Text: Интелигентният модул на Xeoma за разпознаване на реч

Модулът Voice-to-Text с изкуствен интелект на софтуера за видеонаблюдение Xeoma „слуша“ аудиопотока от камера или отделен микрофон, разпознава речта и записва транскрипцията ѝ в CSV отчет или я налага като текст върху прегледа. Алтернативно, можете да го настроите да реагира на определени думи или фрази. Модулът работи и с .mp3 аудио файлове – записи на разговори, обучителни видеа и др. – като транскрибира речта и я предоставя като текст.

Работата с Voice-to-Text на Xeoma не изисква специализирано оборудване: подходящи са аудиопотоци от всяка камера или отделен микрофон, както и стандартни компютри и видеокарти.

Внимание: този модул е наличен от версия Xeoma 24.8.12 и е в beta състояние, поради което може да пропуска думи или да съдържа повтарящи се фрагменти.

Изпробвайте демо

Купи

Научете повече

СЦЕНАРИИ ЗА ИЗПОЛЗВАНЕ

Модулът Voice-to-Text е гъвкав инструмент, който може да се използва за различни цели:

Кол центрове: транскрипция на текущи разговори или на записи с цел контрол на съответствието с фирмената политика и разговорните скриптове
Грижа за възрастни хора: възможност за незабавна реакция при вик за помощ
Градски надзор: разпознаване на думи, сигнализиращи за опасност, в рамките на антитерористичната сигурност
Родителски контрол: осигуряване на безопасността на детето и защита от тормоз или комуникация с измамници и насилници
Полиция: използване с носими камери за транскрипция на разговорите между полицай и заподозрян, както и за откриване на опасни ситуации
Банки, заложни къщи: „паник бутон“, който не изисква физическо натискане
Изследвания, анализи: автоматизирано събиране на статистика за честотата на използване на определени думи и други изследвания на речта
Маркетинг: анализ дали клиентите обсъждат промоционална кампания, каква е реакцията им към банер или реклама и др.
Всеки бизнес: автоматизиран контрол на качеството на обслужване на клиентите (например откриване на вулгарна реч)
Филтриране и автоматизация: откриване на нежелани или забранени думи и фрази в разговорите и насочване на тези записи за по-внимателен преглед, без нужда от прослушване на всички разговори

Както виждате, инструментът „Voice-to-Text“ на софтуера Xeoma за видеонаблюдение е приложим в широк спектър от сценарии! Той не само повишава сигурността в частния живот, в градската среда и в търговския сектор, но и оптимизира бизнес процесите.

ПРЕДИМСТВА НА МОДУЛА VOICE-TO-TEXT:

Без нужда от специално оборудване:
Могат да се използват стандартни компютри и почти всяка камера.

Предимства на модула Voice-to-Text: гъвкавост и универсалност

Гъвкавост:
Разнообразни реакции и интеграция с външни системи.

Предимства на модула Voice-to-Text: обработка в реално време

Работа в реално време:
Обработка в реално време без забавяне. Работи единствено на вашия компютър.

Предимства на модула Voice-to-Text: достъпна цена

Достъпно решение:

Модулът вече е включен в лицензите за Xeoma Pro!

КАК РАБОТИ:

Преди всичко трябва да се отбележи, че модулът се показва в списъка само когато сървърната част на Xeoma работи на подходящ хардуер. Ако не намирате модула в списъка, уверете се, че използвате подходящ процесор и подходящо издание на Xeoma (модулът е наличен само в изданието Xeoma Pro). Тъй като модулът работи с аудиопоток, във веригата трябва да има източник на звук: или вграден в камерата микрофон, или отделен USB или IP микрофон.

Например, приемем, че аудиопотокът идва от самата IP камера. В този случай в Xeoma просто използвайте верига от модули: „Universal Camera“ – „Voice-to-Text“ – „Preview and Archive“:

Пример за верига с интелигентния модул Voice-to-Text

Кликнете върху иконата Voice-to-Text във веригата, за да отворите настройките на модула. Първата стъпка при работа с модула Voice-to-Text е изтеглянето на необходимите допълнителни ресурси. Процесът на изтегляне стартира автоматично при първото отваряне на настройките. Когато изтеглянето на допълнителните ресурси приключи, съобщението „Downloading in progress“ ще изчезне.

Настройки на интелигентния модул Voice-to-Text

Допълнителните ресурси съдържат масиви от данни за изкуствен интелект, на които се базира Voice-to-Text, и се изтеглят при заявка от сървърите на FelenaSoft. Те не се доставят със софтуера, за да се поддържа минимален размер на програмата, тъй като не са необходими във всички системи за видеонаблюдение.

Новите опции, които стават достъпни след завършване на изтеглянето, позволяват избора между няколко AI модела за разпознаване на глас, които ще се използват за транскрибиране на речта. Всеки модел има свои предимства и недостатъци – като правило те се различават по точност на разпознаване и ниво на натоварване на процесора. Условно те се наричат tiny, base, small, medium, large във възходящ ред спрямо размера на модела, качеството на разпознаване и натоварването на хардуера при използването им.

Настройки на интелигентния модул Voice-to-Text

В полето „Език“ изберете езика, на който ще бъде предоставен транскриптът на речта (имайте предвид, че езикът на самата реч не е необходимо да се указва).

Ако трябва да транскрибирате всички чути разговори, можете директно да отидете на отметката „Save data in CSV report“ и да я активирате. По този начин транскриптът на разговорите ще се запазва във файл с електронна таблица на диска в указаната от вас директория, което позволява интеграция с други системи, например за статистически анализи.

Освен това „Voice-to-Text“ може да открива определени фрази или думи. Посочете търсените думи или фрази в полето „Keywords for recognition“. След това модулът ще продължи да слуша цялата реч в обхвата на камерата или микрофона, но ще реагира само при откриване на ключовите думи. Свържете желания модул за реакция след модула „Voice-to-Text“, за да получавате известия, да стартирате запис или да изпращате команда в този случай.

В нашия случай като целеви модул е свързан „Preview and Archive“, така че при откриване на зададените ключови думи той ще стартира запис на потока от камерата и ще позволи търсене на епизоди с указаната ключова дума. Тази опция може също така лесно да се комбинира с опцията за записване в CSV отчет: за целта маркирайте съответното квадратче по-долу.

„Voice-to-Text“ разполага със собствен макрос – %VOICE% – който може да се използва в целеви модули като „Email Sending“, „Application Runner“ или „HTTP Request Sender“, ако искате да изпратите към тях транскрипцията на речта.

ИНТЕГРАЦИЯ С ВЪНШНИ ПРОГРАМИ

Voice-to-Text на Xeoma може да се използва и от външни програми – например за транскрибиране на VoIP разговори. Следвайки инструкциите по-долу, можете да подадете .mp3 файл на Voice-to-Text за декодиране и да получите резултата като текст. Така модулът може да се използва дори за работни станции на оператори, където няма инсталиран Xeoma или камери. Това може да се направи по два начина: чрез Xeoma API или чрез изпълнение на конзолна команда. Важно: поддържат се само .mp3 файлове.

1. API. За първия вариант трябва да използвате Xeoma API с JSON заявки. Чрез команди можете да изпратите заявка до отдалечен или локален Xeoma сървър, за да транскрибира той .mp3 файл в текст.

Например:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true"

където
„speech.mp3“ трябва да се замени с пътя до аудио файла на вашия компютър;

„192.168.0.135:10090“ трябва да се замени с IP адреса и порта (обикновено 10090) на работещ Xeoma сървър, който е подходящ за изпълнение на Voice-to-Text;

„Administrator“ трябва да остане непроменен, тъй като това е достъпно само за профила Administrator на Xeoma;

„123" трябва да се замени с паролата на администраторския профил в Xeoma;

„model=large“ е параметърът за избор на модел за разпознаване. Вижте опциите по-горе;

„denoise=true“ се добавя за активиране на шумопотискането, което в някои случаи повишава точността на разпознаването;

„en“ трябва да бъде заменен с 2-3 знакен код (вижте по-долу) на езика, на който искате да получите транскрибирания текст. Ако той се различава от езика на речта, която Voice-to-Text засича, текстът ще бъде автоматично преведен на посочения от Вас език.

Забележка: Тази заявка връща текстовата транскрипция на файла директно в конзолата или инструмента, от който изпращате заявката. Ако искате да запазите транскрипцията като текстов файл, добавете „>filename.txt“ след командата:

curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true">savetext.txt
където
savetext.txt трябва да бъде заменен с името, което желаете за файла с транскрипцията.

2. Стартиране на командата. Вторият вариант позволява разпознаване не чрез API, а локално на компютъра чрез команди, изпълнявани в конзола.

Пример:

{Path to Xeoma executable file} -speech2text file.mp3;out.log;large;en;denoise

където
„file.mp3" трябва да се замени с пътя до аудио файла на вашия компютър;

„out.log" трябва да се замени с пътя и името на резултатния текстов файл с транскрипцията;

„large" е параметърът, чрез който избирате модела за разпознаване. Вижте повече за опциите по-горе;

„en" трябва да се замени с 2–3-знаковия код (вижте по-долу) на езика, на който искате да получите транскрибирания текст. Ако той се различава от действителния език на речта, която Voice-to-Text обработва, текстът ще бъде автоматично преведен на посочения от вас език.

„denoise" се добавя, ако искате да активирате и шумопотискане, което в някои случаи повишава точността на разпознаването.

Списък с езикови кодове:

„en“: „английски“,
„zh“: „китайски“,
„de“: „немски“,
„es“: „испански“,
„ru“: „руски“,
„ko“: „корейски“,
„fr“: „френски“,
„ja“: „японски“,
„pt“: „португалски“,
„tr“: „турски“,
„pl“: „полски“,
„ca“: „каталонски“,
„nl“: „нидерландски“,
„ar“: „арабски“,
„sv“: „шведски“,
„it“: „италиански“,
„id“: „индонезийски“,
„hi“: „хинди“,
„fi“: „финландски“,
„vi“: „виетнамски“,
„he”: „иврит“,
„uk”: „украински“,
„el“: „гръцки“,
„ms“: „малайски“,
„cs“: „чешки“,
„ro“: „румънски“,
„da“: „датски“,
„hu“: „унгарски“,
„ta“: „тамилски“,
„no“: „норвежки“,
„th“: „тайландски“,
„ur“: „урду“,
„hr“: „хърватски“,
„bg“: „български“,
„lt“: „литовски“,
„la“: „латински“,
„mi“: „маори“,
„ml“: „малаялам“,
„cy“: „уелски“,
„sk“: „словашки“,
„te“: „телугу“,
„fa“: „персийски“,
„lv“: „латвийски“,
„bn“: „бенгалски“,
„sr“: „сръбски“,
„az“: „азербайджански“,
„sl“: „словенски“,
„kn“: „каннада“,
„et“: „естонски“,
„mk“: „македонски“,
„br“: „бретонски“,
„eu“: „баскски“,
„is“: „исландски“,
„hy“: „арменски“,
„ne“: „непалски“,
„mn“: „монголски“,
„bs“: „босненски“,
„kk“: „казахски“,
„sq“: „албански“,
„sw“: „суахили“,
„gl“: „галисийски“,
„mr“: „маратхи“,
„pa“: „панджаби“,
„si“: „синхала“,
„km“: „кхмерски“,
„sn“: „шона“,
„yo“: „йоруба“,
„so“: „сомалийски“,
„af“: „африкаанс“,
„oc“: „окситански“,
„ka“: „грузински“,
„be“: „белорски“,
„tg“: „таджикски“,
„sd“: „синдхи“,
„gu“: „гуджаратски“,
„am“: „амхарски“,
„yi“: „идиш“,
„lo“: „лао“,
„uz“: „узбекски“,
„fo“: „фарерски“,
„ht“: „хаитянски креол“,
„ps”: „пущу“,
„tk“: „туркменски“,
„nn”: „нюнорск“,
„mt“: „малтийски“,
„sa“: „санскрит“,
„lb“: „люксембургски“,
„my“: „бирмански“,
„bo“: „тибетски“,
„tl“: „тагалог“,
„mg“: „малгашки“,
„as“: „асамски“,
„tt“: „татарски“,
„haw“: „хавайски“,
„ln“: „лингала“,
„ha“: „хауса“,
„ba“: „башкирски“,
„jw“: „явански“,
„su“: „сундански“,
„yue“: „кантонски“.

КАК ДА ИЗПРОБВАТЕ

1. Изтеглете Xeoma от нашия уебсайт и я стартирайте. Уверете се, че сървърният компонент на Xeoma работи на машина с подходящ процесор.
Също така се уверете, че Xeoma работи в пробна версия или активирайте лиценз за Xeoma Pro, за да използвате този модул.
2. Добавете камера или изчакайте Xeoma автоматично да открие и добави камерите във вашата мрежа. Ако използвате отделен микрофон, който не е вграден в камерата, активирайте модула „Microphone“ и изберете съответния източник на звук.
3. Добавете модула “Voice-to-Text” към веригата и го конфигурирайте.
4. При нужда добавете други модули за задаване на необходимите реакции, например архивен запис, изпращане на имейл или ваша собствена реакция.
5. Готово! Вече можете да използвате изключителното интелигентно разпознаване на реч на Xeoma.

*Модулът Voice-to-Text се визуализира и работи само при следните процесори:

64-битови процесори Intel от следните серии:
-Процесори Intel Core, започвайки от четвърто поколение (включително 10+ поколения);
-Процесори XEON, започвайки от шесто поколение;
-Процесори Atom от сериите „C23“, „C25“, „C27“, „C33“, „C35“, „C37“, „C38“, „C39“, „P59“, „Z34“, „Z35“, „x5-E39“ или „x5-E8000“;
-Процесори Intel Xeon серия E5-24, i5-2450M или i7-2600.

Въпреки че този модул може да работи, използвайки процесорната мощ, се препоръчва сървърът да разполага с видеокарта.

Xeoma предлага още!
Xeoma предлага и други модули за обработка на аудио потоци:
• Microphone е модул, който позволява избора на USB микрофон или отделен IP микрофон като източник на звук.
• Sound Detector е модул за анализ на аудио потоци, който задейства реакция при надвишаване на зададеното ниво на звука.
• Sound Events Detector е интелигентен модул, способен да разпознава специфични звуци: автомобилни аларми, плач на дете, стрелба, викове, счупване на стъкло.

Гледайте видео за Voice-to-Text на Xeoma

Имате нужда от нещо допълнително? Можем да го разработим и добавим в Xeoma като платена услуга. Вижте подробности

БЕЗПЛАТЕН ТЕСТОВ ПЕРИОД НА XEOMA

Изпробвайте Xeoma безплатно! Въведете името и имейла си в полетата по-долу и кликнете бутона „Получи безплатни демо лицензи за Xeoma на имейл", за да получите лиценза.

Препоръчваме да не използвате имейли, съдържащи лични данни, и да не ни изпращате такива по друг начин. Ако въпреки това го направите, с изпращането на този формуляр потвърждавате съгласието си за обработка на личните ви данни

Имате въпроси? Нуждаете се от помощ? Моля, свържете се с нас! Ще се радваме да помогнем!

14 август 2024 г

Прочетете още:
Допълнителни модули в Xeoma
Ценоразпис на AI модулите в Xeoma