Voice-to-Text: Xeoma интелектуални модул за препознавање говора

AI-модул Voice-to-Text у софтверу за видео надзор Xeoma „слуша“ аудио стрим са камере или засебног микрофона, препознаје говор и чува транскрипт у CSV извештају или га приказује као текст преко прегледа. Такође, можете га подесити да реагује на одређене речи или фразе. Модул подржава и .mp3 аудио датотеке – снимке разговора, едукативне видео снимке итд. – транскрибујући говор у текст.
Коришћење Xeoma функције Voice-to-Text не захтева специјализовану опрему: довољни су аудио ток са било које камере или екстерног микрофона, као и стандардни рачунари и графичке картице.
![]() |
Упозорење: овај модул је доступан од верзије Xeoma 24.8.12 и налази се у beta фази, па може изоставити речи или садржати понављања. |
Модул Voice-to-Text је флексибилан алат који се може користити за различите намене:
- Контакт центри: транскрипција позива у току или снимљених разговора ради праћења усклађености са корпоративним политикама и скриптама за комуникацију
- Нега старијих: могућност тренутне реакције на позив у помоћ
- Надзор града: препознавање речи које указују на опасност у оквиру контртерористичке безбедности
- Родитељска контрола: подршка у обезбеђивању безбедности детета, заштита од вршњачког насиља или комуникације са преварантима и особама које узнемиравају
- Полиција: интеграција са телесним камерама за транскрипцију разговора између полицијског службеника и осумњиченог, као и могућност детекције опасних ситуација
- Банке, заложнице: панично дугме које не мора физички да се притисне
- Истраживање и аналитика: прикупљање статистике у позадини о учесталости употребе одређених речи и друге студије говора
- Маркетинг: анализа да ли купци расправљају о промотивној кампањи, њихове реакције на банере или огласе и сл.
- Сваки бизнис: аутоматизована контрола квалитета корисничког сервиса (на пример, детекција псовки)
- Филтрирање и аутоматизација: детекција нежељених или забрањених речи и фраза у разговорима, уз прослеђивање таквих сегмената на детаљнији преглед без потребе за слушањем целог садржаја
Као што видите, алат „Voice-to-Text“ у програму за видео надзор Xeoma примењује се у широком спектру сценарија! Он не само да повећава ниво безбедности у приватном животу, јавним просторима и комерцијалном сектору, већ доприноси и оптимизацији пословних процеса.

Без потребе за специјализованом опремом:
Могу се користити стандардни, комерцијално доступни рачунари и скоро било која камера.

Једноставна флексибилност:
Разноврсне реакције и интеграција са системима трећих страна.

Рад у реалном времену:
Обрада у реалном времену без кашњења. Извршава се искључиво на вашем рачунару.

Приступачно решење:
Модул је већ укључен у Xeoma Pro лиценце!
Пре свега, важно је напоменути да се модул приказује на листи само када серверски део Xeoma-е ради на одговарајућем хардверу. Ако не пронађете модул на листи, проверите да ли користите одговарајући процесор и одговарајуће издање Xeoma-е (модул је доступан само у оквиру Xeoma Pro издања). Пошто модул обрађује аудио ток, неопходно је имати извор звука у ланцу: било микрофон уграђен у камеру, било екстерни USB или IP микрофон.
На пример, претпоставимо да аудио ток у вашем случају стиже директно са IP камере. У том случају, једноставно користите следећи ланац модула у Xeoma-и: „Universal Camera“ – „Voice-to-Text“ – „Preview and Archive“:

Кликните на икону Voice-to-Text у ланцу како бисте отворили подешавања модула. Први корак у раду са Voice-to-Text модулом је преузимање додатних ресурса неопходних за рад. Процес преузимања почиње аутоматски при првом отварању подешавања модула. Када се преузимање заврши, порука „Downloading in progress“ ће нестати.

![]() |
Додатни ресурси садрже низове података за вештачку интелигенцију на којима се Voice-to-Text заснива и преузимају се по захтеву са FelenaSoft сервера. Они нису испоручени уз софтвер како би се задржала мала величина програма, јер нису потребни у свим CCTV системима. |
Нове опције које се појављују након преузимања додатних ресурса омогућавају избор између неколико AI модела за препознавање гласа. Сваки модел има своје предности и мане – по правилу, разликују се по прецизности препознавања и нивоу оптерећења процесора. Конвенционално се називају tiny, base, small, medium, large, редом по расту величине модела, квалитета препознавања и оптерећења хардвера.

У пољу „Language" изаберите језик на којем ће бити генерисан транскрипт говора (напомена: језик самог говора не мора се наводити).
Ако желите да транскрибујете све чујне разговоре, можете директно означити поље „Save data in CSV report". Тиме ће се транскрипти разговора чувати у фајлу табеле на диску, у директоријуму који сте навели, што омогућава интеграцију са другим системима, на пример статистичким.
Такође, „Voice-to-Text" може детектовати одређене фразе или речи. Наведите тражене речи или фразе у пољу „Keywords for recognition". Након тога, модул ће и даље слушати сав говор у близини камере или микрофона, али ће реаговати само на изговорене кључне речи. Повежите жељени модул за реакцију након модула „Voice-to-Text" да бисте у том случају примили обавештење, покренули снимање или послали команду.
У нашем случају, као одредишни модул повезан је „Preview and Archive", тако да ће при детектовању задатих кључних речи започети снимање стрима камере – и омогућити претрагу епизода са одређеном кључном речју. Ову опцију можете лако комбиновати са опцијом чувања у CSV извештај: за то означите одговарајуће поље испод.
„Voice-to-Text" има свој макро – %VOICE% – који се може користити у одредишним модулима као што су „Email Sending", „Application Runner" или „HTTP Request Sender" ако желите да им проследите транскрипцију говора.
Xeoma Voice-to-Text се може користити и из екстерних програма – на пример, за транскрипцију VoIP разговора. Пратећи упутства у наставку, можете проследити .mp3 фајл модулу Voice-to-Text на декодирање и добити резултат као текст. Стога се овај модул може користити чак и на операторским станицама где нема Xeome ни камера. То је могуће на два начина: преко Xeoma API-ја или покретањем конзолне команде. Важно: подржани су искључиво .mp3 фајлови.
1. API. За прву опцију потребно је користити Xeoma API са JSON захтевима. Помоћу команди можете послати захтев удаљеном или локалном Xeoma серверу да транскрибује .mp3 фајл у текст.
На пример:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true"
где
„speech.mp3" треба заменити путем до аудио фајла на вашем рачунару;
„192.168.0.135:10090" треба заменити IP адресом активног Xeoma сервера који подржава Voice-to-Text и његовим портом (обично 10090);
„Administrator" треба оставити непромењено, јер је ова опција доступна само за Xeoma Administrator профил;
“123” замените лозинком администраторског профила у Xeoma;
"model=large" служи за избор модела препознавања. Више о опцијама погледајте изнад;
"denoise=true" додајте ако желите да активирате уклањање шума, што у одређеним случајевима повећава тачност препознавања;
"en" замените кодом од 2–3 карактера (види ниже) за језик на којем желите да добијете транскрибовани текст. Ако се он разликује од стварног језика говора који Voice-to-Text обрађује, текст ће бити аутоматски преведен на наведени језик.
Напомена: Овим захтевом добијате транскрипцију датотеке директно у конзоли или алату којим шаљете захтев. Ако желите да сачувате транскрипцију као текстуалну датотеку, додајте ">filename.txt" на крај команде:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true">savetext.txt
где
savetext.txt замените називом који желите да датотека са транскрипцијом има.
2. Покретање команде. Друга опција омогућава препознавање не путем API-ја, већ локално на рачунару путем команди које извршавате у конзоли.
Пример:
{Path to Xeoma executable file} -speech2text file.mp3;out.log;large;en;denoise
где
"file.mp3" замените путањом до аудио датотеке на вашем рачунару;
"out.log" замените путањом и називом резултујуће текстуалне датотеке са транскрипцијом;
"large" служи за избор модела препознавања. Више о опцијама погледајте изнад;
"en" замените кодом од 2–3 карактера (види ниже) за језик на којем желите да добијете транскрибовани текст. Ако се он разликује од стварног језика говора који Voice-to-Text обрађује, текст ће бити аутоматски преведен на наведени језик.
"denoise" додајте ако желите да активирате уклањање шума, што у одређеним случајевима повећава тачност препознавања.
Листа кодова језика:
“en”: “енглески”,
“zh”: “кинески”,
“de”: “немачки”,
“es”: “шпански”,
“ru”: “руски”,
“ko”: “корејски”,
“fr”: “француски”,
“ja”: “јапански”,
“pt”: “португалски”,
“tr”: “турски”,
“pl”: “пољски”,
“ca”: “каталонски”,
“nl”: “холандски”,
“ar”: “арапски”,
“sv”: “шведски”,
“it”: “италијански”,
“id”: “индонезијски”,
“hi”: “хинди”,
“fi”: “фински”,
“vi”: “вијетнамски”,
“he”: “хебрејски”,
“uk”: “украјински”,
“el”: “грчки”,
“ms”: “малајски”,
“cs”: “чешки”,
“ro”: “румунски”,
“da”: “дански”,
“hu”: “мађарски”,
“ta”: “тамилски”,
“no”: “норвешки”,
“th”: “тајландски”,
“ur”: “урду”,
“hr”: “хрватски”,
“bg”: “бугарски”,
“lt”: “литовански”,
“la”: “латински”,
“mi”: “маори”,
“ml”: “малајалам”,
“cy”: “велшки”,
“sk”: “словачки”,
“te”: “телугу”,
“fa”: “персијски”,
“lv”: “летонски”,
“bn”: “бенгалски”,
“sr”: “српски”,
“az”: “азербејџански”,
“sl”: “словеначки”,
“kn”: “каннада”,
“et”: “естонски”,
“mk”: “македонски”,
“br”: “бретонски”,
“eu”: “баскски”,
“is”: “исландски”,
“hy”: “јерменски”,
“ne”: “непалски”,
“mn”: “монголски”,
“bs”: “босански”,
“kk”: “казахски”,
“sq”: “албански”,
“sw”: “свахили”,
“gl”: “галицијски”,
“mr”: “маратхи”,
“pa”: “панджаби”,
“si”: “синхала”,
“km”: “кмер”,
“sn”: “шона”,
“yo”: “јоруба”,
“so”: “сомалијски”,
“af”: “африкаанс”,
“oc”: “окситански”,
“ka”: “грузијски”,
“be”: “белоруски”,
“tg”: “таџикски”,
“sd”: “синди”,
“gu”: “гуџарати”,
“am”: “амхарски”,
“yi”: “јвидиш”,
“lo”: “лао”,
“uz”: “узбечки”,
“fo”: “фарејски”,
“ht”: “хајтијански креолски”,
“ps”: “пашто”,
“tk”: “туркменски”,
“nn”: “нинорск”,
“mt”: “малтезе”,
“sa”: “санскрит”,
“lb”: “луксембуршки”,
“my”: “мијанмар”,
“bo”: “тибетански”,
“tl”: “тагалог”,
“mg”: “малагашка”,
“as”: “асамски”,
“tt”: “татарски”,
“haw”: “хавајски”,
“ln”: “лингала”,
“ha”: “хауса”,
“ba”: “башкирски”,
“jw”: “јавански”,
“su”: “сундански”,
“yue”: “кантонски”.
1. Преузмите Xeoma са нашег веб-сајта и покрените је. Уверите се да серверски део Xeoma-е ради на рачунару са потребним процесором.
Такође, проверите да ли Xeoma ради у пробној верзији или активирајте Xeoma Pro лиценцу за рад са овим модулом.
2. Додајте камеру или сачекајте да Xeoma аутоматски дода камере пронађене у вашем мрежном окружењу. Ако користите засебан микрофон који није уграђен у камеру, повежите модул „Microphone“ и изаберите одговарајући извор звука.
3. Додајте модул „Voice-to-Text“ у ланац и конфигуришите га.
4. По потреби додајте остале модуле за подешавање реакција, нпр. архивирање снимка, слање имејла или сопствену реакцију.
5. Готово! Сада можете користити врхунско интелигентно препознавање говора у програму Xeoma.
![]() |
*Модул Voice-to-Text је приказен и функционише само на следећим процесорима:
Intel 64-битни процесори следећих серија: Иако овај модул може радити користећи капацитет процесора, препоручује се употреба графичке картице на серверу. |
Xeoma нуди још више!
Xeoma такође поседује остале модуле за обраду аудио стримова:
• Microphone је модул који омогућава избор USB микрофона или засебног IP микрофона као извора звука.
• Sound Detector је модул за анализу аудио стримова који покреће реакцију када ниво звука пређе задату границу.
• Sound Events Detector је интелигентни модул способан за препознавање одређених звукова: аларма на возилу, дечјег плача, пуцња, вриска, ломљаве стакла.
![]() |
Потребно вам је још нешто? Можемо то развити и интегрисати у Xeoma као плаћени Custom Development. Погледајте детаље |
Испробајте Xeoma бесплатно! У поља испод унесите име и имејл адресу на коју желите да примите лиценцу, а затим кликните на дугме „Get Xeoma free demo licenses to email“.
Молимо вас да не користите имејл адресе које садрже личне податке и да нам те податке не шаљете ни на који други начин. Ако то ипак учините, слањем овог обрасца потврђујете сагласност за обраду ваших личних података
Имате питања? Потребна вам је помоћ? Контактирајте нас! Радо ћемо вам помоћи!
14. август 2024
Прочитајте више:
Додатни модули у програму Xeoma
Ценовник AI модула у програму Xeoma
