Voice-to-Text: Xeoma kõnetuvastuse moodul

Xeoma videovalvetarkvara AI-põhine Voice-to-Text moodul „kuulab“ kaamera või eraldi mikrofoni helivoogu, tuvastab kõne ning salvestab selle ärakirja CSV-faili või kuvab tekstina eelvaate kohal. Moodulit saab seadistada reageerima ka kindlatele sõnadele või fraasidele. See töötab ka .mp3-helifailidega (näiteks vestluste salvestused, õppevideod), teisendades kõne tekstiks.
Xeoma Voice-to-Text kasutamiseks ei ole vaja spetsiaalset varustust: sobib mistahes kaamera või eraldi mikrofoni helivoog ning tavalised arvutid ja videokaardid.
![]() |
Hoiatus: see moodul on saadaval alates versioonist Xeoma 24.8.12 ja on beetaseisundis, mistõttu võib see sõnu vahele jätta või sisaldada kordusi. |
Voice-to-Text moodul on paindlik tööriist, mida saab kasutada mitme erineva eesmärgi jaoks:
- Call-centerid: jooksvate kõnede või salvestiste transkribeerimine, et kontrollida ettevõtte poliitika ja kõneskriptide järgimist
- Eakate hooldus: võimalus reageerida koheselt abihüüdele
- Linnavalve: terrorismivastases julgeolekus ohtu ennustavate sõnade tuvastamine
- Vanemlik järelevalve: lapse ohutuse tagamine, kaitse kiusamise, petturite või ahistajate eest
- Politsei: keha külge kinnitatud kaameratega politseiniku ja kahtlusaluse vestluste transkribeerimine ning ohtlike olukordade tuvastamine
- Pangad ja pantilaamad: panikkanupp, mida ei ole vaja füüsiliselt vajutada
- Uuringud ja analüüs: statistika kogumine sõnade kasutussageduse kohta ja muud kõneanalüüsid
- Turundus: selgitamine, kas kliendid arutavad reklaamikampaaniat, ning nende reaktsiooni analüüs bänneritele või reklaamile
- Iga ettevõte: klienditeeninduse kvaliteedi automatiseeritud kontroll (näiteks roppuste tuvastamine)
- Filtreerimine ja automatiseerimine: soovimatute või keelatud sõnade ja fraaside tuvastamine vestlustes ning selliste lõikude suunamine täpsemaks kontrolliks, ilma et peaks kuulama kõiki vestlusi
Nagu näete, on Xeoma videovalvetarkvara tööriist „Voice-to-Text“ rakendatav väga laias spektris. See ei tõsta turvataset ainult eraelus, linnakeskkonnas ja kodanike seas ning ärisektoris, vaid aitab ka äriprotsesse optimeerida.

Spetsiaalset varustust ei nõuta:
Sobivad tavalised arvutid ja peaaegu iga kaamera.

Lihtne ja paindlik:
Erinevad reaktsioonid ja integratsioon kolmandate osapoolte süsteemidega.

Reaaegne töö:
Töötab reaalajas ilma viivitusteta. Töötlemine toimub ainult teie arvutis.

Kättesaadav lahendus:
Moodul on juba Xeoma Pro litsentsidesse kaasatud!
Kõigepealt tuleb märkida, et moodul kuvatakse moodulite loendis ainult siis, kui Xeoma serveriosa töötab sobival riistvaral. Kui moodulit loendist ei leia, veenduge, et kasutate sobivat protsessorit ja Xeoma versiooni (moodul on saadaval ainult Xeoma Pro versioonis). Kuna moodul töötab helivooluga, peab ahelas olema heliallikas: kas kaamerasse sisseehitatud mikrofon või eraldi USB- või IP-mikrofon.
Oletame näiteks, et helivoog tuleb teie puhul IP-kaamerast endast. Sel juhul looge Xeomas moodulite ahel: „Universal Camera“ – „Voice-to-Text“ – „Preview and Archive“:

Klõpsake ahelas Voice-to-Text ikoonil, et avada mooduli seaded. Voice-to-Text mooduliga töötamise esimene samm on vajalike täiendavate ressursside allalaadimine. Allalaadimine algab automaatselt mooduli seadete esmakordsel avamisel. Kui täiendavate ressursside allalaadimine on lõppenud, kaob teade "Downloading in progress".

![]() |
Täiendavad ressursid sisaldavad tehisintellekti andmemassiive, millel Voice-to-Text põhineb, ja need laaditakse nõudmisel alla FelenaSofti serveritest. Et hoida tarkvara mahtu väiksena, ei kaasata neid installatsioonipaketti, kuna mitte kõik videovalvesüsteemid ei vaja neid. |
Pärast täiendavate ressursside allalaadimist avanevad uued valikud, mis võimaldavad valida mitme tehisintellektil põhineva kõnetuvastusmudeli vahel. Igal mudelil on oma tugevused ja nõrkused – reeglina erinevad need tuvastustäpsuse ja protsessori koormuse poolest. Mudelid on kasvava suuruse, tuvastuskvaliteedi ja riistvarakoormuse järjekorras nimetatud: tiny, base, small, medium, large.

Valige väljal "Language" keel, milles esitatakse kõne transkriptsioon (märkus: kõne keelt ennast määrata ei ole vaja).
Kui soovite transkribeerida kõik kuuldavad vestlused, minge otse märkeruuduni "Save data in CSV report" ja märkige see. Sel juhul salvestatakse vestluste transkriptsioonid teie määratud kataloogi arvutikettal tabelfailina, mille saab integreerida teiste süsteemidega, näiteks statistikasüsteemidega.
Samuti suudab "Voice-to-Text" tuvastada kindlaid fraase või sõnu. Sisestage otsitavad sõnad või fraasid väljale "Keywords for recognition". Moodul kuulab küll kogu kõnet kaamera või mikrofoni ulatuses, kuid reageerib vaid märksõnade tuvastamisele. Ühendage pärast "Voice-to-Text" moodulit soovitud reaktsioonimoodul, et saada teavitus, alustada salvestamist või saata käsk.
Meie näites on sihtmoodulina ühendatud "Preview and Archive", mistõttu algab määratud märksõnade tuvastamisel kaameravoogu salvestamine ja hiljem saab otsida vastava märksõnaga lõike. Seda funktsiooni saab hõlpsalt kombineerida CSV-faili salvestamise valikuga: selleks märkige allpool vastav ruut.
Moodulil "Voice-to-Text" on oma makro – %VOICE% –, mida saab kasutada sihtmoodulites nagu "Email Sending", "Application Runner" või "HTTP Request Sender", kui soovite nendesse edastada kõne transkriptsiooni.
Xeoma Voice-to-Text moodulit saab kasutada ka välistest programmidest – näiteks VoIP-vestluste transkribeerimiseks. Järgides allolevaid juhiseid, saate edastada Voice-to-Text moodulile dekodeerimiseks .mp3-faili ja saada tulemuse tekstina. Seega sobib moodul kasutamiseks ka operaatortööjaamades, kus Xeoma või kaameraid pole. Seda saab teha kahel viisil: Xeoma API kaudu või konsoolikäsuga. Tähtis: toetatud on ainult .mp3-failid.
1. API. Esimese variandi puhul tuleb kasutada Xeoma API-t koos JSON-päringutega. Käskude abil saate saata päringu kaug- või kohalikule Xeoma serverile, et transkribeerida .mp3-fail tekstiks.
Näiteks:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true"
kus
"speech.mp3" tuleb asendada teie arvutis oleva helifaili teega;
"192.168.0.135:10090" tuleb asendada töökorras Xeoma serveri IP-aadressi ja pordiga, mis sobib Voice-to-Text mooduli käivitamiseks (tavaliselt 10090);
"Administrator" jäta muutmata, kuna see on saadaval ainult Xeoma administraatori profiilile;
“123” asendage Xeoma administraatori profiili parolaga;
"model=large" kohale valige äratundmismudel. Vaadake ülalpool olevaid valikuid lähemalt;
"denoise=true" lisage, kui soovite aktiveerida müra summutamise, mis mõnel juhul aitab tõsta äratundmise täpsust;
"en" asendage 2–3-märgilise koodiga (vt allpool) keele jaoks, milles soovite transkribeeritud teksti saada. Kui see erineb tegelikust kõnekeelest, mida Voice-to-Text kuulatleb, tõlgitakse tekst automaatselt teie määratud keelde.
Märkus: See päring väljastab faili tekstilise transkriptsiooni otse konsooli või tööriista, mida kasutate päringu saatmiseks. Kui soovite transkriptsiooni salvestada tekstifailina, lisage käsu lõppu ">failinimi.txt":
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true">savetext.txt
kus
savetext.txt asendage soovitud transkriptsioonifaili nimega.
2. Käsü käivitamine. Teine võimalus võimaldab teostada äratundmist mitte API kaudu, vaid lokaalselt arvutis, kasutades konsoolis käivitatavaid käske.
Näide:
{Path to Xeoma executable file} -speech2text file.mp3;out.log;large;en;denoise
kus
“file.mp3” asendage arvutis asuva helifaili teega;
“out.log” asendage tulemusfaili teega ja nimega;
"large" kohale valige äratundmismudel. Vaadake ülalpool olevaid valikuid lähemalt;
"en" asendage 2–3-märgilise koodiga (vt allpool) keele jaoks, milles soovite transkribeeritud teksti saada. Kui see erineb tegelikust kõnekeelest, mida Voice-to-Text kuulatleb, tõlgitakse tekst automaatselt teie määratud keelde.
"denoise" lisage, kui soovite aktiveerida müra summutamise, mis mõnel juhul aitab tõsta äratundmise täpsust.
Keelekoodide loend:
“en”: “inglise”,
“zh”: “hiina”,
“de”: “saksa”,
"es": "hispaania",
“ru”: “vene”,
“ko”: “korea”,
“fr”: “prantsuse”,
“ja”: “jaapani”,
“pt”: “portugali”,
“tr”: “türgi”,
"pl": "poola",
“ca”: “katalaani”,
“nl”: “hollandi”,
“ar”: “araabia”,
“sv”: “rootsi”,
“it”: “itaalia”,
“id”: “indoneesia”,
“hi”: “hindi”,
“fi”: “soome”,
“vi”: “vietnami”,
“he”: “hebraia”,
“uk”: “ukraina”,
“el”: “kreeka”,
“ms”: “malai”,
“cs”: “tshehi”,
“ro”: “rumeeni”,
“da”: “taani”,
“hu”: “ungari”,
“ta”: “tamil”,
“no”: “norra”,
“th”: “thai”,
“ur”: “urdu”,
“hr”: “kroadi”,
“bg”: “bulgaaria”,
“lt”: “leedu”,
“la”: “ladina”,
“mi”: “maori”,
“ml”: “malajalam”,
“cy”: “kymri”,
“sk”: “slovaki”,
“te”: “telugu”,
“fa”: “pärsia”,
“lv”: “läti”,
“bn”: “bengali”,
“sr”: “serbia”,
“az”: “azerbaidžani”,
“sl”: “sloveeni”,
“kn”: “kannada”,
“et”: “eesti”,
“mk”: “makedoonia”,
“br”: “bretoon”,
“eu”: “baski”,
“is”: “islandi”,
“hy”: “armeenia”,
“ne”: “nepali”,
“mn”: “mongolia”,
“bs”: “bosnia”,
“kk”: “kasahti”,
“sq”: “albaania”,
“sw”: “suahili”,
“gl”: “galitsia”,
“mr”: “marathi”,
“pa”: “pandžabi”,
“si”: “sinhala”,
“km”: “khmer”,
“sn”: “shona”,
“yo”: “yoruba”,
“so”: “soomali”,
“af”: “afrikaans”,
“oc”: “oksitaan”,
“ka”: “gruzii”,
"be": "valgevene",
“tg”: “tadžiki”,
“sd”: “sindhi”,
“gu”: “gujarati”,
“am”: “amehari”,
“yi”: “jidiš”,
"lo": "lao",
“uz”: “usbeki”,
“fo”: “fääre”,
“ht”: “Haiti kreool”,
“ps”: “paštu”,
“tk”: “türkmeeni”,
“nn”: “nynorsk”,
“mt”: “malta”,
“sa”: “sanskrit”,
“lb”: “lüksemburgi”,
“my”: “myanmar”,
“bo”: “tibeti”,
“tl”: “tagalog”,
“mg”: “malagasi”,
“as”: “assamesi”,
“tt”: “tatar”,
“haw”: “hawai”,
“ln”: “lingala”,
“ha”: “hausa”,
“ba”: “baškir”,
“jw”: “jaava”,
“su”: “sundaneesi”,
"yue": "kantoni".
1. Laadige Xeoma meie veebisaidilt ja käivitage see. Veenduge, et Xeoma serveriosa töötab masinas, millel on nõutav protsessor.
Samuti veenduge, et Xeoma töötab prooviversioonis, või aktiveerige Xeoma Pro litsents selle mooduli kasutamiseks.
2. Lisage kaamera või oodake, kuni Xeoma lisab võrgust leitud kaamerad automaatselt. Kui kasutate eraldi mikrofoni, mis ei ole kaamerasse integreeritud, ühendage moodul „Mikrofon" ja valige sobiv heliallikas.
3. Lisage ahelasse moodul „Kõne tekstiks“ ja konfigureerige see.
4. Vajadusel lisage teisi mooduleid soovitud reaktsioonide seadistamiseks, nt arhiivi salvestamine, e-kirja saatmine või teie enda loodud reaktsioon.
5. Valmis! Nüüd saate kasutada Xeoma tipptasemel intellektuaalset kõnetuvastust.
![]() |
*Moodul „Kõne tekstiks“ on nähtav ja toimiv ainult järgmiste protsessoritega:
Intel 64-bit protsessorid järgmistest sarjadest: Kuigi moodul suudab töötada protsessori ressursse kasutades, on serverisse soovitatav paigaldada videokaart. |
Xeomal on veelgi!
Xeoma pakub ka teisi helivoolide töötlemise mooduleid:
• Mikrofon on moodul, mis võimaldab valida heliallikaks USB-mikrofoni või eraldi IP-mikrofoni.
• Helidetektor on moodul, mis võimaldab analüüsida helivooli ja käivitada tegevuse, kui helitase ületab määratud piiri.
• Helisündmuste detektor on intelligentne moodul, mis suudab ära tunda kindlaid helisid: autosignaali, lapse nuttu, laske, karjeid, klaasi purunemist.
![]() |
Vajate midagi muud? Saame selle arendada ja Xeomasse lisada tasulise kohandatud lahendusena. Vaata lähemalt |
Proovige Xeoma tasuta! Sisestage allpool oma nimi ja e-posti aadress, kuhu litsents saata, ning klõpsake nuppu „Saada Xeoma tasuta demo-litsentsid meilile“.
Palume vältida isikuandmeid sisaldavate e-kirjade kasutamist ja isikuandmete saatmist muul viisil. Vormi esitamisega kinnitate oma nõusolekut isikuandmete töötlemiseks
Küsimusi? Vajate abi? Võtke meiega ühendust! Aitame hea meelega!
14. august 2024
Loe lähemalt:
Xeoma lisamoodulid
Xeoma AI-põhiste moodulite hinnakiri
