Voice-to-Text: Xeoma

Voice-to-Text: Xeomin inteligentni modul za prepoznavanje govora

AI Voice-to-Text AI modul Voice-to-Text u softveru za video nadzor Xeoma „sluša" audiozapis s kamere ili zasebnog mikrofona, prepoznaje govor te sprema njegov transkript u CSV izvještaj ili ga prikazuje kao tekst preko pregleda. Alternativno, možete ga konfigurirati da reagira na određene riječi ili fraze. Modul radi i s .mp3 audiozapisima – snimkama razgovora, edukacijskih videa itd. – transkribirajući govor u tekst.

Rad s Xeoma Voice-to-Text modulom ne zahtijeva specijaliziranu opremu: prikladan je audio stream s bilo koje kamere ili zasebnog mikrofona, kao i standardna računala i grafičke kartice.

Upozorenje: ovaj je modul dostupan od verzije Xeoma 24.8.12 i nalazi se u beta fazi, stoga može izostaviti riječi ili stvarati petlje.

Isprobaj demo

Kupnja

Saznaj više

SCENARIJI PRIMJENE

Modul Voice-to-Text fleksibilan je alat za različite namjene:

Call centri: transkripcija trenutnih poziva ili snimki poziva radi nadzora usklađenosti s politikama tvrtke i skriptama razgovora
Njega starijih: mogućnost trenutne reakcije na vapaj za pomoć
Nadzor gradova: prepoznavanje riječi koje ukazuju na opasnost u kontekstu antiterorističke sigurnosti
Roditeljski nadzor: pomoć u osiguravanju sigurnosti djeteta, zaštita od vršnjačkog nasilja te komunikacije s prevarantima i zlostavljačima
Policija: dio opreme tjelesnih kamera za transkripciju razgovora između policajca i osumnjičenika te mogućnost detekcije opasne situacije
Banke i posudionice: panic gumb koji ne zahtijeva fizički pritisak
Istraživanje i analitika: automatsko prikupljanje statistike o učestalosti korištenja različitih riječi i druge govorne studije
Marketing: utvrđivanje raspravljaju li kupci o promotivnoj kampanji, analiza njihovih reakcija na banere ili oglase itd.
Bilo koja djelatnost: automatizirana kontrola kvalitete korisničke podrške (npr. detekcija psovanja)
Filtriranje i automatizacija: detekcija neželjenih ili zabranjenih riječi i fraza u razgovorima te preusmjeravanje takvih trenutaka na detaljniju provjeru, bez potrebe za slušanjem svih razgovora

Kao što vidite, alat „Voice-to-Text" u Xeoma softveru za video nadzor primjenjiv je u širokom spektru scenarija! Ne samo da podiže razinu sigurnosti u privatnom životu, gradovima i za građane te u komercijalnom sektoru, već i optimizira poslovne procese.

PREDNOSTI VOICE-TO-TEXT MODULA:

Bez potrebe za posebnom opremom:
Mogu se koristiti standardna računala i gotovo bilo koja kamera.

Prednosti Voice-to-Text modula: fleksibilnost i univerzalnost

Potpuna fleksibilnost:
Različite reakcije i integracija sa sustavima trećih strana.

Prednosti Voice-to-Text modula: rad u stvarnom vremenu

Rad u stvarnom vremenu:
Obrada u stvarnom vremenu, bez kašnjenja. Radi isključivo na vašem računalu.

Prednosti Voice-to-Text modula: pristupačna cijena

Pristupačno rješenje:

Modul je već uključen u Xeoma Pro licence!

KAKO RADI:

Prije svega, važno je napomenuti da se modul prikazuje u popisu samo kada serverski dio Xeome radi na odgovarajućem hardveru. Ako ne pronađete modul, provjerite koristite li odgovarajući procesor i izdanje Xeome (modul je dostupan samo u izdanju Xeoma Pro). Budući da modul obrađuje audiozapis, u lancu morate imati izvor zvuka: ugrađeni mikrofon u kameri ili zaseban USB ili IP mikrofon.

Na primjer, pretpostavimo da audiozapis u vašem slučaju dolazi izravno iz IP kamere. U tom slučaju u Xeomi jednostavno koristite lanac modula „Universal Camera” – „Voice-to-Text” – „Preview and Archive”:

Primjer lanca s inteligentnim Voice-to-Text modulom

Kliknite na ikonu Voice-to-Text u lancu kako biste otvorili postavke modula. Prvi korak pri radu s modulom Voice-to-Text jest preuzimanje dodatnih resursa potrebnih za njegov rad. Preuzimanje započinje automatski pri prvom otvaranju postavki modula. Kada se preuzimanje dodatnih resursa završi, poruka „Downloading in progress" nestat će.

Postavke inteligentnog Voice-to-Text modula

Dodatni resursi sadrže podatkovne nizove za umjetnu inteligenciju na kojoj se temelji Voice-to-Text i preuzimaju se na zahtjev sa servera tvrtke FelenaSoft. Nisu uključeni u osnovni softver kako bi se smanjila veličina programa jer nisu potrebni u svim sustavima video nadzora.

Nakon završetka preuzimanja resursa dostupne su nove opcije koje omogućuju odabir između nekoliko AI modela za prepoznavanje glasa. Svaki model ima svoje prednosti i nedostatke – uglavnom se razlikuju po točnosti prepoznavanja i opterećenju procesora. Konvencionalno se nazivaju tiny, base, small, medium, large, redom prema rastućoj veličini modela, kvaliteti prepoznavanja i opterećenju hardvera.

Postavke inteligentnog Voice-to-Text modula

U polju „Language" odaberite jezik na kojem će biti generiran transkript govora (napomena: jezik samog govora nije potrebno navoditi).

Ako želite transkribirati sve čujne razgovore, označite kvačicu „Save data in CSV report”. Na taj način će se transkripcija razgovora spremiti u tabličnu datoteku u odabrani direktorij na disku, što omogućuje integraciju u druge sustave, primjerice statističke.

Modul „Voice-to-Text" može i detektirati određene fraze ili riječi. U polje „Keywords for recognition" unesite tražene riječi ili fraze. Modul će i dalje slušati sav govor u blizini kamere ili mikrofona, ali će reagirati samo na ključne riječi. Nakon modula „Voice-to-Text" povežite željeni modul reakcije kako biste u tom slučaju primili obavijest, pokrenuli snimanje ili poslali naredbu.

U ovom slučaju kao odredišni modul koristi se „Preview and Archive", stoga će pri detekciji zadanih ključnih riječi započeti snimanje streama kamere, što omogućuje pretraživanje epizoda s određenom ključnom riječi. Ovu opciju možete jednostavno kombinirati s opcijom spremanja u CSV izvještaj: za to označite odgovarajući potvrdni okvir u nastavku.

„Voice-to-Text” ima vlastiti makro – %VOICE% – koji se može koristiti u odredišnim modulima kao što su „Email Sending”, „Application Runner” ili „HTTP Request Sender” ako želite u njih poslati transkripciju govora.

INTEGRACIJA S VANJSKIM PROGRAMIMA

Xeoma Voice-to-Text može se koristiti i iz vanjskih programa – primjerice, za transkripciju VoIP razgovora. Prateći upute u nastavku, možete proslijediti .mp3 datoteku modulu Voice-to-Text na dekodiranje i dobiti rezultat u tekstualnom obliku. Tako se ovaj modul može koristiti i na radnim stanicama operatora gdje nisu instalirani Xeoma ili kamere. To je moguće na dva načina: putem Xeoma API-ja ili pokretanjem konzolne naredbe. Važno: podržane su samo .mp3 datoteke.

1. API. Za prvu opciju koristite Xeoma API s JSON zahtjevima. Pomoću naredbi možete poslati zahtjev udaljenom ili lokalnom Xeoma serveru da transkribira .mp3 datoteku u tekst.

Primjer:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true"

gdje
„speech.mp3" zamijenite putanjom do audio datoteke na vašem računalu;

„192.168.0.135:10090" zamijenite IP adresom aktivnog Xeoma servera na kojem je pokrenut Voice-to-Text i njegovim portom (obično 10090);

„Administrator" ostavite nepromijenjeno jer je ova opcija dostupna samo za profil Xeoma Administrator;

“123” zamijenite lozinkom administratorskog profila u Xeomi;

„model=large” služi za odabir modela za prepoznavanje. Detaljnije opcije pogledajte iznad;

„denoise=true” aktivira noise cancellation koji u određenim slučajevima povećava točnost prepoznavanja;

„en" zamijenite kodom od 2–3 znaka (vidi niže) za jezik u kojem želite primiti transkribirani tekst. Ako se on razlikuje od jezika govora koji Voice-to-Text obrađuje, sadržaj će biti automatski preveden na navedeni jezik.

Napomena: Ovaj zahtjev ispisuje transkripciju datoteke izravno u konzolu ili alat koji koristite za slanje zahtjeva. Za spremanje transkripcije u tekstualnu datoteku, dodajte „>filename.txt” nakon naredbe:

curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true">savetext.txt
gdje
savetext.txt zamijenite željenim nazivom datoteke s transkripcijom.

2. Pokretanje naredbe. Druga opcija omogućuje prepoznavanje ne putem API-ja, već lokalno na računalu putem naredbi koje izvršavate u konzoli.

Primjer:

{Path to Xeoma executable file} -speech2text file.mp3;out.log;large;en;denoise

gdje
“file.mp3” zamijenite putanjom do audiozapisa na vašem računalu;

"out.log" zamijenite putanjom i nazivom rezultirajuće tekstualne datoteke s transkripcijom;

“large” služi za odabir modela prepoznavanja. Detaljnije informacije o opcijama potražite iznad;

"en" zamijenite 2–3-slovnim kodom (vidi ispod) jezika na kojem želite primiti transkribirani tekst. Ako se on razlikuje od stvarnog jezika govora koji Voice-to-Text obrađuje, tekst će biti automatski preveden na jezik koji ste naveli.

“denoise” uključite ako želite aktivirati poništavanje šuma, što u određenim slučajevima povećava točnost prepoznavanja.

Popis kodova jezika:

“en”: “engleski”,
“zh”: “kineski”,
“de”: “njemački”,
“es”: “španjolski”,
“ru”: “ruski”,
“ko”: “korejski”,
“fr”: “francuski”,
“ja”: “japanski”,
“pt”: “portugalski”,
“tr”: “turski”,
“pl”: “poljski”,
“ca”: “katalonski”,
“nl”: “nizozemski”,
“ar”: “arapski”,
“sv”: “švedski”,
“it”: “talijanski”,
“id”: “indonezijski”,
“hi”: “hindi”,
“fi”: “finski”,
“vi”: “vijetnamski”,
“he”: “hebrejski”,
“uk”: “ukrajinski”,
“el”: “grčki”,
“ms”: “malajski”,
“cs”: “češki”,
“ro”: “rumunjski”,
“da”: “danski”,
“hu”: “mađarski”,
“ta”: “tamilski”,
“no”: “norveški”,
“th”: “tajlandski”,
“ur”: “urdu”,
“hr”: “hrvatski”,
“bg”: “bugarski”,
“lt”: “litvanski”,
“la”: “latinski”,
“mi”: “maorski”,
“ml”: “malajalamski”,
“cy”: “velški”,
“sk”: “slovački”,
“te”: “telugu”,
“fa”: “perzijski”,
"lv": "latvijski",
“bn”: “bengalski”,
“sr”: “srpski”,
“az”: “azerbajdžanski”,
"sl": "slovenski",
“kn”: “kannada”,
“et”: “estonski”,
“mk”: “makedonski”,
“br”: “bretonski”,
“eu”: “baskijski”,
“is”: “islandski”,
“hy”: “armenjski”,
“ne”: “nepalski”,
“mn”: “mongolski”,
“bs”: “bosanski”,
"kk": "kazaški",
“sq”: “albanski”,
“sw”: “svahili”,
“gl”: “galicijski”,
"mr": "maratski",
“pa”: “pandžabski”,
“si”: “sinhalski”,
“km”: “khmerski”,
“sn”: “shona”,
“yo”: “yoruba”,
“so”: “somalijski”,
“af”: “afrikaans”,
“oc”: “oksitanski”,
“ka”: “gruzijski”,
“be”: “beloruski”,
“tg”: “tadziki”,
“sd”: “sindhi”,
“gu”: “gujarati”,
“am”: “amharški”,
“yi”: “jidiš”,
“lo”: “laoski”,
"uz": "uzbečki",
“fo”: “farerski”,
“ht”: “haitansko-kreolski”,
“ps”: “paštu”,
“tk”: “turkmenski”,
“nn”: “nynorsk”,
“mt”: “malteški”,
“sa”: “sanskrit”,
“lb”: “luksemburški”,
“my”: “myanmarski”,
“bo”: “tibetanski”,
“tl”: “tagalog”,
“mg”: “malagaški”,
“as”: “asamski”,
“tt”: “tatar”,
“haw”: “hawajski”,
“ln”: “lingala”,
“ha”: “hausa”,
“ba”: “baškir”,
“jw”: “javanski”,
“su”: “sundanski”,
“yue”: “kantonski”.

POSTUPAK TESTIRANJA

1. Preuzmite Xeomu s naše web-stranice i pokrenite je. Provjerite radi li serverski dio Xeome na računalu s potrebnim procesorom.
Također provjerite radi li Xeoma u probnoj verziji ili aktivirajte Xeoma Pro licencu za rad s ovim modulom.
2. Dodajte kameru ili pričekajte da Xeoma automatski doda kamere pronađene u vašoj mreži. Ako koristite zaseban mikrofon koji nije ugrađen u kameru, povežite modul „Microphone" i odaberite odgovarajući izvor zvuka.
3. Dodajte modul “Voice-to-Text” u lanac i konfigurirajte ga.
4. Po potrebi dodajte ostale module za definiranje reakcija, npr. arhiviranje snimke, slanje e-pošte ili vlastitu reakciju.
5. Gotovo! Sada možete koristiti Xeomin vrhunski sustav za inteligentno prepoznavanje govora.

*Modul „Voice-to-Text” prikazuje se i radi samo na sljedećim procesorima:

Intel 64-bitni procesori sljedećih serija:
- procesori Intel Core počevši od 4. generacije (uključujući 10+ generacija);
- procesori XEON počevši od 6. generacije;
- procesori Atom serija „C23", „C25", „C27", „C33", „C35", „C37", „C38", „C39", „P59", „Z34", „Z35", „x5-E39" ili „x5-E8000";
- procesori Intel Xeon serije E5-24, i5-2450M ili i7-2600.

Iako ovaj modul može raditi koristeći snagu procesora, na poslužitelju se preporučuje grafička kartica.

Xeoma nudi više!
Xeoma nudi i ostale module za obradu audio streamova:
• Microphone je modul koji omogućuje odabir USB mikrofona ili zasebnog IP mikrofona kao izvora zvuka.
• Sound Detector je modul za analizu audio streamova koji aktivira reakciju kada razina zvuka premaši zadano ograničenje.
• Sound Events Detector je inteligentni modul sposoban prepoznati specifične zvukove: alarme automobila, plač djeteta, pucnje, vriske, razbijanje stakla.

Pogledajte videozapis o Xeominom modulu Voice-to-Text

Trebate nešto drugo? Možemo to razviti i integrirati u Xeomu kroz Custom Development. Pogledajte detalje

BESPLATNA PROBNA VERZIJA XEOME

Isprobajte Xeomu besplatno! U polja ispod unesite svoje ime i e-adresu za primitak licence, a zatim kliknite gumb „Get Xeoma free demo licenses to email”.

Molimo vas da izbjegavate korištenje e-adresa koje sadrže osobne podatke, kao i slanje osobnih podataka na bilo koji drugi način. Ako to učinite, slanjem ovog obrasca potvrđujete svoj pristanak na obradu vaših osobnih podataka

Imate pitanja? Trebate pomoć? Kontaktirajte nas! Rado ćemo vam pomoći!

14. kolovoza 2024

Pročitajte više:
Dodatni moduli u Xeomi
Cjenik AI modula u Xeomi