← Tagasi artiklitele

Voice-to-Text: Xeoma kõnetuvastuse moodul

Kõne tekstiks: Xeoma intelligentne kõnetuvastuse moodul

 


AI-põhine „Kõne tekstiks“ Xeoma videovalvetarkvara AI-põhine Voice-to-Text moodul „kuulab“ kaamera või eraldi mikrofoni helivoogu, tuvastab kõne ning salvestab selle ärakirja CSV-faili või kuvab tekstina eelvaate kohal. Moodulit saab seadistada reageerima ka kindlatele sõnadele või fraasidele. See töötab ka .mp3-helifailidega (näiteks vestluste salvestused, õppevideod), teisendades kõne tekstiks.

Xeoma Voice-to-Text kasutamiseks ei ole vaja spetsiaalset varustust: sobib mistahes kaamera või eraldi mikrofoni helivoog ning tavalised arvutid ja videokaardid.

Nõuanne Xeoma videovalvetarkvaralt Hoiatus: see moodul on saadaval alates versioonist Xeoma 24.8.12 ja on beetaseisundis, mistõttu võib see sõnu vahele jätta või sisaldada kordusi.

 

 

KASUTUSSENAARIUMID

Voice-to-Text moodul on paindlik tööriist, mida saab kasutada mitme erineva eesmärgi jaoks:

  • Call-centerid: jooksvate kõnede või salvestiste transkribeerimine, et kontrollida ettevõtte poliitika ja kõneskriptide järgimist
  • Eakate hooldus: võimalus reageerida koheselt abihüüdele
  • Linnavalve: terrorismivastases julgeolekus ohtu ennustavate sõnade tuvastamine
  • Vanemlik järelevalve: lapse ohutuse tagamine, kaitse kiusamise, petturite või ahistajate eest
  • Politsei: keha külge kinnitatud kaameratega politseiniku ja kahtlusaluse vestluste transkribeerimine ning ohtlike olukordade tuvastamine
  • Pangad ja pantilaamad: panikkanupp, mida ei ole vaja füüsiliselt vajutada
  • Uuringud ja analüüs: statistika kogumine sõnade kasutussageduse kohta ja muud kõneanalüüsid
  • Turundus: selgitamine, kas kliendid arutavad reklaamikampaaniat, ning nende reaktsiooni analüüs bänneritele või reklaamile
  • Iga ettevõte: klienditeeninduse kvaliteedi automatiseeritud kontroll (näiteks roppuste tuvastamine)
  • Filtreerimine ja automatiseerimine: soovimatute või keelatud sõnade ja fraaside tuvastamine vestlustes ning selliste lõikude suunamine täpsemaks kontrolliks, ilma et peaks kuulama kõiki vestlusi

Nagu näete, on Xeoma videovalvetarkvara tööriist „Voice-to-Text“ rakendatav väga laias spektris. See ei tõsta turvataset ainult eraelus, linnakeskkonnas ja kodanike seas ning ärisektoris, vaid aitab ka äriprotsesse optimeerida.

 

VOICE-TO-TEXT MOODULI EELISED:
Mooduli „Kõne tekstiks" eelised: sobib igale seadmele
Spetsiaalset varustust ei nõuta:
Sobivad tavalised arvutid ja peaaegu iga kaamera.
Mooduli „Kõne tekstiks" eelised: paindlik ja universaalne
Lihtne ja paindlik:
Erinevad reaktsioonid ja integratsioon kolmandate osapoolte süsteemidega.
Mooduli „Kõne tekstiks" eelised: reaalajas töötlemine
Reaaegne töö:
Töötab reaalajas ilma viivitusteta. Töötlemine toimub ainult teie arvutis.
Mooduli „Kõne tekstiks" eelised: taskukohane hind
Kättesaadav lahendus:

Moodul on juba Xeoma Pro litsentsidesse kaasatud!

 

KUIDAS SEE TOIMIB:

Kõigepealt tuleb märkida, et moodul kuvatakse moodulite loendis ainult siis, kui Xeoma serveriosa töötab sobival riistvaral. Kui moodulit loendist ei leia, veenduge, et kasutate sobivat protsessorit ja Xeoma versiooni (moodul on saadaval ainult Xeoma Pro versioonis). Kuna moodul töötab helivooluga, peab ahelas olema heliallikas: kas kaamerasse sisseehitatud mikrofon või eraldi USB- või IP-mikrofon.

Oletame näiteks, et helivoog tuleb teie puhul IP-kaamerast endast. Sel juhul looge Xeomas moodulite ahel: „Universal Camera“ – „Voice-to-Text“ – „Preview and Archive“:

Näide ahelast koos intelligentsel mooduliga „Kõne tekstiks“

Klõpsake ahelas Voice-to-Text ikoonil, et avada mooduli seaded. Voice-to-Text mooduliga töötamise esimene samm on vajalike täiendavate ressursside allalaadimine. Allalaadimine algab automaatselt mooduli seadete esmakordsel avamisel. Kui täiendavate ressursside allalaadimine on lõppenud, kaob teade "Downloading in progress".

Intelligentsel moodulil „Kõne tekstiks“ seaded

 

Nõuanne Xeoma videovalvetarkvaralt Täiendavad ressursid sisaldavad tehisintellekti andmemassiive, millel Voice-to-Text põhineb, ja need laaditakse nõudmisel alla FelenaSofti serveritest. Et hoida tarkvara mahtu väiksena, ei kaasata neid installatsioonipaketti, kuna mitte kõik videovalvesüsteemid ei vaja neid.

 

Pärast täiendavate ressursside allalaadimist avanevad uued valikud, mis võimaldavad valida mitme tehisintellektil põhineva kõnetuvastusmudeli vahel. Igal mudelil on oma tugevused ja nõrkused – reeglina erinevad need tuvastustäpsuse ja protsessori koormuse poolest. Mudelid on kasvava suuruse, tuvastuskvaliteedi ja riistvarakoormuse järjekorras nimetatud: tiny, base, small, medium, large.

Intelligentsel moodulil „Kõne tekstiks“ seaded

Valige väljal "Language" keel, milles esitatakse kõne transkriptsioon (märkus: kõne keelt ennast määrata ei ole vaja).

Kui soovite transkribeerida kõik kuuldavad vestlused, minge otse märkeruuduni "Save data in CSV report" ja märkige see. Sel juhul salvestatakse vestluste transkriptsioonid teie määratud kataloogi arvutikettal tabelfailina, mille saab integreerida teiste süsteemidega, näiteks statistikasüsteemidega.

Samuti suudab "Voice-to-Text" tuvastada kindlaid fraase või sõnu. Sisestage otsitavad sõnad või fraasid väljale "Keywords for recognition". Moodul kuulab küll kogu kõnet kaamera või mikrofoni ulatuses, kuid reageerib vaid märksõnade tuvastamisele. Ühendage pärast "Voice-to-Text" moodulit soovitud reaktsioonimoodul, et saada teavitus, alustada salvestamist või saata käsk.

Meie näites on sihtmoodulina ühendatud "Preview and Archive", mistõttu algab määratud märksõnade tuvastamisel kaameravoogu salvestamine ja hiljem saab otsida vastava märksõnaga lõike. Seda funktsiooni saab hõlpsalt kombineerida CSV-faili salvestamise valikuga: selleks märkige allpool vastav ruut.

Moodulil "Voice-to-Text" on oma makro – %VOICE% –, mida saab kasutada sihtmoodulites nagu "Email Sending", "Application Runner" või "HTTP Request Sender", kui soovite nendesse edastada kõne transkriptsiooni.

 

INTEGRATSIOON VÄLISTE PROGRAMMIDEGA

Xeoma Voice-to-Text moodulit saab kasutada ka välistest programmidest – näiteks VoIP-vestluste transkribeerimiseks. Järgides allolevaid juhiseid, saate edastada Voice-to-Text moodulile dekodeerimiseks .mp3-faili ja saada tulemuse tekstina. Seega sobib moodul kasutamiseks ka operaatortööjaamades, kus Xeoma või kaameraid pole. Seda saab teha kahel viisil: Xeoma API kaudu või konsoolikäsuga. Tähtis: toetatud on ainult .mp3-failid.

1. API. Esimese variandi puhul tuleb kasutada Xeoma API-t koos JSON-päringutega. Käskude abil saate saata päringu kaug- või kohalikule Xeoma serverile, et transkribeerida .mp3-fail tekstiks.

Näiteks:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true"

kus
"speech.mp3" tuleb asendada teie arvutis oleva helifaili teega;

"192.168.0.135:10090" tuleb asendada töökorras Xeoma serveri IP-aadressi ja pordiga, mis sobib Voice-to-Text mooduli käivitamiseks (tavaliselt 10090);

"Administrator" jäta muutmata, kuna see on saadaval ainult Xeoma administraatori profiilile;

“123” asendage Xeoma administraatori profiili parolaga;

"model=large" kohale valige äratundmismudel. Vaadake ülalpool olevaid valikuid lähemalt;

"denoise=true" lisage, kui soovite aktiveerida müra summutamise, mis mõnel juhul aitab tõsta äratundmise täpsust;

"en" asendage 2–3-märgilise koodiga (vt allpool) keele jaoks, milles soovite transkribeeritud teksti saada. Kui see erineb tegelikust kõnekeelest, mida Voice-to-Text kuulatleb, tõlgitakse tekst automaatselt teie määratud keelde.

Märkus: See päring väljastab faili tekstilise transkriptsiooni otse konsooli või tööriista, mida kasutate päringu saatmiseks. Kui soovite transkriptsiooni salvestada tekstifailina, lisage käsu lõppu ">failinimi.txt":

curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true">savetext.txt
kus
savetext.txt asendage soovitud transkriptsioonifaili nimega.

 

2. Käsü käivitamine. Teine võimalus võimaldab teostada äratundmist mitte API kaudu, vaid lokaalselt arvutis, kasutades konsoolis käivitatavaid käske.

Näide:

{Path to Xeoma executable file} -speech2text file.mp3;out.log;large;en;denoise

kus
“file.mp3” asendage arvutis asuva helifaili teega;

“out.log” asendage tulemusfaili teega ja nimega;

"large" kohale valige äratundmismudel. Vaadake ülalpool olevaid valikuid lähemalt;

"en" asendage 2–3-märgilise koodiga (vt allpool) keele jaoks, milles soovite transkribeeritud teksti saada. Kui see erineb tegelikust kõnekeelest, mida Voice-to-Text kuulatleb, tõlgitakse tekst automaatselt teie määratud keelde.

"denoise" lisage, kui soovite aktiveerida müra summutamise, mis mõnel juhul aitab tõsta äratundmise täpsust.

Keelekoodide loend:

“en”: “inglise”,
“zh”: “hiina”,
“de”: “saksa”,
"es": "hispaania",
“ru”: “vene”,
“ko”: “korea”,
“fr”: “prantsuse”,
“ja”: “jaapani”,
“pt”: “portugali”,
“tr”: “türgi”,
"pl": "poola",
“ca”: “katalaani”,
“nl”: “hollandi”,
“ar”: “araabia”,
“sv”: “rootsi”,
“it”: “itaalia”,
“id”: “indoneesia”,
“hi”: “hindi”,
“fi”: “soome”,
“vi”: “vietnami”,
“he”: “hebraia”,
“uk”: “ukraina”,
“el”: “kreeka”,
“ms”: “malai”,
“cs”: “tshehi”,
“ro”: “rumeeni”,
“da”: “taani”,
“hu”: “ungari”,
“ta”: “tamil”,
“no”: “norra”,
“th”: “thai”,
“ur”: “urdu”,
“hr”: “kroadi”,
“bg”: “bulgaaria”,
“lt”: “leedu”,
“la”: “ladina”,
“mi”: “maori”,
“ml”: “malajalam”,
“cy”: “kymri”,
“sk”: “slovaki”,
“te”: “telugu”,
“fa”: “pärsia”,
“lv”: “läti”,
“bn”: “bengali”,
“sr”: “serbia”,
“az”: “azerbaidžani”,
“sl”: “sloveeni”,
“kn”: “kannada”,
“et”: “eesti”,
“mk”: “makedoonia”,
“br”: “bretoon”,
“eu”: “baski”,
“is”: “islandi”,
“hy”: “armeenia”,
“ne”: “nepali”,
“mn”: “mongolia”,
“bs”: “bosnia”,
“kk”: “kasahti”,
“sq”: “albaania”,
“sw”: “suahili”,
“gl”: “galitsia”,
“mr”: “marathi”,
“pa”: “pandžabi”,
“si”: “sinhala”,
“km”: “khmer”,
“sn”: “shona”,
“yo”: “yoruba”,
“so”: “soomali”,
“af”: “afrikaans”,
“oc”: “oksitaan”,
“ka”: “gruzii”,
"be": "valgevene",
“tg”: “tadžiki”,
“sd”: “sindhi”,
“gu”: “gujarati”,
“am”: “amehari”,
“yi”: “jidiš”,
"lo": "lao",
“uz”: “usbeki”,
“fo”: “fääre”,
“ht”: “Haiti kreool”,
“ps”: “paštu”,
“tk”: “türkmeeni”,
“nn”: “nynorsk”,
“mt”: “malta”,
“sa”: “sanskrit”,
“lb”: “lüksemburgi”,
“my”: “myanmar”,
“bo”: “tibeti”,
“tl”: “tagalog”,
“mg”: “malagasi”,
“as”: “assamesi”,
“tt”: “tatar”,
“haw”: “hawai”,
“ln”: “lingala”,
“ha”: “hausa”,
“ba”: “baškir”,
“jw”: “jaava”,
“su”: “sundaneesi”,
"yue": "kantoni".

 

TESTIMISE JUHEND

1. Laadige Xeoma meie veebisaidilt ja käivitage see. Veenduge, et Xeoma serveriosa töötab masinas, millel on nõutav protsessor.
Samuti veenduge, et Xeoma töötab prooviversioonis, või aktiveerige Xeoma Pro litsents selle mooduli kasutamiseks.
2. Lisage kaamera või oodake, kuni Xeoma lisab võrgust leitud kaamerad automaatselt. Kui kasutate eraldi mikrofoni, mis ei ole kaamerasse integreeritud, ühendage moodul „Mikrofon" ja valige sobiv heliallikas.
3. Lisage ahelasse moodul „Kõne tekstiks“ ja konfigureerige see.
4. Vajadusel lisage teisi mooduleid soovitud reaktsioonide seadistamiseks, nt arhiivi salvestamine, e-kirja saatmine või teie enda loodud reaktsioon.
5. Valmis! Nüüd saate kasutada Xeoma tipptasemel intellektuaalset kõnetuvastust.

 

Nõuanne Xeoma videovalvetarkvaralt *Moodul „Kõne tekstiks“ on nähtav ja toimiv ainult järgmiste protsessoritega:

Intel 64-bit protsessorid järgmistest sarjadest:
-Intel Core protsessorid alates 4. põlvkonnast (sh 10+ põlvkonnad);
-XEON protsessorid alates 6. põlvkonnast;
-Atom protsessorid sarjadest „C23“, „C25“, „C27“, „C33“, „C35“, „C37“, „C38“, „C39“, „P59“, „Z34“, „Z35“, „x5-E39“ või „x5-E8000“;
-Intel Xeon E5-24 seeria, i5-2450M või i7-2600 protsessorid.

Kuigi moodul suudab töötada protsessori ressursse kasutades, on serverisse soovitatav paigaldada videokaart.

 
Xeomal on veelgi!
Xeoma pakub ka teisi helivoolide töötlemise mooduleid:
Mikrofon on moodul, mis võimaldab valida heliallikaks USB-mikrofoni või eraldi IP-mikrofoni.
Helidetektor on moodul, mis võimaldab analüüsida helivooli ja käivitada tegevuse, kui helitase ületab määratud piiri.
Helisündmuste detektor on intelligentne moodul, mis suudab ära tunda kindlaid helisid: autosignaali, lapse nuttu, laske, karjeid, klaasi purunemist.
 

 

Vaadake videot Xeoma funktsiooni „Kõne tekstiks" kohta

 

Oluline nõuanne termokaamerate andmete kohta Vajate midagi muud? Saame selle arendada ja Xeomasse lisada tasulise kohandatud lahendusena. Vaata lähemalt

 

 
XEOMA TASUTA PROOVIVERSIOON

Proovige Xeoma tasuta! Sisestage allpool oma nimi ja e-posti aadress, kuhu litsents saata, ning klõpsake nuppu „Saada Xeoma tasuta demo-litsentsid meilile“.




Palume vältida isikuandmeid sisaldavate e-kirjade kasutamist ja isikuandmete saatmist muul viisil. Vormi esitamisega kinnitate oma nõusolekut isikuandmete töötlemiseks
 

 

Küsimusi? Vajate abi? Võtke meiega ühendust! Aitame hea meelega!

14. august 2024

Loe lähemalt:
Xeoma lisamoodulid
Xeoma AI-põhiste moodulite hinnakiri