← Atgal į straipsnius

Balsas į tekstą: Xeoma intelektualus kalbos atpažinimo modulis

Balso konvertavimas į tekstą: intelektualus Xeoma kalbos atpažinimo modulis

 


AI pagrįstas balso konvertavimas į tekstą Xeoma vaizdo stebėjimo programinės įrangos AI „Balsas į tekstą" modulis „klausosi" garso srauto iš kameros ar atskiro mikrofono, atpažįsta kalbą ir išsaugo jos transkripciją CSV ataskaitoje arba uždeda kaip tekstą ant peržiūros vaizdo. Taip pat galima nustatyti reakciją į konkrečius žodžius ar frazes. Modulis gali apdoroti ir .mp3 garso failus – pokalbių įrašus, mokomuosius vaizdo įrašus ir kt. – konvertuodamas kalbą į tekstą.

Dirbant su Xeoma „Balsas į tekstą" moduliu nereikia specialios įrangos: tinkamas bet kurios kameros ar atskiro mikrofono garso srautas, standartiniai kompiuteriai ir vaizdo plokštės.

Xeoma vaizdo stebėjimo programos patarimai Įspėjimas: šis modulis prieinamas nuo Xeoma 24.8.12 versijos ir yra beta stadijoje, todėl gali praleisti žodžius arba kartoti frazes.

 

 

NAUDOJIMO SCENARIJAI

„Balsas į tekstą" modulis yra lankstus įrankis, kurį galima naudoti įvairiems tikslams:

  • Skambučių centrai: vykdomų skambučių arba jų įrašų transkripcija, siekiant stebėti atitiktį įmonės politikai ir pokalbių scenarijams
  • Pagalba senyvo amžiaus žmonėms: galimybė akimirksniu reaguoti į pagalbos šauksmą
  • Miesto stebėjimas: žodžių, keliančių pavojų, atpažinimas užtikrinant antiteroristinį saugumą
  • Tėvų kontrolė: pagalba užtikrinant vaiko saugumą, apsauga nuo patyčių, bendravimo su sukčiais ar seksualiniais nusikaltėliais
  • Policija: kūno kamerų dalis, skirta pokalbių tarp policijos pareigūno ir įtariamojo transkripcijai bei pavojingų situacijų aptikimui
  • Bankai, lombardai: panikos mygtukas, kurio nereikia spausti fiziškai
  • Tyrimai ir analitika: foninis statistikos rinkimas apie įvairių žodžių vartojimo dažnumą ir kiti su kalba susiję tyrimai
  • Rinkodara: išsiaiškinimas, ar klientai aptaria reklaminę kampaniją, kokia jų reakcija į reklaminius stendus ar skelbimus ir kt.
  • Bet kokia verslo veikla: automatizuota klientų aptarnavimo kokybės kontrolė (pvz., vulgarumų aptikimas)
  • Filtravimas ir automatizavimas: nepageidaujamų ar draudžiamų žodžių ir frazių aptikimas pokalbiuose ir specifinių epizodų nukreipimas detalesnei peržiūrai be poreikio klausytis visų įrašų

Kaip matyti, Xeoma vaizdo stebėjimo programos „Balsas į tekstą“ įrankis pritaikomas daugybei scenarijų! Jis ne tik didina saugumą privačiam gyvenimui, miestui ir gyventojams bei komerciniam sektoriui, bet ir optimizuoja verslo procesus.

 

„BALSO Į TEKSTĄ" MODULIO PRIVALUMAI:
„Balso konvertavimo į tekstą“ modulio privalumai: suderinamumas su bet kokia įranga
Nereikia specialios įrangos:
Galima naudoti standartinius, paprastai pasiekiamus kompiuterius ir beveik bet kurią kamerą.
„Balso konvertavimo į tekstą“ modulio privalumai: lankstumas ir universalumas
Lankstumas:
Įvairios reakcijos, integracija su trečiųjų šalių sistemomis.
„Balso konvertavimo į tekstą“ modulio privalumai: veikimas realiuoju laiku
Darbas realiu laiku:
Veikimas realiu laiku be vėlavimų. Veikia tik jūsų kompiuteryje.
„Balso konvertavimo į tekstą“ modulio privalumai: prieinama kaina
Įperkamas sprendimas:

Modulis jau įtrauktas į Xeoma Pro licencijas!

 

KAIP TAI VEIKIA:

Pirmiausia svarbu pažymėti, kad modulis sąraše rodomas tik tada, kai Xeoma serverio dalis veikia tinkamoje įrangoje. Jei modulio nerandate, įsitikinkite, kad naudojate tinkamą procesorių ir Xeoma versiją (modulis prieinamas tik Xeoma Pro versijoje). Kadangi modulis dirba su garso srautu, grandinėje turi būti garso šaltinis: arba į kamerą integruotas mikrofonas, arba atskiras USB ar IP mikrofonas.

Pavyzdžiui, tarkime, kad garso srautas jūsų atveju ateina iš pačios IP kameros. Tokiu atveju Xeoma programoje tiesiog naudokite modulių grandinę: „Universal Camera" – „Voice-to-Text" – „Preview and Archive":

Grandinės su „Balso konvertavimo į tekstą“ intelektualiuoju moduliu pavyzdys

Spustelėkite grandinėje esančią „Voice-to-Text" piktogramą, kad atidarytumėte modulio nustatymus. Pirmas žingsnis dirbant su „Voice-to-Text" moduliu – atsisiųsti papildomus išteklius, būtinus jo veikimui. Atsisiuntimas prasidės automatiškai pirmą kartą atidarius modulio nustatymus. Kai papildomų išteklių atsisiuntimas bus baigtas, pranešimas „Downloading in progress" dings.

„Balso konvertavimo į tekstą“ intelektualiojo modulio nustatymai

 

Xeoma vaizdo stebėjimo programos patarimai Papildomi ištekliai – tai dirbtinio intelekto, kuriuo grindžiamas „Voice-to-Text", duomenų masyvai; jie pagal poreikį atsisiunčiami iš „Felenasoft" serverių. Siekiant išlaikyti mažą programos dydį, šie ištekliai nėra pateikiami kartu su programine įranga, nes jie yra reikalingi ne visose vaizdo stebėjimo sistemose.

 

Baigus atsisiųsti papildomus išteklius, atsiranda naujų parinkčių, leidžiančių pasirinkti vieną iš kelių dirbtinio intelekto pagrindu veikiančių balso atpažinimo modelių. Kiekvienas modelis turi savo privalumų ir trūkumų – paprastai jie skiriasi atpažinimo tikslumu ir procesoriaus apkrova. Didėjimo tvarka pagal modelio dydį, atpažinimo kokybę ir aparatinės įrangos apkrovą jie vadinami tiny, base, small, medium, large.

„Balso konvertavimo į tekstą“ intelektualiojo modulio nustatymai

„Kalba“ laukelyje pasirinkite kalbą, kuria bus pateikiamas kalbos transkriptas (pastebėkite, kad pačios kalbos nurodyti nereikia).

Jei reikia transkribuoti visus girdimus pokalbius, tiesiog pažymėkite varnelę „Save data in CSV report". Tuomet pokalbių transkriptai bus išsaugomi CSV formatu jūsų nurodytame disko aplanke, todėl juos galima integruoti į kitas, pvz., statistines sistemas.

Be to, „Voice-to-Text" gali aptikti tam tikras frazes arba žodžius. Ieškomus žodžius ar frazes įveskite laukelyje „Keywords for recognition". Po to modulis toliau klausysis visos kalbos šalia kameros ar mikrofono, tačiau reaguos tik išgirdęs raktinius žodžius. Kad gautumėte pranešimą, pradėtumėte įrašymą arba išsiųstumėte komandą, po „Voice-to-Text" modulio prijunkite norimą reakcijos modulį.

Mūsų atveju kaip paskirties modulis prijungtas „Preview and Archive", todėl aptikus nustatytus raktinius žodžius, pradedamas kameros srauto įrašymas ir galima ieškoti epizodų pagal nurodytą raktinį žodį. Šią funkciją taip pat galima lengvai derinti su išsaugojimu į CSV ataskaitą: tam tereikia pažymėti atitinkamą varnelę žemiau.

„Voice-to-Text" turi savo makrokomandą – %VOICE% – kurią galima naudoti paskirties moduliuose, pvz., „Email Sending", „Application Runner" arba „HTTP Request Sender", jei norite į juos siųsti kalbos transkripciją.

 

INTEGRACIJA SU IŠORINĖMIS PROGRAMOMIS

„Xeoma" „Voice-to-Text" taip pat galima naudoti iš išorinių programų – pavyzdžiui, transkribuojant VoIP pokalbius. Vadovaudamiesi toliau pateiktomis instrukcijomis, galite pateikti .mp3 failą „Voice-to-Text" dekodavimui ir gauti rezultatą kaip tekstą. Taigi šį modulį galima naudoti net operatoriaus darbo stotyse, kuriose nėra „Xeoma" ar kamerų. Tai galima padaryti dviem būdais: per „Xeoma API" arba paleidus konsolės komandą. Svarbu: palaikomi tik .mp3 failai.

1. API. Pirmuoju atveju reikia naudoti Xeoma API su JSON užklausomis. Komandomis galite siųsti užklausą nuotoliniam arba vietiniam „Xeoma" serveriui, kad šis transkribuotų .mp3 failą į tekstą.

Pavyzdžiui:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true"

kur
vietoj „speech.mp3" įrašykite garso failo kelią savo kompiuteryje;

vietoj „192.168.0.135:10090" įrašykite veikiančio „Xeoma" serverio, kuriame palaikomas „Voice-to-Text", IP adresą ir prievadą (dažniausiai 10090);

„Administrator" palikite nepakeistą, nes ši funkcija prieinama tik „Xeoma" administratoriaus profiliui;

„123“ pakeiskite Xeoma administratoriaus profilio slaptažodžiu;

„model=large“ vietoje pasirinkite atpažinimo modelį. Daugiau apie pasirinkimus skaitykite aukščiau;

„denoise=true“ įtraukite, jei norite įjungti triukšmo slopinimą, kuris kai kuriais atvejais padeda padidinti atpažinimo tikslumą;

„en" pakeiskite 2–3 simbolių kalbos kodu (žiūrėkite žemiau), kuria norite gauti transkribuotą tekstą. Jei jis skiriasi nuo faktinės kalbos, kurią analizuoja „Voice-to-Text", tekstas bus automatiškai išverstas į jūsų nurodytą kalbą.

Pastaba: ši užklausa grąžins failo teksto transkripciją tiesiai į konsolę arba į tą įrankį, iš kurio siunčiate užklausą. Jei norite transkripciją išsaugoti kaip teksto failą, po komandos pridėkite „>filename.txt":

curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true">savetext.txt
kur
savetext.txt pakeiskite norimu transkripcijos failo pavadinimu.

 

2. Paleidimo komanda. Antrasis variantas leidžia atlikti atpažinimą ne per API, o lokaliai kompiuteryje, naudojant konsolės komandas.

Pavyzdys:

{Path to Xeoma executable file} -speech2text file.mp3;out.log;large;en;denoise

kur
„file.mp3“ pakeiskite keliu į garso failą savo kompiuteryje;

„out.log“ pakeiskite keliu ir pavadinimu į gautą transkripcijos teksto failą;

„large“ vietoje pasirinkite atpažinimo modelį. Daugiau apie pasirinkimus skaitykite aukščiau;

„en" pakeiskite 2–3 simbolių kalbos kodu (žiūrėkite žemiau), kuria norite gauti transkribuotą tekstą. Jei jis skiriasi nuo faktinės kalbos, kurią analizuoja „Voice-to-Text", tekstas bus automatiškai išverstas į jūsų nurodytą kalbą.

„denoise“ įtraukite, jei norite įjungti triukšmo slopinimą, kuris kai kuriais atvejais padeda padidinti atpažinimo tikslumą.

Kalbų kodų sąrašas:

„en“: „anglių“,
„zh“: „kinų“,
„de“: „vokiečių“,
„es“: „ispanų“,
„ru“: „rusų“,
„ko“: „korėjų“,
„fr“: „prancūzų“,
„ja“: „japonų“,
„pt“: „portugalų“,
„tr“: „turkų“,
„pl“: „lenkų“,
„ca“: „katalonų“,
„nl“: „olandų“,
„ar“: „arabių“,
„sv“: „švedų“,
„it“: „italų“,
„id“: „indoneziečių“,
„hi“: „hindi“,
„fi“: „suomi“,
„vi“: „vietnamiečių“,
„he“: „hebrajų“,
„uk“: „ukrainiečių“,
„el": „graikų",
„ms“: „malaizių“,
„cs“: „čechų“,
„ro“: „rumunų“,
„da“: „danų“,
„hu“: „ungarių“,
„ta“: „tamilų“,
„no“: „norvegų“,
„th“: „tajų“,
„ur“: „urdu“,
„hr“: „kroatų“,
„bg“: „bulgarų“,
„lt“: „lietuvių“,
„la“: „lotynų“,
„mi“: „maorių“,
„ml“: „malajalam“,
„cy“: „valio“,
„sk“: „slovakų“,
„te“: „telugu“,
„fa“: „persų“,
„lv“: „latvių“,
„bn“: „bengalų“,
„sr“: „serbų“,
„az“: „azerbaijanų“,
„sl“: „slovenų“,
„kn“: „kannada“,
„et“: „estų“,
„mk“: „makedonų“,
„br“: „bretonų“,
„eu“: „baskų“,
„is“: „islandų“,
„hy“: „armenų“,
„ne“: „nepalų“,
„mn“: „mongolų“,
„bs“: „bosnų“,
„kk“: „kazachų“,
„sq“: „albanų“,
„sw“: „suahili“,
„gl“: „galicų“,
„mr“: „marathi“,
„pa“: „pandžabų“,
„si“: „sinhala“,
„km“: „khmerų“,
„sn“: „shona“,
„yo“: „yoruba“,
„so“: „somali“,
„af“: „afrikans“,
„oc“: „oksitanų“,
„ka“: „gruzinų“,
„be“: „baltarusų“,
„tg“: „tadžikų“,
„sd“: „sindi“,
„gu“: „gudžaratų“,
„am“: „amharų“,
„yi“: „yidiš“,
„lo“: „laos“,
„uz“: „uzbekų“,
„fo“: „farerų“,
„ht“: „haicio kreolų“,
„ps“: „pašto“,
„tk“: „turkmenų“,
„nn“: „nynorsk“,
„mt“: „malto“,
„sa“: „sanskrito“,
„lb“: „liuksemburgo“,
„my“: „myanmar“,
„bo“: „tibeto“,
„tl“: „tagalog“,
„mg“: „malagasių“,
„as“: „asamos“,
„tt“: „tatarų“,
„haw“: „havajiečių“,
„ln“: „lingala“,
„ha“: „hausa“,
„ba“: „baškirų“,
„jw“: „javiečių“,
„su“: „sundaniečių“,
„yue“: „kantoniečių“.

 

KAIP IŠBANDYTI

1. Atsisiųskite Xeoma iš mūsų svetainės ir paleiskite. Įsitikinkite, kad Xeoma serverio dalis veikia kompiuteryje su reikiamu procesoriu.
Taip pat įsitikinkite, kad Xeoma veikia bandomojoje („Trial") versijoje, arba aktyvuokite Xeoma Pro licenciją, kad galėtumėte naudotis šiuo moduliu.
2. Pridėkite kamerą arba palaukite, kol Xeoma automatiškai aptiks ir pridės tinklo kameras. Jei reikia naudoti atskirą, į kamerą neįmontuotą mikrofoną, prijunkite „Mikrofono“ modulį ir pasirinkite tinkamą garso šaltinį.
3. Į grandinę įdėkite „Balso konvertavimo į tekstą“ modulį ir sukonfigūruokite jį.
4. Jei reikia, pridėkite kitus modulius, kad nustatytumėte reikiamas reakcijas, pvz., įrašymą į archyvą, el. pašto siuntimą arba savo reakciją.
5. Baigta! Dabar galite naudotis išskirtine Xeoma intelektu deregulation kalbos atpažinimo funkcija.

 

Xeoma vaizdo stebėjimo programos patarimai *„Balso konvertavimo į tekstą“ modulis rodomas ir veikia tik šiuose procesoriuose:

Intel 64 bitų šio tipo procesoriai:
-IntelCore procesoriai nuo 4-os kartos (įskaitant 10+ kartas);
-XEON procesoriai nuo 6-os kartos;
-Atom procesoriai „C23“, „C25“, „C27“, „C33“, „C35“, „C37“, „C38“, „C39“, „P59“, „Z34“, „Z35“, „x5-E39“ arba „x5-E8000“ serijų;
-Intel Xeon E5-24 serijos, i5-2450M arba i7-2600 procesoriai.

Nors šis modulis gali veikti naudojantis CPU galia, rekomenduojama, kad serverio kompiuteryje būtų vaizdo plokštė.

 
Xeoma gali dar daugiau!
Xeoma taip pat siūlo kitus garso srautų apdorojimo modulius:
Mikrofonas – modulis, leidžiantis garso šaltiniu pasirinkti USB mikrofoną arba atskirą IP mikrofoną.
Garso detektorius – modulis, leidžiantis analizuoti garso srautus ir aktyvuoti reakciją, kai garso lygis viršija nustatytą ribą.
Garso įvykių detektorius – intelektualus modulis, gebantis atpažinti konkrečius garsus: automobilių signalizacijas, vaiko verksmą, šūvius, rėksmą, stiklo dūžimą.
 

 

Žiūrėti vaizdo įrašą apie Xeoma „Balso konvertavimą į tekstą“

 

Svarbus patarimas dėl šiluminių kamerų duomenų Reikia ko nors daugiau? Galime tai sukurti ir įtraukti į Xeoma kaip mokamą paslaugą. Sužinokite daugiau

 

 

NEMOKAMA XEOMA BANDOMOJI VERSIJA

Išbandykite Xeoma nemokamai! Toliau esančiuose laukeliuose įveskite savo vardą ir el. pašto adresą, kuriuo norite gauti licenciją, ir spustelėkite mygtuką „Gauti nemokamas Xeoma bandomąsias licencijas el. paštu“.




Prašome nenaudoti el. pašto adresų, kuriuose yra asmens duomenų, ir nesiųsti mums asmens duomenų jokiais kitais būdais. Jei vis tiek tai darote, pateikdami šią formą patvirtinate savo sutikimą tvarkyti jūsų asmens duomenis
 

 

Turite klausimų? Reikia pagalbos? Susisiekite su mumis! Mielai padėsime!

2024 m. rugpjūčio 14 d

Skaityti daugiau:
Papildomi Xeoma moduliai
AI pagrįstų Xeoma modulių kainoraštis