← Atpakaļ uz rakstiem

Voice-to-Text: Xeomas intelektuālais runas atpazīšanas modulis

Voice-to-Text: Xeoma intelektuālais runas atpazīšanas modulis

 


AI Voice-to-Text Xeomas videonovērošanas programmatūras AI vadītais Voice-to-Text modulis "klausās" audio plūsmi no kameras vai atsevišķa mikrofona, uztver runu un saglabā tās transkriptu CSV ziņojumā vai uzliek to kā tekstu priekšskatījumam. Alternatīvi, to var iestatīt, lai reaģētu uz konkrētiem vārdiem vai frāzēm. Modulis darbojas arī ar .mp3 audio failiem – sarunu ierakstiem, mācību video utt. –, pārvēršot runu tekstā.

Xeomas Voice-to-Text izmantošana neprasa specializētu aprīkojumu: derīga ir audio plūsma no jebkuras kameras vai atsevišķa mikrofona, kā arī standarta dators un video grafikas karte.

Padomi no Xeoma videonovērošanas programmas Brīdinājums: šis modulis ir pieejams, sākot no Xeoma 24.8.12, un atrodas beta stadijā, tāpēc tas var izlaist vārdus vai radīt atkārtojumus.

 

 

IZMANTOŠANAS SCENĀRIJI

Voice-to-Text modulis ir elastīgs rīks, ko var izmantot dažādiem mērķiem:

  • Zvanu centrs: notiekošo zvanu vai to ierakstu transkripcija, lai kontrolētu atbilstību uzņēmuma politikai un sarunu scenārijiem
  • Gados vecāku cilvēku aprūpe: iespēja acumirklī reaģēt uz palīdzības saucienu
  • Pilsētas novērošana: tādu vārdu atpazīšana, kas liecina par bīstamību pretterorisma drošības kontekstā
  • Vecāku kontrole: palīdzība bērna drošības nodrošināšanā, aizsardzība pret mobingu vai komunikāciju ar krāpniekiem un izvirtuļiem
  • Policija: ķermeņa kameru sastāvdaļa sarunu transkripcijai starp policistu un aizdomās turamo, kā arī bīstamu situāciju noteikšanai
  • Bankas, lombardi: panikas poga, ko nav nepieciešams fiziski nospiest
  • Pētniecība un analītika: fona režīmā veikta statistikas vākšana par dažādu vārdu lietošanas biežumu un citi runas pētījumi
  • Mārketings: klientu diskusiju analīze par reklāmas kampaņām, reakcija uz baneriem vai sludinājumiem u.c.
  • Jebkurš bizness: klientu apkalpošanas kvalitātes automatizēta kontrole (piemēram, lamājumu noteikšana)
  • Filtrešana un automatizācija: nevēlamu vai aizliegtu vārdu un frāžu noteikšana sarunās, novirzot konkrētus epizodes detalizētākai izvērtēšanai, neklausoties visus ierakstus

Kā redzams, Xeomas videonovērošanas programmas rīks “Voice-to-Text” izmantojams plašā scenāriju klāstā! Tas ne tikai uzlabo drošību privātajā dzīvē, pilsētas telpā un komerciālajā sfērā, bet arī optimizē biznesa procesus.

 

VOICE-TO-TEXT MODUĻA PRIEKŠROCĪBAS:
Voice-to-Text moduļa priekšrocības: saderība ar jebkuru aprīkojumu
Nav nepieciešams īpašs aprīkojums:
Var izmantot standarta datorus un gandrīz jebkuru kameru.
Voice-to-Text moduļa priekšrocības: elastība un universālums
Ērta pielāgojamība:
Dažādas reakcijas, integrācija ar trešo pušu sistēmām.
Voice-to-Text moduļa priekšrocības: darbība reāllaikā
Darbs reāllaikā:
Apstrāde reāllaikā bez aizkavējumiem. Darbojas tikai jūsu datorā.
Voice-to-Text moduļa priekšrocības: pieejama cena
Pieejams risinājums:

Modulis jau ir iekļauts Xeoma Pro licencēs!

 

KĀ TAS DARBOJAS:

Vispirms jānorāda, ka modulis sarakstā parādās tikai tad, ja Xeomas servera daļa darbojas uz piemērotas aparatūras. Ja modulis nav atrodams, pārliecinieties, ka izmantojat piemērotu procesoru un Xeomas versiju (modulis pieejams tikai Xeoma Pro izdevumā). Tā kā modulis strādā ar audio plūsmu, ķēdē ir nepieciešams skaņas avots: kamerā iebūvēts mikrofons vai atsevišķs USB vai IP mikrofons.

Piemēram, pieņēmsim, ka audio plūsme nāk no pašas IP kameras. Šajā gadījumā Xeomā vienkārši izmantojiet moduļu ķēdi: “Universal Camera” – “Voice-to-Text” – “Preview and Archive”:

Ķēdes paraugs ar Voice-to-Text intelektuālo moduli

Noklikšķiniet uz Voice-to-Text ikonas ķēdē, lai atvērtu moduļa iestatījumus. Pirmais solis darbā ar Voice-to-Text moduli ir papildu resursu lejupielāde, kas nepieciešami tā darbībai. Lejupielāde sāksies automātiski, tiklīdz pirmo reizi atvērsiet moduļa iestatījumus. Kad papildu resursu lejupielāde būs pabeigta, paziņojums "Downloading in progress" pazudīs.

Voice-to-Text intelektuālā moduļa iestatījumi

 

Padomi no Xeoma videonovērošanas programmas Papildu resursi satur AI datu kopumus, uz kuriem balstās Voice-to-Text, un tie tiek lejupielādāti pie pieprasījuma no FelenaSoft serveriem. Tie netiek pievienoti programmatūrai, lai samazinātu instalācijas apjomu, jo tie nav nepieciešami visās CCTV sistēmās.

 

Jaunās opcijas, kas kļūst pieejamas pēc resursu lejupielādes, ļauj izvēlēties vienu no vairākiem AI balss atpazīšanas modeļiem. Katram modelim ir savas priekšrocības un trūkumi – parasti tie atšķiras atpazīšanas precizitātes līmenī un procesora slodzes apjomā. Modeļi ir nosaukti pēc izmēra, kvalitātes un aparatūras slodzes pieauguma: tiny, base, small, medium, large.

Voice-to-Text intelektuālā moduļa iestatījumi

Laukā "Language" izvēlieties valodu, kurā tiks ģenerēts runas transkripts (ņemiet vērā, ka pašas runas valodu norādīt nav nepieciešams).

Lai transkribētu visas dzirdamās sarunas, vienkārši atzīmējiet izvēles rūtiņu "Save data in CSV report". Sarunu transkripts tiks saglabāts izklājlapas failā jūsu norādītajā mapē, ko var integrēt citās sistēmās, piemēram, statistikas analīzes rīkos.

Tāpat “Voice-to-Text” var atpazīt konkrētas frāzes vai vārdus. Norādiet meklējamus vārdus vai frāzes laukā “Keywords for recognition”. Modulis turpinās klausīties visai runai kameras vai mikrofona tuvumā, taču reaģēs tikai uz atslēgvārdiem. Pievienojiet vajadzīgo reakcijas moduli pēc “Voice-to-Text” moduļa, lai saņemtu paziņojumu, uzsāktu ierakstu vai nosūtītu komandu.

Šajā piemēram pievienots “Preview and Archive” modulis kā galamērķis, tādēļ, atpazinot norādītos atslēgvārdus, tiks uzsākts kameras plūdes ieraksts – tas ļauj meklēt epizodes pēc konkrēta atslēgvārda. Šo iespēju var viegli kombinēt ar CSV ziņojuma saglabāšanu: lai to izdarītu, atzīmējiet attiecīgo rūtiņu zemāk.

"Voice-to-Text" piedāvā savu makro – %VOICE% – ko var izmantot galamērķu moduļos, piemēram, "Email Sending", "Application Runner" vai "HTTP Request Sender", ja vēlaties nosūtīt runas transkriptu uz šiem moduļiem.

 

INTEGRĀCIJA AR ĀRĒJĀM PROGRAMMĀM

Xeoma Voice-to-Text var izmantot arī no ārējām programmām – piemēram, VoIP sarunu transkribēšanai. Sekojot tālāk sniegtajām instrukcijām, varat nodot .mp3 failu Voice-to-Text dekodēšanai un saņemt rezultātu teksta veidā. Tādējādi šo moduli var izmantot pat operatora darba stacijās, kur nav instalēta Xeoma vai kameras. To var paveikt divos veidos: izmantojot Xeoma API vai izpildot konsoles komandu. Svarīgi: tiek atbalstīti tikai .mp3 faili.

1. API. Pirmajā variantā jāizmanto Xeoma API kopā ar JSON pieprasījumiem. Izmantojot komandas, varat nosūtīt pieprasījumu attālinātam vai lokālam Xeoma serverim, lai tas transkribētu .mp3 failu tekstā.

Piemēram:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true"

kur
"speech.mp3" jāaizstāj ar ceļu uz audio failu jūsu datorā;

"192.168.0.135:10090" jāaizstāj ar darbojošā Xeoma servera IP adresi, kurā ir aktivēts Voice-to-Text, un tā portu (parasti 10090);

"Administrator" jāatstāj nemainīts, jo šī funkcija ir pieejama tikai Xeoma Administrator profilam;

"123" aizstājiet ar Xeoma administratora profila paroli;

“model=large” izmantojiet atpazīšanas modeļa izvēlei. Plašāka informācija par iespējām ir pievienota augstāk;

"denoise=true" jāpievieno, lai aktivizētu trokšņu slāpēšanu, kas dažos gadījumos paaugstina atpazīšanas precizitāti;

"en" jāaizstāj ar 2–3 rakstzīmju valodas kodu (skatīt zemāk), kurā vēlaties saņemt transkribēto tekstu. Ja tas atšķiras no faktiskās runas valodas, ko uztver Voice-to-Text, teksts tiks automātiski tulkots jūsu norādītajā valodā.

Piezīme: Šis pieprasījums atgriezīs faila teksta transkripciju tieši konsolē vai rīkā, ko izmantojat pieprasījuma nosūtīšanai. Lai saglabātu transkripciju kā teksta failu, pēc komandas pievienojiet ">filename.txt":

curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true">savetext.txt
kur
savetext.txt jāaizstāj ar vēlamo transkripcijas faila nosaukumu.

 

2. Komandas palaišana. Otrā opcija ļauj veikt atpazīšanu nevis caur API, bet lokāli datorā, izmantojot konsolē izpildāmas komandas.

Piemērs:

{Path to Xeoma executable file} -speech2text file.mp3;out.log;large;en;denoise

kur
"file.mp3" aizstājiet ar ceļu uz audio failu jūsu datorā;

"out.log" aizstājiet ar ceļu un nosaukumu iegūtajam transkripcijas teksta failam;

"large" norāda izvēlēto atzīšanas modeli. Plašāk par iespējām skatīt augstāk;

"en" aizstājiet ar 2–3 zīmju kodu (skatīt zemāk) valodai, kurā vēlaties saņemt transkribēto tekstu. Ja tas atšķiras no faktiskās runas valodas, ko uztver Voice-to-Text, teksts tiks automātiski tulkots jūsu norādītajā valodā.

"denoise" pievienojiet, ja vēlaties aktivizēt trokšņu slāpēšanu, kas dažos gadījumos palīdz uzlabot atzīšanas precizitāti.

Valodu kodu saraksts:

“en”: “angļu”,
“zh”: “ķīniešu”,
“de”: “vācu”,
“es”: “spānņu”,
“ru”: “krievu”,
“ko”: “korejiešu”,
“fr”: “franču”,
“ja”: “japāņu”,
“pt”: “portugaliešu”,
“tr”: “turku”,
“pl”: “poļu”,
“ca”: “katalāņu”,
“nl”: “nīderlandu”,
“ar”: “arābu”,
“sv”: “zviedru”,
“it”: “itāļu”,
“id”: “indoneziešu”,
“hi”: “hindi”,
“fi”: “somu”,
“vi”: “vietnamiešu”,
“he”: “ebremu”,
“uk”: “ukraiņu”,
“el”: “grieķu”,
“ms”: “malaizijiešu”,
“cs”: “čehu”,
“ro”: “rumūņu”,
“da”: “dānu”,
“hu”: “ungru”,
“ta”: “tamilu”,
“no”: “norvēģu”,
"th": "taizemiešu",
“ur”: “urdu”,
“hr”: “horvātu”,
“bg”: “bulgāru”,
“lt”: “lietuviešu”,
“la”: “latīņu”,
“mi”: “maori”,
“ml”: “malajalam”,
“cy”: “valziešu”,
“sk”: “slovāku”,
“te”: “telugu”,
“fa”: “persu”,
“lv”: “latviešu”,
“bn”: “bengāļu”,
“sr”: “serbu”,
“az”: “azerbaidžānu”,
“sl”: “slovēņu”,
“kn”: “kannada”,
“et”: “estu”,
“mk”: “macedoņu”,
“br”: “bretoņu”,
"eu": "basku",
“is”: “islandu”,
“hy”: “armeņu”,
“ne”: “nepāli”,
“mn”: “mongolu”,
“bs”: “bosņaku”,
“kk”: “kazahu”,
“sq”: “albānu”,
“sw”: “svahili”,
“gl”: “gališiešu”,
“mr”: “marati”,
“pa”: “pendžabu”,
“si”: “sinhālu”,
“km”: “khmeru”,
“sn”: “šona”,
“yo”: “joruba”,
“so”: “somāli”,
“af”: “afrikāņu”,
“oc”: “oksitānu”,
“ka”: “gruzīnu”,
“be”: “balorusu”,
“tg”: “tadžiku”,
“sd”: “sindhi”,
“gu”: “gudžarati”,
“am”: “amharu”,
“yi”: “idiš”,
“lo”: “laos”,
“uz”: “uzbeku”,
“fo”: “farežu”,
"ht": "haitiešu kreolu",
“ps”: “pašto”,
“tk”: “turkmēnu”,
“nn”: “nynorsk”,
“mt”: “maltiešu”,
“sa”: “sanskritu”,
“lb”: “luksemburgu”,
“my”: “mjanmaru”,
“bo”: “tibetu”,
“tl”: “tagalog”,
“mg”: “malagašu”,
“as”: “asamēšu”,
“tt”: “tatāru”,
“haw”: “havaijiešu”,
“ln”: “lingala”,
“ha”: “hausa”,
“ba”: “baškīru”,
“jw”: “javiešu”,
“su”: “sundaniešu”,
"yue": "kantoniešu".

 

KĀ VEIKT TESTĒŠANU

1. Lejupielādējiet Xeoma no mūsu vietnes un palaidiet to. Pārliecinieties, ka Xeoma servera daļa darbojas ierīcē ar nepieciešamo procesoru.
Tāpat pārliecinieties, ka Xeoma darbojas izmēģinājuma versijā, vai aktivizējiet Xeoma Pro licenci darbam ar šo moduli.
2. Pievienojiet kameru vai uzgaidiet, kamēr Xeoma tīklā automātiski atradīs un pievienos kameras. Ja nepieciešams izmantot atsevišķu mikrofonu, kas nav iebūvēts kamerā, pievienojiet moduli “Microphone” un izvēlieties atbilstošo skaņas avotu.
3. Pievienojiet ķēdei moduli “Voice-to-Text” un konfigurējiet to.
4. Ja nepieciešams, pievienojiet citus moduļus, lai iestatītu vajadzīgās reakcijas, piemēram, arhivēšanu, e-pasta nosūtīšanu vai savu reakciju.
5. Gatavs! Tagad varat izmantot Xeoma izcilo intelektuālo runas atpazīšanu.

 

Padomi no Xeoma videonovērošanas programmas *Modulis “Voice-to-Text” ir pieejams un darbojas tikai ar šādiem procesoriem:

Intel 64 bitu procesori šādās sērijās:
-Intel Core procesori, sākot no 4. paaudzes (ieskaitot 10. un jaunākas paaudzes);
-XEON procesori, sākot no 6. paaudzes;
-Atom procesori sērijās “C23”, “C25”, “C27”, “C33”, “C35”, “C37”, “C38”, “C39”, “P59”, “Z34”, “Z35”, “x5-E39” vai “x5-E8000”;
-Procesori Intel Xeon E5-24 sērijas, i5-2450M vai i7-2600.

Lai gan šis modulis var darboties, izmantojot CPU resursus, serverim ir ieteicams izmantot video karti.

 
Xeoma piedāvā vēl vairāk!
Xeoma piedāvā arī citus moduļus audio plūsmu apstrādei:
Microphone ir modulis, kas ļauj izvēlēties USB mikrofonu vai atsevišķu IP mikrofonu kā skaņas avotu.
Sound Detector ir modulis audio plūsmu analīzei, kas aktivizējas, ja skaņas līmenis pārsniedz norādīto robežu.
Sound Events Detector ir intelektuāls modulis, kas spēj atpazīt konkrētus skaņas signālus: auto signalizāciju, bērna raudāšanu, šāvienus, kliedzienus, stikla lauzšanu.
 

 

Noskatieties video par Xeoma “Voice-to-Text”

 

Svarīgs padoms par termokameru datiem Nepieciešams kaut kas cits? Mēs varam to izstrādāt un integrēt Xeoma kā maksas risinājumu. Uzzināt vairāk

 

 

XEOMA BEZMAKSAS IZPROVŠANA

Izmēģiniet Xeoma bez maksas! Zemāk esošajos laukos ievadiet savu vārdu un e-pasta adresi, uz kuru nosūtīt licenci, un noklikšķiniet uz pogas “Saņemt Xeoma bezmaksas demo licences e-pastā”.




Lūdzam neizmantot e-pasta adreses, kas satur personas datus, un nesūtīt mums personas datus citos veidos. Ja tomēr to darāt, iesūtot šo formu, jūs apstiprināt savu piekrišanu personas datu apstrādei
 

 

Ir jautājumi? Nepieciešama palīdzība? Sazinieties ar mums! Labprāt palīdzēsim!

2024. gada 14. augusts

Lasīt vairāk:
Papildu moduļi programmā Xeoma
AI moduļu cenu saraksts programmā Xeoma