Voice-to-Text: Xeoma

Voice-to-Text: Modulul inteligent Xeoma pentru recunoașterea vorbirii

Voice-to-Text: Modulul inteligent de recunoaștere vocală din Xeoma

Modulul Voice-to-Text bazat pe IA din software-ul de supraveghere video Xeoma „ascultă” fluxul audio de la o cameră sau de la un microfon separat, identifică vorbirea și salvează transcrierea acesteia într-un raport CSV sau o suprapune pe previzualizare sub formă de text. Alternativ, puteți configura modulul să reacționeze la anumite cuvinte sau fraze. Acesta poate procesa și fișiere audio .mp3 – înregistrări de conversații, videoclipuri de instruire etc. – transcriind vorbirea și furnizând rezultatul sub formă de text.

Utilizarea modulului Voice-to-Text din Xeoma nu necesită echipamente specializate: sunt compatibile fluxul audio de la orice cameră sau microfon separat, precum și calculatoarele standard și plăcile video comerciale.

Atenție: acest modul este disponibil începând cu versiunea Xeoma 24.8.12 și se află în stadiu beta, motiv pentru care poate omite cuvinte sau poate genera bucle.

Demo

Achiziționează

Detalii

SCENARII DE UTILIZARE

Modulul Voice-to-Text este un instrument flexibil, util pentru diverse scopuri:

Call center: transcrierea apelurilor în curs sau a înregistrărilor acestora pentru monitorizarea conformității cu politicile companiei și cu scripturile de conversație
Îngrijirea persoanelor vârstnice: capacitatea de a reacționa instantaneu la un strigăt de ajutor
Supraveghere urbană: recunoașterea cuvintelor care indică pericol în cadrul securității anti-terorism
Control parental: sprijin pentru asigurarea siguranței copilului, protecție împotriva hărțuirii (bullying) sau a comunicării cu escroci și persoane cu intenții malițioase
Poliție: integrare în camerele body-cam pentru transcrierea conversațiilor dintre polițist și suspect și capacitatea de a detecta situații periculoase
Bănci, amaneturi: buton de panică care nu necesită apăsare fizică
Cercetare și analiză: colectarea automată a statisticilor privind frecvența utilizării anumitor cuvinte și realizarea altor studii lingvistice
Marketing: identificarea discuțiilor clienților despre o campanie promoțională, analiza reacției acestora la un banner sau la o reclamă etc.
Orice afacere: control automat al calității serviciilor pentru clienți (de exemplu, detectarea cuvintelor obscene)
Filtrare și automatizare: detectarea cuvintelor sau frazelor nedorite, interzise, în conversații și direcționarea acestor fragmente spre o analiză detaliată, fără a fi necesară ascultarea tuturor înregistrărilor

După cum observați, instrumentul „Voice-to-Text” din programul de supraveghere video Xeoma poate fi utilizat într-o gamă largă de scenarii! Acesta nu doar că sporește securitatea în viața privată, în mediul urban și în sfera comercială, dar contribuie direct la optimizarea operațiunilor de business.

AVANTAJELE MODULULUI VOICE-TO-TEXT:

Fără echipamente speciale:
Pot fi utilizate computere standard și aproape orice tip de cameră.

Avantajele modulului Voice-to-Text: flexibilitate și universalitate

Flexibilitate maximă:
Reacții diverse și integrare cu sisteme terțe.

Avantajele modulului Voice-to-Text: procesare în timp real

Procesare în timp real:
Procesare instantanee în timp real, fără latență. Funcționează exclusiv pe computerul dumneavoastră.

Avantajele modulului Voice-to-Text: costuri accesibile

Soluție accesibilă:

Modulul este deja inclus în licențele Xeoma Pro!

CUM FUNCȚIONEAZĂ:

În primul rând, este important de menționat că modulul apare în listă doar atunci când componenta server a software-ului Xeoma rulează pe hardware compatibil. Dacă nu găsiți modulul în listă, verificați dacă utilizați un procesor compatibil și ediția corectă de Xeoma (modulul fiind disponibil doar în ediția Xeoma Pro). Deoarece modulul procesează un flux audio, este necesară o sursă sonoră în lanț: fie un microfon integrat în cameră, fie un microfon USB sau IP separat.

De exemplu, să presupunem că fluxul audio provine direct de la camera IP. În acest caz, utilizați în Xeoma un lanț de module format din: „Universal Camera” – „Voice-to-Text” – „Preview and Archive”:

Exemplu de flux cu modulul inteligent Voice-to-Text

Faceți clic pe pictograma Voice-to-Text din lanț pentru a deschide setările modulului. Primul pas în utilizarea modulului Voice-to-Text este descărcarea resurselor suplimentare necesare funcționării. Descărcarea începe automat la prima deschidere a setărilor modulului. Mesajul „Downloading in progress” dispare odată cu finalizarea descărcării resurselor.

Setările modulului inteligent Voice-to-Text

Resursele suplimentare conțin seturi de date pentru inteligența artificială pe care se bazează Voice-to-Text și sunt descărcate la cerere de pe serverele FelenaSoft. Acestea nu sunt incluse în software pentru a menține dimensiunea programului redusă, deoarece nu sunt necesare în toate sistemele CCTV.

Opțiunile noi, disponibile după descărcarea resurselor, permit alegerea dintre mai multe modele de recunoaștere vocală bazate pe IA. Fiecare model are puncte forte și slabe – în general, acestea diferă prin precizia recunoașterii și nivelul de sarcină impus procesorului. Convențional, acestea sunt denumite tiny, base, small, medium, large, în ordinea creșterii dimensiunii modelului, a calității recunoașterii și a solicitării hardware.

Setările modulului inteligent Voice-to-Text

În câmpul „Language", selectați limba în care va fi generată transcrierea vorbirii (rețineți că limba vorbirii în sine nu trebuie specificată).

Pentru a transcrie toate conversațiile audibile, bifați direct caseta „Save data in CSV report”. Astfel, transcrierile conversațiilor sunt salvate într-un fișier tabelar pe disc, în directorul specificat, și pot fi integrate în alte sisteme, cum ar fi cele de analiză statistică.

De asemenea, „Voice-to-Text” poate detecta anumite fraze sau cuvinte. Specificați cuvintele sau frazele căutate în câmpul „Keywords for recognition”. Modulul va continua să monitorizeze tot ce se spune în proximitatea camerei sau a microfonului, dar va reacționa doar la detectarea cuvintelor cheie. Conectați modulul de reacție dorit după modulul „Voice-to-Text” pentru a primi o notificare, a declanșa înregistrarea sau a trimite o comandă.

În exemplul nostru, modulul „Preview and Archive" este conectat ca destinație; astfel, când cuvintele cheie sunt detectate, acesta va începe înregistrarea fluxului camerei și va permite căutarea episoadelor bazată pe cuvântul cheie specificat. Această opțiune poate fi combinată cu salvarea într-un raport CSV: pentru aceasta, bifați caseta corespunzătoare de mai jos.

Modulul „Voice-to-Text” utilizează macrocomanda %VOICE%, care poate fi folosită în modulele de destinație precum „Email Sending”, „Application Runner” sau „HTTP Request Sender” dacă doriți să le trimiteți transcrierea discursului.

Integrare cu programe externe

Voice-to-Text de la Xeoma poate fi utilizat și din programe externe, de exemplu pentru transcrierea conversațiilor VoIP. Urmând instrucțiunile de mai jos, puteți trimite un fișier .mp3 către Voice-to-Text pentru decodare, obținând rezultatul sub formă de text. Astfel, acest modul poate fi utilizat chiar și la stațiile de lucru ale operatorilor unde nu există Xeoma sau camere. Acest lucru se realizează în două moduri: prin API-ul Xeoma sau prin executarea unei comenzi în consolă. Important: sunt acceptate doar fișiere .mp3.

1. API. Pentru prima opțiune, utilizați API-ul Xeoma cu cereri JSON. Prin comenzi, puteți solicita unui server Xeoma, la distanță sau local, să transcrie un fișier .mp3 în text.

De exemplu:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true"

unde
„speech.mp3" trebuie înlocuit cu calea către fișierul audio de pe computerul dumneavoastră;

„192.168.0.135:10090" trebuie înlocuit cu adresa IP a unui server Xeoma activ, configurat pentru Voice-to-Text, și portul acestuia (de obicei 10090);

„Administrator" trebuie păstrat ca atare, deoarece această funcție este disponibilă doar pentru profilul Administrator din Xeoma;

„123” trebuie înlocuit cu parola profilului de Administrator Xeoma;

„model=large” este parametrul prin care selectați modelul de recunoaștere. Consultați opțiunile de mai sus;

„denoise=true” activează eliminarea zgomotului, ceea ce în anumite cazuri îmbunătățește precizia recunoașterii;

„en" trebuie înlocuit cu codul din 2–3 caractere (vezi mai jos) al limbii în care doriți să obțineți textul transcris. Dacă acesta diferă de limba vorbită detectată de Voice-to-Text, textul va fi tradus automat în limba specificată.

Notă: Această cerere returnează transcrierea fișierului direct în consolă sau în instrumentul utilizat pentru trimiterea cererii. Pentru a salva transcrierea ca fișier text, adăugați „>filename.txt” după comandă:

curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true">savetext.txt
unde
savetext.txt trebuie înlocuit cu numele dorit pentru fișierul de transcriere.

2. Lansarea comenzii. A doua opțiune vă permite să efectuați recunoașterea nu prin API, ci local, pe PC, prin comenzi executate în consolă.

Exemplu:

{Path to Xeoma executable file} -speech2text file.mp3;out.log;large;en;denoise

unde
„file.mp3” trebuie înlocuit cu calea către fișierul audio de pe computer;

„out.log” trebuie înlocuit cu calea și numele fișierului text rezultat din transcriere;

„large” este parametrul pentru selectarea modelului de recunoaștere. Consultați opțiunile de mai sus;

„en” trebuie înlocuit cu codul din 2-3 caractere (vezi mai jos) al limbii în care doriți să obțineți textul transcris. Dacă acesta diferă de limba vorbită detectată de Voice-to-Text, textul va fi tradus automat în limba specificată.

„denoise” se include pentru a activa anularea zgomotului, ceea ce în anumite cazuri crește precizia recunoașterii.

Lista de coduri lingvistice:

„en”: „engleză”,
„zh”: „chineză”,
„de”: „germană”,
„es”: „spaniolă”,
„ru”: „rusă”,
„ko”: „coreeană”,
„fr”: „franceză”,
„ja”: „japoneză”,
„pt”: „portugheză”,
„tr”: „turcă”,
„pl”: „poloneză”,
„ca”: „catalană”,
„nl”: „olandeză”,
„ar”: „arabă”,
„sv”: „suedeză”,
„it”: „italiană”,
„id”: „indoneziană”,
„hi”: „hindi”,
„fi”: „finlandeză”,
„vi”: „vietnameză”,
„he”: „ebraică”,
„uk”: „ucraineană”,
„el”: „greacă”,
„ms”: „malaeză”,
„cs”: „cehă”,
„ro”: „română”,
„da”: „daneză”,
„hu”: „maghiară”,
„ta”: „tamil”,
„no”: „norvegiană”,
„th”: „thaiază”,
„ur”: „urdu”,
„hr”: „croată”,
„bg”: „bulgară”,
„lt”: „lituaniană”,
„la”: „latină”,
„mi”: „maori”,
„ml”: „malayalam”,
„cy”: „galeză”,
„sk”: „slovaca”,
„te”: „telugu”,
„fa”: „persană”,
„lv”: „letoneză”,
„bn”: „bengaleză”,
„sr”: „sârbă”,
„az”: „azerbaidjana”,
„sl”: „slovenă”,
„kn”: „kannada”,
„et”: „estoneană”,
„mk”: „macedoneană”,
„br”: „bretonă”,
„eu”: „bască”,
„is”: „islandeză”,
„hy”: „armeneană”,
„ne”: „nepaleză”,
„mn”: „mongolă”,
„bs”: „bosniacă”,
„kk”: „kazahă”,
„sq”: „albaneză”,
„sw”: „swahili”,
„gl”: „galiceană”,
„mr”: „marathi”,
„pa”: „punjabi”,
„si”: „sinhala”,
„km”: „khmer”,
„sn”: „shona”,
„yo”: „yoruba”,
„so”: „somaleză”,
„af”: „afrikaans”,
„oc”: „ocitană”,
„ka”: „georgiană”,
„be”: „bielorusă”,
„tg”: „tadjică”,
„sd”: „sindhi”,
„gu”: „gujarati”,
„am”: „amharică”,
„yi”: „idiș”,
„lo”: „lao”,
„uz”: „uzbekă”,
„fo”: „fereze”,
„ht”: „creol haitian”,
„ps”: „pașto”,
„tk”: „turkmenă”,
„nn”: „nynorsk”,
„mt”: „malteză”,
„sa”: „sanskrită”,
„lb”: „luxemburgheză”,
„my”: „myanmareză”,
„bo”: „tibetană”,
„tl”: „tagalog”,
„mg”: „malgașă”,
„as”: „asameză”,
„tt”: „tatară”,
„haw”: „hawaiian”,
„ln”: „lingala”,
„ha”: „hausa”,
„ba”: „bașkiră”,
„jw”: „javaneză”,
„su”: „sundaneză”,
„yue”: „cantoneză”.

CUM SĂ TESTAȚI

1. Descărcați Xeoma de pe site-ul nostru și lansați aplicația. Asigurați-vă că serverul Xeoma rulează pe un calculator cu procesorul necesar.
De asemenea, asigurați-vă că Xeoma rulează în ediția Trial sau activați o licență Xeoma Pro pentru a utiliza acest modul.
2. Adăugați o cameră sau așteptați ca Xeoma să detecteze și să adauge automat camerele din rețea. Dacă utilizați un microfon extern, nu cel integrat în cameră, conectați modulul „Microphone” și selectați sursa audio corespunzătoare.
3. Adăugați modulul „Voice-to-Text” în flux și configurați-l.
4. Dacă este necesar, adăugați alte module pentru a defini reacțiile dorite, de exemplu: arhivarea înregistrării, trimiterea unui e-mail sau o reacție personalizată.
5. Gata! Acum puteți utiliza sistemul avansat de recunoaștere a vorbirii din Xeoma.

*Modulul Voice-to-Text este disponibil și funcțional doar pe următoarele procesoare:

Procesoare Intel 64-bit din următoarele serii:
-procesoare Intel Core începând cu generația a 4-a (inclusiv generațiile 10+);
-procesoare XEON începând cu generația a 6-a;
-procesoare Atom din seriile „C23”, „C25”, „C27”, „C33”, „C35”, „C37”, „C38”, „C39”, „P59”, „Z34”, „Z35”, „x5-E39” sau „x5-E8000”;
-procesoare Intel Xeon seria E5-24, i5-2450M sau i7-2600.

Deși acest modul poate funcționa utilizând resursele CPU, se recomandă prezența unei plăci video pe server.

Xeoma oferă mai multe!
Xeoma dispune și de alte module pentru procesarea fluxurilor audio:
• Microphone este un modul care vă permite să selectați un microfon USB sau un microfon IP extern ca sursă audio.
• Sound Detector este un modul care analizează fluxurile audio și declanșează alerta atunci când nivelul sonor depășește o limită specificată.
• Sound Events Detector este un modul inteligent capabil să recunoască anumite sunete: alarme auto, plânsul unui copil, focuri de armă, țipete, spargerea sticlei.

Vizionați videoclipul despre Voice-to-Text din Xeoma

Aveți nevoie de alte funcționalități? Putem dezvolta soluții personalizate și le putem integra în Xeoma prin dezvoltare plătită. Detalii

TRIAL GRATUIT XEOMA

Testați Xeoma gratuit! Introduceți numele și adresa de e-mail în câmpurile de mai jos pentru a primi licența și faceți clic pe butonul «Obțineți licențe demo gratuite Xeoma prin e-mail».

Vă rugăm să evitați utilizarea adreselor de e-mail care conțin date cu caracter personal și să nu ne transmiteți astfel de date prin alte mijloace. Dacă procedați astfel, prin trimiterea formularului, confirmați acordul dumneavoastră privind procesarea datelor personale

Aveți întrebări? Aveți nevoie de ajutor? Contactați-ne! Vă ajutăm cu plăcere!

14 august 2024

Citiți mai mult:
Module suplimentare în Xeoma
Lista de prețuri pentru modulele bazate pe IA în Xeoma