← Torna agli articoli

Voice-to-Text: il modulo intelligente di Xeoma per il riconoscimento vocale

Voice-to-Text: il modulo intelligente di Xeoma per il riconoscimento vocale

 


Voice-to-Text basato su IA Il modulo Voice-to-Text basato sull’IA del software di videosorveglianza Xeoma “ascolta” il flusso audio proveniente da una telecamera o da un microfono esterno, rileva il parlato e ne salva la trascrizione in un report CSV, oppure la sovrappone all’anteprima sotto forma di testo. In alternativa, è possibile configurarlo per reagire a parole o frasi specifiche. Il modulo elabora anche file audio .mp3 – registrazioni di conversazioni, video formativi, ecc. – trascrivendo il parlato e fornendolo come testo.

L’utilizzo di Voice-to-Text con Xeoma non richiede attrezzature specializzate: sono sufficienti il flusso audio di qualsiasi telecamera o microfono esterno, insieme a computer e schede video di uso comune.

Consigli dal software di videosorveglianza Xeoma Avviso: questo modulo è disponibile a partire dalla versione Xeoma 24.8.12 ed è in stato beta; potrebbe quindi omettere parole o presentare ripetizioni.

 

 

SCENARI DI APPLICAZIONE

Il modulo Voice-to-Text è uno strumento flessibile utilizzabile per diverse finalità:

  • Call center: trascrizione di chiamate in corso o registrate per monitorare la conformità alle policy aziendali e agli script di conversazione
  • Assistenza agli anziani: capacità di reagire istantaneamente a una richiesta di aiuto
  • Sorveglianza urbana: riconoscimento di parole che preannunciano pericoli nell'ambito della sicurezza antiterrorismo
  • Controllo parentale: supporto per garantire la sicurezza dei minori, proteggendoli da bullismo, truffatori o molestatori
  • Forze dell’ordine: integrazione con le body-cam per la trascrizione delle conversazioni tra agente e sospettato e il rilevamento di situazioni di pericolo
  • Banche e istituti di prestito su pegno: pulsante antipanico virtuale che non richiede pressione fisica
  • Ricerca e analisi: raccolta statistica in background sulla frequenza d'uso di termini specifici e altri studi linguistici
  • Marketing: verifica se i clienti discutono di una campagna promozionale, analisi delle reazioni a banner o annunci, ecc.
  • Qualsiasi attività commerciale: controllo automatizzato della qualità del servizio clienti (ad esempio, rilevamento di parolacce)
  • Filtraggio e automazione: rilevamento di parole o frasi indesiderate o vietate nelle conversazioni, con indirizzamento di tali episodi a un'ispezione mirata, senza dover ascoltare tutte le conversazioni

Come dimostrato, lo strumento “Voice-to-Text” di Xeoma si applica a un’ampia gamma di scenari. Non solo eleva i livelli di sicurezza nella sfera privata, urbana e commerciale, ma ottimizza anche l’efficienza delle operazioni aziendali.

 

VANTAGGI DEL MODULO VOICE-TO-TEXT:
Vantaggi del modulo Voice-to-Text: compatibile con qualsiasi hardware
Nessuna attrezzatura speciale richiesta:
Compatibile con computer standard e quasi tutte le telecamere.
Vantaggi del modulo Voice-to-Text: flessibile e universale
Estrema flessibilità:
Reazioni diversificate e integrazione con sistemi di terze parti.
Vantaggi del modulo Voice-to-Text: elaborazione in tempo reale
Elaborazione in tempo reale:
Elaborazione in tempo reale senza latenza. L’elaborazione avviene esclusivamente in locale.
Vantaggi del modulo Voice-to-Text: massima convenienza
Soluzione accessibile:

Il modulo è già incluso nelle licenze Xeoma Pro!

 

FUNZIONAMENTO:

È fondamentale notare che il modulo compare nell’elenco solo se la parte server di Xeoma è in esecuzione su hardware idoneo. Se il modulo non è visibile, verificare di utilizzare un processore compatibile e l’edizione corretta di Xeoma (il modulo è disponibile solo nell’edizione Xeoma Pro). Poiché il modulo elabora un flusso audio, è necessaria una sorgente sonora nella catena: un microfono integrato nella telecamera oppure un microfono USB o IP esterno.

Ad esempio, supponendo che il flusso audio provenga direttamente dalla telecamera IP, è sufficiente configurare in Xeoma la seguente catena di moduli: “Universal Camera” – “Voice-to-Text” – “Preview and Archive”:

Esempio di catena con il modulo intelligente Voice-to-Text

Cliccare l'icona Voice-to-Text nella catena per aprire le impostazioni del modulo. Il primo passo per utilizzare il modulo Voice-to-Text è scaricare le risorse aggiuntive necessarie per il suo funzionamento. Il download inizierà automaticamente alla prima apertura delle impostazioni del modulo. Al termine del processo, il messaggio “Downloading in progress” scomparirà.

Impostazioni del modulo intelligente Voice-to-Text

 

Consigli dal software di videosorveglianza Xeoma Le risorse aggiuntive contengono array di dati per l'intelligenza artificiale su cui si basa il Voice-to-Text e vengono scaricate su richiesta dai server di FelenaSoft. Non sono incluse nel software per ridurne le dimensioni, poiché non sono necessarie in tutti i sistemi CCTV.

 

Le nuove opzioni disponibili al termine del download consentono di scegliere tra diversi modelli di riconoscimento vocale basati su IA. Ogni modello presenta punti di forza e limiti; generalmente differiscono per precisione di riconoscimento e carico della CPU. Sono denominati convenzionalmente tiny, base, small, medium, large in ordine crescente di dimensione, qualità di riconoscimento e impatto sull'hardware.

Impostazioni del modulo intelligente Voice-to-Text

Nel campo "Lingua", selezionare la lingua in cui verrà fornita la trascrizione dell'audio (si noti che non è necessario specificare la lingua del parlato stesso).

Per trascrivere tutte le conversazioni udibili, è sufficiente selezionare la casella "Salva dati in report CSV". La trascrizione delle conversazioni verrà così salvata in un file di foglio di calcolo nella directory specificata sul disco, permettendone l'integrazione con altri sistemi, ad esempio statistici.

Inoltre, “Voice-to-Text” può rilevare frasi o parole specifiche. Inserire i termini ricercati nel campo “Parole chiave per il riconoscimento”. Il modulo continuerà a monitorare l'audio nell'area della telecamera o del microfono, ma reagirà solo al rilevamento delle parole chiave. Collegare il modulo di reazione desiderato a valle del modulo “Voice-to-Text” per ricevere una notifica, avviare una registrazione o inviare un comando.

Nel nostro esempio, il modulo "Anteprima e Archivio" è collegato come modulo di destinazione: al rilevamento delle parole chiave impostate, avvierà la registrazione dello stream della telecamera, consentendo di cercare gli episodi contenenti il termine specificato. Questa opzione può essere facilmente combinata con il salvataggio in report CSV: a tal fine, selezionare la casella corrispondente in basso.

Il modulo "Voice-to-Text" dispone di una macro dedicata – %VOICE% – utilizzabile nei moduli di destinazione come "Invio Email", "Esecutore Applicazioni" o "Invio Richiesta HTTP" qualora si desideri inviare loro la trascrizione del parlato.

 

INTEGRAZIONE CON PROGRAMMI ESTERNI

Voice-to-Text di Xeoma può essere utilizzato anche da programmi esterni, ad esempio per trascrivere conversazioni VoIP. Seguendo le istruzioni riportate di seguito, è possibile inviare un file .mp3 a Voice-to-Text per la decodifica e ottenere il risultato in formato testuale. Questo modulo può quindi essere impiegato anche su postazioni operatore prive di Xeoma o telecamere. L'operazione è eseguibile in due modi: tramite le API di Xeoma o eseguendo un comando da console. Importante: sono supportati solo i file .mp3.

1. API. Per la prima opzione, è necessario utilizzare le API di Xeoma con richieste JSON. Tramite comandi, è possibile inviare una richiesta a un server Xeoma remoto o locale affinché trascriva un file .mp3 in testo.

Per esempio:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true"

dove
Sostituire "speech.mp3" con il percorso del file audio sul proprio computer;

Sostituire "192.168.0.135:10090" con l'indirizzo IP e la porta (solitamente 10090) di un server Xeoma attivo e abilitato all'esecuzione di Voice-to-Text;

Mantenere "Administrator" invariato, poiché questa funzionalità è disponibile esclusivamente per il profilo Administrator di Xeoma;

"123" va sostituito con la password del profilo Administrator di Xeoma;

"model=large" è il parametro per selezionare il modello di riconoscimento. Per ulteriori dettagli sulle opzioni, consultare la sezione precedente;

"denoise=true" va incluso per abilitare la riduzione del rumore, funzione che in alcuni casi migliora la precisione del riconoscimento;

"en" deve essere sostituito con il codice lingua di 2-3 caratteri (vedi sotto) relativo alla lingua in cui si desidera ottenere il testo trascritto. Se tale codice differisce dalla lingua effettivamente parlata analizzata da Voice-to-Text, il testo verrà tradotto automaticamente nella lingua specificata.

Nota: questa richiesta restituisce la trascrizione del file direttamente nella console o nello strumento utilizzato per l'invio. Per salvare la trascrizione come file di testo, aggiungere ">nomefile.txt" dopo il comando:

curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true">savetext.txt
dove
savetext.txt deve essere sostituito con il nome desiderato per il file di trascrizione.

 

2. Esecuzione del comando. La seconda opzione consente di eseguire il riconoscimento non tramite API, ma localmente sul PC mediante comandi eseguibili da console.

Esempio:

{Path to Xeoma executable file} -speech2text file.mp3;out.log;large;en;denoise

dove
"file.mp3" deve essere sostituito con il percorso del file audio sul computer;

"out.log" deve essere sostituito con il percorso e il nome del file di testo contenente la trascrizione risultante;

"large" è il parametro per selezionare il modello di riconoscimento. Per ulteriori dettagli sulle opzioni, consultare la sezione precedente;

"en" deve essere sostituito con il codice lingua di 2-3 caratteri (vedi sotto) relativo alla lingua in cui si desidera ottenere il testo trascritto. Se tale codice differisce dalla lingua effettivamente parlata analizzata da Voice-to-Text, il testo verrà tradotto automaticamente nella lingua specificata.

"denoise" va incluso per abilitare la riduzione del rumore, funzione che in alcuni casi migliora la precisione del riconoscimento.

Elenco dei codici lingua:

“en”: “inglese”,
“zh”: “cinese”,
“de”: “tedesco”,
“es”: “spagnolo”,
“ru”: “russo”,
“ko”: “coreano”,
“fr”: “francese”,
“ja”: “giapponese”,
“pt”: “portoghese”,
“tr”: “turco”,
“pl”: “polacco”,
“ca”: “catalano”,
“nl”: “olandese”,
“ar”: “arabo”,
“sv”: “svedese”,
“it”: “italiano”,
“id”: “indonesiano”,
“hi”: “hindi”,
“fi”: “finlandese”,
“vi”: “vietnamita”,
“he”: “ebraico”,
“uk”: “ucraino”,
“el”: “greco”,
“ms”: “malese”,
“cs”: “ceco”,
“ro”: “rumeno”,
“da”: “danese”,
“hu”: “ungherese”,
“ta”: “tamil”,
“no”: “norvegese”,
“th”: “thai”,
“ur”: “urdu”,
“hr”: “croato”,
“bg”: “bulgaro”,
“lt”: “lituano”,
“la”: “latino”,
“mi”: “maori”,
“ml”: “malayalam”,
“cy”: “gallese”,
“sk”: “slovacco”,
“te”: “telugu”,
“fa”: “persiano”,
“lv”: “lettone”,
“bn”: “bengalese”,
“sr”: “serbo”,
"az": "azerbaigiano",
“sl”: “sloveno”,
“kn”: “kannada”,
“et”: “estone”,
“mk”: “macedone”,
“br”: “bretone”,
“eu”: “basco”,
“is”: “islandese”,
“hy”: “armeno”,
“ne”: “nepalese”,
“mn”: “mongolo”,
“bs”: “bosniaco”,
“kk”: “kazako”,
“sq”: “albanese”,
“sw”: “swahili”,
“gl”: “galiziano”,
“mr”: “marathi”,
“pa”: “punjabi”,
“si”: “singalese”,
“km”: “khmer”,
“sn”: “shona”,
“yo”: “yoruba”,
“so”: “somalo”,
“af”: “afrikaans”,
“oc”: “occitano”,
“ka”: “georgiano”,
“be”: “bielorusso”,
“tg”: “tagiko”,
“sd”: “sindhi”,
“gu”: “gujarati”,
“am”: “amarico”,
“yi”: “yiddish”,
“lo”: “lao”,
“uz”: “uzbeko”,
“fo”: “faroe”,
“ht”: “creolo haitiano”,
“ps”: “pashto”,
“tk”: “turkmeno”,
“nn”: “nynorsk”,
“mt”: “maltese”,
“sa”: “sanscrito”,
“lb”: “lussemburghese”,
“my”: “birmano”,
“bo”: “tibetano”,
“tl”: “tagalog”,
“mg”: “malgascio”,
“as”: “assamese”,
“tt”: “tataro”,
“haw”: “hawaiano”,
“ln”: “lingala”,
“ha”: “hausa”,
“ba”: “bashkir”,
“jw”: “giavanese”,
“su”: “sundanese”,
“yue”: “cantonese”.

 

COME EFFETTUARE IL TEST

1. Scarichi Xeoma dal nostro sito e lo avvii. Verifichi che il server di Xeoma sia in esecuzione su una macchina dotata di processore compatibile.
Verifichi inoltre che Xeoma sia in esecuzione con la Trial edition o attivi una licenza Xeoma Pro per utilizzare questo modulo.
2. Aggiunga una telecamera o attenda che Xeoma rilevi e aggiunga automaticamente le telecamere presenti nella rete. Se deve utilizzare un microfono esterno non integrato nella telecamera, colleghi il modulo “Microfono” e selezioni la sorgente audio appropriata.
3. Aggiunga il modulo "Voice-to-Text" alla catena e proceda alla configurazione.
4. Se necessario, aggiunga altri moduli per impostare le reazioni desiderate, ad esempio la registrazione in archivio, l'invio di e-mail o reazioni personalizzate.
5. Operazione completata! Può ora sfruttare l'avanzato sistema di riconoscimento vocale di Xeoma.

 

Consigli dal software di videosorveglianza Xeoma *Il modulo Voice-to-Text è disponibile e operativo solo sui seguenti processori:

Processori Intel a 64 bit delle seguenti serie:
-Processori Intel Core a partire dalla quarta generazione (incluse le generazioni 10 e successive);
-Processori XEON a partire dalla sesta generazione;
-Processori Atom delle serie "C23", "C25", "C27", "C33", "C35", "C37", "C38", "C39", "P59", "Z34", "Z35", "x5-E39" o "x5-E8000";
-Processori Intel Xeon serie E5-24, i5-2450M o i7-2600.

Sebbene il modulo possa funzionare utilizzando la capacità della CPU, si consiglia di installare una scheda video sul server.

 
Xeoma offre molto di più!
Xeoma mette a disposizione anche altri moduli per l'elaborazione dei flussi audio:
Microfono è un modulo che consente di selezionare un microfono USB o un microfono IP esterno come sorgente audio.
Rilevatore di suono è un modulo che analizza i flussi audio e attiva un evento quando il livello sonoro supera una soglia specifica.
Rilevatore di eventi sonori è un modulo intelligente in grado di riconoscere suoni specifici: allarmi auto, pianti di bambini, spari, urla, vetri rotti.
 

 

Guarda il video su Voice-to-Text di Xeoma

 

Suggerimento importante sui dati delle telecamere termiche Necessita di funzionalità aggiuntive? Possiamo realizzarle tramite un progetto di sviluppo personalizzato a pagamento. Scopri i dettagli

 

 
PROVA GRATUITA DI XEOMA

Provi Xeoma gratuitamente! Inserisca nome ed e-mail nei campi sottostanti per ricevere la licenza, quindi faccia clic sul pulsante “Invia licenze demo gratuite di Xeoma via e-mail”.




La invitiamo a non utilizzare e-mail contenenti dati personali e a non inviarceli in alcun altro modo. In caso contrario, inviando il modulo, conferma il proprio consenso al trattamento dei dati personali
 

 

Ha domande? Necessita di assistenza? Ci contatti! Saremo lieti di aiutarLa!

14 agosto 2024

Approfondimenti:
Moduli aggiuntivi in Xeoma
Listino prezzi dei moduli basati sull'IA in Xeoma