Voice-to-Text: Xeoma

Voice-to-Text: il modulo intelligente di Xeoma per il riconoscimento vocale

Il modulo Voice-to-Text basato su IA del software di videosorveglianza Xeoma "ascolta" il flusso audio di una telecamera o di un microfono separato, rileva il parlato e ne salva la trascrizione in un report CSV o la sovrappone all'anteprima come testo. In alternativa, è possibile configurarlo per reagire a specifiche parole o frasi. Supporta inoltre file audio .mp3 – registrazioni di conversazioni, video formativi, ecc. – trascrivendo il parlato in formato testuale.

L'utilizzo di Voice-to-Text di Xeoma non richiede attrezzature specializzate: sono sufficienti il flusso audio di qualsiasi telecamera o microfono e comuni computer con schede video standard.

Attenzione: questo modulo è disponibile a partire da Xeoma 24.8.12 ed è in stato beta, pertanto potrebbe saltare delle parole o presentare ripetizioni.

Demo gratuita

Acquista

Scopri di più

SCENARI DI APPLICAZIONE

Il modulo Voice-to-Text è uno strumento flessibile utilizzabile per diverse finalità:

Call center: trascrizione di chiamate in corso o registrate per monitorare la conformità alle policy aziendali e agli script di conversazione
Assistenza agli anziani: capacità di reagire istantaneamente a una richiesta di aiuto
Sorveglianza urbana: riconoscimento di parole che preannunciano pericoli nell'ambito della sicurezza antiterrorismo
Controllo parentale: supporto per garantire la sicurezza dei minori, proteggendoli da bullismo, truffatori o molestatori
Forze dell’ordine: integrazione con le body-cam per la trascrizione delle conversazioni tra agente e sospettato e il rilevamento di situazioni di pericolo
Banche e istituti di prestito su pegno: pulsante antipanico virtuale che non richiede pressione fisica
Ricerca e analisi: raccolta statistica in background sulla frequenza d'uso di termini specifici e altri studi linguistici
Marketing: verifica se i clienti discutono di una campagna promozionale, analisi delle reazioni a banner o annunci, ecc.
Qualsiasi attività commerciale: controllo automatizzato della qualità del servizio clienti (ad esempio, rilevamento di parolacce)
Filtraggio e automazione: rilevamento di parole o frasi indesiderate o vietate nelle conversazioni, con indirizzamento di tali episodi a un'ispezione mirata, senza dover ascoltare tutte le conversazioni

Come dimostrato, lo strumento “Voice-to-Text” di Xeoma si applica a un’ampia gamma di scenari. Non solo eleva i livelli di sicurezza nella sfera privata, urbana e commerciale, ma ottimizza anche l’efficienza delle operazioni aziendali.

VANTAGGI DEL MODULO VOICE-TO-TEXT:

Nessuna attrezzatura speciale richiesta:
Compatibile con computer standard e quasi tutte le telecamere.

Vantaggi del modulo Voice-to-Text: flessibile e universale

Estrema flessibilità:
Reazioni diversificate e integrazione con sistemi di terze parti.

Vantaggi del modulo Voice-to-Text: elaborazione in tempo reale

Elaborazione in tempo reale:
Elaborazione in tempo reale senza latenza. L’elaborazione avviene esclusivamente in locale.

Vantaggi del modulo Voice-to-Text: massima convenienza

Soluzione accessibile:

Il modulo è già incluso nelle licenze Xeoma Pro!

FUNZIONAMENTO:

È fondamentale notare che il modulo compare nell’elenco solo se la parte server di Xeoma è in esecuzione su hardware idoneo. Se il modulo non è visibile, verificare di utilizzare un processore compatibile e l’edizione corretta di Xeoma (il modulo è disponibile solo nell’edizione Xeoma Pro). Poiché il modulo elabora un flusso audio, è necessaria una sorgente sonora nella catena: un microfono integrato nella telecamera oppure un microfono USB o IP esterno.

Ad esempio, supponendo che il flusso audio provenga direttamente dalla telecamera IP, è sufficiente configurare in Xeoma la seguente catena di moduli: “Universal Camera” – “Voice-to-Text” – “Preview and Archive”:

Esempio di catena con il modulo intelligente Voice-to-Text

Cliccare l'icona Voice-to-Text nella catena per aprire le impostazioni del modulo. Il primo passo per utilizzare il modulo Voice-to-Text è scaricare le risorse aggiuntive necessarie per il suo funzionamento. Il download inizierà automaticamente alla prima apertura delle impostazioni del modulo. Al termine del processo, il messaggio “Downloading in progress” scomparirà.

Impostazioni del modulo intelligente Voice-to-Text

Le risorse aggiuntive contengono array di dati per l'intelligenza artificiale su cui si basa il Voice-to-Text e vengono scaricate su richiesta dai server di FelenaSoft. Non sono incluse nel software per ridurne le dimensioni, poiché non sono necessarie in tutti i sistemi CCTV.

Le nuove opzioni disponibili al termine del download consentono di scegliere tra diversi modelli di riconoscimento vocale basati su IA. Ogni modello presenta punti di forza e limiti; generalmente differiscono per precisione di riconoscimento e carico della CPU. Sono denominati convenzionalmente tiny, base, small, medium, large in ordine crescente di dimensione, qualità di riconoscimento e impatto sull'hardware.

Impostazioni del modulo intelligente Voice-to-Text

Nel campo "Lingua", selezionare la lingua in cui verrà fornita la trascrizione dell'audio (si noti che non è necessario specificare la lingua del parlato stesso).

Per trascrivere tutte le conversazioni udibili, è sufficiente selezionare la casella "Salva dati in report CSV". La trascrizione delle conversazioni verrà così salvata in un file di foglio di calcolo nella directory specificata sul disco, permettendone l'integrazione con altri sistemi, ad esempio statistici.

Inoltre, “Voice-to-Text” può rilevare frasi o parole specifiche. Inserire i termini ricercati nel campo “Parole chiave per il riconoscimento”. Il modulo continuerà a monitorare l'audio nell'area della telecamera o del microfono, ma reagirà solo al rilevamento delle parole chiave. Collegare il modulo di reazione desiderato a valle del modulo “Voice-to-Text” per ricevere una notifica, avviare una registrazione o inviare un comando.

Nel nostro esempio, il modulo "Anteprima e Archivio" è collegato come modulo di destinazione: al rilevamento delle parole chiave impostate, avvierà la registrazione dello stream della telecamera, consentendo di cercare gli episodi contenenti il termine specificato. Questa opzione può essere facilmente combinata con il salvataggio in report CSV: a tal fine, selezionare la casella corrispondente in basso.

Il modulo "Voice-to-Text" dispone di una macro dedicata – %VOICE% – utilizzabile nei moduli di destinazione come "Invio Email", "Esecutore Applicazioni" o "Invio Richiesta HTTP" qualora si desideri inviare loro la trascrizione del parlato.

INTEGRAZIONE CON PROGRAMMI ESTERNI

Voice-to-Text di Xeoma può essere utilizzato anche da programmi esterni, ad esempio per trascrivere conversazioni VoIP. Seguendo le istruzioni riportate di seguito, è possibile inviare un file .mp3 a Voice-to-Text per la decodifica e ottenere il risultato in formato testuale. Questo modulo può quindi essere impiegato anche su postazioni operatore prive di Xeoma o telecamere. L'operazione è eseguibile in due modi: tramite le API di Xeoma o eseguendo un comando da console. Importante: sono supportati solo i file .mp3.

1. API. Per la prima opzione, è necessario utilizzare le API di Xeoma con richieste JSON. Tramite comandi, è possibile inviare una richiesta a un server Xeoma remoto o locale affinché trascriva un file .mp3 in testo.

Per esempio:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true"

dove
Sostituire "speech.mp3" con il percorso del file audio sul proprio computer;

Sostituire "192.168.0.135:10090" con l'indirizzo IP e la porta (solitamente 10090) di un server Xeoma attivo e abilitato all'esecuzione di Voice-to-Text;

Mantenere "Administrator" invariato, poiché questa funzionalità è disponibile esclusivamente per il profilo Administrator di Xeoma;

"123" va sostituito con la password del profilo Administrator di Xeoma;

"model=large" è il parametro per scegliere il modello di riconoscimento. Per ulteriori dettagli sulle opzioni, vedi sopra;

"denoise=true" va incluso per abilitare la cancellazione del rumore, utile in alcuni casi per aumentare l'accuratezza del riconoscimento;

Sostituire "en" con il codice di 2-3 caratteri (vedi sotto) della lingua desiderata per il testo trascritto. Se differisce dalla lingua effettivamente parlata rilevata dal Voice-to-Text, il testo verrà tradotto automaticamente nella lingua specificata.

Nota: questa richiesta restituisce la trascrizione del file direttamente nella console o nello strumento utilizzato per l'invio. Per salvare la trascrizione come file di testo, aggiungere ">filename.txt" dopo il comando:

curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true">savetext.txt
dove
sostituire savetext.txt con il nome desiderato per il file di trascrizione.

2. Esecuzione comando. La seconda opzione consente di eseguire il riconoscimento localmente sul PC tramite comandi da eseguire nella console, invece che tramite API.

Esempio:

{Path to Xeoma executable file} -speech2text file.mp3;out.log;large;en;denoise

dove
"file.mp3" deve essere sostituito con il percorso del file audio sul computer;

"out.log" deve essere sostituito con il percorso e il nome del file di testo contenente la trascrizione risultante;

"large" è il parametro per selezionare il modello di riconoscimento. Per ulteriori dettagli sulle opzioni, consultare la sezione precedente;

"en" deve essere sostituito con il codice lingua di 2-3 caratteri (vedi sotto) relativo alla lingua in cui si desidera ottenere il testo trascritto. Se tale codice differisce dalla lingua effettivamente parlata analizzata da Voice-to-Text, il testo verrà tradotto automaticamente nella lingua specificata.

"denoise" va incluso per abilitare la riduzione del rumore, funzione che in alcuni casi migliora la precisione del riconoscimento.

Elenco dei codici lingua:

“en”: “inglese”,
“zh”: “cinese”,
“de”: “tedesco”,
“es”: “spagnolo”,
“ru”: “russo”,
“ko”: “coreano”,
“fr”: “francese”,
“ja”: “giapponese”,
“pt”: “portoghese”,
“tr”: “turco”,
“pl”: “polacco”,
“ca”: “catalano”,
“nl”: “olandese”,
“ar”: “arabo”,
“sv”: “svedese”,
“it”: “italiano”,
“id”: “indonesiano”,
“hi”: “hindi”,
“fi”: “finlandese”,
“vi”: “vietnamita”,
“he”: “ebraico”,
“uk”: “ucraino”,
“el”: “greco”,
“ms”: “malese”,
“cs”: “ceco”,
“ro”: “rumeno”,
“da”: “danese”,
“hu”: “ungherese”,
“ta”: “tamil”,
“no”: “norvegese”,
“th”: “thai”,
“ur”: “urdu”,
“hr”: “croato”,
“bg”: “bulgaro”,
“lt”: “lituano”,
“la”: “latino”,
“mi”: “maori”,
“ml”: “malayalam”,
“cy”: “gallese”,
“sk”: “slovacco”,
“te”: “telugu”,
“fa”: “persiano”,
“lv”: “lettone”,
“bn”: “bengalese”,
“sr”: “serbo”,
"az": "azerbaigiano",
“sl”: “sloveno”,
“kn”: “kannada”,
“et”: “estone”,
“mk”: “macedone”,
“br”: “bretone”,
“eu”: “basco”,
“is”: “islandese”,
“hy”: “armeno”,
“ne”: “nepalese”,
“mn”: “mongolo”,
“bs”: “bosniaco”,
“kk”: “kazako”,
“sq”: “albanese”,
“sw”: “swahili”,
“gl”: “galiziano”,
“mr”: “marathi”,
“pa”: “punjabi”,
“si”: “singalese”,
“km”: “khmer”,
“sn”: “shona”,
“yo”: “yoruba”,
“so”: “somalo”,
“af”: “afrikaans”,
“oc”: “occitano”,
“ka”: “georgiano”,
“be”: “bielorusso”,
“tg”: “tagiko”,
“sd”: “sindhi”,
“gu”: “gujarati”,
“am”: “amarico”,
“yi”: “yiddish”,
“lo”: “lao”,
“uz”: “uzbeko”,
“fo”: “faroe”,
“ht”: “creolo haitiano”,
“ps”: “pashto”,
“tk”: “turkmeno”,
“nn”: “nynorsk”,
“mt”: “maltese”,
“sa”: “sanscrito”,
“lb”: “lussemburghese”,
“my”: “birmano”,
“bo”: “tibetano”,
“tl”: “tagalog”,
“mg”: “malgascio”,
“as”: “assamese”,
“tt”: “tataro”,
“haw”: “hawaiano”,
“ln”: “lingala”,
“ha”: “hausa”,
“ba”: “bashkir”,
“jw”: “giavanese”,
“su”: “sundanese”,
“yue”: “cantonese”.

COME EFFETTUARE IL TEST

1. Scarichi Xeoma dal nostro sito e lo avvii. Verifichi che il server di Xeoma sia in esecuzione su una macchina dotata di processore compatibile.
Verifichi inoltre che Xeoma sia in esecuzione con la Trial edition o attivi una licenza Xeoma Pro per utilizzare questo modulo.
2. Aggiunga una telecamera o attenda che Xeoma rilevi e aggiunga automaticamente le telecamere presenti nella rete. Se deve utilizzare un microfono esterno non integrato nella telecamera, colleghi il modulo “Microfono” e selezioni la sorgente audio appropriata.
3. Aggiunga il modulo "Voice-to-Text" alla catena e proceda alla configurazione.
4. Se necessario, aggiunga altri moduli per impostare le reazioni desiderate, ad esempio la registrazione in archivio, l'invio di e-mail o reazioni personalizzate.
5. Operazione completata! Può ora sfruttare l'avanzato sistema di riconoscimento vocale di Xeoma.

*Il modulo Voice-to-Text è disponibile e operativo solo sui seguenti processori:

Processori Intel a 64 bit delle seguenti serie:
-Processori Intel Core a partire dalla quarta generazione (incluse le generazioni 10 e successive);
-Processori XEON a partire dalla sesta generazione;
-Processori Atom delle serie "C23", "C25", "C27", "C33", "C35", "C37", "C38", "C39", "P59", "Z34", "Z35", "x5-E39" o "x5-E8000";
-Processori Intel Xeon serie E5-24, i5-2450M o i7-2600.

Sebbene il modulo possa funzionare utilizzando la capacità della CPU, si consiglia di installare una scheda video sul server.

Xeoma offre molto di più!
Xeoma mette a disposizione anche altri moduli per l'elaborazione dei flussi audio:
• Microfono è un modulo che consente di selezionare un microfono USB o un microfono IP esterno come sorgente audio.
• Rilevatore di Suoni è un modulo che analizza i flussi audio e attiva l'allarme quando il livello sonoro supera un limite specificato.
• Rilevatore di Eventi Sonori è un modulo intelligente capace di riconoscere suoni specifici: allarmi auto, pianto di bambini, spari, urla, vetri infranti.

Guarda il video su Voice-to-Text di Xeoma

Hai bisogno di altro? Possiamo svilupparlo e integrarlo in Xeoma come sviluppo personalizzato a pagamento. Scopri di più

PROVA GRATUITA DI XEOMA

Prova Xeoma gratuitamente! Inserisci nome e indirizzo email nei campi sottostanti e clicca sul pulsante "Invia licenze demo gratuite di Xeoma via email".

La invitiamo a non utilizzare e-mail contenenti dati personali e a non inviarceli in alcun altro modo. In caso contrario, inviando il modulo, conferma il proprio consenso al trattamento dei dati personali

Ha domande? Necessita di assistenza? Ci contatti! Saremo lieti di aiutarLa!

14 agosto 2024

Approfondimenti:
Moduli aggiuntivi in Xeoma
Listino prezzi dei moduli basati sull'IA in Xeoma