Voice-to-Text : Xeoma

Voice-to-Text : le module intelligent de Xeoma pour la reconnaissance vocale

Voice-to-Text : le module intelligent de reconnaissance vocale de Xeoma

Voice-to-Text propulsé par l'IA Le module Voice-to-Text basé sur l'IA du logiciel de vidéosurveillance Xeoma « écoute » le flux audio d'une caméra ou d'un microphone séparé, détecte la parole et enregistre la transcription dans un rapport CSV ou l'affiche en superposition sur l'aperçu. Vous pouvez également le configurer pour réagir à des mots ou phrases spécifiques. Il traite aussi les fichiers audio .mp3 – enregistrements de conversations, vidéos de formation, etc. – pour transcrire la parole en texte.

L'utilisation de Voice-to-Text par Xeoma ne requiert aucun équipement spécialisé : le flux sonore de n'importe quelle caméra ou microphone, ainsi que des ordinateurs et cartes graphiques standards, sont compatibles.

Attention : ce module est disponible à partir de Xeoma 24.8.12 et se trouve en version beta ; il peut donc omettre des mots ou présenter des répétitions.

Voir la démo

Acheter

Plus d'infos

CAS D'USAGE

Le module Voice-to-Text est un outil flexible adapté à divers besoins :

Centres d'appels : transcription d'appels en cours ou d'enregistrements pour superviser la conformité aux politiques de l'entreprise et aux scripts de conversation
Aide aux personnes âgées : réaction instantanée aux appels au secours
Surveillance urbaine : reconnaissance de mots évoquant un danger dans le cadre de la lutte antiterroriste
Contrôle parental : sécurisation de l'enfant, protection contre le harcèlement ou les contacts avec des escrocs et des prédateurs
Police : intégration aux caméras piétons pour transcrire les échanges entre un agent et un suspect et détecter les situations critiques
Banques, prêteurs sur gage : bouton de panique virtuel ne nécessitant aucune activation physique
Recherche et analyse : collecte automatique de statistiques sur la fréquence d'utilisation de certains termes et autres études linguistiques
Marketing : identification des discussions clients relatives à une campagne promotionnelle, analyse des réactions à une bannière ou une publicité, etc.
Toutes entreprises : contrôle automatisé de la qualité du service client (par exemple, détection de propos injurieux)
Filtrage et automatisation : détection de mots ou phrases interdits dans les conversations et extraction de ces séquences pour examen approfondi, sans avoir à écouter l'intégralité des échanges

Comme vous le voyez, l'outil « Voice-to-Text » du logiciel de vidéosurveillance Xeoma s'adapte à une multitude de scénarios. Il renforce non seulement la sécurité dans la vie privée, en milieu urbain et dans le secteur commercial, mais contribue aussi à l'optimisation des opérations commerciales.

AVANTAGES DU MODULE VOICE-TO-TEXT :

Aucun équipement spécial requis :
Compatible avec les ordinateurs standards et la quasi-totalité des caméras.

Avantages du module Voice-to-Text : flexible et universel

Une flexibilité totale :
Réactions variées et intégration avec des systèmes tiers.

Avantages du module Voice-to-Text : traitement en temps réel

Traitement en temps réel :
Analyse instantanée sans latence. Le traitement s'effectue exclusivement en local sur votre ordinateur.

Avantages du module Voice-to-Text : prix abordable

Une solution abordable :

Le module est déjà inclus dans les licences Xeoma Pro !

FONCTIONNEMENT :

Le module n'apparaît dans la liste que si le serveur Xeoma s'exécute sur un matériel compatible. Si vous ne trouvez pas le module, vérifiez que vous utilisez un processeur adapté et la bonne édition de Xeoma (le module est disponible uniquement dans l'édition Xeoma Pro). Le module traitant un flux audio, une source sonore est indispensable : microphone intégré à la caméra ou microphone USB ou IP externe.

Par exemple, si le flux audio provient de la caméra IP elle-même, configurez simplement la chaîne de modules suivante dans Xeoma : « Caméra universelle » – « Voice-to-Text » – « Aperçu et archive » :

Exemple de chaîne avec le module intelligent Voice-to-Text

Cliquez sur l’icône Voice-to-Text dans la chaîne pour ouvrir les paramètres du module. La première étape pour utiliser le module Voice-to-Text consiste à télécharger les ressources supplémentaires requises. Le téléchargement démarre automatiquement à l’ouverture des paramètres. Une fois le téléchargement des ressources terminé, le message « Téléchargement en cours » disparaît.

Paramètres du module intelligent Voice-to-Text

Ces ressources supplémentaires contiennent les bases de données d’IA sur lesquelles repose Voice-to-Text et sont téléchargées à la demande depuis les serveurs de Felenasoft. Elles ne sont pas incluses dans le logiciel afin de limiter sa taille, car elles ne sont pas nécessaires à tous les systèmes de vidéoprotection.

Une fois le téléchargement des ressources supplémentaires terminé, de nouvelles options s’affichent pour vous permettre de choisir parmi plusieurs modèles de reconnaissance vocale alimentés par l’IA. Chaque modèle a ses propres forces et faiblesses : ils diffèrent généralement par leur précision de reconnaissance et la charge imposée au processeur. Ils sont conventionnellement nommés tiny, base, small, medium, large, par ordre croissant de taille, de qualité de reconnaissance et de charge matérielle.

Paramètres du module intelligent Voice-to-Text

Dans le champ « Langue », sélectionnez la langue dans laquelle la transcription sera fournie (notez qu’il n’est pas nécessaire de spécifier la langue de la parole elle-même).

Si vous souhaitez transcrire toutes les conversations audibles, cochez directement la case « Enregistrer les données dans un rapport CSV ». La transcription des conversations sera ainsi sauvegardée dans un fichier tableur sur le disque, dans le répertoire spécifié, ce qui permet de l’intégrer à d’autres systèmes, tels que des outils statistiques.

Le module « Voice-to-Text » peut également détecter certaines phrases ou mots. Saisissez les mots ou phrases recherchés dans le champ « Mots-clés pour la reconnaissance ». Le module continue d’écouter tous les flux audio provenant de la caméra ou du microphone à proximité, mais ne réagit qu’à la détection des mots-clés. Connectez le module de réaction souhaité après le module « Voice-to-Text » pour recevoir une notification, lancer un enregistrement ou envoyer une commande dans ce cas.

Dans notre exemple, le module « Aperçu et Archive » est connecté comme module de destination ; ainsi, lorsque les mots-clés définis sont détectés, l’enregistrement du flux de la caméra démarre, ce qui permet de rechercher les séquences contenant le mot-clé spécifié. Cette option peut aussi être facilement combinée avec l’option d’enregistrement dans un rapport CSV : il suffit pour cela de cocher la case correspondante ci-dessous.

Le module « Voice-to-Text » dispose de sa propre macro – %VOICE% – utilisable dans des modules de destination tels que « Envoi d’e-mail », « Exécuteur d’application » ou « Envoi de requête HTTP » si vous souhaitez y transmettre la transcription de la parole.

INTÉGRATION AVEC DES PROGRAMMES EXTERNES

La fonction Voice-to-Text de Xeoma peut également être exploitée par des programmes externes, par exemple pour transcrire des conversations VoIP. En suivant les instructions ci-dessous, vous pouvez soumettre un fichier .mp3 à Voice-to-Text pour décodage et obtenir le résultat sous forme de texte. Ce module peut ainsi être utilisé même sur des postes opérateurs ne disposant ni de Xeoma ni de caméras. Deux méthodes sont possibles : via l’API Xeoma ou par l’exécution d’une commande console. Important : seuls les fichiers .mp3 sont pris en charge.

1. API. Pour la première option, vous devez utiliser l’API Xeoma avec des requêtes JSON. Grâce à ces commandes, vous pouvez envoyer une demande à un serveur Xeoma local ou distant pour qu’il transcrive un fichier .mp3 en texte.

Exemple :
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true"

où
« speech.mp3 » doit être remplacé par le chemin d’accès au fichier audio sur votre ordinateur ;

« 192.168.0.135:10090 » doit être remplacé par l’adresse IP d’un serveur Xeoma en cours d’exécution, capable d’exécuter Voice-to-Text, ainsi que par son port (généralement 10090) ;

« Administrator » doit être conservé tel quel, car cette fonctionnalité est exclusivement disponible pour le profil Administrateur de Xeoma ;

« 123 » doit être remplacé par le mot de passe du profil Administrateur de Xeoma ;

« model=large » permet de choisir le modèle de reconnaissance. Consultez les options ci-dessus ;

« denoise=true » active la réduction du bruit, ce qui peut, dans certains cas, améliorer la précision de la reconnaissance ;

Remplacez « en » par le code à 2 ou 3 caractères (voir ci-dessous) de la langue dans laquelle vous souhaitez obtenir le texte transcrit. Si ce code diffère de la langue réelle parlée et détectée par la fonction Voice-to-Text, le contenu sera automatiquement traduit dans la langue spécifiée.

Remarque : Cette requête affiche la transcription du fichier directement dans la console ou l'outil utilisé pour l'envoi. Pour enregistrer la transcription dans un fichier texte, ajoutez « >filename.txt » après la commande :

curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true">savetext.txt
où
Remplacez savetext.txt par le nom souhaité pour le fichier de transcription.

2. Lancement de la commande. La seconde option permet d'effectuer la reconnaissance localement sur le PC via des commandes exécutables dans une console, sans passer par l'API.

Exemple :

{Path to Xeoma executable file} -speech2text file.mp3;out.log;large;en;denoise

où
« file.mp3 » doit être remplacé par le chemin d'accès au fichier audio sur votre ordinateur ;

« out.log » doit être remplacé par le chemin d'accès et le nom du fichier texte de transcription généré ;

« large » permet de sélectionner le modèle de reconnaissance. Consultez les options ci-dessus pour plus de détails ;

« en » doit être remplacé par le code à 2 ou 3 caractères (voir ci-dessous) de la langue dans laquelle vous souhaitez obtenir le texte transcrit. Si ce code diffère de la langue réelle analysée par le Voice-to-Text, le résultat sera automatiquement traduit dans la langue spécifiée.

« denoise » est inclus si vous souhaitez activer la suppression du bruit, ce qui permet dans certains cas d'augmenter la précision de la reconnaissance.

Liste des codes de langue :

« en » : « anglais »,
« zh » : « chinois »,
« de » : « allemand »,
« es » : « espagnol »,
« ru » : « russe »,
« ko » : « coréen »,
« fr » : « français »,
« ja » : « japonais »,
« pt » : « portugais »,
« tr » : « turc »,
« pl » : « polonais »,
« ca » : « catalan »,
« nl » : « néerlandais »,
« ar » : « arabe »,
« sv » : « suédois »,
« it » : « italien »,
« id » : « indonésien »,
« hi » : « hindi »,
« fi » : « finnois »,
« vi » : « vietnamien »,
« he » : « hébreu »,
« uk » : « ukrainien »,
« el » : « grec »,
« ms » : « malais »,
« cs » : « tchèque »,
« ro » : « roumain »,
« da » : « danois »,
« hu » : « hongrois »,
« ta » : « tamoul »,
« no » : « norvégien »,
« th » : « thaï »,
« ur » : « ourdou »,
« hr » : « croate »,
« bg » : « bulgare »,
« lt » : « lituanien »,
« la » : « latin »,
« mi » : « maori »,
« ml » : « malayalam »,
« cy » : « gallois »,
« sk » : « slovaque »,
« te » : « télougou »,
« fa » : « persan »,
« lv » : « letton »,
« bn » : « bengali »,
« sr » : « serbe »,
« az » : « azerbaïdjanais »,
« sl » : « slovène »,
« kn » : « kannada »,
« et » : « estonien »,
« mk » : « macédonien »,
« br » : « breton »,
« eu » : « basque »,
« is » : « islandais »,
« hy » : « arménien »,
« ne » : « népalais »,
« mn » : « mongol »,
« bs » : « bosniaque »,
« kk » : « kazakh »,
« sq » : « albanais »,
« sw » : « swahili »,
« gl » : « galicien »,
« mr » : « marathi »,
« pa » : « pendjabi »,
« si » : « cinghalais »,
« km » : « khmer »,
« sn » : « shona »,
« yo » : « yoruba »,
« so » : « somali »,
« af » : « afrikaans »,
« oc » : « occitan »,
« ka » : « géorgien »,
« be » : « biélorusse »,
« tg » : « tadjik »,
« sd » : « sindhi »,
« gu » : « gujarati »,
« am » : « amharique »,
« yi » : « yiddish »,
« lo » : « laotien »,
« uz » : « ouzbek »,
« fo » : « féroïen »,
« ht » : « créole haïtien »,
« ps » : « pashto »,
« tk » : « turkmène »,
« nn » : « nynorsk »,
« mt » : « maltais »,
« sa » : « sanskrit »,
« lb » : « luxembourgeois »,
« my » : « birman »,
« bo » : « tibétain »,
« tl » : « tagalog »,
« mg » : « malgache »,
« as » : « assamais »,
« tt » : « tatar »,
« haw » : « hawaïen »,
« ln » : « lingala »,
« ha » : « haoussa »,
« ba » : « bashkir »,
« jw » : « javanais »,
« su » : « sundanais »,
« yue » : « cantonais ».

COMMENT TESTER

1. Téléchargez Xeoma depuis notre site web et lancez-le. Assurez-vous que le serveur Xeoma est en cours d'exécution sur une machine équipée du processeur requis.
Assurez-vous également que Xeoma fonctionne en version d'essai ou activez une licence Xeoma Pro pour utiliser ce module.
2. Ajoutez une caméra ou patientez pendant que Xeoma détecte et ajoute automatiquement les caméras de votre réseau. Si vous devez utiliser un microphone externe non intégré à la caméra, connectez le module « Microphone » et sélectionnez la source sonore appropriée.
3. Intégrez le module « Voice-to-Text » à la chaîne et configurez-le.
4. Si nécessaire, ajoutez d'autres modules pour définir les réactions requises (ex: archivage de l'enregistrement, envoi d'un e-mail ou réaction personnalisée).
5. Terminé ! Vous pouvez désormais exploiter la reconnaissance vocale intelligente de Xeoma.

*Le module Voice-to-Text est disponible et opérationnel uniquement sur les processeurs suivants :

Processeurs Intel 64 bits des séries suivantes :
-Processeurs Intel Core à partir de la 4e génération (y compris les 10+ générations suivantes) ;
-Processeurs XEON à partir de la 6e génération ;
-Processeurs Atom des séries « C23 », « C25 », « C27 », « C33 », « C35 », « C37 », « C38 », « C39 », « P59 », « Z34 », « Z35 », « x5-E39 » ou « x5-E8000 » ;
-Processeurs Intel Xeon série E5-24, i5-2450M ou i7-2600.

Bien que ce module puisse fonctionner via le CPU, l'utilisation d'une carte graphique sur le serveur est recommandée.

Xeoma offre encore plus !
Xeoma dispose également d'autres modules de traitement de flux audio :
• Microphone est un module qui vous permet de sélectionner un microphone USB ou un microphone IP dédié comme source sonore.
• Détecteur de sons est un module qui analyse les flux audio et déclenche une action lorsque le niveau sonore dépasse un seuil défini.
• Détecteur d'événements sonores est un module intelligent capable de reconnaître certains sons : alarmes de voiture, pleurs d'enfant, coups de feu, cris, bris de verre.

Voir la vidéo sur Voice-to-Text de Xeoma

Un besoin spécifique ? Nous pouvons concevoir et intégrer une fonctionnalité dans Xeoma via un développement sur mesure. En savoir plus

ESSAI GRATUIT DE XEOMA

Essayez Xeoma gratuitement ! Saisissez votre nom et l'adresse e-mail de destination de la licence dans les champs ci-dessous, puis cliquez sur le bouton « Recevoir les licences démo gratuites Xeoma par e-mail ».

Nous vous invitons à ne pas utiliser d'adresses e-mail contenant des données personnelles, ni à nous transmettre de données personnelles par tout autre moyen. Si vous le faites néanmoins, en soumettant ce formulaire, vous confirmez votre consentement au traitement de vos données personnelles

Des questions ? Besoin d'aide ? Contactez-nous ! Nous serons ravis de vous aider

14 août 2024

En savoir plus :
Modules complémentaires de Xeoma
Tarifs des modules basés sur l'IA de Xeoma