← Volver a los artículos

Voice-to-Text: módulo inteligente de Xeoma para el reconocimiento de voz

Voice-to-Text: Módulo inteligente de Xeoma para reconocimiento de voz

 


Voice-to-Text potenciado por IA El módulo Voice-to-Text basado en IA del software de videovigilancia Xeoma "escucha" el flujo de audio de una cámara o un micrófono independiente, detecta el habla y guarda la transcripción en un reporte CSV o la superpone como texto en la vista previa. También puede configurarse para reaccionar a palabras o frases específicas. Asimismo, procesa archivos de audio .mp3 —grabaciones de conversaciones, videos de capacitación, etc.— transcribiendo el habla a texto.

El uso de Voice-to-Text de Xeoma no requiere equipo especializado: funciona con el flujo de audio de cualquier cámara o micrófono externo, así como con computadoras y tarjetas gráficas convencionales.

Consejos del software de videovigilancia Xeoma Advertencia: este módulo está disponible a partir de Xeoma 24.8.12 y se encuentra en estado beta, por lo que podría omitir palabras o presentar bucles.

 

 

ESCENARIOS DE APLICACIÓN

El módulo Voice-to-Text es una herramienta flexible diseñada para diversos propósitos:

  • Call center: transcripción de llamadas en curso o grabadas para supervisar el cumplimiento de las políticas corporativas y los guiones de conversación
  • Cuidado de adultos mayores: capacidad de reaccionar al instante ante un grito de auxilio
  • Vigilancia urbana: reconocimiento de palabras que sugieran peligro en el ámbito de la seguridad antiterrorista
  • Control parental: apoyo para garantizar la seguridad de los niños, protegiéndolos del acoso o de la comunicación con estafadores y abusadores
  • Policía: integración en cámaras corporales para transcribir conversaciones entre oficiales y sospechosos, con capacidad para detectar situaciones de riesgo
  • Bancos y casas de empeño: botón de pánico que no requiere activación física
  • Investigación y analítica: recopilación automática de estadísticas sobre la frecuencia de uso de diversas palabras y otros estudios relacionados con el habla
  • Marketing: identificación de si los clientes comentan una campaña promocional, su reacción ante un banner o un anuncio, etc.
  • Cualquier negocio: control automatizado de la calidad del servicio al cliente (por ejemplo, detección de palabras soeces)
  • Filtrado y automatización: detección de palabras o frases no deseadas o prohibidas en conversaciones, derivando dichos episodios a una revisión detallada sin necesidad de escuchar todas las conversaciones

Como puede ver, la herramienta "Voice-to-Text" del programa de videovigilancia Xeoma aplica a una amplia gama de escenarios. No solo mejora la seguridad en el ámbito privado, urbano y ciudadano, sino que también optimiza las operaciones comerciales.

 

VENTAJAS DEL MÓDULO VOICE-TO-TEXT:
Ventajas del módulo Voice-to-Text: compatible con cualquier equipo
Sin equipo especializado:
Compatible con computadoras convencionales y casi cualquier cámara.
Ventajas del módulo Voice-to-Text: flexible y universal
Totalmente flexible:
Diversas reacciones e integración con sistemas de terceros.
Ventajas del módulo Voice-to-Text: procesamiento en tiempo real
Procesamiento en tiempo real:
Procesamiento instantáneo en tiempo real, sin latencia. Funciona exclusivamente en su computadora.
Ventajas del módulo Voice-to-Text: precio muy accesible
Solución rentable:

El módulo ya está incluido en las licencias de Xeoma Pro

 

FUNCIONAMIENTO:

Cabe destacar que el módulo solo aparece en la lista cuando la parte del servidor de Xeoma se ejecuta en hardware compatible. Si no encuentra el módulo, verifique que esté utilizando un procesador adecuado y la edición correcta de Xeoma (el módulo solo está disponible en la edición Xeoma Pro). Dado que el módulo trabaja con flujos de audio, es necesario contar con una fuente de sonido en la cadena: ya sea el micrófono integrado en la cámara o un micrófono USB o IP externo.

Por ejemplo, supongamos que el flujo de audio proviene de la propia cámara IP. En este caso, simplemente configure en Xeoma una cadena de módulos con: "Universal Camera" – "Voice-to-Text" – "Preview and Archive":

Ejemplo de una cadena con el módulo inteligente Voice-to-Text

Haga clic en el ícono Voice-to-Text de la cadena para abrir la configuración del módulo. El primer paso para trabajar con el módulo Voice-to-Text es descargar los recursos adicionales que requiere. La descarga comenzará automáticamente la primera vez que abra la configuración del módulo. Cuando finalice la descarga de los recursos adicionales, desaparecerá el mensaje "Downloading in progress".

Configuración del módulo inteligente Voice-to-Text

 

Consejos del software de videovigilancia Xeoma Los recursos adicionales contienen conjuntos de datos de IA en los que se basa Voice-to-Text y se descargan bajo demanda desde los servidores de FelenaSoft. No se incluyen con el software para mantener un tamaño reducido del programa, ya que no son necesarios en todos los sistemas de CCTV.

 

Las nuevas opciones disponibles una vez completada la descarga permiten elegir entre varios modelos de reconocimiento de voz potenciados por IA que se utilizarán para el reconocimiento del habla. Cada modelo tiene sus propias ventajas y desventajas; por lo general, difieren en el grado de precisión del reconocimiento y en el nivel de carga sobre el procesador. Convencionalmente, se denominan tiny, base, small, medium, large en orden ascendente de tamaño del modelo, calidad de reconocimiento y carga de hardware.

Configuración del módulo inteligente Voice-to-Text

En el campo "Language", seleccione el idioma en el que se proporcionará la transcripción del habla (tenga en cuenta que no es necesario especificar el idioma del habla en sí).

Si necesita transcribir todas las conversaciones audibles, puede marcar directamente la casilla "Save data in CSV report". De este modo, la transcripción de las conversaciones se guardará en un archivo de hoja de cálculo en el directorio que haya especificado, el cual puede integrarse en otros sistemas, como los de análisis estadístico.

Asimismo, "Voice-to-Text" puede detectar frases o palabras específicas. Especifique las palabras o frases buscadas en el campo "Keywords for recognition". Después de esto, el módulo seguirá escuchando todo el audio cerca de la cámara o el micrófono, pero solo reaccionará al detectar las palabras clave. Conecte el módulo de reacción deseado después del módulo "Voice-to-Text" para recibir una notificación, iniciar una grabación o enviar un comando en este caso.

En nuestro caso, tenemos conectado el módulo "Preview and Archive" como módulo de destino; por lo tanto, cuando se detecten las palabras clave configuradas, iniciará la grabación del flujo de la cámara y permitirá buscar episodios con la palabra clave que especifique. Esta opción también puede combinarse fácilmente con la opción de guardado en un reporte CSV: para ello, marque la casilla correspondiente a continuación.

"Voice-to-Text" cuenta con su propia macro, %VOICE%, que puede utilizarse en módulos de destino como "Email Sending", "Application Runner" o "HTTP Request Sender" si desea enviarles la transcripción del habla.

 

INTEGRACIÓN CON PROGRAMAS EXTERNOS

Voice-to-Text de Xeoma también puede utilizarse desde programas externos, por ejemplo, para transcribir conversaciones de VoIP. Siguiendo las instrucciones a continuación, puede enviar un archivo .mp3 a Voice-to-Text para su decodificación y obtener el resultado en texto. Así, este módulo puede utilizarse incluso para trabajar en estaciones de operador donde no haya Xeoma ni cámaras. Esto puede hacerse de dos formas: mediante la API de Xeoma o ejecutando un comando de consola. Importante: solo se admiten archivos .mp3.

1. API. Para la primera opción, debe utilizar la API de Xeoma con solicitudes JSON. Mediante comandos, puede solicitar a un servidor Xeoma remoto o local que transcriba un archivo .mp3 a texto.

Por ejemplo:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true"

donde
"speech.mp3" debe reemplazarse por la ruta al archivo de audio en su computadora;

"192.168.0.135:10090" debe reemplazarse por la dirección IP de un servidor Xeoma en ejecución que sea adecuado para ejecutar Voice-to-Text y su puerto (habitualmente 10090);

"Administrator" debe mantenerse tal cual, ya que esto solo está disponible para el perfil de Administrador de Xeoma;

“123” debe reemplazarse por la contraseña del perfil de Administrador de Xeoma;

“model=large” es el parámetro para elegir el modelo de reconocimiento. Consulte más opciones arriba;

“denoise=true” se incluye para activar la cancelación de ruido, lo que en algunos casos incrementa la precisión del reconocimiento;

“en” debe reemplazarse por el código de 2 a 3 caracteres (ver abajo) del idioma en el que desea obtener el texto transcrito. Si difiere del idioma hablado que capta Voice-to-Text, se traducirá automáticamente al idioma especificado.

Nota: Esta solicitud devuelve la transcripción del archivo directamente en la consola o en la herramienta que utilice para enviar la solicitud. Para guardar la transcripción como un archivo de texto, agregue “>nombre_archivo.txt” después del comando:

curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true">savetext.txt
donde
savetext.txt debe reemplazarse por el nombre que desee dar al archivo de transcripción.

 

2. Ejecutar comando. La segunda opción permite realizar el reconocimiento de forma local en la PC mediante comandos de consola, en lugar de utilizar la API.

Ejemplo:

{Path to Xeoma executable file} -speech2text file.mp3;out.log;large;en;denoise

donde
"file.mp3" debe reemplazarse por la ruta del archivo de audio en su computadora;

"out.log" debe reemplazarse por la ruta y el nombre del archivo de texto con la transcripción resultante;

"large" es donde selecciona el modelo de reconocimiento. Consulte más detalles arriba;

“en” debe reemplazarse por el código de 2 a 3 caracteres (ver más abajo) del idioma en el que desea obtener el texto transcrito. Si este difiere del idioma hablado que detecta la función de Voz a Texto, se traducirá automáticamente al idioma especificado.

"denoise" se incluye si desea habilitar la cancelación de ruido, lo cual en algunos casos mejora la precisión del reconocimiento.

Lista de códigos de idioma:

“en”: “inglés”,
“zh”: “chino”,
“de”: “alemán”,
“es”: “español”,
“ru”: “ruso”,
“ko”: “coreano”,
“fr”: “francés”,
“ja”: “japonés”,
“pt”: “portugués”,
“tr”: “turco”,
“pl”: “polaco”,
“ca”: “catalán”,
“nl”: “holandés”,
“ar”: “árabe”,
“sv”: “sueco”,
“it”: “italiano”,
“id”: “indonesio”,
“hi”: “hindi”,
“fi”: “finlandés”,
“vi”: “vietnamita”,
“he”: “hebreo”,
“uk”: “ucraniano”,
“el”: “griego”,
“ms”: “malayo”,
“cs”: “checo”,
“ro”: “rumano”,
“da”: “danés”,
“hu”: “húngaro”,
“ta”: “tamil”,
“no”: “noruego”,
“th”: “tailandés”,
“ur”: “urdu”,
“hr”: “croata”,
“bg”: “búlgaro”,
“lt”: “lituano”,
“la”: “latín”,
“mi”: “maorí”,
“ml”: “malayalam”,
“cy”: “galés”,
“sk”: “eslovaco”,
“te”: “telugu”,
“fa”: “persa”,
“lv”: “letón”,
“bn”: “bengalí”,
“sr”: “serbio”,
“az”: “azerbaiyano”,
“sl”: “esloveno”,
“kn”: “kannada”,
“et”: “estonio”,
“mk”: “macedonio”,
“br”: “bretón”,
“eu”: “vasco”,
“is”: “islandés”,
“hy”: “armenio”,
“ne”: “nepalí”,
“mn”: “mongol”,
“bs”: “bosnio”,
“kk”: “kazajo”,
“sq”: “albanés”,
“sw”: “suajili”,
“gl”: “gallego”,
“mr”: “maratí”,
“pa”: “punyabí”,
“si”: “cingalés”,
“km”: “jemer”,
“sn”: “shona”,
“yo”: “yoruba”,
“so”: “somalí”,
“af”: “afrikaans”,
“oc”: “occitano”,
“ka”: “georgiano”,
“be”: “bielorruso”,
“tg”: “tayiko”,
“sd”: “sindhi”,
“gu”: “guyaratí”,
“am”: “amhárico”,
“yi”: “yidis”,
“lo”: “laosiano”,
“uz”: “uzbeko”,
“fo”: “faroés”,
"ht": "criollo haitiano",
“ps”: “pastún”,
“tk”: “turcomano”,
“nn”: “nynorsk”,
“mt”: “maltés”,
“sa”: “sánscrito”,
“lb”: “luxemburgués”,
“my”: “birmano”,
“bo”: “tibetano”,
“tl”: “tagalo”,
“mg”: “malgache”,
“as”: “asamés”,
“tt”: “tártaro”,
“haw”: “hawaiano”,
“ln”: “lingala”,
“ha”: “hausa”,
“ba”: “bashkir”,
“jw”: “javanés”,
“su”: “sundanés”,
“yue”: “cantonés”.

 

CÓMO PROBAR

1. Descargue Xeoma desde nuestro sitio web y ejecútelo. Asegúrese de que el servidor de Xeoma se esté ejecutando en una máquina con el procesador requerido.
Asimismo, verifique que Xeoma se esté ejecutando en la edición de prueba o active una licencia de Xeoma Pro para utilizar este módulo.
2. Agregue una cámara o espere a que Xeoma detecte y agregue las cámaras de su red automáticamente. Si requiere un micrófono independiente que no esté integrado en la cámara, conecte el módulo “Micrófono” y seleccione la fuente de sonido correspondiente.
3. Agregue el módulo “Voice-to-Text” a la cadena y configúrelo.
4. Si es necesario, agregue otros módulos para definir las reacciones requeridas; por ejemplo, archivar grabación, enviar correo electrónico o una reacción personalizada.
5. ¡Listo! Ahora puede aprovechar el avanzado reconocimiento de voz inteligente de Xeoma.

 

Consejos del software de videovigilancia Xeoma *El módulo Voice-to-Text se muestra y funciona únicamente en los siguientes procesadores:

Procesadores Intel de 64 bits de las siguientes series:
-Procesadores Intel Core a partir de la 4.ª generación (incluidas las generaciones 10 y posteriores);
-Procesadores XEON a partir de la 6.ª generación;
-Procesadores Atom de las series “C23”, “C25”, “C27”, “C33”, “C35”, “C37”, “C38”, “C39”, “P59”, “Z34”, “Z35”, “x5-E39” o “x5-E8000”;
-Procesadores Intel Xeon serie E5-24, i5-2450M o i7-2600.

Aunque este módulo puede funcionar utilizando la capacidad de la CPU, se recomienda contar con una tarjeta gráfica en el servidor.

 
¡Xeoma ofrece más!
Xeoma también dispone de otros módulos para el procesamiento de flujos de audio:
Micrófono es un módulo que le permite seleccionar un micrófono USB o un micrófono IP independiente como fuente de sonido.
Detector de sonido es un módulo que analiza flujos de audio y se activa cuando el nivel de sonido supera un límite especificado.
Detector de eventos sonoros es un módulo inteligente capaz de reconocer sonidos específicos: alarmas de autos, llanto de niños, disparos, gritos o cristales rotos.
 

 

Ver video sobre Voice-to-Text de Xeoma

 

Consejo importante sobre los datos de cámaras térmicas ¿Requiere alguna funcionalidad adicional? Podemos desarrollarla e integrarla en Xeoma como un desarrollo pago. Ver detalles

 

 

PRUEBA GRATUITA DE XEOMA

¡Pruebe Xeoma gratis! Ingrese su nombre y el correo electrónico donde desea recibir la licencia en los campos a continuación, y haga clic en el botón "Enviar licencias demo gratuitas de Xeoma al correo".




Le recomendamos no utilizar direcciones de correo electrónico que contengan datos personales ni enviarnos datos personales por ningún otro medio. Si lo hace, al enviar este formulario, usted confirma su consentimiento para el procesamiento de sus datos personales
 

 

¿Tiene preguntas? ¿Necesita ayuda? ¡Contáctenos! ¡Estaremos encantados de ayudarle!

14 de agosto de 2024

Leer más:
Módulos adicionales en Xeoma
Lista de precios de módulos basados en IA en Xeoma