Voice-to-Text: El módulo inteligente de Xeoma para el reconocimiento de voz

El módulo de Voice-to-Text con IA del software de videovigilancia Xeoma "escucha" el flujo de audio de una cámara o un micrófono externo, identifica el habla y guarda la transcripción en un informe CSV o la superpone como texto en la vista previa. También puede configurarlo para que reaccione a palabras o frases específicas. Asimismo, procesa archivos de audio .mp3 —grabaciones de conversaciones, videos de capacitación, etc.— transcribiendo el habla y convirtiéndola en texto.
El uso de Voice-to-Text de Xeoma no requiere equipo especializado: funciona con el flujo de audio de cualquier cámara o micrófono externo, así como con computadoras y tarjetas gráficas convencionales.
![]() |
Advertencia: este módulo está disponible a partir de Xeoma 24.8.12 y se encuentra en estado beta, por lo que podría omitir palabras o presentar bucles. |
El módulo Voice-to-Text es una herramienta flexible con múltiples aplicaciones:
- Centros de contacto: transcripción de llamadas en curso o grabadas para supervisar el cumplimiento de las políticas empresariales y los guiones de conversación
- Cuidado de adultos mayores: capacidad de reaccionar al instante ante un grito de auxilio
- Vigilancia urbana: reconocimiento de palabras que indiquen peligro en estrategias de seguridad antiterrorista
- Control parental: ayuda para garantizar la seguridad de los niños, protegiéndolos del acoso o de la comunicación con estafadores y abusadores
- Policía: integración en cámaras corporales para transcribir conversaciones entre oficiales y sospechosos, con capacidad para detectar situaciones de riesgo
- Bancos y casas de empeño: botón de pánico que no requiere activación física
- Investigación y análisis: recopilación automática de estadísticas sobre la frecuencia de uso de diversas palabras y otros estudios relacionados con el habla
- Marketing: identificación de si los clientes comentan una campaña promocional, su reacción a un banner o anuncio, etc.
- Cualquier negocio: control automatizado de la calidad del servicio al cliente (por ejemplo, detección de groserías)
- Filtrado y automatización: detección de palabras o frases no deseadas o prohibidas en conversaciones, derivando dichos episodios para una inspección detallada sin necesidad de escuchar todas las llamadas
Como puede ver, la herramienta "Voice-to-Text" del programa de videovigilancia Xeoma se aplica en una amplia gama de escenarios. No solo optimiza la seguridad en el ámbito privado, urbano y ciudadano, sino que también mejora la eficiencia de las operaciones comerciales.

Sin equipo especializado:
Compatible con computadoras convencionales y casi cualquier cámara.

Simplemente flexible:
Diversas reacciones e integración con sistemas de terceros.

Operación en tiempo real:
Procesamiento en tiempo real sin latencia. Funciona exclusivamente en su computadora.

Solución accesible:
¡El módulo ya viene incluido en las licencias de Xeoma Pro!
En primer lugar, cabe destacar que el módulo aparece en la lista solo cuando el servidor de Xeoma se ejecuta en hardware compatible. Si no encuentra el módulo, verifique que esté utilizando un procesador adecuado y la edición correcta de Xeoma (el módulo solo está disponible en la edición Xeoma Pro). Dado que el módulo trabaja con un flujo de audio, es necesario contar con una fuente de sonido en la cadena: ya sea un micrófono integrado en la cámara o un micrófono USB o IP externo.
Por ejemplo, supongamos que el flujo de audio proviene de la propia cámara IP. En este caso, simplemente configure en su Xeoma una cadena de módulos que incluya "Cámara universal" – "Voice-to-Text" – "Vista previa y archivo":

Haga clic en el icono de Voice-to-Text en la cadena para abrir la configuración del módulo. El primer paso para utilizar el módulo Voice-to-Text es descargar los recursos adicionales que requiere. La descarga iniciará automáticamente la primera vez que abra la configuración. Cuando finalice la descarga de los recursos adicionales, el mensaje "Descarga en curso" desaparecerá.

![]() |
Los recursos adicionales contienen conjuntos de datos para la inteligencia artificial en la que se basa Voice-to-Text y se descargan bajo demanda desde los servidores de FelenaSoft. No se incluyen con el software para mantener su tamaño reducido, ya que no son necesarios en todos los sistemas de CCTV. |
Las nuevas opciones que aparecen al finalizar la descarga de recursos adicionales le permiten elegir entre varios modelos de reconocimiento de voz con IA. Cada modelo tiene sus propias fortalezas y debilidades; por lo general, difieren en el grado de precisión del reconocimiento y en el nivel de carga sobre el procesador. Convencionalmente, se denominan tiny, base, small, medium, large en orden ascendente de tamaño del modelo, calidad de reconocimiento y carga de hardware.

En el campo "Idioma", seleccione el idioma en el que se generará la transcripción del habla (tenga en cuenta que no es necesario especificar el idioma del habla en sí).
Si necesita transcribir todas las conversaciones audibles, puede ir directamente a la casilla "Guardar datos en informe CSV" y marcarla. De este modo, la transcripción de las conversaciones se guardará en un archivo de hoja de cálculo en el disco, dentro del directorio que especifique, el cual puede integrarse con otros sistemas, como los de análisis estadístico.
Además, "Voice-to-Text" puede detectar frases o palabras específicas. Indique las palabras o frases buscadas en el campo "Palabras clave para reconocimiento". Después de esto, el módulo seguirá escuchando todo el audio en la proximidad de la cámara o el micrófono, pero solo reaccionará al escuchar las palabras clave. Conecte el módulo de reacción deseado después del módulo "Voice-to-Text" para recibir una notificación, iniciar una grabación o enviar un comando en este caso.
En nuestro caso, tenemos el módulo "Vista previa y archivo" conectado como módulo de destino; por lo tanto, cuando se detecten las palabras clave establecidas, iniciará la grabación del flujo de la cámara y permitirá buscar episodios con la palabra clave que especifique. Esta opción también se puede combinar fácilmente con la opción de guardado en un informe CSV: para ello, marque la casilla correspondiente a continuación.
"Voice-to-Text" cuenta con su propia macro: %VOICE% — que puede utilizarse en módulos de destino como "Envío de correo electrónico", "Ejecutor de aplicaciones" o "Enviador de solicitudes HTTP" si desea enviarles la transcripción del habla.
Voice-to-Text de Xeoma también puede utilizarse desde programas externos; por ejemplo, para transcribir conversaciones de VoIP. Siguiendo las instrucciones a continuación, puede enviar un archivo .mp3 a Voice-to-Text para su decodificación y obtener el resultado en texto. Así, este módulo es útil incluso en estaciones de operador donde no hay cámaras ni Xeoma instalado. Esto se logra de dos formas: mediante la API de Xeoma o ejecutando un comando de consola. Importante: solo se admiten archivos .mp3.
1. API. Para la primera opción, debe utilizar la API de Xeoma con solicitudes JSON. Mediante comandos, puede solicitar a un servidor Xeoma remoto o local que transcriba un archivo .mp3 a texto.
Por ejemplo:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true"
donde
“speech.mp3” debe sustituirse por la ruta del archivo de audio en su computadora;
"192.168.0.135:10090" debe sustituirse por la dirección IP de un servidor Xeoma en ejecución que sea adecuado para ejecutar Voice-to-Text y su puerto (generalmente 10090);
"Administrator" debe mantenerse tal cual, ya que esto solo está disponible para el perfil de Administrador de Xeoma;
“123” debe sustituirse por la contraseña del perfil de Administrador de Xeoma;
"model=large" es donde elige el modelo de reconocimiento. Consulte más detalles sobre las opciones arriba;
"denoise=true" se incluye si desea activar también la cancelación de ruido, lo que en algunos casos ayuda a aumentar la precisión del reconocimiento;
"en" debe sustituirse por el código de 2 o 3 caracteres (ver más abajo) del idioma en el que desea obtener el texto transcrito. Si difiere del idioma real del habla que escucha Voice-to-Text, se traducirá automáticamente al idioma que especifique.
Nota: Esta solicitud le devolverá la transcripción de texto del archivo directamente en la consola o en cualquier herramienta que utilice para enviar la solicitud. Si prefiere guardar la transcripción del archivo como un archivo de texto, añada ">nombrearchivo.txt" después del comando:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true">savetext.txt
donde
savetext.txt debe sustituirse por el nombre que desea que tenga el archivo de transcripción.
2. Comando de ejecución. La segunda opción permite realizar el reconocimiento localmente en la PC mediante comandos ejecutados en una consola, sin utilizar la API.
Ejemplo:
{Path to Xeoma executable file} -speech2text file.mp3;out.log;large;en;denoise
donde
“file.mp3” debe sustituirse por la ruta del archivo de audio en su computadora;
"out.log" debe sustituirse por la ruta y el nombre del archivo de texto de transcripción resultante;
"large" es donde elige el modelo de reconocimiento. Consulte más detalles sobre las opciones arriba;
"en" debe sustituirse por el código de 2 o 3 caracteres (ver más abajo) del idioma en el que desea obtener el texto transcrito. Si difiere del idioma real del habla que escucha Voice-to-Text, se traducirá automáticamente al idioma que especifique.
Incluya "denoise" si desea activar la cancelación de ruido, lo cual en algunos casos mejora la precisión del reconocimiento.
Lista de códigos de idioma:
“en”: “inglés”,
“zh”: “chino”,
“de”: “alemán”,
“es”: “español”,
“ru”: “ruso”,
“ko”: “coreano”,
“fr”: “francés”,
“ja”: “japonés”,
“pt”: “portugués”,
“tr”: “turco”,
“pl”: “polaco”,
“ca”: “catalán”,
“nl”: “holandés”,
“ar”: “árabe”,
“sv”: “sueco”,
“it”: “italiano”,
“id”: “indonesio”,
“hi”: “hindi”,
“fi”: “finlandés”,
“vi”: “vietnamita”,
“he”: “hebreo”,
“uk”: “ucraniano”,
“el”: “griego”,
“ms”: “malayo”,
“cs”: “checo”,
“ro”: “rumano”,
“da”: “danés”,
“hu”: “húngaro”,
“ta”: “tamil”,
“no”: “noruego”,
“th”: “tailandés”,
“ur”: “urdu”,
“hr”: “croata”,
“bg”: “búlgaro”,
“lt”: “lituano”,
“la”: “latín”,
“mi”: “maorí”,
“ml”: “malayalam”,
“cy”: “galés”,
“sk”: “eslovaco”,
“te”: “telugu”,
“fa”: “persa”,
“lv”: “letón”,
“bn”: “bengalí”,
“sr”: “serbio”,
“az”: “azerbaiyano”,
“sl”: “esloveno”,
“kn”: “kannada”,
“et”: “estonio”,
“mk”: “macedonio”,
“br”: “bretón”,
“eu”: “vasco”,
“is”: “islandés”,
“hy”: “armenio”,
“ne”: “nepalí”,
“mn”: “mongol”,
“bs”: “bosnio”,
“kk”: “kazajo”,
“sq”: “albanés”,
“sw”: “suajili”,
“gl”: “gallego”,
“mr”: “maratí”,
“pa”: “punyabí”,
“si”: “cingalés”,
“km”: “jemer”,
“sn”: “shona”,
“yo”: “yoruba”,
“so”: “somalí”,
“af”: “afrikáans”,
“oc”: “occitano”,
“ka”: “georgiano”,
“be”: “bielorruso”,
“tg”: “tayiko”,
“sd”: “sindhi”,
“gu”: “guyaratí”,
“am”: “amhárico”,
“yi”: “yidis”,
“lo”: “laosiano”,
“uz”: “uzbeko”,
“fo”: “faroés”,
“ht”: “criollo haitiano”,
“ps”: “pastún”,
“tk”: “turcomano”,
“nn”: “nynorsk”,
“mt”: “maltés”,
“sa”: “sánscrito”,
“lb”: “luxemburgués”,
“my”: “birmano”,
“bo”: “tibetano”,
“tl”: “tagalo”,
“mg”: “malgache”,
“as”: “asamés”,
“tt”: “tártaro”,
“haw”: “hawaiano”,
“ln”: “lingala”,
“ha”: “hausa”,
“ba”: “bashkir”,
“jw”: “javanés”,
“su”: “sundanés”,
“yue”: “cantonés”.
1. Descargue Xeoma desde nuestro sitio web y ejecútelo. Asegúrese de que el servidor de Xeoma esté funcionando en una máquina con el procesador requerido.
Asimismo, verifique que Xeoma se esté ejecutando en la edición de prueba o active una licencia de Xeoma Pro para utilizar este módulo.
2. Agregue una cámara o espere a que Xeoma detecte y agregue automáticamente las cámaras de su red. Si necesita trabajar con un micrófono externo que no esté integrado en la cámara, conecte el módulo "Microphone" y seleccione la fuente de audio correspondiente.
3. Agregue el módulo "Voice-to-Text" a la cadena y configúrelo.
4. Si es necesario, agregue otros módulos para definir las reacciones deseadas, como grabación en archivo, envío de correo electrónico o una acción personalizada.
5. ¡Listo! Ahora puede aprovechar el avanzado reconocimiento de voz inteligente de Xeoma.
![]() |
*El módulo Voice-to-Text aparece y funciona únicamente con los siguientes procesadores:
Procesadores Intel de 64 bits de las siguientes series: Aunque este módulo puede funcionar utilizando la capacidad de la CPU, se recomienda contar con una tarjeta gráfica en el servidor. |
¡Xeoma ofrece más!
Xeoma dispone de otros módulos para el procesamiento de flujos de audio:
• Microphone es un módulo que le permite seleccionar un micrófono USB o un micrófono IP externo como fuente de audio.
• Sound Detector es un módulo que analiza flujos de audio y se activa cuando el nivel de sonido supera un límite establecido.
• Sound Events Detector es un módulo inteligente capaz de reconocer sonidos específicos: alarmas de vehículos, llanto de niños, disparos, gritos y rotura de vidrios.
![]() |
¿Necesita algo más? Podemos desarrollarlo e integrarlo en Xeoma como un desarrollo personalizado pago. Ver detalles |
¡Pruebe Xeoma gratis! Ingrese su nombre y el correo electrónico donde desea recibir la licencia en los campos a continuación, y haga clic en el botón 'Get Xeoma free demo licenses to email'.
Le recomendamos no utilizar correos electrónicos que contengan datos personales ni enviarnos información personal por ningún otro medio. Si lo hace, al enviar este formulario, usted confirma su consentimiento para el procesamiento de sus datos personales
¿Tiene preguntas? ¿Necesita ayuda? ¡Contáctenos! ¡Con gusto le ayudaremos!
14 de agosto de 2024
Leer más:
Módulos adicionales en Xeoma
Lista de precios de módulos basados en IA en Xeoma
