Voice-to-Text: Módulo Intelectual da Xeoma para Reconhecimento de Voz

O módulo Voice-to-Text da Xeoma, acionado por IA, "ouve" o fluxo de áudio de uma câmera ou de um microfone externo, identifica a fala e salva a transcrição em um relatório CSV ou a exibe como texto sobreposto à pré-visualização. Alternativamente, você pode configurá-lo para reagir a palavras ou frases específicas. Ele também processa arquivos de áudio .mp3 — gravações de conversas, vídeos de treinamento etc. —, transcrevendo a fala e fornecendo o resultado em texto.
O uso do Voice-to-Text da Xeoma não exige equipamentos especializados: são compatíveis fluxos de áudio de qualquer câmera ou microfone externo, bem como computadores e placas de vídeo comuns.
![]() |
Aviso: este módulo está disponível a partir da versão 24.8.12 da Xeoma e encontra-se em estado beta, podendo omitir palavras ou apresentar loops. |
O módulo Voice-to-Text é uma ferramenta flexível que pode ser utilizada para diversos fins:
- Call center: transcrição de chamadas em andamento ou de gravações para monitorar a conformidade com as políticas da empresa e com os roteiros de atendimento
- Cuidados com idosos: capacidade de reagir instantaneamente a pedidos de ajuda
- Vigilância urbana: reconhecimento de palavras que indiquem perigo em operações de contraterrorismo
- Controle parental: auxílio para garantir a segurança da criança, protegendo-a contra bullying ou contato com golpistas e abusadores
- Polícia: integração a câmeras corporais para transcrição de diálogos entre policiais e suspeitos, com capacidade de detectar situações de risco
- Bancos e casas de penhor: botão de pânico acionado por voz, eliminando a necessidade de acionamento físico
- Pesquisa e análise: coleta automatizada de estatísticas sobre a frequência de uso de diversas palavras e outros estudos relacionados à fala
- Marketing: identificação de quando os clientes discutem uma campanha promocional, sua reação a um banner ou anúncio etc.
- Qualquer negócio: controle automatizado da qualidade do atendimento ao cliente (por exemplo, detecção de palavrões)
- Filtragem e automação: detecção de palavras ou frases indesejadas ou proibidas em conversas, direcionando episódios específicos para auditoria detalhada sem a necessidade de ouvir todo o conteúdo
Como demonstrado, a ferramenta "Voice-to-Text" do software de videovigilância Xeoma atende a uma ampla gama de cenários. Ela não apenas eleva a segurança na vida privada, no ambiente urbano e no setor comercial, mas também contribui para a otimização das operações de negócio.

Sem necessidade de hardware especial:
Compatível com computadores comuns e praticamente qualquer câmera.

Totalmente flexível:
Diversas formas de reação e integração com sistemas de terceiros.

Operação em tempo real:
Processamento instantâneo em tempo real, sem latência. Funciona apenas no seu computador.

Solução acessível:
O módulo já está incluso nas licenças do Xeoma Pro!
Primeiramente, observe que o módulo aparece na lista apenas quando a parte do servidor da Xeoma está em execução em hardware compatível. Caso não localize o módulo, verifique se você está utilizando um processador adequado e a edição correta da Xeoma (o módulo está disponível exclusivamente na edição Xeoma Pro). Como o módulo trabalha com fluxo de áudio, é indispensável haver uma fonte de som na cadeia: seja um microfone embutido na câmera, seja um microfone USB ou IP externo.
Por exemplo, suponha que o fluxo de áudio no seu caso provenha da própria câmera IP. Nesse caso, basta configurar no Xeoma uma cadeia de módulos contendo "Universal Camera" – "Voice-to-Text" – "Preview and Archive":

Clique no ícone Voice-to-Text na cadeia para abrir as configurações do módulo. O primeiro passo ao usar o módulo Voice-to-Text é baixar os recursos adicionais necessários para seu funcionamento. O download inicia automaticamente na primeira abertura das configurações do módulo. Quando o processo de download dos recursos adicionais for concluído, a mensagem "Download em andamento" desaparecerá.

![]() |
Os recursos adicionais contêm bases de dados de inteligência artificial nas quais o Voice-to-Text se fundamenta e são baixados sob demanda dos servidores da FelenaSoft. Eles não são fornecidos com o software para manter o tamanho do programa reduzido, pois não são necessários em todos os sistemas de CFTV. |
Novas opções tornam-se disponíveis após a conclusão do download, permitindo escolher entre diversos modelos de reconhecimento de voz com IA. Cada modelo tem seus pontos fortes e limitações — geralmente, diferem na precisão do reconhecimento e no nível de carga sobre o processador. Convencionalmente, são chamados de tiny, base, small, medium, large, em ordem crescente de tamanho do modelo, qualidade de reconhecimento e carga sobre o hardware.

No campo "Language", selecione o idioma no qual a transcrição da fala será gerada (observe que não é necessário especificar o idioma da fala em si).
Para transcrever todas as conversas audíveis, marque diretamente a caixa "Save data in CSV report". Assim, a transcrição das conversas será salva em um arquivo de planilha no diretório especificado, podendo ser integrada a outros sistemas, como os de análise estatística.
O "Voice-to-Text" também pode detectar frases ou palavras específicas. Insira as palavras ou frases desejadas no campo "Keywords for recognition". Após isso, o módulo continuará monitorando todo o áudio próximo à câmera ou ao microfone, mas reagirá apenas ao ouvir as palavras-chave. Conecte o módulo de reação desejado após o módulo "Voice-to-Text" para receber uma notificação, iniciar uma gravação ou enviar um comando nesses casos.
Neste exemplo, utilizamos o módulo “Preview and Archive” como destino; portanto, ao detectar as palavras-chave, o sistema inicia a gravação do fluxo da câmera e permite a busca por episódios com o termo especificado. Esta opção combina-se facilmente com o salvamento em relatório CSV: basta marcar a caixa correspondente abaixo.
O "Voice-to-Text" possui sua própria macro — %VOICE% — que pode ser usada em módulos de destino como "Email Sending", "Application Runner" ou "HTTP Request Sender" caso você queira enviar a transcrição da fala para eles.
O Voice-to-Text do Xeoma também pode ser utilizado por programas externos — por exemplo, para transcrever conversas VoIP. Seguindo as instruções abaixo, você pode enviar um arquivo .mp3 ao Voice-to-Text para decodificação e obter o resultado em texto. Assim, este módulo pode ser usado até mesmo em estações de operador onde não há Xeoma ou câmeras. Isso pode ser feito de duas formas: via API do Xeoma ou executando um comando de console. Importante: apenas arquivos .mp3 são suportados.
1. API. Para a primeira opção, utilize a API do Xeoma com requisições JSON. Usando comandos, você pode solicitar a um servidor Xeoma local ou remoto que transcreva um arquivo .mp3 em texto.
Por exemplo:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true"
onde
"speech.mp3" deve ser substituído pelo caminho do arquivo de áudio em seu computador;
"192.168.0.135:10090" deve ser substituído pelo endereço IP e pela porta (geralmente 10090) de um servidor Xeoma em execução apto a processar o Voice-to-Text;
"Administrator" deve ser mantido como está, pois esta função está disponível apenas para o perfil Administrator do Xeoma;
“123” deve ser substituído pela senha do perfil de Administrador do Xeoma;
“model=large” é o parâmetro para escolher o modelo de reconhecimento. Veja mais opções acima;
“denoise=true” deve ser incluído para ativar o cancelamento de ruído, o que pode aumentar a precisão do reconhecimento em alguns casos;
“en” deve ser substituído pelo código de 2 a 3 caracteres (veja abaixo) do idioma no qual você deseja obter o texto transcrito. Se for diferente do idioma da fala detectado pelo Voice-to-Text, o texto será traduzido automaticamente para o idioma especificado.
Nota: Esta requisição retorna a transcrição do arquivo diretamente no console ou na ferramenta utilizada para enviar a solicitação. Para salvar a transcrição em um arquivo de texto, adicione “>filename.txt” após o comando:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true">savetext.txt
onde
savetext.txt deve ser substituído pelo nome desejado para o arquivo de transcrição.
2. Executar comando. A segunda opção permite realizar o reconhecimento localmente no PC via comandos de console, em vez de utilizar a API.
Exemplo:
{Path to Xeoma executable file} -speech2text file.mp3;out.log;large;en;denoise
onde
"file.mp3" deve ser substituído pelo caminho do arquivo de áudio em seu computador;
"out.log" deve ser substituído pelo caminho e pelo nome do arquivo de texto de transcrição resultante;
“large” é onde você escolhe o modelo de reconhecimento. Veja mais opções acima;
“en” deve ser substituído pelo código de 2 a 3 caracteres (veja abaixo) do idioma no qual você deseja obter o texto transcrito. Se for diferente do idioma falado captado pelo Voice-to-Text, ele será traduzido automaticamente para o idioma especificado.
"denoise" é incluído se você desejar habilitar o cancelamento de ruído, o que, em alguns casos, aumenta a precisão do reconhecimento.
Lista de códigos de idioma:
“en”: “inglês”,
“zh”: “chinês”,
“de”: “alemão”,
“es”: “espanhol”,
“ru”: “russo”,
“ko”: “coreano”,
“fr”: “francês”,
“ja”: “japonês”,
“pt”: “português”,
“tr”: “turco”,
“pl”: “polonês”,
“ca”: “catalão”,
“nl”: “holandês”,
“ar”: “árabe”,
“sv”: “sueco”,
“it”: “italiano”,
“id”: “indonésio”,
“hi”: “hindi”,
“fi”: “finlandês”,
“vi”: “vietnamita”,
“he”: “hebraico”,
“uk”: “ucraniano”,
“el”: “grego”,
“ms”: “malaio”,
“cs”: “tcheco”,
“ro”: “romeno”,
“da”: “dinamarquês”,
“hu”: “húngaro”,
“ta”: “tâmil”,
“no”: “norueguês”,
“th”: “tailandês”,
“ur”: “urdu”,
“hr”: “croata”,
“bg”: “búlgaro”,
“lt”: “lituano”,
“la”: “latim”,
“mi”: “maori”,
“ml”: “malaialam”,
“cy”: “galês”,
“sk”: “eslovaco”,
“te”: “telugo”,
“fa”: “persa”,
“lv”: “letão”,
“bn”: “bengali”,
“sr”: “sérvio”,
“az”: “azerbaijano”,
“sl”: “esloveno”,
“kn”: “canarese”,
“et”: “estoniano”,
“mk”: “macedônio”,
“br”: “bretão”,
“eu”: “basco”,
“is”: “islandês”,
“hy”: “armênio”,
“ne”: “nepalês”,
“mn”: “mongol”,
“bs”: “bósnio”,
“kk”: “cazaque”,
“sq”: “albanês”,
“sw”: “suaíli”,
“gl”: “galego”,
“mr”: “marata”,
“pa”: “punjabi”,
“si”: “cingalês”,
“km”: “khmer”,
“sn”: “shona”,
“yo”: “iorubá”,
“so”: “somali”,
“af”: “africâner”,
“oc”: “occitano”,
“ka”: “georgiano”,
“be”: “bielorrusso”,
“tg”: “tadjique”,
“sd”: “sindi”,
“gu”: “gujarati”,
“am”: “amárico”,
“yi”: “iídiche”,
“lo”: “laosiano”,
“uz”: “uzbeque”,
“fo”: “feroês”,
“ht”: “crioulo haitiano”,
“ps”: “pastu”,
“tk”: “turcomeno”,
“nn”: “nynorsk”,
“mt”: “maltês”,
“sa”: “sânscrito”,
“lb”: “luxemburguês”,
“my”: “birmanês”,
“bo”: “tibetano”,
“tl”: “tagalo”,
“mg”: “malgaxe”,
“as”: “assamês”,
“tt”: “tatar”,
“haw”: “havaiano”,
“ln”: “lingala”,
“ha”: “hausa”,
“ba”: “bashkir”,
“jw”: “javanês”,
“su”: “sundanês”,
“yue”: “cantonês”.
1. Baixe o Xeoma em nosso site e inicie-o. Certifique-se de que o servidor do Xeoma esteja em execução em uma máquina com o processador exigido.
Certifique-se também de que o Xeoma esteja na edição de teste (Trial) ou ative uma licença Xeoma Pro para utilizar este módulo.
2. Adicione uma câmera ou aguarde enquanto o Xeoma adiciona automaticamente as câmeras encontradas na sua rede. Se precisar utilizar um microfone externo não integrado à câmera, conecte o módulo “Microfone” e selecione a fonte de som adequada.
3. Adicione o módulo “Voice-to-Text” ao fluxo e configure-o.
4. Se necessário, adicione outros módulos para definir as reações desejadas, como arquivamento de gravação, envio de e-mail ou sua própria reação.
5. Pronto! Agora você pode utilizar o reconhecimento de voz inteligente do Xeoma.
![]() |
*O módulo Voice-to-Text é exibido e funciona apenas nos seguintes processadores:
Processadores Intel de 64 bits das seguintes séries: Embora este módulo possa operar utilizando a capacidade da CPU, recomenda-se o uso de uma placa de vídeo no servidor. |
O Xeoma oferece ainda mais!
O Xeoma também disponibiliza outros módulos que processam fluxos de áudio:
• Microfone é um módulo que permite selecionar um microfone USB ou um microfone IP externo como fonte de som.
• Detector de Som é um módulo que analisa fluxos de áudio e aciona ações quando o nível sonoro excede um limite definido.
• Detector de Eventos Sonoros é um módulo inteligente capaz de reconhecer sons específicos: alarmes de carros, choro de criança, disparos de arma de fogo, gritos e quebra de vidros.
![]() |
Precisa de algo diferente? Podemos desenvolver a funcionalidade e integrá-la à Xeoma como desenvolvimento personalizado. Ver detalhes |
Experimente a Xeoma gratuitamente! Preencha seu nome e e-mail nos campos abaixo para receber a licença e clique no botão "Get Xeoma free demo licenses to email".
Recomendamos não usar e-mails que contenham dados pessoais nem nos enviar dados pessoais de qualquer outra forma. Se o fizer, ao enviar este formulário, você confirma seu consentimento para o processamento de seus dados pessoais
Tem dúvidas? Precisa de ajuda? Entre em contato conosco! Teremos prazer em ajudar!
14 de agosto de 2024
Leia mais:
Módulos adicionais no Xeoma
Tabela de preços dos módulos baseados em IA no Xeoma
