语音转文本：Xeoma

语音转文本：Xeoma 智能语音识别模块

Voice-to-Text：Xeoma 智能语音识别模块

AI 驱动的 Voice-to-Text Xeoma 视频监控软件的 AI 驱动 语音转文本 模块可“监听”来自摄像机或独立麦克风的音频流，识别语音，并将转录内容保存为 CSV 报告或以文本形式叠加在预览画面上。此外，您还可以将其设置为对特定词汇或短语做出响应。该模块同样支持 .mp3 音频文件（如对话录音、培训视频等），可将语音转录为文本。

使用 Xeoma 语音转文本功能无需专用设备：任何摄像机或独立麦克风的音频流，配合普通的商用计算机及显卡即可运行。

注意：此模块自 Xeoma 24.8.12 版本起提供，目前处于 beta 阶段，可能会出现漏词或循环现象。

获取演示版

购买

了解详情

应用场景

语音转文本模块是一款灵活的工具，适用于多种场景：

呼叫中心：转录实时通话或录音，以监控是否符合公司政策及标准话术
长者照护：能够即时响应求救呼喊
城市监控：在反恐安防中识别预示危险的词语
家长控制：协助保障儿童安全，防止其遭受欺凌或与诈骗分子、骚扰者接触
警务执法：集成于执法记录仪，转录警员与嫌疑人的对话，并具备检测危险状况的能力
银行、典当行：无需物理按压的虚拟紧急按钮
研究与分析：后台统计各类词汇的使用频率，开展其他语音相关研究
市场营销：洞察客户是否在讨论促销活动，以及他们对横幅或广告的反应等。
各类商业场景：自动化监控客户服务质量（例如检测脏话）
过滤与自动化：检测对话中的不当或禁用词汇/短语，并将此类片段标记以供重点审查，无需听取全部对话

由此可见，Xeoma 视频监控软件的“语音转文本”工具应用场景广泛！它不仅有助于提升个人生活、城市环境及公民的安全，还能在商业领域助力业务流程优化。

语音转文本模块的优势：

无需特殊设备：
可使用常规商用计算机和几乎任意类型的摄像头。

灵活便捷：
支持多种响应机制，可与第三方系统集成。

实时处理：
实时模式下即时处理，零延迟。仅在您的本地计算机上运行。

经济实惠的方案：

该模块已包含在 Xeoma Pro 许可证中！

工作原理：

首先需注意，只有当 Xeoma 服务端运行在兼容硬件上时，该模块才会显示在列表中。若未找到该模块，请确认您使用的是兼容的处理器及正确的 Xeoma 版本（该模块仅限 Xeoma Pro 版）。由于该模块处理音频流，链路中必须包含音频源：可以是摄像头内置麦克风，也可以是独立的 USB 或 IP 麦克风。

例如，假设您的音频流直接来自 IP 摄像头。此时，只需在 Xeoma 中构建如下模块链：“通用摄像头” – “语音转文本” – “预览与存档”：

含 Voice-to-Text 智能模块的链条示例

点击链条中的“语音转文本”图标以打开模块设置。使用语音转文本模块的第一步是下载其运行所需的附加资源。首次打开模块设置时，下载过程将自动开始。附加资源下载完成后，“正在下载”消息将消失。

Voice-to-Text 智能模块设置

附加资源包含语音转文本所基于的人工智能数据阵列，并根据请求从 FelenaSoft 服务器下载。为了减小程序体积，这些资源未随软件一同提供，因为并非所有 CCTV 系统都需要它们。

附加资源下载完成后，新增的选项让您可从多种人工智能语音识别模型中进行选择。各模型优劣各异——主要区别在于识别准确率与处理器负载。按模型尺寸、识别质量及硬件负载由低到高排序，它们分别命名为 tiny、base、small、medium、large。

Voice-to-Text 智能模块设置

在“语言”字段中，选择语音 转录文本 的语言（请注意，无需指定语音本身的语言）。

如果您需要转录所有可听到的对话，可以直接勾选“将数据保存至 CSV 报告”复选框。这样，对话转录文本将保存到磁盘指定目录的电子表格文件中，并可集成到其他系统（例如统计系统）中。

此外，“语音转文本”还可 检测特定短语或词汇。请在“识别关键词”字段中指定需搜索的词汇或短语。此后，模块将继续监听摄像机或麦克风周边的所有语音，但仅在捕捉到关键词时触发响应。请在“语音转文本”模块后连接所需的响应模块，以便在此情况下接收通知、启动录像或发送指令。

本例中，我们将“预览与存档”模块设为目标模块；因此，一旦检测到设定关键词，系统即开始录制摄像机流，并支持检索包含指定关键词的片段。此功能还可轻松与 保存至 CSV 报告 选项配合使用：只需勾选下方相应复选框即可。

“语音转文本”内置专属宏 %VOICE%，若您希望将语音转录文本发送至“发送邮件”、“运行应用程序”或"HTTP 请求发送器”等目标模块，可直接调用该宏。

与外部程序集成

Xeoma 的“语音转文本”还支持被外部程序调用——例如用于转录 VoIP 通话。遵照以下说明，您可提交 .mp3 文件供“语音转文本”解码并获取文本结果。因此，即便在未安装 Xeoma 或缺乏摄像机的操作员工作站上，亦可使用此模块。实现方式有两种：通过 Xeoma API 或执行控制台命令。重要提示：仅支持 .mp3 文件。

1. API。 首选方案需借助 Xeoma API 发起 JSON 请求。通过相应命令，您可向远程或本地 Xeoma 服务器发送请求，要求其将 .mp3 文件转录为文本。

例如：
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true"

其中
“speech.mp3” 应替换为您计算机上音频文件的路径；

“192.168.0.135:10090” 应替换为运行中且可运行语音转文本的 Xeoma 服务器的 IP 地址及其端口（通常为 10090）；

“Administrator” 保持不变，因为此功能仅适用于 Xeoma 的管理员 (Administrator) 配置文件；

将“123”替换为 Xeoma 管理员账户的密码；

"model=large" 用于选择识别模型。更多选项请参阅上文；

若需启用噪声消除功能（在某些情况下可提升识别准确率），请添加 "denoise=true"；

请将 "en" 替换为您希望获取 转录文本 的目标语言代码（2-3 个字符，见下文）。若该代码与“语音转文本”实际收听的语言不一致，系统将自动将其翻译为您指定的语言。

注意： 此请求将直接在控制台或您使用的请求发送工具中返回文件的文本转录结果。若您希望将转录内容保存为文本文件，请在命令后添加 ">filename.txt"：

curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true">savetext.txt
其中
请将 savetext.txt 替换为您期望的转录文件名。

2. 运行命令。 第二种方案支持您无需调用 API，直接在 PC 本地通过控制台执行命令来完成识别。

示例：

{Path to Xeoma executable file} -speech2text file.mp3;out.log;large;en;denoise

其中
将“file.mp3”替换为您计算机上音频文件的路径；

将“out.log”替换为生成的转写文本文件的路径及其名称；

"large"用于选择识别模型。更多选项详情请见上文；

将“en”替换为您希望获得 转写文本 的语言代码（2-3 个字符，详见下文）。如果该语言与“语音转文本”监听的实际语音语言不同，系统将自动将其翻译为您指定的语言。

若需启用噪声消除（某些情况下可提高识别准确率），请包含"denoise"。

语言代码列表：

“en”：“英语”，
“zh”：“中文”，
“de”：“德语”，
“es”：“西班牙语”，
“ru”：“俄语”，
“ko”：“韩语”，
“fr”：“法语”，
“ja”：“日语”，
“pt”：“葡萄牙语”，
“tr”：“土耳其语”，
“pl”：“波兰语”，
“ca”：“加泰罗尼亚语”，
“nl”：“荷兰语”，
“ar”：“阿拉伯语”，
“sv”：“瑞典语”，
“it”：“意大利语”，
“id”：“印度尼西亚语”，
“hi”：“印地语”，
“fi”：“芬兰语”，
“vi”：“越南语”，
“he”：“希伯来语”，
“uk”：“乌克兰语”，
“el”：“希腊语”，
“ms”：“马来语”，
“cs”：“捷克语”，
“ro”：“罗马尼亚语”，
“da”：“丹麦语”，
“hu”：“匈牙利语”，
“ta”：“泰米尔语”，
“no”：“挪威语”，
“th”：“泰语”，
“ur”：“乌尔都语”，
“hr”：“克罗地亚语”，
“bg”：“保加利亚语”，
“lt”：“立陶宛语”，
“la”：“拉丁语”，
“mi”：“毛利语”，
“ml”：“马拉雅拉姆语”，
“cy”：“威尔士语”，
“sk”：“斯洛伐克语”，
“te”：“泰卢固语”，
“fa”：“波斯语”，
“lv”：“拉脱维亚语”，
“bn”：“孟加拉语”，
“sr”：“塞尔维亚语”，
“az”：“阿塞拜疆语”，
“sl”：“斯洛文尼亚语”，
“kn”：“卡纳达语”，
“et”：“爱沙尼亚语”，
“mk”：“马其顿语”，
“br”：“布列塔尼语”，
“eu”：“巴斯克语”，
“is”：“冰岛语”，
“hy”：“亚美尼亚语”，
“ne”：“尼泊尔语”，
“mn”：“蒙古语”，
“bs”：“波斯尼亚语”，
“kk”：“哈萨克语”，
“sq”：“阿尔巴尼亚语”，
“sw”：“斯瓦希里语”，
“gl”：“加利西亚语”，
“mr”：“马拉地语”，
“pa”：“旁遮普语”，
“si”：“僧伽罗语”，
“km”：“高棉语”，
“sn”：“绍纳语”，
“yo”：“约鲁巴语”，
“so”：“索马里语”，
“af”：“南非荷兰语”，
“oc”：“奥克语”，
“ka”：“格鲁吉亚语”，
“be”：“白俄罗斯语”，
“tg”：“塔吉克语”，
“sd”：“信德语”，
“gu”：“古贾拉特语”，
“am”：“阿姆哈拉语”，
“yi”：“意第绪语”，
“lo”：“老挝语”，
“uz”：“乌兹别克语”，
“fo”：“法罗语”，
“ht”：“海地克里奥尔语”，
“ps”：“普什图语”，
“tk”：“土库曼语”，
“nn”：“新挪威语”，
“mt”：“马耳他语”，
“sa”：“梵语”，
“lb”：“卢森堡语”，
“my”：“缅甸语”，
“bo”：“藏语”，
“tl”：“塔加洛语”，
“mg”：“马达加斯加语”，
“as”：“阿萨姆语”，
“tt”：“鞑靼语”，
“haw”：“夏威夷语”，
“ln”：“林加拉语”，
“ha”：“豪萨语”，
“ba”：“巴什基尔语”，
“jw”：“爪哇语”，
“su”：“巽他语”，
“yue”：“粤语”。

如何测试

1. 从我们的网站下载并启动 Xeoma。请确保 Xeoma 服务器端运行在配备指定处理器的设备上。
同时请确保 Xeoma 运行在试用版模式下，或激活 Xeoma Pro 许可证以使用此模块。
2. 添加摄像头，或等待 Xeoma 自动发现并添加网络中的摄像头。如需使用非摄像头内置的独立麦克风，请连接"Microphone"模块并选择相应的音频源。
3. 将"Voice-to-Text"模块添加至链条并完成配置。
4. 如有需要，可添加其他模块以设定相应响应，例如存档录像、发送电子邮件或自定义响应。
5. 完成！现在您即可使用 Xeoma 卓越的智能语音识别功能。

*Voice-to-Text 模块仅在以下处理器上显示并运行：

以下系列的 Intel 64 位处理器：
- 自第 4 代起（含第 10 代及更高版本）的 Intel Core 处理器；
- 自第 6 代起XEON 处理器；
-"C23"、"C25"、"C27"、"C33"、"C35"、"C37"、"C38"、"C39"、"P59"、"Z34"、"Z35"、"x5-E39"或"x5-E8000"系列的 Atom 处理器；
-Intel Xeon E5-24 系列、i5-2450M 或 i7-2600 处理器。

虽然该模块可利用 CPU 算力运行，但建议在服务器端配备独立显卡。

Xeoma 功能不止于此！
Xeoma 还提供其他处理音频流的模块：
• Microphone：让您选择 USB 麦克风或独立 IP 麦克风作为音频源的模块。
• 声音检测器 是一款可分析音频流并在音量超过指定限值时触发的模块。
• 声音事件检测器 是一款智能模块，能够识别特定声音：汽车报警器、婴儿哭声、枪声、尖叫声及玻璃破碎声。

观看 Xeoma 语音转文本功能视频

需要其他功能？我们可提供定制开发服务，将其作为付费项目集成至 Xeoma 中。查看详情

免费试用 XEOMA

免费试用 Xeoma！请在下方字段中输入您的姓名及接收许可证的邮箱地址，然后点击“将 Xeoma 免费演示许可证发送至邮箱”按钮。

我们建议您不要在电子邮件中包含个人数据，也不要通过任何其他方式向我们发送个人数据。若您仍执意如此，提交此表单即表示您确认同意我们处理您的个人数据

有疑问？需协助？请联系我们！我们将竭诚为您服务！

2024 年 8 月 14 日

阅读更多：
Xeoma 附加模块
 Xeoma 人工智能模块价目表