语音转文本:Xeoma 的语音识别智能模块

Xeoma 视频监控软件中基于人工智能的 语音转文本 模块可“监听”来自摄像头或独立麦克风的音频流,识别语音,并将转录文本保存为 CSV 报告,或直接以文字形式叠加在预览画面上。此外,您还可以设定模块对特定单词或短语做出响应。该模块也支持处理 .mp3 音频文件——如对话录音、培训视频等——将其中的语音转录为文本。
使用 Xeoma 语音转文本功能无需专用设备:任何摄像头或独立麦克风的音频流,配合标准的商用计算机及显卡即可运行。
![]() |
警告:此模块自 Xeoma 24.8.12 版本起提供,目前处于 Beta 测试阶段,可能会出现漏词或循环现象。 |
语音转文本模块是一款灵活的工具,适用于多种场景:
- 呼叫中心:转录实时通话或录音,以监控是否符合公司政策及标准话术
- 长者照护:能够即时响应求救呼喊
- 城市监控:在反恐安防中识别预示危险的词语
- 家长控制:协助保障儿童安全,防止其遭受欺凌或与诈骗分子、骚扰者接触
- 警务执法:集成于执法记录仪,转录警员与嫌疑人的对话,并具备检测危险状况的能力
- 银行、典当行:无需物理按压的虚拟紧急按钮
- 研究与分析:后台统计各类词汇的使用频率,开展其他语音相关研究
- 市场营销:洞察客户是否在讨论促销活动,以及他们对横幅或广告的反应等。
- 各类商业场景:自动化监控客户服务质量(例如检测脏话)
- 过滤与自动化:检测对话中的不当或禁用词汇/短语,并将此类片段标记以供重点审查,无需听取全部对话
由此可见,Xeoma 视频监控软件的“语音转文本”工具应用场景广泛!它不仅有助于提升个人生活、城市环境及公民的安全,还能在商业领域助力业务流程优化。

无需特殊设备:
可使用常规商用计算机和几乎任意类型的摄像头。

灵活便捷:
支持多种响应机制,可与第三方系统集成。

实时处理:
实时模式下即时处理,零延迟。仅在您的本地计算机上运行。

经济实惠的方案:
该模块已包含在 Xeoma Pro 许可证中!
首先需注意,只有当 Xeoma 服务端运行在 兼容硬件 上时,该模块才会显示在列表中。若未找到该模块,请确认您使用的是兼容的处理器及正确的 Xeoma 版本(该模块仅限 Xeoma Pro 版)。由于该模块处理音频流,链路中必须包含音频源:可以是摄像头内置麦克风,也可以是独立的 USB 或 IP 麦克风。
例如,假设您的音频流直接来自 IP 摄像头。此时,只需在 Xeoma 中构建如下模块链:“通用摄像头” – “语音转文本” – “预览与存档”:

点击链条中的“语音转文本”图标以打开模块设置。使用语音转文本模块的第一步是下载其运行所需的附加资源。首次打开模块设置时,下载过程将自动开始。附加资源下载完成后,“正在下载”消息将消失。

![]() |
附加资源包含语音转文本所基于的人工智能数据阵列,并根据请求从 FelenaSoft 服务器下载。为了减小程序体积,这些资源未随软件一同提供,因为并非所有 CCTV 系统都需要它们。 |
附加资源下载完成后,新增的选项让您可从多种人工智能语音识别模型中进行选择。各模型优劣各异——主要区别在于识别准确率与处理器负载。按模型尺寸、识别质量及硬件负载由低到高排序,它们分别命名为 tiny、base、small、medium、large。

在“语言”字段中,选择语音 转录文本 的语言(请注意,无需指定 语音 本身的语言)。
如果您需要转录所有可听到的对话,可以直接勾选“将数据保存至 CSV 报告”复选框。这样,对话转录文本将保存到磁盘指定目录的电子表格文件中,并可集成到其他系统(例如统计系统)中。
此外,“语音转文本”还可 检测特定短语或词汇。请在“识别关键词”字段中指定需搜索的词汇或短语。此后,模块将继续监听摄像机或麦克风周边的所有语音,但仅在捕捉到关键词时触发响应。请在“语音转文本”模块后连接所需的响应模块,以便在此情况下接收通知、启动录像或发送指令。
本例中,我们将“预览与存档”模块设为目标模块;因此,一旦检测到设定关键词,系统即开始录制摄像机流,并支持检索包含指定关键词的片段。此功能还可轻松与 保存至 CSV 报告 选项配合使用:只需勾选下方相应复选框即可。
“语音转文本”内置专属宏 %VOICE%,若您希望将语音转录文本发送至“发送邮件”、“运行应用程序”或"HTTP 请求发送器”等目标模块,可直接调用该宏。
Xeoma 的“语音转文本”还支持被外部程序调用——例如用于转录 VoIP 通话。遵照以下说明,您可提交 .mp3 文件供“语音转文本”解码并获取文本结果。因此,即便在未安装 Xeoma 或缺乏摄像机的操作员工作站上,亦可使用此模块。实现方式有两种:通过 Xeoma API 或执行控制台命令。重要提示:仅支持 .mp3 文件。
1. API。 首选方案需借助 Xeoma API 发起 JSON 请求。通过相应命令,您可向远程或本地 Xeoma 服务器发送请求,要求其将 .mp3 文件转录为文本。
例如:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true"
其中
“speech.mp3” 应替换为您计算机上音频文件的路径;
“192.168.0.135:10090” 应替换为运行中且可运行语音转文本的 Xeoma 服务器的 IP 地址及其端口(通常为 10090);
“Administrator” 保持不变,因为此功能仅适用于 Xeoma 的管理员 (Administrator) 配置文件;
将“123”替换为 Xeoma 管理员账户的密码;
"model=large"用于选择识别模型。更多选项详情请见上文;
若需启用噪声消除(某些情况下可提高识别准确率),请包含"denoise=true";
将“en”替换为您希望获得 转写文本 的语言代码(2-3 个字符,详见下文)。如果该语言与“语音转文本”监听的实际语音语言不同,系统将自动将其翻译为您指定的语言。
注意: 此请求将直接在控制台或您发送请求的工具中获取文件的文本转写。如果您希望将转写结果保存为文本文件,请在命令后添加“>filename.txt”:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true">savetext.txt
其中
将 savetext.txt 替换为您希望设置的转写文件名。
2. 启动命令。 第二种方案支持您无需调用 API,直接在 PC 本地通过控制台执行命令来完成识别。
示例:
{Path to Xeoma executable file} -speech2text file.mp3;out.log;large;en;denoise
其中
将“file.mp3”替换为您计算机上音频文件的路径;
将“out.log”替换为生成的转写文本文件的路径及其名称;
"large"用于选择识别模型。更多选项详情请见上文;
将“en”替换为您希望获得 转写文本 的语言代码(2-3 个字符,详见下文)。如果该语言与“语音转文本”监听的实际语音语言不同,系统将自动将其翻译为您指定的语言。
若需启用噪声消除(某些情况下可提高识别准确率),请包含"denoise"。
语言代码列表:
“en”:“英语”,
“zh”:“中文”,
“de”:“德语”,
“es”:“西班牙语”,
“ru”:“俄语”,
“ko”:“韩语”,
“fr”:“法语”,
“ja”:“日语”,
“pt”:“葡萄牙语”,
“tr”:“土耳其语”,
“pl”:“波兰语”,
“ca”:“加泰罗尼亚语”,
“nl”:“荷兰语”,
“ar”:“阿拉伯语”,
“sv”:“瑞典语”,
“it”:“意大利语”,
“id”:“印度尼西亚语”,
“hi”:“印地语”,
“fi”:“芬兰语”,
“vi”:“越南语”,
“he”:“希伯来语”,
“uk”:“乌克兰语”,
“el”:“希腊语”,
“ms”:“马来语”,
“cs”:“捷克语”,
“ro”:“罗马尼亚语”,
“da”:“丹麦语”,
“hu”:“匈牙利语”,
“ta”:“泰米尔语”,
“no”:“挪威语”,
“th”:“泰语”,
“ur”:“乌尔都语”,
“hr”:“克罗地亚语”,
“bg”:“保加利亚语”,
“lt”:“立陶宛语”,
“la”:“拉丁语”,
“mi”:“毛利语”,
“ml”:“马拉雅拉姆语”,
“cy”:“威尔士语”,
“sk”:“斯洛伐克语”,
“te”:“泰卢固语”,
“fa”:“波斯语”,
“lv”:“拉脱维亚语”,
“bn”:“孟加拉语”,
“sr”:“塞尔维亚语”,
“az”:“阿塞拜疆语”,
“sl”:“斯洛文尼亚语”,
“kn”:“卡纳达语”,
“et”:“爱沙尼亚语”,
“mk”:“马其顿语”,
“br”:“布列塔尼语”,
“eu”:“巴斯克语”,
“is”:“冰岛语”,
“hy”:“亚美尼亚语”,
“ne”:“尼泊尔语”,
“mn”:“蒙古语”,
“bs”:“波斯尼亚语”,
“kk”:“哈萨克语”,
“sq”:“阿尔巴尼亚语”,
“sw”:“斯瓦希里语”,
“gl”:“加利西亚语”,
“mr”:“马拉地语”,
“pa”:“旁遮普语”,
“si”:“僧伽罗语”,
“km”:“高棉语”,
“sn”:“绍纳语”,
“yo”:“约鲁巴语”,
“so”:“索马里语”,
“af”:“南非荷兰语”,
“oc”:“奥克语”,
“ka”:“格鲁吉亚语”,
“be”:“白俄罗斯语”,
“tg”:“塔吉克语”,
“sd”:“信德语”,
“gu”:“古贾拉特语”,
“am”:“阿姆哈拉语”,
“yi”:“意第绪语”,
“lo”:“老挝语”,
“uz”:“乌兹别克语”,
“fo”:“法罗语”,
“ht”:“海地克里奥尔语”,
“ps”:“普什图语”,
“tk”:“土库曼语”,
“nn”:“新挪威语”,
“mt”:“马耳他语”,
“sa”:“梵语”,
“lb”:“卢森堡语”,
“my”:“缅甸语”,
“bo”:“藏语”,
“tl”:“塔加洛语”,
“mg”:“马达加斯加语”,
“as”:“阿萨姆语”,
“tt”:“鞑靼语”,
“haw”:“夏威夷语”,
“ln”:“林加拉语”,
“ha”:“豪萨语”,
“ba”:“巴什基尔语”,
“jw”:“爪哇语”,
“su”:“巽他语”,
“yue”:“粤语”。
1. 从 我们的网站 下载并启动 Xeoma。请确保 Xeoma 服务器端运行在配备 指定处理器 的设备上。
同时请确保 Xeoma 运行在 试用版 模式下,或激活 Xeoma Pro 许可证以使用此模块。
2. 添加摄像头,或等待 Xeoma 自动发现并添加网络中的摄像头。如需使用非摄像头内置的独立麦克风,请连接"Microphone"模块并选择相应的音频源。
3. 将"Voice-to-Text"模块添加至链条并完成配置。
4. 如有需要,可添加其他模块以设定相应响应,例如存档录像、发送电子邮件或自定义响应。
5. 完成!现在您即可使用 Xeoma 卓越的智能语音识别功能。
![]() |
*Voice-to-Text 模块仅在以下处理器上显示并运行:
以下系列的 Intel 64 位处理器: 虽然该模块可利用 CPU 算力运行,但建议在服务器端配备独立显卡。 |
Xeoma 功能不止于此!
Xeoma 还提供其他处理音频流的模块:
• Microphone:让您选择 USB 麦克风或独立 IP 麦克风作为音频源的模块。
• Sound Detector:用于分析音频流,并在音量超过指定阈值时触发的模块。
• Sound Events Detector:一款智能模块,能够识别特定声音:汽车警报、婴儿啼哭、枪声、尖叫、玻璃破碎。
![]() |
还需要其他功能?我们可以为您定制开发并集成至 Xeoma 中(付费项目)。查看详情 |
免费试用 Xeoma!请在下方字段中输入您的姓名及接收许可的邮箱地址,然后点击“将 Xeoma 免费演示许可发送至邮箱”按钮。
我们建议您不要在电子邮件中包含个人数据,也不要通过任何其他方式向我们发送个人数据。若您仍执意如此,提交此表单即表示您确认同意我们处理您的个人数据
有疑问?需协助?请联系我们!我们将竭诚为您服务!
2024 年 8 月 14 日
阅读更多:
Xeoma 附加模块
Xeoma 人工智能模块价目表
