← 返回文章列表

语音转文本:Xeoma 的语音识别智能模块

Voice-to-Text:Xeoma 智能语音识别模块

 


AI 驱动的 Voice-to-TextXeoma 视频监控软件中基于人工智能的 语音转文本 模块可“监听”来自摄像头或独立麦克风的音频流,识别语音,并将转录文本保存为 CSV 报告,或直接以文字形式叠加在预览画面上。此外,您还可以设定模块对特定单词或短语做出响应。该模块也支持处理 .mp3 音频文件——如对话录音、培训视频等——将其中的语音转录为文本。

使用 Xeoma 语音转文本功能无需专用设备:任何摄像头或独立麦克风的音频流,配合标准的商用计算机及显卡即可运行。

Xeoma 视频监控软件使用技巧 警告:此模块自 Xeoma 24.8.12 版本起提供,目前处于 Beta 测试阶段,可能会出现漏词或循环现象。

 

 

应用场景

语音转文本模块是一款灵活的工具,适用于多种场景:

  • 呼叫中心:转录实时通话或录音,以监控是否符合公司政策及标准话术
  • 长者照护:能够即时响应求救呼喊
  • 城市监控:在反恐安防中识别预示危险的词语
  • 家长控制:协助保障儿童安全,防止其遭受欺凌或与诈骗分子、骚扰者接触
  • 警务执法:集成于执法记录仪,转录警员与嫌疑人的对话,并具备检测危险状况的能力
  • 银行、典当行:无需物理按压的虚拟紧急按钮
  • 研究与分析:后台统计各类词汇的使用频率,开展其他语音相关研究
  • 市场营销:洞察客户是否在讨论促销活动,以及他们对横幅或广告的反应等。
  • 各类商业场景:自动化监控客户服务质量(例如检测脏话)
  • 过滤与自动化:检测对话中的不当或禁用词汇/短语,并将此类片段标记以供重点审查,无需听取全部对话

由此可见,Xeoma 视频监控软件的“语音转文本”工具应用场景广泛!它不仅有助于提升个人生活、城市环境及公民的安全,还能在商业领域助力业务流程优化。

 

语音转文本模块的优势:
Voice-to-Text 模块优势:兼容各类设备
无需特殊设备:
可使用常规商用计算机和几乎任意类型的摄像头。
Voice-to-Text 模块优势:灵活通用
灵活便捷:
支持多种响应机制,可与第三方系统集成。
Voice-to-Text 模块优势:实时流式处理
实时处理:
实时模式下即时处理,零延迟。仅在您的本地计算机上运行。
Voice-to-Text 模块优势:经济实惠
经济实惠的方案:

该模块已包含在 Xeoma Pro 许可证中!

 

工作原理:

首先需注意,只有当 Xeoma 服务端运行在 兼容硬件 上时,该模块才会显示在列表中。若未找到该模块,请确认您使用的是兼容的处理器及正确的 Xeoma 版本(该模块仅限 Xeoma Pro 版)。由于该模块处理音频流,链路中必须包含音频源:可以是摄像头内置麦克风,也可以是独立的 USB 或 IP 麦克风。

例如,假设您的音频流直接来自 IP 摄像头。此时,只需在 Xeoma 中构建如下模块链:“通用摄像头” – “语音转文本” – “预览与存档”:

含 Voice-to-Text 智能模块的链条示例

点击链条中的“语音转文本”图标以打开模块设置。使用语音转文本模块的第一步是下载其运行所需的附加资源。首次打开模块设置时,下载过程将自动开始。附加资源下载完成后,“正在下载”消息将消失。

Voice-to-Text 智能模块设置

 

Xeoma 视频监控软件使用技巧 附加资源包含语音转文本所基于的人工智能数据阵列,并根据请求从 FelenaSoft 服务器下载。为了减小程序体积,这些资源未随软件一同提供,因为并非所有 CCTV 系统都需要它们。

 

附加资源下载完成后,新增的选项让您可从多种人工智能语音识别模型中进行选择。各模型优劣各异——主要区别在于识别准确率与处理器负载。按模型尺寸、识别质量及硬件负载由低到高排序,它们分别命名为 tiny、base、small、medium、large

Voice-to-Text 智能模块设置

在“语言”字段中,选择语音 转录文本 的语言(请注意,无需指定 语音 本身的语言)。

如果您需要转录所有可听到的对话,可以直接勾选“将数据保存至 CSV 报告”复选框。这样,对话转录文本将保存到磁盘指定目录的电子表格文件中,并可集成到其他系统(例如统计系统)中。

此外,“语音转文本”还可 检测特定短语或词汇。请在“识别关键词”字段中指定需搜索的词汇或短语。此后,模块将继续监听摄像机或麦克风周边的所有语音,但仅在捕捉到关键词时触发响应。请在“语音转文本”模块后连接所需的响应模块,以便在此情况下接收通知、启动录像或发送指令。

本例中,我们将“预览与存档”模块设为目标模块;因此,一旦检测到设定关键词,系统即开始录制摄像机流,并支持检索包含指定关键词的片段。此功能还可轻松与 保存至 CSV 报告 选项配合使用:只需勾选下方相应复选框即可。

“语音转文本”内置专属宏 %VOICE%,若您希望将语音转录文本发送至“发送邮件”、“运行应用程序”或"HTTP 请求发送器”等目标模块,可直接调用该宏。

 

与外部程序集成

Xeoma 的“语音转文本”还支持被外部程序调用——例如用于转录 VoIP 通话。遵照以下说明,您可提交 .mp3 文件供“语音转文本”解码并获取文本结果。因此,即便在未安装 Xeoma 或缺乏摄像机的操作员工作站上,亦可使用此模块。实现方式有两种:通过 Xeoma API 或执行控制台命令。重要提示:仅支持 .mp3 文件。

1. API。 首选方案需借助 Xeoma API 发起 JSON 请求。通过相应命令,您可向远程或本地 Xeoma 服务器发送请求,要求其将 .mp3 文件转录为文本。

例如:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true"

其中
“speech.mp3” 应替换为您计算机上音频文件的路径;

“192.168.0.135:10090” 应替换为运行中且可运行语音转文本的 Xeoma 服务器的 IP 地址及其端口(通常为 10090);

“Administrator” 保持不变,因为此功能仅适用于 Xeoma 的管理员 (Administrator) 配置文件;

将“123”替换为 Xeoma 管理员账户的密码;

"model=large"用于选择识别模型。更多选项详情请见上文;

若需启用噪声消除(某些情况下可提高识别准确率),请包含"denoise=true";

将“en”替换为您希望获得 转写文本 的语言代码(2-3 个字符,详见下文)。如果该语言与“语音转文本”监听的实际语音语言不同,系统将自动将其翻译为您指定的语言。

注意: 此请求将直接在控制台或您发送请求的工具中获取文件的文本转写。如果您希望将转写结果保存为文本文件,请在命令后添加“>filename.txt”:

curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true">savetext.txt
其中
将 savetext.txt 替换为您希望设置的转写文件名。

 

2. 启动命令。 第二种方案支持您无需调用 API,直接在 PC 本地通过控制台执行命令来完成识别。

示例:

{Path to Xeoma executable file} -speech2text file.mp3;out.log;large;en;denoise

其中
将“file.mp3”替换为您计算机上音频文件的路径;

将“out.log”替换为生成的转写文本文件的路径及其名称;

"large"用于选择识别模型。更多选项详情请见上文;

将“en”替换为您希望获得 转写文本 的语言代码(2-3 个字符,详见下文)。如果该语言与“语音转文本”监听的实际语音语言不同,系统将自动将其翻译为您指定的语言。

若需启用噪声消除(某些情况下可提高识别准确率),请包含"denoise"。

语言代码列表:

“en”:“英语”,
“zh”:“中文”,
“de”:“德语”,
“es”:“西班牙语”,
“ru”:“俄语”,
“ko”:“韩语”,
“fr”:“法语”,
“ja”:“日语”,
“pt”:“葡萄牙语”,
“tr”:“土耳其语”,
“pl”:“波兰语”,
“ca”:“加泰罗尼亚语”,
“nl”:“荷兰语”,
“ar”:“阿拉伯语”,
“sv”:“瑞典语”,
“it”:“意大利语”,
“id”:“印度尼西亚语”,
“hi”:“印地语”,
“fi”:“芬兰语”,
“vi”:“越南语”,
“he”:“希伯来语”,
“uk”:“乌克兰语”,
“el”:“希腊语”,
“ms”:“马来语”,
“cs”:“捷克语”,
“ro”:“罗马尼亚语”,
“da”:“丹麦语”,
“hu”:“匈牙利语”,
“ta”:“泰米尔语”,
“no”:“挪威语”,
“th”:“泰语”,
“ur”:“乌尔都语”,
“hr”:“克罗地亚语”,
“bg”:“保加利亚语”,
“lt”:“立陶宛语”,
“la”:“拉丁语”,
“mi”:“毛利语”,
“ml”:“马拉雅拉姆语”,
“cy”:“威尔士语”,
“sk”:“斯洛伐克语”,
“te”:“泰卢固语”,
“fa”:“波斯语”,
“lv”:“拉脱维亚语”,
“bn”:“孟加拉语”,
“sr”:“塞尔维亚语”,
“az”:“阿塞拜疆语”,
“sl”:“斯洛文尼亚语”,
“kn”:“卡纳达语”,
“et”:“爱沙尼亚语”,
“mk”:“马其顿语”,
“br”:“布列塔尼语”,
“eu”:“巴斯克语”,
“is”:“冰岛语”,
“hy”:“亚美尼亚语”,
“ne”:“尼泊尔语”,
“mn”:“蒙古语”,
“bs”:“波斯尼亚语”,
“kk”:“哈萨克语”,
“sq”:“阿尔巴尼亚语”,
“sw”:“斯瓦希里语”,
“gl”:“加利西亚语”,
“mr”:“马拉地语”,
“pa”:“旁遮普语”,
“si”:“僧伽罗语”,
“km”:“高棉语”,
“sn”:“绍纳语”,
“yo”:“约鲁巴语”,
“so”:“索马里语”,
“af”:“南非荷兰语”,
“oc”:“奥克语”,
“ka”:“格鲁吉亚语”,
“be”:“白俄罗斯语”,
“tg”:“塔吉克语”,
“sd”:“信德语”,
“gu”:“古贾拉特语”,
“am”:“阿姆哈拉语”,
“yi”:“意第绪语”,
“lo”:“老挝语”,
“uz”:“乌兹别克语”,
“fo”:“法罗语”,
“ht”:“海地克里奥尔语”,
“ps”:“普什图语”,
“tk”:“土库曼语”,
“nn”:“新挪威语”,
“mt”:“马耳他语”,
“sa”:“梵语”,
“lb”:“卢森堡语”,
“my”:“缅甸语”,
“bo”:“藏语”,
“tl”:“塔加洛语”,
“mg”:“马达加斯加语”,
“as”:“阿萨姆语”,
“tt”:“鞑靼语”,
“haw”:“夏威夷语”,
“ln”:“林加拉语”,
“ha”:“豪萨语”,
“ba”:“巴什基尔语”,
“jw”:“爪哇语”,
“su”:“巽他语”,
“yue”:“粤语”。

 

如何测试

1. 从 我们的网站 下载并启动 Xeoma。请确保 Xeoma 服务器端运行在配备 指定处理器 的设备上。
同时请确保 Xeoma 运行在 试用版 模式下,或激活 Xeoma Pro 许可证以使用此模块。
2. 添加摄像头,或等待 Xeoma 自动发现并添加网络中的摄像头。如需使用非摄像头内置的独立麦克风,请连接"Microphone"模块并选择相应的音频源。
3. 将"Voice-to-Text"模块添加至链条并完成配置。
4. 如有需要,可添加其他模块以设定相应响应,例如存档录像、发送电子邮件或自定义响应。
5. 完成!现在您即可使用 Xeoma 卓越的智能语音识别功能。

 

Xeoma 视频监控软件使用技巧 *Voice-to-Text 模块仅在以下处理器上显示并运行:

以下系列的 Intel 64 位处理器:
- 自第 4 代起(含第 10 代及更高版本)的 Intel Core 处理器;
- 自第 6 代起XEON 处理器;
-"C23"、"C25"、"C27"、"C33"、"C35"、"C37"、"C38"、"C39"、"P59"、"Z34"、"Z35"、"x5-E39"或"x5-E8000"系列的 Atom 处理器;
-Intel Xeon E5-24 系列、i5-2450M 或 i7-2600 处理器。

虽然该模块可利用 CPU 算力运行,但建议在服务器端配备独立显卡

 
Xeoma 功能不止于此!
Xeoma 还提供其他处理音频流的模块:
Microphone:让您选择 USB 麦克风或独立 IP 麦克风作为音频源的模块。
Sound Detector:用于分析音频流,并在音量超过指定阈值时触发的模块。
Sound Events Detector:一款智能模块,能够识别特定声音:汽车警报、婴儿啼哭、枪声、尖叫、玻璃破碎。
 

 

观看 Xeoma Voice-to-Text 视频

 

关于热成像摄像头数据的重要提示 还需要其他功能?我们可以为您定制开发并集成至 Xeoma 中(付费项目)。查看详情

 

 
XEOMA 免费试用

免费试用 Xeoma!请在下方字段中输入您的姓名及接收许可的邮箱地址,然后点击“将 Xeoma 免费演示许可发送至邮箱”按钮。




我们建议您不要在电子邮件中包含个人数据,也不要通过任何其他方式向我们发送个人数据。若您仍执意如此,提交此表单即表示您确认同意我们处理您的个人数据
 

 

有疑问?需协助?请联系我们!我们将竭诚为您服务!

2024 年 8 月 14 日

阅读更多:
Xeoma 附加模块
Xeoma 人工智能模块价目表