語音轉文字:Xeoma 語音識別智能模組

Xeoma 視訊監控軟件的人工智能 語音轉文字 模組可「監聽」來自攝影機或獨立麥克風的音訊串流,識別語音並將轉錄內容保存為 CSV 報告,或以文字形式疊加於預覽畫面上。您亦可設定模組對特定詞彙或短語作出反應。此外,該模組支援處理 .mp3 音訊檔案(如對話錄音、培訓影片等),將語音轉錄為文字。
使用 Xeoma 語音轉文字模組無需專用設備:任何攝影機或獨立麥克風的音訊串流,配合市售標準電腦及視訊顯卡即可運作。
![]() |
警告:此模組由 Xeoma 24.8.12 版本起提供,目前處於 beta 測試階段,可能會出現漏詞或循環重複的情況。 |
語音轉文字模組功能靈活,適用於多種用途:
- 呼叫中心:轉錄即時通話或錄音,以監控是否符合公司政策及對話腳本
- 長者護理:即時回應求救呼聲
- 城市監控:在反恐安防中識別預示危險的詞彙
- 家長監控:保障兒童安全,防止其遭受欺凌或與騙徒、騷擾者接觸
- 警方:整合至隨身攝影機,轉錄警員與嫌疑人的對話,並偵測危險情況
- 銀行、當舖:無需實體按壓的語音緊急按鈕
- 研究與分析:背景收集特定詞彙的使用頻率統計,進行其他語音相關研究
- 市場營銷:分析客戶是否討論促銷活動,以及對橫幅廣告或廣告的反應等
- 各類企業:自動化監控客戶服務質素(例如偵測粗言穢語)
- 過濾與自動化:偵測對話中不當或禁用的詞彙/短語,並將相關片段標記以供重點審查,無需聆聽所有對話
可見 Xeoma 視訊監控軟件的「語音轉文字」工具適用範圍極廣!它不僅能提升私人生活、城市管理及商業領域的安全性,更能優化企業營運效率。

無需專用設備:
支援市售標準電腦及絕大多數攝影機

極具靈活性:
提供多種反應機制,並可與第三方系統集成

即時處理:
以即時模式運作,零延遲。所有運算均在您的電腦本地完成

成本效益高:
此模組已內置於 Xeoma Pro 授權中!
請注意,僅當 Xeoma 伺服器端運行於 合適的硬件 時,該模組才會顯示於模組列表中。若未在列表中找到該模組,請確認您使用了合適的處理器及 Xeoma 版本(此模組僅適用於 Xeoma Pro 版本)。由於該模組處理音訊串流,您的設備鏈路中必須包含音源:可以是攝影機內置麥克風,或獨立的 USB 或 IP 麥克風。
例如,假設您的音訊串流來自 IP 攝影機本身。在此情況下,只需在 Xeoma 中配置包含「通用攝影機」–「語音轉文字」–「預覽與存檔」的模組鏈即可:

點擊鏈接中的 Voice-to-Text 圖標以開啟模組設定。使用 Voice-to-Text 模組的第一步是下載其運作所需的附加資源。首次開啟模組設定時,下載程序將自動開始。附加資源下載完成後,「正在下載」訊息將會消失。

![]() |
額外資源包含 Voice-to-Text 所依賴的人工智能數據庫,並按需提供,由 FelenaSoft 伺服器下載。為縮減程式體積,鑑於並非所有閉路電視系統均需此類資源,故未隨軟件一併提供。 |
下載完成後出現的新增選項,讓您可從多個人工智能語音識別模型中,揀選適用於語音辨識的模型。各模型優劣各異,主要分別在於識別準確度與處理器負載。按模型大小、識別質素及硬件負載由低至高排列,這些模型依次命名為 tiny, base, small, medium, large。

在「語言」欄位中,選擇語音 逐字稿 的語言(請注意,無需指定 語音 本身的語言)。
如需轉錄所有可聽見的對話,可直接勾選「將數據保存至 CSV 報告」複選框。如此,對話逐字稿將保存至您指定目錄的試算表文件中,以便整合至其他系統(例如統計系統)。
此外,「Voice-to-Text」亦能 偵測特定短語或詞彙。請在「識別關鍵詞」欄位中指定欲搜尋的詞彙或短語。隨後,模組將持續監聽攝影機或麥克風周邊的所有語音,惟僅於偵測到關鍵詞時方會作出反應。在此情況下,請於「Voice-to-Text」模組後連接所需的反應模組,以接收通知、啟動錄影或發送指令。
在本例中,我們將「預覽與封存」模組連接為目標模組;因此,當偵測到設定關鍵詞時,系統將開始錄製攝影機串流,並允許搜尋包含指定關鍵詞的片段。此選項亦可輕鬆與 保存至 CSV 報告 功能結合:只需勾選下方對應的複選框即可。
「Voice-to-Text」設有專屬宏 %VOICE%,可用於「發送電子郵件」、「應用程式執行器」或「HTTP 請求發送器」等目標模組,以便將語音逐字稿發送至這些模組。
Xeoma 的 Voice-to-Text 亦可供外部程式調用,例如轉錄 VoIP 對話。按照以下說明,您可以將 .mp3 文件提交給 Voice-to-Text 進行解碼並獲取文本結果。因此,即使在沒有安裝 Xeoma 或缺乏攝影機的操作員工作站上,也能使用此模組。這可以通過兩種方式實現:經由 Xeoma API 或運行控制台命令。重要提示:僅支持 .mp3 文件。
1. API。 第一種方案需使用 Xeoma API 並配合 JSON 請求。通過命令,您可以向遠端或本地 Xeoma 伺服器發出請求,將 .mp3 文件轉錄為文本。
例如:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true"
其中
「speech.mp3」應替換為電腦中音頻文件的路徑;
「192.168.0.135:10090」應替換為運行中且支援 Voice-to-Text 的 Xeoma 伺服器 IP 地址及其端口(通常為 10090);
「Administrator」請保持不變,因為此功能僅限 Xeoma 的 Administrator 設定檔使用;
將 “123” 替換為 Xeoma 管理員設定檔的密碼;
“model=large” 用於選擇識別模型。詳情請參閱上方選項;
如欲啟用降噪功能以提升識別準確度,請加入 “denoise=true”;
將 "en" 替換為 2-3 位的語言代碼(詳見下方),以指定 轉錄文字 的語言。若該代碼與 Voice-to-Text 偵測到的實際語音語言不同,系統將自動翻譯為您指定的語言。
注意: 此請求會將檔案的文字轉錄直接顯示在控制台或發送請求的工具中。如欲將轉錄結果儲存為文字檔,請在指令後加上 “>filename.txt”:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true">savetext.txt
其中
將 savetext.txt 替換為您想要的轉錄檔案名稱。
2. 執行指令。 第二個選項允許您不透過 API,而是在 PC 本地端透過控制台執行指令來進行識別。
範例:
{Path to Xeoma executable file} -speech2text file.mp3;out.log;large;en;denoise
其中
將 “file.mp3” 替換為電腦中音訊檔案的路徑;
將 “out.log” 替換為結果轉錄文字檔的路徑及名稱;
“large” 用於選擇識別模型。詳情請參閱上方選項;
將 "en" 替換為 2-3 位的語言代碼(詳見下方),以指定 轉錄文字 的語言。若該代碼與 Voice-to-Text 偵測到的實際語音語言不同,系統將自動翻譯為您指定的語言。
如欲啟用降噪功能以提升識別準確度,請加入 “denoise”。
語言代碼列表:
“en”: “英文”,
“zh”: “中文”,
“de”: “德文”,
“es”: “西班牙文”,
“ru”: “俄文”,
“ko”: “韓文”,
“fr”: “法文”,
“ja”: “日文”,
“pt”: “葡萄牙文”,
“tr”: “土耳其文”,
“pl”: “波蘭文”,
“ca”: “加泰隆尼亞文”,
“nl”: “荷蘭文”,
“ar”: “阿拉伯文”,
“sv”: “瑞典文”,
“it”: “義大利文”,
“id”: “印尼文”,
“hi”: “印地文”,
“fi”: “芬蘭文”,
“vi”: “越南文”,
“he”: “希伯來文”,
“uk”: “烏克蘭文”,
“el”: “希臘文”,
“ms”: “馬來文”,
“cs”: “捷克文”,
“ro”: “羅馬尼亞文”,
“da”: “丹麥文”,
“hu”: “匈牙利文”,
“ta”: “坦米爾文”,
“no”: “挪威文”,
“th”: “泰文”,
“ur”: “烏爾都文”,
“hr”: “克羅地亞文”,
“bg”: “保加利亞文”,
“lt”: “立陶宛文”,
“la”: “拉丁文”,
“mi”: “毛利文”,
“ml”: “馬拉雅拉姆文”,
“cy”: “威爾斯文”,
“sk”: “斯洛伐克文”,
“te”: “泰盧固文”,
“fa”: “波斯文”,
“lv”: “拉脫維亞文”,
“bn”: “孟加拉文”,
“sr”: “塞爾維亞文”,
“az”: “亞塞拜然文”,
“sl”: “斯洛文尼亞文”,
“kn”: “卡納達文”,
“et”: “愛沙尼亞文”,
“mk”: “馬其頓文”,
“br”: “布列頓文”,
“eu”: “巴斯克文”,
“is”: “冰島文”,
“hy”: “亞美尼亞文”,
“ne”: “尼泊爾文”,
“mn”: “蒙古文”,
“bs”: “波斯尼亞文”,
“kk”: “哈薩克文”,
“sq”: “阿爾巴尼亞文”,
“sw”: “斯瓦希里文”,
“gl”: “加利西亞文”,
“mr”: “馬拉地文”,
“pa”: “旁遮普文”,
“si”: “僧伽羅文”,
“km”: “高棉文”,
“sn”: “肖納文”,
“yo”: “約魯巴文”,
“so”: “索馬利文”,
“af”: “南非荷蘭文”,
“oc”: “奧克語”,
“ka”: “喬治亞文”,
“be”: “白俄羅斯文”,
“tg”: “塔吉克文”,
“sd”: “信德文”,
“gu”: “古吉拉特文”,
“am”: “安哈拉文”,
“yi”: “意第緒文”,
“lo”: “寮文”,
“uz”: “烏茲別克文”,
“fo”: “法羅文”,
“ht”: “海地克里奧爾文”,
“ps”: “普什圖文”,
“tk”: “土庫曼文”,
“nn”: “新挪威文”,
“mt”: “馬爾他文”,
“sa”: “梵文”,
“lb”: “盧森堡文”,
“my”: “緬甸文”,
“bo”: “藏文”,
“tl”: “塔加洛文”,
“mg”: “馬達加斯加文”,
“as”: “阿薩姆文”,
“tt”: “韃靼文”,
“haw”: “夏威夷文”,
“ln”: “林加拉文”,
“ha”: “豪薩文”,
“ba”: “巴什基爾文”,
“jw”: “爪哇文”,
“su”: “巽他文”,
“yue”: “粵語”.
1. 從我們的網站下載 Xeoma 並啟動。請確保 Xeoma 伺服器端運行於配備所需處理器的機器上。
同時請確保 Xeoma 以試用版運行,或啟用 Xeoma Pro 授權以使用此模組。
2. 新增攝影機,或等待 Xeoma 自動偵測並新增網絡中的攝影機。如需使用非內置於攝影機的獨立麥克風,請連接「Microphone」模組並選擇對應的音源。
3. 將 「Voice-to-Text」 模組加入鏈路並進行設定。
4. 如有需要,可加入其他模組以設定對應反應,例如:存檔錄影、發送電郵或自定義反應。
5. 完成!您現可使用 Xeoma 卓越的人工智能語音識別功能。
![]() |
*Voice-to-Text 模組僅在以下處理器上顯示並運行:
以下系列的 Intel 64 位元處理器: 雖然此模組可利用 CPU 運算,但建議伺服器端配置 顯示卡 (GPU)。 |
Xeoma 還有更多功能!
Xeoma 同時提供其他處理音訊串流的模組:
• Microphone 模組讓您可以選擇 USB 麥克風或獨立 IP 麥克風作為音源。
• Sound Detector 模組可用於分析音訊串流,並在音量超過指定限值時觸發。
• Sound Events Detector 是一款人工智能模組,能識別特定聲音:汽車警報、嬰兒哭聲、槍聲、尖叫聲及玻璃破碎聲。
![]() |
需要其他功能?我們可為您進行定制開發並整合至 Xeoma(屬付費服務)。查看詳情 |
免費試用 Xeoma!請在下方欄位輸入您的姓名及電郵地址以接收授權文件,然後點擊「將 Xeoma 免費試用授權發送到電郵」按鈕。
我們建議您避免使用包含個人資料的電郵,或以任何其他方式向我們發送個人資料。若您仍選擇這樣做,提交此表格即表示 您確認同意 我們處理您的個人資料
有疑問?需要協助?請聯絡我們!我們樂意為您提供協助!
2024 年 8 月 14 日
延伸閱讀:
Xeoma 附加模組
Xeoma 人工智能模組價格表
