語音轉文字：Xeoma

語音轉文字：Xeoma 語音識別智能模組

AI 驅動的 Voice-to-Text Xeoma 視訊監控軟件的人工智能 語音轉文字 模組可「監聽」來自攝影機或獨立麥克風的音訊串流，識別語音並將轉錄內容保存為 CSV 報告，或以文字形式疊加於預覽畫面上。您亦可設定模組對特定詞彙或短語作出反應。此外，該模組支援處理 .mp3 音訊檔案（如對話錄音、培訓影片等），將語音轉錄為文字。

使用 Xeoma 語音轉文字模組無需專用設備：任何攝影機或獨立麥克風的音訊串流，配合市售標準電腦及視訊顯卡即可運作。

警告：此模組由 Xeoma 24.8.12 版本起提供，目前處於 beta 測試階段，可能會出現漏詞或循環重複的情況。

獲取試用版

立即購買

查看詳情

應用場景

語音轉文字模組功能靈活，適用於多種用途：

呼叫中心：轉錄即時通話或錄音，以監控是否符合公司政策及對話腳本
長者護理：即時回應求救呼聲
城市監控：在反恐安防中識別預示危險的詞彙
家長監控：保障兒童安全，防止其遭受欺凌或與騙徒、騷擾者接觸
警方：整合至隨身攝影機，轉錄警員與嫌疑人的對話，並偵測危險情況
銀行、當舖：無需實體按壓的語音緊急按鈕
研究與分析：背景收集特定詞彙的使用頻率統計，進行其他語音相關研究
市場營銷：分析客戶是否討論促銷活動，以及對橫幅廣告或廣告的反應等
各類企業：自動化監控客戶服務質素（例如偵測粗言穢語）
過濾與自動化：偵測對話中不當或禁用的詞彙／短語，並將相關片段標記以供重點審查，無需聆聽所有對話

可見 Xeoma 視訊監控軟件的「語音轉文字」工具適用範圍極廣！它不僅能提升私人生活、城市管理及商業領域的安全性，更能優化企業營運效率。

語音轉文字模組優勢：

無需專用設備：
支援市售標準電腦及絕大多數攝影機

極具靈活性：
提供多種反應機制，並可與第三方系統集成

即時處理：
以即時模式運作，零延遲。所有運算均在您的電腦本地完成

成本效益高：

此模組已內置於 Xeoma Pro 授權中！

運作原理：

請注意，僅當 Xeoma 伺服器端運行於合適的硬件時，該模組才會顯示於模組列表中。若未在列表中找到該模組，請確認您使用了合適的處理器及 Xeoma 版本（此模組僅適用於 Xeoma Pro 版本）。由於該模組處理音訊串流，您的設備鏈路中必須包含音源：可以是攝影機內置麥克風，或獨立的 USB 或 IP 麥克風。

例如，假設您的音訊串流來自 IP 攝影機本身。在此情況下，只需在 Xeoma 中配置包含「通用攝影機」–「語音轉文字」–「預覽與存檔」的模組鏈即可：

配置 Voice-to-Text 人工智能模組的鏈路示例

點擊鏈接中的 Voice-to-Text 圖標以開啟模組設定。使用 Voice-to-Text 模組的第一步是下載其運作所需的附加資源。首次開啟模組設定時，下載程序將自動開始。附加資源下載完成後，「正在下載」訊息將會消失。

Voice-to-Text 人工智能模組設定

額外資源包含 Voice-to-Text 所依賴的人工智能數據庫，並按需提供，由 FelenaSoft 伺服器下載。為縮減程式體積，鑑於並非所有閉路電視系統均需此類資源，故未隨軟件一併提供。

下載完成後出現的新增選項，讓您可從多個人工智能語音識別模型中，揀選適用於語音辨識的模型。各模型優劣各異，主要分別在於識別準確度與處理器負載。按模型大小、識別質素及硬件負載由低至高排列，這些模型依次命名為 tiny, base, small, medium, large。

Voice-to-Text 人工智能模組設定

在「語言」欄位中，選擇語音 逐字稿 的語言（請注意，無需指定語音本身的語言）。

如需轉錄所有可聽見的對話，可直接勾選「將數據保存至 CSV 報告」複選框。如此，對話逐字稿將保存至您指定目錄的試算表文件中，以便整合至其他系統（例如統計系統）。

此外，「Voice-to-Text」亦能 偵測特定短語或詞彙。請在「識別關鍵詞」欄位中指定欲搜尋的詞彙或短語。隨後，模組將持續監聽攝影機或麥克風周邊的所有語音，惟僅於偵測到關鍵詞時方會作出反應。在此情況下，請於「Voice-to-Text」模組後連接所需的反應模組，以接收通知、啟動錄影或發送指令。

在本例中，我們將「預覽與封存」模組連接為目標模組；因此，當偵測到設定關鍵詞時，系統將開始錄製攝影機串流，並允許搜尋包含指定關鍵詞的片段。此選項亦可輕鬆與 保存至 CSV 報告 功能結合：只需勾選下方對應的複選框即可。

「Voice-to-Text」設有專屬宏 %VOICE%，可用於「發送電子郵件」、「應用程式執行器」或「HTTP 請求發送器」等目標模組，以便將語音逐字稿發送至這些模組。

與外部程式整合

Xeoma 的 Voice-to-Text 亦可供外部程式調用，例如轉錄 VoIP 對話。按照以下說明，您可以將 .mp3 文件提交給 Voice-to-Text 進行解碼並獲取文本結果。因此，即使在沒有安裝 Xeoma 或缺乏攝影機的操作員工作站上，也能使用此模組。這可以通過兩種方式實現：經由 Xeoma API 或運行控制台命令。重要提示：僅支持 .mp3 文件。

1. API。 第一種方案需使用 Xeoma API 並配合 JSON 請求。通過命令，您可以向遠端或本地 Xeoma 伺服器發出請求，將 .mp3 文件轉錄為文本。

例如：
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true"

其中
「speech.mp3」應替換為電腦中音頻文件的路徑；

「192.168.0.135:10090」應替換為運行中且支援 Voice-to-Text 的 Xeoma 伺服器 IP 地址及其端口（通常為 10090）；

「Administrator」請保持不變，因為此功能僅限 Xeoma 的 Administrator 設定檔使用；

將 “123” 替換為 Xeoma 管理員設定檔的密碼；

「model=large」用於選擇辨識模型。詳情請參閱上方選項；

若要啟用雜訊消除以提升辨識準確度，請加入 "denoise=true"；

請將 "en" 替換為您希望取得 轉錄文本 的 2-3 位語言代碼（見下方）。若該代碼與 Voice-to-Text 所聽取的實際語音語言不同，系統將自動翻譯成您指定的語言。

注意： 此請求將直接在控制台或您用來發送請求的工具中顯示文件的文字轉錄內容。若要將轉錄內容儲存為文字檔案，請在指令後加上 ">filename.txt"：

curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true">savetext.txt
其中
請將 savetext.txt 替換為您希望使用的轉錄檔案名稱。

2. 執行指令。 第二個選項讓您無需透過 API，直接在 PC 的控制台執行指令以進行辨識。

範例：

{Path to Xeoma executable file} -speech2text file.mp3;out.log;large;en;denoise

其中
將 “file.mp3” 替換為電腦中音訊檔案的路徑；

將 “out.log” 替換為結果轉錄文字檔的路徑及名稱；

“large” 用於選擇識別模型。詳情請參閱上方選項；

將 "en" 替換為 2-3 位的語言代碼（詳見下方），以指定 轉錄文字 的語言。若該代碼與 Voice-to-Text 偵測到的實際語音語言不同，系統將自動翻譯為您指定的語言。

如欲啟用降噪功能以提升識別準確度，請加入 “denoise”。

語言代碼列表：

“en”: “英文”,
“zh”: “中文”,
“de”: “德文”,
“es”: “西班牙文”,
“ru”: “俄文”,
“ko”: “韓文”,
“fr”: “法文”,
“ja”: “日文”,
“pt”: “葡萄牙文”,
“tr”: “土耳其文”,
“pl”: “波蘭文”,
“ca”: “加泰隆尼亞文”,
“nl”: “荷蘭文”,
“ar”: “阿拉伯文”,
“sv”: “瑞典文”,
“it”: “義大利文”,
“id”: “印尼文”,
“hi”: “印地文”,
“fi”: “芬蘭文”,
“vi”: “越南文”,
“he”: “希伯來文”,
“uk”: “烏克蘭文”,
“el”: “希臘文”,
“ms”: “馬來文”,
“cs”: “捷克文”,
“ro”: “羅馬尼亞文”,
“da”: “丹麥文”,
“hu”: “匈牙利文”,
“ta”: “坦米爾文”,
“no”: “挪威文”,
“th”: “泰文”,
“ur”: “烏爾都文”,
“hr”: “克羅地亞文”,
“bg”: “保加利亞文”,
“lt”: “立陶宛文”,
“la”: “拉丁文”,
“mi”: “毛利文”,
“ml”: “馬拉雅拉姆文”,
“cy”: “威爾斯文”,
“sk”: “斯洛伐克文”,
“te”: “泰盧固文”,
“fa”: “波斯文”,
“lv”: “拉脫維亞文”,
“bn”: “孟加拉文”,
“sr”: “塞爾維亞文”,
“az”: “亞塞拜然文”,
“sl”: “斯洛文尼亞文”,
“kn”: “卡納達文”,
“et”: “愛沙尼亞文”,
“mk”: “馬其頓文”,
“br”: “布列頓文”,
“eu”: “巴斯克文”,
“is”: “冰島文”,
“hy”: “亞美尼亞文”,
“ne”: “尼泊爾文”,
“mn”: “蒙古文”,
“bs”: “波斯尼亞文”,
“kk”: “哈薩克文”,
“sq”: “阿爾巴尼亞文”,
“sw”: “斯瓦希里文”,
“gl”: “加利西亞文”,
“mr”: “馬拉地文”,
“pa”: “旁遮普文”,
“si”: “僧伽羅文”,
“km”: “高棉文”,
“sn”: “肖納文”,
“yo”: “約魯巴文”,
“so”: “索馬利文”,
“af”: “南非荷蘭文”,
“oc”: “奧克語”,
“ka”: “喬治亞文”,
“be”: “白俄羅斯文”,
“tg”: “塔吉克文”,
“sd”: “信德文”,
“gu”: “古吉拉特文”,
“am”: “安哈拉文”,
“yi”: “意第緒文”,
“lo”: “寮文”,
“uz”: “烏茲別克文”,
“fo”: “法羅文”,
“ht”: “海地克里奧爾文”,
“ps”: “普什圖文”,
“tk”: “土庫曼文”,
“nn”: “新挪威文”,
“mt”: “馬爾他文”,
“sa”: “梵文”,
“lb”: “盧森堡文”,
“my”: “緬甸文”,
“bo”: “藏文”,
“tl”: “塔加洛文”,
“mg”: “馬達加斯加文”,
“as”: “阿薩姆文”,
“tt”: “韃靼文”,
“haw”: “夏威夷文”,
“ln”: “林加拉文”,
“ha”: “豪薩文”,
“ba”: “巴什基爾文”,
“jw”: “爪哇文”,
“su”: “巽他文”,
“yue”: “粵語”.

如何測試

1. 從我們的網站下載 Xeoma 並啟動。請確保 Xeoma 伺服器端運行於配備所需處理器的機器上。
同時請確保 Xeoma 以試用版運行，或啟用 Xeoma Pro 授權以使用此模組。
2. 新增攝影機，或等待 Xeoma 自動偵測並新增網絡中的攝影機。如需使用非內置於攝影機的獨立麥克風，請連接「Microphone」模組並選擇對應的音源。
3. 將 「Voice-to-Text」 模組加入鏈路並進行設定。
4. 如有需要，可加入其他模組以設定對應反應，例如：存檔錄影、發送電郵或自定義反應。
5. 完成！您現可使用 Xeoma 卓越的人工智能語音識別功能。

*Voice-to-Text 模組僅在以下處理器上顯示並運行：

以下系列的 Intel 64 位元處理器：
-Intel Core 處理器（由 第 4 代起，包括 10 代及以上）；
-XEON 處理器（由 第 6 代起）；
-Atom 處理器（「C23」、「C25」、「C27」、「C33」、「C35」、「C37」、「C38」、「C39」、「P59」、「Z34」、「Z35」、「x5-E39」或「x5-E8000」系列）；
-Intel Xeon E5-24 系列、i5-2450M 或 i7-2600 處理器。

雖然此模組可利用 CPU 運算，但建議伺服器端配置 顯示卡 (GPU)。

Xeoma 還有更多功能！
Xeoma 同時提供其他處理音訊串流的模組：
• Microphone 模組讓您可以選擇 USB 麥克風或獨立 IP 麥克風作為音源。
• Sound Detector 模組可用於分析音訊串流，並在音量超過指定限值時觸發。
• Sound Events Detector 是一款人工智能模組，能識別特定聲音：汽車警報、嬰兒哭聲、槍聲、尖叫聲及玻璃破碎聲。

觀看 Xeoma Voice-to-Text 影片

需要其他功能？我們可為您進行定制開發並整合至 Xeoma（屬付費服務）。查看詳情

XEOMA 免費試用

免費試用 Xeoma！請在下方欄位輸入您的姓名及電郵地址以接收授權文件，然後點擊「將 Xeoma 免費試用授權發送到電郵」按鈕。

我們建議您避免使用包含個人資料的電郵，或以任何其他方式向我們發送個人資料。若您仍選擇這樣做，提交此表格即表示您確認同意我們處理您的個人資料

有疑問？需要協助？請聯絡我們！我們樂意為您提供協助！

2024 年 8 月 14 日

延伸閱讀：
Xeoma 附加模組
 Xeoma 人工智能模組價格表