語音轉文字：Xeoma

語音轉文字：Xeoma 語音辨識智慧模組

AI 驅動的語音轉文字 Xeoma 影像監控軟體的人工智慧 語音轉文字 模組可「監聽」來自攝影機或獨立麥克風的音訊串流，識別語音並將轉錄內容儲存為 CSV 報告，或以文字形式疊加於預覽畫面上。您亦可設定模組對特定單字或短語觸發反應。此外，該模組同樣支援 .mp3 音訊檔案（如對話錄音、教學影片等），能將語音轉錄為文字輸出。

使用 Xeoma 語音轉文字功能無需特殊設備：任何攝影機或獨立麥克風的音訊串流，搭配市售標準電腦與顯示卡即可運作。

警告：此模組自 Xeoma 24.8.12 版本起提供，目前處於 beta 測試階段，可能會出現漏字或循環重複現象。

索取試用

立即購買

瞭解詳情

應用場景

語音轉文字模組是一款靈活工具，適用於多種情境：

呼叫中心：轉錄即時通話或錄音檔案，以監控是否符合公司政策與話術規範
長者照護：即時偵測求救聲並做出反應
城市監控：在反恐維安中辨識可能預示危險的關鍵字
家長監護：協助確保兒童安全，防範欺凌，並阻絕其與詐騙者或猥褻者接觸
警方：整合於隨身攝影機，轉錄警員與嫌疑人的對話，並偵測潛在危險情境
銀行、當舖：無需實體按壓的語音緊急警報
研究與分析：背景蒐集特定詞彙使用頻率統計數據，以及其他語音相關研究
行銷：分析客戶是否討論促銷活動，及其對廣告看板或宣傳內容的反應
各類企業：自動化管控客服品質（例如偵測髒話）
過濾與自動化：偵測對話中不宜或禁止的單字與短語，並將相關片段標記以供複審，無需聆聽全部對話

正如您所見，Xeoma 影像監控程式的「語音轉文字」工具適用於極廣泛的場景！它不僅提升了私人生活、城市環境與公民的安全，更能優化商業運作。

語音轉文字模組的優勢：

無需特殊設備：
適用市售標準電腦及幾乎任何型號的攝影機。

靈活彈性：
提供多種反應機制，支援與第三方系統整合。

即時運作：
即時同步運作，零延遲。僅需在本機電腦執行。

高 CP 值解決方案：

此模組已內建於 Xeoma Pro 授權中！

運作原理：

請注意，僅當 Xeoma 伺服器端運行於相容硬體時，該模組才會顯示於清單中。若未見此模組，請確認您使用的是相容處理器及正確的 Xeoma 版本（此模組僅限 Xeoma Pro 版）。由於模組處理音訊串流，您的設備鏈路中必須包含音源：可為攝影機內建麥克風，或獨立的 USB 或 IP 麥克風。

例如，假設您的音訊串流來自 IP 攝影機本身。此時，只需在 Xeoma 中配置包含「通用攝影機」—「語音轉文字」—「預覽與存檔」的模組鏈路即可：

使用語音轉文字智慧模組的鏈結範例

點擊鏈結中的 Voice-to-Text 圖標以開啟模組設定。使用 Voice-to-Text 模組的第一步是下載其運作所需的附加資源。首次開啟模組設定時，系統將自動開始下載。下載完成後，「Downloading in progress」訊息將會消失。

語音轉文字智慧模組設定

附加資源包含 Voice-to-Text 所依賴的人工智慧數據陣列，並依需求從 FelenaSoft 伺服器下載。為了縮小程式體積，且並非所有 CCTV 系統皆需此功能，因此這些資源未隨軟體內建。

下載完成後將顯示新選項，您可從多種 AI 語音辨識模型中擇一使用。每種模型各有優劣，主要差異在於辨識準確度與處理器負載。依模型大小、辨識品質及硬體負載由低至高排序，分別命名為 tiny, base, small, medium, large。

語音轉文字智慧模組設定

在「Language」欄位中，選擇語音 逐字稿 的語言（請注意，無需指定語音本身的語言）。

若需轉錄所有可聽見的對話，可直接勾選「Save data in CSV report」核取方塊。如此一來，對話逐字稿將儲存於您指定目錄下的試算表檔案中，並可整合至其他系統（例如統計分析系統）。

此外，「Voice-to-Text」還能 偵測特定短語或單詞。請在「Keywords for recognition」欄位中指定欲搜尋的單詞或短語。設定後，模組仍會監聽攝影機或麥克風周圍的所有語音，但僅在偵測到關鍵字時觸發反應。請在「Voice-to-Text」模組後串接對應的反應模組，以便在觸發時接收通知、開始錄影或發送指令。

本案例中，我們串接了「Preview and Archive」模組作為目標模組；因此當偵測到設定的關鍵字時，系統將開始錄製攝影機串流，並允許搜尋包含指定關鍵字的片段。此選項亦可輕鬆與 儲存至 CSV 報告 功能結合：只需勾選下方的對應方塊即可。

「Voice-to-Text」擁有專屬巨集 %VOICE%，可用於「Email Sending」、「Application Runner」或「HTTP Request Sender」等目標模組，以將語音轉錄內容發送至這些模組。

與外部程式整合

Xeoma 的 Voice-to-Text 亦支援由外部程式調用，例如轉錄 VoIP 對話。按照以下說明，您可將 .mp3 檔案提供給 Voice-to-Text 進行解碼並取得文字結果。因此，即使在未安裝 Xeoma 或無攝影機的操作員工作站上，也能使用此模組。實現方式有二：透過 Xeoma API 或執行主控台指令。重要：僅支援 .mp3 檔案。

1. API。 第一種方式需使用 Xeoma API 並搭配 JSON 請求。透過指令，您可向遠端或本地 Xeoma 伺服器發出請求，將 .mp3 檔案轉錄為文字。

例如：
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true"

其中
請將「speech.mp3」替換為您電腦中音訊檔案的路徑；

請將「192.168.0.135:10090」替換為正在運作且適用執行 Voice-to-Text 的 Xeoma 伺服器 IP 位址及其連接埠（通常為 10090）；

請將「Administrator」保持不變，因為此功能僅限 Xeoma 的 Administrator 權限設定檔使用；

請將"123"替換為 Xeoma 管理員設定檔的密碼；

「model=large」用於選擇辨識模型。詳細選項請參閱上方；

若您希望啟用雜訊消除以提升特定情況下的辨識準確率，請加入「denoise=true」；

請將「en」替換為您希望產出轉錄文本的 2-3 位語言代碼（詳見下方）。若該語言與 Voice-to-Text 偵測到的實際語音語言不同，系統將自動翻譯為您指定的語言。

注意： 此請求將直接在控制台或您用以發送請求的工具中顯示檔案的轉錄文字。若您希望將轉錄內容儲存為文字檔，請在指令後加上「>filename.txt」：

curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true">savetext.txt
其中
請將 savetext.txt 替換為您欲設定的轉錄檔案名稱。

2. 執行指令。 第二種選項讓您無需透過 API，即可直接在 PC 的控制台中執行指令來進行辨識。

範例：

{Path to Xeoma executable file} -speech2text file.mp3;out.log;large;en;denoise

其中
請將"file.mp3"替換為電腦中音訊檔案的路徑；

請將"out.log"替換為結果轉錄文字檔的路徑與檔名；

"large"用於選擇辨識模型。詳情請參閱上方選項；

請將「en」替換為您希望轉錄文字所呈現語言的 2–3 字元代碼（詳見下方）。若該代碼與「語音轉文字」功能所監聽的實際語音語言不同，系統將自動將其翻譯為您指定的語言。

若您希望啟用雜訊消除功能（某些情況下有助於提升辨識準確率），請加入"denoise"。

語言代碼列表：

“en”: “英文”,
“zh”: “中文”,
“de”: “德文”,
“es”: “西班牙文”,
“ru”: “俄文”,
“ko”: “韓文”,
“fr”: “法文”,
“ja”: “日文”,
“pt”: “葡萄牙文”,
“tr”: “土耳其文”,
“pl”: “波蘭文”,
“ca”: “加泰羅尼亞文”,
“nl”: “荷蘭文”,
“ar”: “阿拉伯文”,
“sv”: “瑞典文”,
“it”: “義大利文”,
“id”: “印尼文”,
“hi”: “印地文”,
“fi”: “芬蘭文”,
“vi”: “越南文”,
“he”: “希伯來文”,
“uk”: “烏克蘭文”,
“el”: “希臘文”,
“ms”: “馬來文”,
“cs”: “捷克文”,
“ro”: “羅馬尼亞文”,
“da”: “丹麥文”,
“hu”: “匈牙利文”,
“ta”: “坦米爾文”,
“no”: “挪威文”,
“th”: “泰文”,
“ur”: “烏爾都文”,
“hr”: “克羅埃西亞文”,
“bg”: “保加利亞文”,
“lt”: “立陶宛文”,
“la”: “拉丁文”,
“mi”: “毛利文”,
“ml”: “馬拉雅拉姆文”,
“cy”: “威爾斯文”,
“sk”: “斯洛伐克文”,
“te”: “泰盧古文”,
“fa”: “波斯文”,
“lv”: “拉脫維亞文”,
“bn”: “孟加拉文”,
“sr”: “塞爾維亞文”,
“az”: “亞塞拜然文”,
“sl”: “斯洛維尼亞文”,
“kn”: “卡納達文”,
“et”: “愛沙尼亞文”,
“mk”: “馬其頓文”,
“br”: “布列塔尼文”,
“eu”: “巴斯克文”,
“is”: “冰島文”,
“hy”: “亞美尼亞文”,
“ne”: “尼泊爾文”,
“mn”: “蒙古文”,
“bs”: “波斯尼亞文”,
“kk”: “哈薩克文”,
“sq”: “阿爾巴尼亞文”,
“sw”: “斯瓦希里文”,
“gl”: “加利西亞文”,
“mr”: “馬拉地文”,
“pa”: “旁遮普文”,
“si”: “僧伽羅文”,
“km”: “高棉文”,
“sn”: “肖納文”,
“yo”: “約魯巴文”,
“so”: “索馬利文”,
“af”: “南非荷蘭文”,
“oc”: “奧克語”,
“ka”: “喬治亞文”,
“be”: “白俄羅斯文”,
“tg”: “塔吉克文”,
“sd”: “信得文”,
“gu”: “古吉拉特文”,
“am”: “安哈拉文”,
“yi”: “意第緒文”,
“lo”: “寮文”,
“uz”: “烏茲別克文”,
“fo”: “法羅文”,
“ht”: “海地克里奧爾文”,
“ps”: “普什圖文”,
“tk”: “土庫曼文”,
“nn”: “新挪威文”,
“mt”: “馬爾他文”,
“sa”: “梵文”,
“lb”: “盧森堡文”,
“my”: “緬甸文”,
“bo”: “藏文”,
“tl”: “塔加洛文”,
“mg”: “馬拉加什文”,
“as”: “阿薩姆文”,
“tt”: “韃靼文”,
“haw”: “夏威夷文”,
“ln”: “林加拉文”,
“ha”: “豪薩文”,
“ba”: “巴什基爾文”,
“jw”: “爪哇文”,
“su”: “巽他文”,
“yue”: “粵語”.

如何測試

1. 從我們的網站下載 Xeoma 並啟動。請確保 Xeoma 伺服器端運行於配備所需處理器的機器上。
同時，請確認 Xeoma 以試用版模式運行，或啟用Xeoma Pro授權以使用此模組。
2. 新增攝影機，或等待 Xeoma 自動偵測並新增網路中的攝影機。若需使用非攝影機內建的獨立麥克風，請連接「麥克風」模組並選擇適用的音源。
3. 將 「語音轉文字」 模組加入鏈結並完成設定。
4. 如有需要，可加入其他模組以設定必要的反應，例如：存檔錄影、發送電子郵件或自定義反應。
5. 完成！您現在可以使用 Xeoma 卓越的智慧語音識別功能。

*語音轉文字模組僅顯示於下列處理器並可正常運作：

以下系列的 Intel 64 位元處理器：
-Intel Core 處理器：從 第 4 代（含）起（包括 10 代以上）；
-XEON 處理器：從 第 6 代（含）起；
-Atom 處理器：「C23」、「C25」、「C27」、「C33」、「C35」、「C37」、「C38」、「C39」、「P59」、「Z34」、「Z35」、「x5-E39」或「x5-E8000」系列；
-Intel Xeon E5-24 系列、i5-2450M 或 i7-2600 處理器。

雖然此模組可利用 CPU 運算能力運作，但建議伺服器端配置 顯示卡。

Xeoma 還有更多功能！
Xeoma 同時提供其他處理音訊串流的模組：
• 麥克風 模組可讓您選擇 USB 麥克風或獨立 IP 麥克風作為音源。
• 聲音偵測器 模組可分析音訊串流，並在音量超過指定限值時觸發。
• 聲音事件偵測器 為智慧模組，能識別特定聲音：汽車警報聲、嬰兒哭聲、槍聲、尖叫聲、玻璃破碎聲。

觀看 Xeoma 語音轉文字介紹影片

需要其他功能？我們可以為您開發並將其作為付費客製化功能整合至 Xeoma 中。查看詳情

免費試用 XEOMA

免費試用 Xeoma！請在下方欄位輸入您的姓名與電子郵件地址以接收授權，然後點擊「將 Xeoma 免費試用授權發送至電子郵件」按鈕。

我們建議您避免使用包含個人資料的電子郵件，或以任何其他方式向我們發送個人資料。若您仍選擇這樣做，提交此表單即表示您確認同意我們處理您的個人資料

有疑問？需要協助？請聯絡我們！我們很樂意為您提供協助！

2024年8月14日

延伸閱讀：
Xeoma 附加模組
 Xeoma AI 模組價格表