← 返回文章列表

語音轉文字:Xeoma 語音識別智能模組

Voice-to-Text:Xeoma 語音識別人工智能模組

 


AI 驅動的 Voice-to-Text Xeoma 視訊監控軟件的人工智能 語音轉文字 模組可「監聽」來自攝影機或獨立麥克風的音訊串流,識別語音並將轉錄內容保存為 CSV 報告,或以文字形式疊加於預覽畫面上。您亦可設定模組對特定詞彙或短語作出反應。此外,該模組支援處理 .mp3 音訊檔案(如對話錄音、培訓影片等),將語音轉錄為文字。

使用 Xeoma 語音轉文字模組無需專用設備:任何攝影機或獨立麥克風的音訊串流,配合市售標準電腦及視訊顯卡即可運作。

Xeoma 視訊監控軟件建議 警告:此模組由 Xeoma 24.8.12 版本起提供,目前處於 beta 測試階段,可能會出現漏詞或循環重複的情況。

 

 

應用場景

語音轉文字模組功能靈活,適用於多種用途:

  • 呼叫中心:轉錄即時通話或錄音,以監控是否符合公司政策及對話腳本
  • 長者護理:即時回應求救呼聲
  • 城市監控:在反恐安防中識別預示危險的詞彙
  • 家長監控:保障兒童安全,防止其遭受欺凌或與騙徒、騷擾者接觸
  • 警方:整合至隨身攝影機,轉錄警員與嫌疑人的對話,並偵測危險情況
  • 銀行、當舖:無需實體按壓的語音緊急按鈕
  • 研究與分析:背景收集特定詞彙的使用頻率統計,進行其他語音相關研究
  • 市場營銷:分析客戶是否討論促銷活動,以及對橫幅廣告或廣告的反應等
  • 各類企業:自動化監控客戶服務質素(例如偵測粗言穢語)
  • 過濾與自動化:偵測對話中不當或禁用的詞彙/短語,並將相關片段標記以供重點審查,無需聆聽所有對話

可見 Xeoma 視訊監控軟件的「語音轉文字」工具適用範圍極廣!它不僅能提升私人生活、城市管理及商業領域的安全性,更能優化企業營運效率。

 

語音轉文字模組優勢:
Voice-to-Text 模組優勢:兼容任何設備
無需專用設備:
支援市售標準電腦及絕大多數攝影機
Voice-to-Text 模組優勢:靈活且通用
極具靈活性:
提供多種反應機制,並可與第三方系統集成
Voice-to-Text 模組優勢:實時即時處理
即時處理:
以即時模式運作,零延遲。所有運算均在您的電腦本地完成
Voice-to-Text 模組優勢:價格合理
成本效益高:

此模組已內置於 Xeoma Pro 授權中!

 

運作原理:

請注意,僅當 Xeoma 伺服器端運行於 合適的硬件 時,該模組才會顯示於模組列表中。若未在列表中找到該模組,請確認您使用了合適的處理器及 Xeoma 版本(此模組僅適用於 Xeoma Pro 版本)。由於該模組處理音訊串流,您的設備鏈路中必須包含音源:可以是攝影機內置麥克風,或獨立的 USB 或 IP 麥克風。

例如,假設您的音訊串流來自 IP 攝影機本身。在此情況下,只需在 Xeoma 中配置包含「通用攝影機」–「語音轉文字」–「預覽與存檔」的模組鏈即可:

配置 Voice-to-Text 人工智能模組的鏈路示例

點擊鏈接中的 Voice-to-Text 圖標以開啟模組設定。使用 Voice-to-Text 模組的第一步是下載其運作所需的附加資源。首次開啟模組設定時,下載程序將自動開始。附加資源下載完成後,「正在下載」訊息將會消失。

Voice-to-Text 人工智能模組設定

 

Xeoma 視訊監控軟件建議 額外資源包含 Voice-to-Text 所依賴的人工智能數據庫,並按需提供,由 FelenaSoft 伺服器下載。為縮減程式體積,鑑於並非所有閉路電視系統均需此類資源,故未隨軟件一併提供。

 

下載完成後出現的新增選項,讓您可從多個人工智能語音識別模型中,揀選適用於語音辨識的模型。各模型優劣各異,主要分別在於識別準確度與處理器負載。按模型大小、識別質素及硬件負載由低至高排列,這些模型依次命名為 tiny, base, small, medium, large

Voice-to-Text 人工智能模組設定

在「語言」欄位中,選擇語音 逐字稿 的語言(請注意,無需指定 語音 本身的語言)。

如需轉錄所有可聽見的對話,可直接勾選「將數據保存至 CSV 報告」複選框。如此,對話逐字稿將保存至您指定目錄的試算表文件中,以便整合至其他系統(例如統計系統)。

此外,「Voice-to-Text」亦能 偵測特定短語或詞彙。請在「識別關鍵詞」欄位中指定欲搜尋的詞彙或短語。隨後,模組將持續監聽攝影機或麥克風周邊的所有語音,惟僅於偵測到關鍵詞時方會作出反應。在此情況下,請於「Voice-to-Text」模組後連接所需的反應模組,以接收通知、啟動錄影或發送指令。

在本例中,我們將「預覽與封存」模組連接為目標模組;因此,當偵測到設定關鍵詞時,系統將開始錄製攝影機串流,並允許搜尋包含指定關鍵詞的片段。此選項亦可輕鬆與 保存至 CSV 報告 功能結合:只需勾選下方對應的複選框即可。

「Voice-to-Text」設有專屬宏 %VOICE%,可用於「發送電子郵件」、「應用程式執行器」或「HTTP 請求發送器」等目標模組,以便將語音逐字稿發送至這些模組。

 

與外部程式整合

Xeoma 的 Voice-to-Text 亦可供外部程式調用,例如轉錄 VoIP 對話。按照以下說明,您可以將 .mp3 文件提交給 Voice-to-Text 進行解碼並獲取文本結果。因此,即使在沒有安裝 Xeoma 或缺乏攝影機的操作員工作站上,也能使用此模組。這可以通過兩種方式實現:經由 Xeoma API 或運行控制台命令。重要提示:僅支持 .mp3 文件。

1. API。 第一種方案需使用 Xeoma API 並配合 JSON 請求。通過命令,您可以向遠端或本地 Xeoma 伺服器發出請求,將 .mp3 文件轉錄為文本。

例如:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true"

其中
「speech.mp3」應替換為電腦中音頻文件的路徑;

「192.168.0.135:10090」應替換為運行中且支援 Voice-to-Text 的 Xeoma 伺服器 IP 地址及其端口(通常為 10090);

「Administrator」請保持不變,因為此功能僅限 Xeoma 的 Administrator 設定檔使用;

將 “123” 替換為 Xeoma 管理員設定檔的密碼;

“model=large” 用於選擇識別模型。詳情請參閱上方選項;

如欲啟用降噪功能以提升識別準確度,請加入 “denoise=true”;

將 "en" 替換為 2-3 位的語言代碼(詳見下方),以指定 轉錄文字 的語言。若該代碼與 Voice-to-Text 偵測到的實際語音語言不同,系統將自動翻譯為您指定的語言。

注意: 此請求會將檔案的文字轉錄直接顯示在控制台或發送請求的工具中。如欲將轉錄結果儲存為文字檔,請在指令後加上 “>filename.txt”:

curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true">savetext.txt
其中
將 savetext.txt 替換為您想要的轉錄檔案名稱。

 

2. 執行指令。 第二個選項允許您不透過 API,而是在 PC 本地端透過控制台執行指令來進行識別。

範例:

{Path to Xeoma executable file} -speech2text file.mp3;out.log;large;en;denoise

其中
將 “file.mp3” 替換為電腦中音訊檔案的路徑;

將 “out.log” 替換為結果轉錄文字檔的路徑及名稱;

“large” 用於選擇識別模型。詳情請參閱上方選項;

將 "en" 替換為 2-3 位的語言代碼(詳見下方),以指定 轉錄文字 的語言。若該代碼與 Voice-to-Text 偵測到的實際語音語言不同,系統將自動翻譯為您指定的語言。

如欲啟用降噪功能以提升識別準確度,請加入 “denoise”。

語言代碼列表:

“en”: “英文”,
“zh”: “中文”,
“de”: “德文”,
“es”: “西班牙文”,
“ru”: “俄文”,
“ko”: “韓文”,
“fr”: “法文”,
“ja”: “日文”,
“pt”: “葡萄牙文”,
“tr”: “土耳其文”,
“pl”: “波蘭文”,
“ca”: “加泰隆尼亞文”,
“nl”: “荷蘭文”,
“ar”: “阿拉伯文”,
“sv”: “瑞典文”,
“it”: “義大利文”,
“id”: “印尼文”,
“hi”: “印地文”,
“fi”: “芬蘭文”,
“vi”: “越南文”,
“he”: “希伯來文”,
“uk”: “烏克蘭文”,
“el”: “希臘文”,
“ms”: “馬來文”,
“cs”: “捷克文”,
“ro”: “羅馬尼亞文”,
“da”: “丹麥文”,
“hu”: “匈牙利文”,
“ta”: “坦米爾文”,
“no”: “挪威文”,
“th”: “泰文”,
“ur”: “烏爾都文”,
“hr”: “克羅地亞文”,
“bg”: “保加利亞文”,
“lt”: “立陶宛文”,
“la”: “拉丁文”,
“mi”: “毛利文”,
“ml”: “馬拉雅拉姆文”,
“cy”: “威爾斯文”,
“sk”: “斯洛伐克文”,
“te”: “泰盧固文”,
“fa”: “波斯文”,
“lv”: “拉脫維亞文”,
“bn”: “孟加拉文”,
“sr”: “塞爾維亞文”,
“az”: “亞塞拜然文”,
“sl”: “斯洛文尼亞文”,
“kn”: “卡納達文”,
“et”: “愛沙尼亞文”,
“mk”: “馬其頓文”,
“br”: “布列頓文”,
“eu”: “巴斯克文”,
“is”: “冰島文”,
“hy”: “亞美尼亞文”,
“ne”: “尼泊爾文”,
“mn”: “蒙古文”,
“bs”: “波斯尼亞文”,
“kk”: “哈薩克文”,
“sq”: “阿爾巴尼亞文”,
“sw”: “斯瓦希里文”,
“gl”: “加利西亞文”,
“mr”: “馬拉地文”,
“pa”: “旁遮普文”,
“si”: “僧伽羅文”,
“km”: “高棉文”,
“sn”: “肖納文”,
“yo”: “約魯巴文”,
“so”: “索馬利文”,
“af”: “南非荷蘭文”,
“oc”: “奧克語”,
“ka”: “喬治亞文”,
“be”: “白俄羅斯文”,
“tg”: “塔吉克文”,
“sd”: “信德文”,
“gu”: “古吉拉特文”,
“am”: “安哈拉文”,
“yi”: “意第緒文”,
“lo”: “寮文”,
“uz”: “烏茲別克文”,
“fo”: “法羅文”,
“ht”: “海地克里奧爾文”,
“ps”: “普什圖文”,
“tk”: “土庫曼文”,
“nn”: “新挪威文”,
“mt”: “馬爾他文”,
“sa”: “梵文”,
“lb”: “盧森堡文”,
“my”: “緬甸文”,
“bo”: “藏文”,
“tl”: “塔加洛文”,
“mg”: “馬達加斯加文”,
“as”: “阿薩姆文”,
“tt”: “韃靼文”,
“haw”: “夏威夷文”,
“ln”: “林加拉文”,
“ha”: “豪薩文”,
“ba”: “巴什基爾文”,
“jw”: “爪哇文”,
“su”: “巽他文”,
“yue”: “粵語”.

 

如何測試

1. 從我們的網站下載 Xeoma 並啟動。請確保 Xeoma 伺服器端運行於配備所需處理器的機器上。
同時請確保 Xeoma 以試用版運行,或啟用 Xeoma Pro 授權以使用此模組。
2. 新增攝影機,或等待 Xeoma 自動偵測並新增網絡中的攝影機。如需使用非內置於攝影機的獨立麥克風,請連接「Microphone」模組並選擇對應的音源。
3. 將 「Voice-to-Text」 模組加入鏈路並進行設定。
4. 如有需要,可加入其他模組以設定對應反應,例如:存檔錄影、發送電郵或自定義反應。
5. 完成!您現可使用 Xeoma 卓越的人工智能語音識別功能。

 

Xeoma 視訊監控軟件建議 *Voice-to-Text 模組僅在以下處理器上顯示並運行:

以下系列的 Intel 64 位元處理器:
-Intel Core 處理器(由 第 4 代起,包括 10 代及以上);
-XEON 處理器(由 第 6 代起);
-Atom 處理器(「C23」、「C25」、「C27」、「C33」、「C35」、「C37」、「C38」、「C39」、「P59」、「Z34」、「Z35」、「x5-E39」或「x5-E8000」系列);
-Intel Xeon E5-24 系列、i5-2450M 或 i7-2600 處理器。

雖然此模組可利用 CPU 運算,但建議伺服器端配置 顯示卡 (GPU)

 
Xeoma 還有更多功能!
Xeoma 同時提供其他處理音訊串流的模組:
Microphone 模組讓您可以選擇 USB 麥克風或獨立 IP 麥克風作為音源。
Sound Detector 模組可用於分析音訊串流,並在音量超過指定限值時觸發。
Sound Events Detector 是一款人工智能模組,能識別特定聲音:汽車警報、嬰兒哭聲、槍聲、尖叫聲及玻璃破碎聲。
 

 

觀看 Xeoma Voice-to-Text 影片

 

關於熱能攝影機數據的重要提示 需要其他功能?我們可為您進行定制開發並整合至 Xeoma(屬付費服務)。查看詳情

 

 
XEOMA 免費試用

免費試用 Xeoma!請在下方欄位輸入您的姓名及電郵地址以接收授權文件,然後點擊「將 Xeoma 免費試用授權發送到電郵」按鈕。




我們建議您避免使用包含個人資料的電郵,或以任何其他方式向我們發送個人資料。若您仍選擇這樣做,提交此表格即表示 您確認同意 我們處理您的個人資料
 

 

有疑問?需要協助?請聯絡我們!我們樂意為您提供協助!

2024 年 8 月 14 日

延伸閱讀:
Xeoma 附加模組
Xeoma 人工智能模組價格表