← 記事に戻る

音声文字変換:ゼオマの音声認識インテリジェントモジュール

音声文字変換:ゼオマ Xeoma の高度な音声認識モジュール

 


AI 搭載音声文字変換 ゼオマ Xeoma ビデオ監視ソフトウェアの AI 搭載 音声文字変換 モジュールは、カメラや外部マイクからのオーディオストリームを「聴取」して音声を認識し、その書き起こし内容を CSV レポートに保存、またはプレビュー画面にテキストとしてオーバーレイ表示します。また、特定の単語やフレーズに反応するように設定することも可能です。さらに、会話の録音やトレーニングビデオなどの .mp3 オーディオファイルにも対応しており、音声をテキスト化して提供します。

ゼオマの音声文字変換モジュールの利用に専用機器は不要です。あらゆるカメラや外部マイクからの音声ストリームに加え、一般的な市販の PC とグラフィックスカードで動作します。

ゼオマ Xeoma ビデオ監視プログラムからのアドバイス 注意:このモジュールは Xeoma 24.8.12 以降で利用可能ですが、現在はベータ版のため、単語の欠落やループが発生する場合があります。

 

 

活用シーン

音声文字変換モジュールは、多様な目的で活用できる柔軟なツールです

  • コールセンター:通話中または録音された通話の書き起こしを行い、社内規定や応対スクリプトの遵守状況を監視
  • 高齢者見守り:助けを求める叫び声を即座に検知
  • 都市監視:テロ対策セキュリティにおいて、危険を示唆する単語を認識
  • ペアレンタルコントロール:子供の安全確保、いじめや詐欺師・不審者との接触からの保護を支援
  • 警察:ボディカメラの一部として警察官と容疑者の会話を書き起こし、危険な状況を検知します
  • 銀行・質屋:物理的なボタン操作が不要なパニックボタン
  • 研究・分析:特定単語の使用頻度統計のバックグラウンド収集および音声関連研究への活用
  • マーケティング:顧客がプロモーションキャンペーンについて言及しているか、バナーや広告への反応などを分析
  • あらゆるビジネス:カスタマーサービス品質の自動管理(例:暴言の検知)
  • フィルタリングと自動化:会話内の不要・禁止単語やフレーズを検知し、全内容を聴取することなく特定の場面のみを抽出して詳細確認

ご覧の通り、ゼオマ Xeoma の「音声文字変換」ツールは多様なシナリオで活用可能です。私生活や都市・市民のセキュリティ向上だけでなく、商業分野におけるビジネスオペレーションの最適化にも貢献します。

 

音声文字変換モジュールのメリット:
音声文字変換モジュールのメリット:あらゆる機器に対応
特殊設備は不要:
一般的な市販コンピュータと、ほぼすべてのカメラを利用可能です。
音声文字変換モジュールのメリット:柔軟かつ汎用性が高い
柔軟な設定:
多様な反応設定や、外部システムとの連携
音声文字変換モジュールのメリット:リアルタイムのオンザフライ処理
リアルタイム処理:
遅延のないリアルタイム処理を実現。処理はユーザーのパソコン内のみで完結
音声文字変換モジュールのメリット:手頃な価格設定
低コストなソリューション:

本モジュールは Xeoma Pro ライセンスに標準搭載されています

 

仕組み:

まず、本モジュールは Xeoma サーバーが対応ハードウェアで稼働している場合にのみ、モジュールリストに表示されます。リストに表示されない場合は、対応プロセッサを使用しているか、適切なエディション(本モジュールは Xeoma Pro エディション限定)であることを確認してください。また、オーディオストリームを処理するため、カメラ内蔵マイクまたは別途 USB/IP マイクなどの音源が必要です。

例えば、IP カメラ自体から音声ストリームを取得する場合、ゼオマ Xeoma では「ユニバーサルカメラ」→「音声文字変換」→「プレビューおよびアーカイブ」というモジュールチェーンを構成してください

音声文字変換インテリジェントモジュールを使用したチェインのサンプル

チェーン内の「音声文字起こし」アイコンをクリックし、モジュール設定を開きます。まず、音声文字起こしモジュールの動作に必要な追加リソースをダウンロードする必要があります。設定を初めて開くと、ダウンロードが自動的に開始されます。完了すると、「ダウンロード中」のメッセージが表示されなくなります。

音声文字変換インテリジェントモジュールの設定

 

ゼオマ Xeoma ビデオ監視プログラムからのアドバイス 追加リソースには、音声文字起こしの基盤となる人工知能 (AI) 用のデータ配列が含まれており、フェレナソフト FelenaSoft のサーバーからオンデマンドでダウンロードされます。すべてのCCTVシステムで必要とされるわけではないため、プログラムのサイズを抑える目的でソフトウェアには同梱されていません。

 

ダウンロード完了後に表示される新オプションでは、音声認識に使用する複数の AI 音声認識モデルから選択できます。各モデルには特性があり、一般的に認識精度と CPU 負荷のレベルが異なります。モデルサイズ、認識品質、ハードウェア負荷の低い順に、便宜上 tiny, base, small, medium, large と呼ばれています。

音声文字変換インテリジェントモジュールの設定

「言語」フィールドで、音声の 文字起こし結果 を出力する言語を選択します(音声 自体の言語を指定する必要はありません)。

すべての会話を文字起こしする場合は、「CSVレポートにデータを保存」チェックボックスをオンにします。これにより、会話の文字起こし内容が指定したディレクトリのスプレッドシートファイルに保存され、統計システムなどの外部システムへ統合できます。

また、「音声文字起こし」は 特定のフレーズや単語を検出 できます。「認識キーワード」フィールドに検索したい単語やフレーズを指定してください。これにより、モジュールはカメラやマイク周辺のすべての音声を聴取し続け、キーワードを検知したときのみ反応します。「音声文字起こし」モジュールの後に任意の反応モジュールを接続し、通知の受信、録画の開始、またはコマンドの送信を設定してください。

本例では「プレビューおよびアーカイブ」モジュールを送信先として接続しているため、設定したキーワードが検出されるとカメラストリームの録画が開始され、指定キーワードを含むエピソードの検索が可能になります。この機能は CSV レポートへの保存 オプションと簡単に組み合わせることができます。下の対応するボックスにチェックを入れてください。

「音声文字起こし」には専用のマクロ %VOICE% があります。「メール送信」、「アプリケーション実行」、または「HTTPリクエスト送信」などの送信先モジュールで、音声の文字起こし内容を送信する場合に使用できます。

 

外部プログラムとの統合

ゼオマ Xeoma の音声文字起こしは、外部プログラムからの利用も可能です。例えば、VoIP 通話の文字起こしに活用できます。以下の手順に従い、.mp3 ファイルを音声文字起こしに渡してデコードし、テキストとして結果を取得できます。これにより、Xeoma やカメラが導入されていないオペレーターワークステーションでも本モジュールを利用できます。方法は、Xeoma API 経由またはコンソールコマンド実行の 2 通りです。重要:.mp3 ファイルのみサポートされています。

1. API 1 つ目の方法では、JSON リクエスト を用いた Xeoma API を使用します。コマンドを使用してリモートまたはローカルの Xeoma サーバーにリクエストを送り、.mp3 ファイルをテキストに文字起こしさせます。

例:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true"

パラメータ:
「speech.mp3」をコンピューター上のオーディオファイルへのパスに置き換えてください

「192.168.0.135:10090」を、音声文字起こしを実行可能な Xeoma サーバーの IP アドレスとポート番号(通常は 10090)に置き換えてください

「Administrator」は、この機能が Xeoma の Administrator プロファイルでのみ利用可能であるため、そのままにしておいてください

「123」を、ゼオマ Xeoma の管理者プロファイルのパスワードに置き換えてください

「model=large」で認識モデルを選択します。オプションの詳細は上記をご参照ください

「denoise=true」を追加するとノイズキャンセリングが有効になります。これにより、ケースによって認識精度が向上します

「en」を、書き起こしテキストを取得したい言語の2〜3文字のコード(以下参照)に置き換えてください。音声認識対象の言語と異なる言語を指定した場合、自動的に指定した言語へ翻訳されます。

注意: このリクエストを送信すると、コンソールやリクエスト送信に使用しているツールに直接ファイルのテキスト書き起こしが表示されます。書き起こし内容をテキストファイルとして保存する場合は、コマンドの後に「>filename.txt」を追加してください

curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true">savetext.txt
以下に
savetext.txt を、保存したい書き起こしファイルの任意のファイル名に置き換えてください。

 

2. コマンドの実行 2つ目のオプションでは、API経由ではなく、コンソールで実行可能なコマンドを使用してPCローカルで認識処理を行います。

例:

{Path to Xeoma executable file} -speech2text file.mp3;out.log;large;en;denoise

ここで
「file.mp3」を、お使いのコンピュータ内にあるオーディオファイルへのパスに置き換えてください

「out.log」を、出力される文字起こしテキストファイルのパスおよびファイル名に置き換えてください

「large」で認識モデルを選択します。オプションの詳細は上記をご覧ください

「en」を、文字起こしテキストを取得したい言語の 2〜3 文字コード(下記参照)に置き換えてください。音声言語検出の結果と異なる言語が指定された場合、自動的に指定言語へ翻訳されます。

「denoise」を指定するとノイズキャンセリングが有効になり、場合によっては認識精度が向上します。

言語コード一覧:

“en”: “英語”,
“zh”: “中国語”,
“de”: “ドイツ語”,
“es”: “スペイン語”,
“ru”: “ロシア語”,
“ko”: “韓国語”,
“fr”: “フランス語”,
“ja”: “日本語”,
“pt”: “ポルトガル語”,
“tr”: “トルコ語”,
“pl”: “ポーランド語”,
“ca”: “カタルーニャ語”,
“nl”: “オランダ語”,
“ar”: “アラビア語”,
“sv”: “スウェーデン語”,
“it”: “イタリア語”,
“id”: “インドネシア語”,
“hi”: “ヒンディー語”,
“fi”: “フィンランド語”,
“vi”: “ベトナム語”,
“he”: “ヘブライ語”,
“uk”: “ウクライナ語”,
“el”: “ギリシャ語”,
“ms”: “マレー語”,
“cs”: “チェコ語”,
“ro”: “ルーマニア語”,
“da”: “デンマーク語”,
“hu”: “ハンガリー語”,
“ta”: “タミル語”,
“no”: “ノルウェー語”,
“th”: “タイ語”,
“ur”: “ウルドゥー語”,
“hr”: “クロアチア語”,
“bg”: “ブルガリア語”,
“lt”: “リトアニア語”,
“la”: “ラテン語”,
“mi”: “マオリ語”,
“ml”: “マラヤーラム語”,
“cy”: “ウェールズ語”,
“sk”: “スロバキア語”,
“te”: “テルグ語”,
“fa”: “ペルシャ語”,
“lv”: “ラトビア語”,
“bn”: “ベンガル語”,
“sr”: “セルビア語”,
“az”: “アゼルバイジャン語”,
“sl”: “スロベニア語”,
“kn”: “カンナダ語”,
“et”: “エストニア語”,
“mk”: “マケドニア語”,
“br”: “ブルトン語”,
“eu”: “バスク語”,
“is”: “アイスランド語”,
“hy”: “アルメニア語”,
“ne”: “ネパール語”,
“mn”: “モンゴル語”,
“bs”: “ボスニア語”,
“kk”: “カザフ語”,
“sq”: “アルバニア語”,
“sw”: “スワヒリ語”,
“gl”: “ガリシア語”,
“mr”: “マラーティー語”,
“pa”: “パンジャブ語”,
“si”: “シンハラ語”,
“km”: “クメール語”,
“sn”: “ショナ語”,
“yo”: “ヨルバ語”,
“so”: “ソマリ語”,
“af”: “アフリカーンス語”,
“oc”: “オックシタン語”,
“ka”: “ジョージア語”,
“be”: “ベラルーシ語”,
“tg”: “タジク語”,
“sd”: “シンド語”,
“gu”: “グジャラート語”,
“am”: “アムハラ語”,
“yi”: “イディッシュ語”,
“lo”: “ラオス語”,
“uz”: “ウズベク語”,
“fo”: “フェロー語”,
“ht”: “ハイチ・クレオール語”,
“ps”: “パシュトー語”,
“tk”: “トルクメン語”,
“nn”: “ニーノシュク語”,
“mt”: “マルタ語”,
“sa”: “サンスクリット語”,
“lb”: “ルクセンブルク語”,
“my”: “ミャンマー語”,
“bo”: “チベット語”,
“tl”: “タガログ語”,
“mg”: “マダガスカル語”,
“as”: “アッサム語”,
“tt”: “タタール語”,
“haw”: “ハワイ語”,
“ln”: “リンガラ語”,
“ha”: “ハウサ語”,
“ba”: “バシキール語”,
“jw”: “ジャワ語”,
“su”: “スンダ語”,
“yue”: “広東語”.

 

テスト手順

1. 弊社ウェブサイトからゼオマ Xeoma をダウンロードし、起動してください。必要なプロセッサを搭載したマシンで、ゼオマ Xeoma のサーバー部分が稼働していることを確認してください。
また、本モジュールを使用するには、ゼオマ Xeoma がトライアル版で稼働しているか、Xeoma Proライセンスを有効化する必要があります。
2. カメラを追加するか、ゼオマ Xeoma がネットワーク上のカメラを自動的に検出・追加するまでお待ちください。カメラ内蔵マイクとは別に独立したマイクを使用する場合は、「マイク」モジュールを追加し、適切な音声入力ソースを選択してください。
3. チェインに「音声文字変換」モジュールを追加し、設定してください。
4. 必要に応じて、アーカイブ録画やメール送信、あるいは独自の反応処理などを設定するための他のモジュールを追加してください。
5. 完了です。これでゼオマ Xeoma の高度な音声認識機能をご利用いただけます。

 

ゼオマ Xeoma ビデオ監視プログラムからのアドバイス *音声文字変換モジュールは、以下のプロセッサ環境でのみ表示・動作します:

以下のシリーズのIntel 64ビットプロセッサ:
-第4世代以降(第 10 世代以降を含む)の Intel Core プロセッサ
-第6世代以降の XEON プロセッサ
-「C23」、「C25」、「C27」、「C33」、「C35」、「C37」、「C38」、「C39」、「P59」、「Z34」、「Z35」、「x5-E39」、または「x5-E8000」シリーズの Atom プロセッサ
-Intel Xeon E5-24 シリーズ、i5-2450M、または i7-2600 プロセッサ

本モジュールはCPUのみでも動作しますが、サーバー機にはビデオグラフィックスカードの搭載を推奨します。

 
ゼオマ Xeoma にはさらに多くの機能があります
ゼオマ Xeoma では、オーディオストリームを処理する他のモジュールも提供しています:
マイク:USBマイクまたは独立したIPマイクを音声ソースとして選択できるモジュールです。
サウンド検出 は、オーディオストリームを分析し、サウンドレベルが指定した制限値を超えたときにトリガーを起動するモジュールです。
サウンドイベント検出 は、車の警報音、子供の泣き声、銃声、悲鳴、ガラスの破損音など、特定のサウンドを認識できるインテリジェントモジュールです。
 

 

ゼオマの音声文字変換に関する動画を視聴する

 

サーマルカメラのデータに関する重要なヒント その他ご必要な機能はありますか?有料のカスタム開発として機能を実装し、ゼオマに追加することも可能です。詳細を見る

 

 

XEOMA 無料トライアル

ゼオマを無料でお試しください!以下の欄にお名前とライセンス送付先のメールアドレスを入力し、「メールで Xeoma 無料デモライセンスを受け取る」ボタンをクリックしてください。




個人データを含むメールの使用や、その他いかなる方法による個人データの送信はお控えください。それでも送信された場合、本フォームの送信をもって個人データの処理に同意したものとみなされます
 

 

ご質問やサポートが必要ですか?お問い合わせください!喜んでサポートいたします

2024年8月14日

続きを読む:
ゼオマ Xeoma の追加モジュール
ゼオマ Xeoma AI ベースモジュールの価格表