Voice-to-Text: Xeoma

Voice-to-Text: Modul Pintar Xeoma untuk Pengecaman Pertuturan

Voice-to-Text dikuasakan AI Modul Voice-to-Text berkuasa AI dalam perisian pengawasan video Xeoma 'mendengar' strim audio daripada kamera atau mikrofon berasingan, mengesan pertuturan, serta menyimpan transkripnya dalam laporan CSV atau memaparkannya sebagai teks pada pratonton. Anda juga boleh menetapkannya untuk bertindak balas terhadap perkataan atau frasa tertentu. Modul ini turut berfungsi dengan fail audio .mp3 – seperti rakaman perbualan dan video latihan – dengan mentranskripsi pertuturan tersebut ke dalam bentuk teks.

Penggunaan Voice-to-Text Xeoma tidak memerlukan peralatan khusus; strim audio daripada mana-mana kamera atau mikrofon berasingan, serta komputer dan kad grafik video standard, sudah mencukupi.

Amaran: modul ini tersedia bermula Xeoma 24.8.12 dan berada dalam status beta, jadi ia mungkin tertinggal perkataan atau mengalami gelung berulang.

Dapatkan demo

Beli

Lihat butiran

SENARIO APLIKASI

Modul Voice-to-Text ialah alat fleksibel yang boleh digunakan untuk pelbagai tujuan:

Pusat panggilan: transkripsi panggilan semasa atau rakaman panggilan untuk memantau pematuhan terhadap dasar syarikat dan skrip perbualan
Penjagaan warga emas: keupayaan bertindak balas serta-merta terhadap jeritan meminta bantuan
Pengawasan bandar: pengecaman perkataan yang menandakan bahaya bagi tujuan keselamatan antipengganas
Kawalan ibu bapa: bantuan menjamin keselamatan anak dengan melindungi mereka daripada buli atau komunikasi dengan penipu dan pemangsa
Polis: integrasi pada kamera badan untuk mentranskripsi perbualan antara pegawai polis dan suspek, serta mengesan situasi berbahaya
Bank, pajak gadai: butang panik yang tidak perlu ditekan secara fizikal
Penyelidikan dan analitik: pengumpulan statistik latar belakang mengenai kekerapan penggunaan pelbagai perkataan dan kajian berkaitan pertuturan lainnya
Pemasaran: mengenal pasti sama ada pelanggan membincangkan kempen promosi, reaksi mereka terhadap sepanduk atau iklan, dan lain-lain.
Sebarang perniagaan: kawalan automatik kualiti perkhidmatan pelanggan (contohnya, pengesanan kata-kata kesat)
Penapisan dan automasi: pengesanan perkataan atau frasa yang tidak diingini atau dilarang dalam perbualan, serta mengarahkan episod tertentu untuk pemeriksaan lanjut tanpa perlu mendengar keseluruhan perbualan

Seperti yang anda lihat, alat "Voice-to-Text" dalam program pengawasan video Xeoma boleh digunakan dalam pelbagai senario! Ia bukan sahaja meningkatkan keselamatan dalam kehidupan peribadi, kehidupan bandar dan warganya, serta sektor komersial, malah menyumbang kepada pengoptimuman operasi perniagaan.

KELEBIHAN MODUL VOICE-TO-TEXT:

Tiada peralatan khusus diperlukan:
Komputer standard yang tersedia secara umum dan hampir semua jenis kamera boleh digunakan.

Kelebihan modul Voice-to-Text: fleksibel dan universal

Sangat fleksibel:
Pelbagai tindakan balas dan integrasi dengan sistem pihak ketiga.

Kelebihan modul Voice-to-Text: operasi masa nyata secara langsung

Operasi masa nyata:
Beroperasi secara langsung dalam mod masa nyata tanpa sebarang kependaman. Diproses sepenuhnya pada komputer anda.

Kelebihan modul Voice-to-Text: mampu milik

Penyelesaian mampu milik:

Modul ini telah disertakan dalam lesen Xeoma Pro!

CARA IA BERFUNGSI:

Pertama sekali, perlu diperhatikan bahawa modul ini hanya dipaparkan dalam senarai modul apabila bahagian pelayan Xeoma berjalan pada perkakasan yang sesuai. Jika anda tidak menemui modul tersebut, pastikan anda menggunakan pemproses yang serasi dan edisi Xeoma yang betul (modul ini hanya tersedia dalam edisi Xeoma Pro). Oleh kerana modul ini berfungsi dengan strim audio, anda memerlukan sumber bunyi dalam rantaian tersebut: sama ada mikrofon terbina dalam kamera, atau mikrofon USB atau IP berasingan.

Sebagai contoh, andaikan strim audio dalam kes anda berasal daripada kamera IP itu sendiri. Dalam keadaan ini, cukup gunakan rantaian modul "Universal Camera" – "Voice-to-Text" – "Preview and Archive" dalam Xeoma anda:

Contoh rantaian dengan modul pintar Voice-to-Text

Klik ikon Voice-to-Text dalam rantaian untuk membuka tetapan modul. Langkah pertama menggunakan modul Voice-to-Text ialah memuat turun sumber tambahan yang diperlukan. Proses muat turun bermula secara automatik sebaik sahaja anda membuka tetapan modul buat kali pertama. Mesej "Downloading in progress" akan hilang setelah proses muat turun sumber tambahan selesai.

Tetapan modul pintar Voice-to-Text

Sumber tambahan mengandungi tatasusunan data untuk kecerdasan buatan (AI) yang menjadi asas Voice-to-Text, dan dimuat turun atas permintaan daripada pelayan FelenaSoft. Sumber ini tidak disertakan bersama perisian bagi mengekalkan saiz program yang kecil memandangkan ia tidak diperlukan dalam semua sistem CCTV.

Pilihan baharu yang tersedia selepas muat turun sumber tambahan selesai membolehkan anda memilih daripada beberapa model pengecaman suara berkuasa AI yang akan digunakan untuk pengecaman pertuturan. Setiap model mempunyai kekuatan dan kelemahan tersendiri; lazimnya, ia berbeza dari segi tahap ketepatan pengecaman dan beban pemproses. Secara konvensional, model ini dinamakan tiny, base, small, medium, large mengikut urutan peningkatan saiz model, kualiti pengecaman, dan beban perkakasan.

Tetapan modul pintar Voice-to-Text

Dalam medan "Language", pilih bahasa bagi transkrip pertuturan yang akan dijana (perhatikan bahawa bahasa pertuturan itu sendiri tidak perlu dinyatakan).

Jika anda perlu mentranskripsi semua perbualan yang terdengar, anda boleh terus menanda kotak "Save data in CSV report". Dengan ini, transkrip perbualan akan disimpan dalam fail hamparan pada cakera di direktori yang anda tentukan, yang seterusnya boleh diintegrasikan ke dalam sistem lain, seperti sistem statistik.

Selain itu, “Voice-to-Text” boleh mengesan frasa atau kata kunci tertentu. Nyatakan perkataan atau frasa yang dicari dalam medan “Keywords for recognition”. Modul ini akan terus mendengar semua pertuturan di sekitar kamera atau mikrofon, tetapi hanya bertindak balas apabila kata kunci tersebut dikesan. Sambungkan modul tindak balas yang diingini selepas modul “Voice-to-Text” untuk menerima notifikasi, memulakan rakaman atau menghantar arahan.

Dalam contoh ini, modul “Preview and Archive” disambungkan sebagai modul destinasi, jadi apabila kata kunci dikesan, ia akan memulakan rakaman strim kamera – dan memudahkan carian episod berdasarkan kata kunci yang anda tentukan. Pilihan ini juga boleh digabungkan dengan penyimpanan ke laporan CSV: tanda kotak berkaitan di bawah untuk mengaktifkannya.

"Voice-to-Text" mempunyai makro tersendiri – %VOICE% – yang boleh digunakan dalam modul destinasi seperti "Email Sending", "Application Runner", atau "HTTP Request Sender" jika anda ingin menghantar transkripsi pertuturan ke modul tersebut.

INTEGRASI DENGAN PROGRAM LUARAN

Voice-to-Text Xeoma juga boleh digunakan melalui program luaran – contohnya, untuk mentranskripsi perbualan VoIP. Dengan mengikuti arahan di bawah, anda boleh menyerahkan fail .mp3 kepada Voice-to-Text untuk didekod dan mendapatkan hasilnya dalam bentuk teks. Justeru, modul ini boleh digunakan walaupun pada stesen kerja operator yang tidak mempunyai Xeoma atau kamera. Ini boleh dilakukan melalui dua cara: menerusi Xeoma API atau dengan menjalankan arahan konsol. Penting: hanya fail .mp3 yang disokong.

1. API. Bagi pilihan pertama, anda perlu menggunakan Xeoma API dengan permintaan JSON. Menggunakan arahan, anda boleh menghantar permintaan ke pelayan Xeoma (jauh atau setempat) untuk mentranskripsi fail .mp3 kepada teks.

Contohnya:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true"

di mana
"speech.mp3" hendaklah diganti dengan laluan ke fail audio pada komputer anda;

“192.168.0.135:10090” hendaklah diganti dengan alamat IP pelayan Xeoma yang aktif dan menyokong Voice-to-Text serta portnya (biasanya 10090);

"Administrator" hendaklah dikekalkan sebagaimana adanya kerana ini hanya tersedia untuk profil Administrator Xeoma;

“123” hendaklah diganti dengan kata laluan profil Administrator Xeoma;

"model=large" ialah parameter untuk memilih model pengenalan. Lihat pilihan lanjut di atas;

"denoise=true" disertakan jika anda ingin mengaktifkan pembatalan hingar, yang dalam beberapa keadaan dapat meningkatkan ketepatan pengenalan;

Gantikan "en" dengan kod bahasa 2-3 aksara (lihat di bawah) untuk teks transkripsi yang anda inginkan. Jika ia berbeza daripada bahasa pertuturan sebenar yang dikesan oleh Voice-to-Text, teks tersebut akan diterjemahkan secara automatik ke bahasa yang anda tetapkan.

Nota: Permintaan ini akan memaparkan transkripsi teks fail secara langsung dalam konsol atau mana-mana alat yang anda gunakan untuk menghantar permintaan. Jika anda ingin menyimpan transkripsi fail tersebut sebagai fail teks, sila tambahkan ">filename.txt" selepas arahan:

curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true">savetext.txt
di mana
Gantikan savetext.txt dengan nama yang anda inginkan untuk fail transkripsi tersebut.

2. Laksanakan arahan. Opsyen kedua membolehkan anda melakukan pengenalan bukan melalui API, tetapi secara tempatan pada PC menggunakan arahan yang boleh dilaksanakan dalam konsol.

Contoh:

{Path to Xeoma executable file} -speech2text file.mp3;out.log;large;en;denoise

di mana
“file.mp3” hendaklah diganti dengan laluan ke fail audio pada komputer anda;

“out.log” hendaklah diganti dengan laluan dan nama fail teks hasil transkripsi;

“large” adalah bahagian untuk memilih model pengecaman. Lihat pilihan lanjut di atas;

“en” hendaklah diganti dengan kod 2-3 aksara (lihat di bawah) bagi bahasa yang anda inginkan untuk teks transkripsi. Jika ia berbeza daripada bahasa pertuturan sebenar yang didengar oleh Voice-to-Text, ia akan diterjemahkan secara automatik ke bahasa yang anda tetapkan.

“denoise” disertakan jika anda ingin mengaktifkan pembatalan hingar yang dalam beberapa keadaan dapat meningkatkan ketepatan pengecaman.

Senarai kod bahasa:

“en”: “Inggeris”,
“zh”: “Cina”,
“de”: “Jerman”,
“es”: “Sepanyol”,
“ru”: “Rusia”,
“ko”: “Korea”,
“fr”: “Perancis”,
“ja”: “Jepun”,
“pt”: “Portugis”,
“tr”: “Turki”,
“pl”: “poland”,
“ca”: “Catalan”,
“nl”: “Belanda”,
“ar”: “Arab”,
“sv”: “sweden”,
“it”: “italy”,
“id”: “Indonesia”,
“hi”: “Hindi”,
“fi”: “finland”,
“vi”: “vietnam”,
“he”: “Ibrani”,
“uk”: “ukraina”,
“el”: “Yunani”,
“ms”: “melayu”,
“cs”: “Czech”,
“ro”: “romania”,
“da”: “denmark”,
“hu”: “hungari”,
“ta”: “tamil”,
“no”: “norway”,
“th”: “thai”,
“ur”: “urdu”,
“hr”: “croatia”,
“bg”: “bulgaria”,
“lt”: “lithuania”,
“la”: “latin”,
“mi”: “maori”,
“ml”: “malayalam”,
“cy”: “welsh”,
“sk”: “slovakia”,
“te”: “telugu”,
“fa”: “Parsi”,
“lv”: “latvia”,
“bn”: “bengali”,
“sr”: “serbia”,
“az”: “azerbaijan”,
“sl”: “slovenia”,
“kn”: “kannada”,
“et”: “estonia”,
“mk”: “macedonia”,
“br”: “breton”,
“eu”: “basque”,
“is”: “iceland”,
“hy”: “armenia”,
“ne”: “nepal”,
“mn”: “mongolia”,
“bs”: “bosnia”,
“kk”: “kazakhstan”,
“sq”: “albania”,
“sw”: “swahili”,
“gl”: “galician”,
"mr": "Marathi",
"pa": "Punjabi",
"si": "Sinhala",
"km": "Khmer",
"sn": "Shona",
"yo": "Yoruba",
“so”: “somalia”,
"af": "Afrikaans",
"oc": "Occitan",
“ka”: “georgia”,
“be”: “belarus”,
“tg”: “tajikistan”,
“sd”: “sindhi”,
"gu": "Gujarati",
"am": "Amharic",
"yi": "Yiddish",
“lo”: “laos”,
“uz”: “uzbekistan”,
“fo”: “faroe”,
“ht”: “kreol haiti”,
“ps”: “pashto”,
“tk”: “turkmenistan”,
“nn”: “nynorsk”,
“mt”: “malta”,
"sa": "Sanskrit",
“lb”: “luxembourg”,
“my”: “myanmar”,
“bo”: “tibet”,
"tl": "Tagalog",
"mg": "Malagasy",
“as”: “assamese”,
"tt": "Tatar",
“haw”: “hawaii”,
"ln": "Lingala",
"ha": "Hausa",
"ba": "Bashkir",
“jw”: “jawa”,
“su”: “sunda”,
“yue”: “Kantonis”.

CARA MENGUJI

1. Muat turun Xeoma dari laman web kami dan lancarkannya. Pastikan bahagian pelayan Xeoma berjalan pada mesin dengan pemproses yang diperlukan.
Pastikan juga Xeoma berjalan dalam Edisi Percubaan atau aktifkan lesen Xeoma Pro untuk menggunakan modul ini.
2. Tambah kamera atau tunggu Xeoma menambah kamera yang dikesan dalam rangkaian anda secara automatik. Jika anda perlu menggunakan mikrofon berasingan yang tidak terbina dalam kamera, sambungkan modul "Microphone" dan pilih sumber bunyi yang sesuai.
3. Tambah modul “Voice-to-Text” ke dalam rantaian dan konfigurasikannya.
4. Jika perlu, tambah modul lain untuk menetapkan tindak balas yang diperlukan, contohnya rakaman arkib, penghantaran e-mel, atau tindak balas tersuai.
5. Selesai! Kini anda boleh memanfaatkan teknologi pengecaman pertuturan pintar Xeoma yang unggul.

*Modul Voice-to-Text dipaparkan dan berfungsi hanya pada pemproses berikut:

Pemproses Intel 64-bit siri berikut:
-Pemproses Intel Core bermula dari generasi ke-4 (termasuk generasi ke-10 dan seterusnya);
-Pemproses XEON bermula dari generasi ke-6;
-Pemproses Atom siri "C23", "C25", "C27", "C33", "C35", "C37", "C38", "C39", "P59", "Z34", "Z35", "x5-E39", atau "x5-E8000";
-Pemproses Intel Xeon siri E5-24, i5-2450M atau i7-2600.

Walaupun modul ini boleh berfungsi menggunakan kapasiti CPU, penggunaan kad grafik video pada pelayan adalah disyorkan.

Xeoma menawarkan lebih banyak lagi!
Xeoma juga menyediakan modul lain yang memproses aliran audio:
• Microphone ialah modul yang membolehkan anda memilih mikrofon USB atau mikrofon IP berasingan sebagai sumber audio.
• Sound Detector ialah modul yang membolehkan anda menganalisis aliran audio dan mencetuskan tindak balas apabila tahap bunyi melebihi had yang ditetapkan.
• Sound Events Detector ialah modul pintar yang mampu mengecam bunyi tertentu: penggera kereta, tangisan kanak-kanak, tembakan senjata api, jeritan, kaca pecah.

Tonton video tentang Voice-to-Text Xeoma

Perlukan fungsi lain? Kami boleh membangunkannya dan menambahkannya ke dalam Xeoma sebagai perkhidmatan pembangunan berbayar. Lihat butiran

PERCUBAAN PERCUMA XEOMA

Cuba Xeoma secara percuma! Masukkan nama dan alamat e-mel anda di ruangan di bawah untuk menerima lesen, kemudian klik butang ‘Dapatkan lesen demo percuma Xeoma melalui e-mel’.

Kami menggesa anda agar tidak menggunakan e-mel yang mengandungi data peribadi, dan tidak menghantar data peribadi kepada kami melalui cara lain. Jika anda tetap melakukannya, dengan menghantar borang ini, anda mengesahkan persetujuan anda terhadap pemprosesan data peribadi anda

Ada soalan? Perlukan bantuan? Sila hubungi kami! Kami sedia membantu!

14 Ogos 2024

Baca lagi:
Modul tambahan dalam Xeoma
Senarai harga modul berasaskan AI dalam Xeoma