Voice-to-Text: Xeoma

Voice-to-Text: Modul Cerdas Xeoma untuk Pengenalan Ucapan

Modul Voice-to-Text berbasis AI pada perangkat lunak pengawasan video Xeoma 'mendengarkan' aliran audio dari kamera atau mikrofon terpisah, mengenali ucapan, dan menyimpan transkripnya dalam laporan CSV atau menampilkannya sebagai teks pada preview. Anda juga dapat mengaturnya untuk bereaksi terhadap kata atau frasa tertentu. Modul ini juga dapat memproses file audio .mp3 – rekaman percakapan, video pelatihan, dll. – untuk mentranskripsikan ucapan menjadi teks.

Pengoperasian Voice-to-Text Xeoma tidak memerlukan peralatan khusus: aliran suara dari kamera apa pun atau mikrofon terpisah, serta komputer dan kartu grafis standar sudah memadai.

Peringatan: modul ini tersedia mulai versi Xeoma 24.8.12 dan masih dalam status beta, sehingga mungkin terdapat kata yang terlewat atau pengulangan.

Coba demo

Beli

Detail

SKENARIO APLIKASI

Modul Voice-to-Text adalah alat fleksibel yang dapat digunakan untuk berbagai tujuan:

Call center: transkripsi panggilan aktif atau rekaman panggilan untuk memantau kepatuhan terhadap kebijakan perusahaan dan skrip percakapan
Perawatan lansia: kemampuan bereaksi instan terhadap teriakan minta tolong
Pengawasan kota: pengenalan kata-kata yang mengindikasikan bahaya untuk keamanan kontraterorisme
Kontrol orang tua: menjaga keamanan anak, melindungi mereka dari perundungan atau komunikasi dengan penipu dan pelaku pelecehan
Kepolisian: integrasi pada body-worn camera untuk transkripsi percakapan antara petugas polisi dan tersangka serta kemampuan deteksi situasi berbahaya
Bank, pegadaian: tombol panik yang tidak perlu ditekan secara fisik
Riset, analitik: pengumpulan statistik latar belakang mengenai frekuensi penggunaan berbagai kata dan studi terkait ucapan lainnya
Pemasaran: mengetahui apakah pelanggan membahas kampanye promosi, reaksi mereka terhadap spanduk atau iklan, dll.
Segala jenis bisnis: kontrol otomatis kualitas layanan pelanggan (misalnya, deteksi kata-kata kasar)
Filtrasi dan otomasi: deteksi kata atau frasa terlarang dalam percakapan, serta mengarahkan episode tertentu untuk pemeriksaan lebih lanjut tanpa harus mendengarkan seluruh percakapan

Seperti yang Anda lihat, alat “Voice-to-Text” pada program pengawasan video Xeoma dapat diterapkan dalam berbagai skenario. Tidak hanya meningkatkan keamanan pribadi, lingkungan kota, dan warga, tetapi juga mengoptimalkan operasional bisnis.

KEUNGGULAN MODUL VOICE-TO-TEXT:

Tanpa peralatan khusus:
Dapat menggunakan komputer standar dan hampir semua jenis kamera.

Keunggulan modul Voice-to-Text: fleksibel dan universal

Fleksibilitas tinggi:
Berbagai opsi reaksi dan integrasi dengan sistem pihak ketiga.

Keunggulan modul Voice-to-Text: pemrosesan real-time

Operasional real-time:
Bekerja secara instan dalam mode real-time tanpa latensi. Pemrosesan dilakukan sepenuhnya di komputer Anda.

Keunggulan modul Voice-to-Text: harga sangat terjangkau

Solusi terjangkau:

Modul ini sudah termasuk dalam lisensi Xeoma Pro!

CARA KERJA:

Perlu diperhatikan bahwa modul ini hanya muncul dalam daftar modul jika bagian server Xeoma berjalan pada perangkat keras yang sesuai. Jika Anda tidak menemukan modul tersebut dalam daftar, pastikan Anda menggunakan prosesor yang kompatibel dan edisi Xeoma yang tepat (modul hanya tersedia di edisi Xeoma Pro). Karena modul ini bekerja dengan aliran audio, Anda harus memiliki sumber suara dalam rantai tersebut: baik mikrofon yang tertanam di kamera, maupun mikrofon USB atau IP terpisah.

Sebagai contoh, mari asumsikan bahwa aliran suara dalam kasus Anda berasal dari kamera IP itu sendiri. Dalam hal ini, cukup gunakan rantai modul yang memiliki "Universal Camera" – "Voice-to-Text" – "Preview and Archive" di Xeoma Anda:

Contoh alur proses dengan modul cerdas Voice-to-Text

Klik ikon Voice-to-Text pada rantai untuk membuka pengaturan modul. Langkah pertama dalam menggunakan modul Voice-to-Text adalah mengunduh sumber daya tambahan yang diperlukan. Proses pengunduhan akan dimulai secara otomatis saat Anda pertama kali membuka pengaturan modul. Setelah pengunduhan sumber daya tambahan selesai, pesan “Downloading in progress” akan hilang.

Pengaturan modul cerdas Voice-to-Text

Sumber daya tambahan berisi array data untuk AI yang mendasari Voice-to-Text, yang diunduh berdasarkan permintaan dari server FelenaSoft. Data ini tidak disertakan dalam paket perangkat lunak untuk menjaga ukuran program tetap kecil, karena tidak semua sistem CCTV membutuhkannya.

Opsi baru yang muncul setelah pengunduhan selesai memungkinkan Anda memilih dari beberapa model pengenalan suara berbasis AI. Setiap model memiliki keunggulan dan kelemahan tersendiri—umumnya berbeda dalam tingkat akurasi pengenalan dan beban prosesor. Model-model ini secara konvensional disebut tiny, base, small, medium, large sesuai urutan peningkatan ukuran model, kualitas pengenalan, serta beban pada perangkat keras.

Pengaturan modul cerdas Voice-to-Text

Pada kolom “Language”, pilih bahasa untuk transkrip ucapan (perhatikan bahwa bahasa ucapan itu sendiri tidak perlu ditentukan).

Untuk mentranskripsi semua percakapan yang terdengar, centang kotak “Save data in CSV report”. Dengan demikian, transkrip percakapan akan disimpan dalam file spreadsheet di direktori yang Anda tentukan, yang dapat diintegrasikan ke sistem lain, misalnya sistem statistik.

Selain itu, “Voice-to-Text” dapat mendeteksi frasa atau kata tertentu. Tentukan kata atau frasa yang dicari pada kolom “Keywords for recognition”. Modul akan tetap memantau semua ucapan di sekitar kamera atau mikrofon, namun hanya akan bereaksi saat mendengar kata kunci tersebut. Hubungkan modul reaksi yang diinginkan setelah modul “Voice-to-Text” untuk menerima notifikasi, memulai rekaman, atau mengirim perintah.

Dalam contoh ini, kami menghubungkan modul “Preview and Archive” sebagai modul tujuan, sehingga saat kata kunci terdeteksi, sistem akan mulai merekam stream kamera – dan memudahkan pencarian episode dengan kata kunci yang ditentukan. Opsi ini juga dapat dikombinasikan dengan penyimpanan ke laporan CSV: cukup centang kotak yang sesuai di bawahnya.

“Voice-to-Text” memiliki makro sendiri – %VOICE% – yang dapat digunakan pada modul tujuan seperti “Email Sending”, “Application Runner”, atau “HTTP Request Sender” jika Anda ingin mengirimkan transkripsi ucapan ke modul tersebut.

INTEGRASI DENGAN PROGRAM EKSTERNAL

Voice-to-Text Xeoma juga dapat digunakan oleh program eksternal – misalnya, untuk mentranskripsi percakapan VoIP. Dengan mengikuti instruksi di bawah ini, Anda dapat mengirimkan file .mp3 ke Voice-to-Text untuk didekode menjadi teks. Dengan demikian, modul ini dapat digunakan bahkan untuk workstation operator yang tidak memiliki Xeoma atau kamera. Hal ini dapat dilakukan melalui dua cara: via Xeoma API atau dengan menjalankan perintah konsol. Penting: hanya file .mp3 yang didukung.

1. API. Untuk opsi pertama, gunakan Xeoma API dengan permintaan JSON. Melalui perintah, Anda dapat meminta server Xeoma lokal maupun remote untuk mentranskripsi file .mp3 menjadi teks.

Contoh:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true"

di mana
"speech.mp3" harus diganti dengan path ke file audio di komputer Anda;

“192.168.0.135:10090” harus diganti dengan alamat IP server Xeoma yang sedang berjalan yang memiliki modul Voice-to-Text beserta port-nya (biasanya 10090);

“Administrator” tetap seperti semula karena fitur ini hanya tersedia untuk profil Administrator Xeoma;

“123” harus diganti dengan kata sandi profil Administrator Xeoma;

"model=large" adalah tempat Anda memilih model pengenalan. Lihat lebih banyak opsi di atas;

"denoise=true" disertakan jika Anda ingin mengaktifkan peredaman derau yang dalam beberapa kasus membantu meningkatkan akurasi pengenalan;

Ganti “en” dengan kode bahasa 2–3 karakter (lihat di bawah) untuk bahasa yang Anda inginkan pada teks transkripsi. Jika berbeda dari bahasa ucapan aktual yang diproses oleh Voice-to-Text, teks akan diterjemahkan secara otomatis ke bahasa yang Anda tentukan.

Catatan: Permintaan ini akan menampilkan transkripsi teks file secara langsung di konsol atau alat apa pun yang Anda gunakan untuk mengirim permintaan. Jika Anda ingin menyimpan transkripsi file sebagai file teks, tambahkan “>filename.txt” setelah perintah:

curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true">savetext.txt
di mana
Ganti savetext.txt dengan nama yang Anda inginkan untuk file transkripsi tersebut.

2. Jalankan perintah. Opsi kedua memungkinkan Anda melakukan pengenalan bukan melalui API, melainkan secara lokal di PC melalui perintah yang dapat dieksekusi di konsol.

Contoh:

{Path to Xeoma executable file} -speech2text file.mp3;out.log;large;en;denoise

di mana
"file.mp3" harus diganti dengan jalur ke file audio di komputer Anda;

"out.log" harus diganti dengan jalur dan nama file teks hasil transkripsi;

"large" adalah tempat Anda memilih model pengenalan. Lihat opsi lebih lanjut di atas;

"en" harus diganti dengan kode bahasa 2-3 karakter (lihat di bawah) untuk bahasa yang Anda inginkan pada teks transkripsi. Jika berbeda dengan bahasa ucapan aktual yang didengar oleh Voice-to-Text, teks akan otomatis diterjemahkan ke bahasa yang Anda tentukan.

"denoise" disertakan jika Anda ingin mengaktifkan peredam bising yang dalam beberapa kasus dapat meningkatkan akurasi pengenalan.

Daftar kode bahasa:

"en": "Inggris",
"zh": "Tiongkok",
"de": "Jerman",
"es": "Spanyol",
"ru": "Rusia",
"ko": "Korea",
"fr": "Prancis",
"ja": "Jepang",
"pt": "Portugis",
"tr": "Turki",
"pl": "Polandia",
"ca": "Katalan",
"nl": "Belanda",
"ar": "Arab",
"sv": "Swedia",
"it": "Italia",
"id": "Indonesia",
"hi": "Hindi",
"fi": "Finlandia",
"vi": "Vietnam",
"he": "Ibrani",
"uk": "Ukraina",
"el": "Yunani",
"ms": "Melayu",
"cs": "Ceko",
"ro": "Rumania",
"da": "Denmark",
"hu": "Hongaria",
"ta": "Tamil",
"no": "Norwegia",
"th": "Thai",
"ur": "Urdu",
"hr": "Kroasia",
"bg": "Bulgaria",
"lt": "Lituania",
"la": "Latin",
"mi": "Maori",
"ml": "Malayalam",
"cy": "Welsh",
"sk": "Slovak",
"te": "Telugu",
"fa": "Persia",
"lv": "Latvia",
"bn": "Bengali",
"sr": "Serbia",
"az": "Azerbaijan",
"sl": "Slovenia",
"kn": "Kannada",
"et": "Estonia",
"mk": "Makedonia",
"br": "Breton",
"eu": "Basque",
"is": "Islandia",
"hy": "Armenia",
"ne": "Nepali",
"mn": "Mongolia",
"bs": "Bosnia",
"kk": "Kazakh",
"sq": "Albania",
"sw": "Swahili",
"gl": "Galisia",
"mr": "Marathi",
"pa": "Punjabi",
"si": "Sinhala",
"km": "Khmer",
"sn": "Shona",
"yo": "Yoruba",
"so": "Somalia",
"af": "Afrikaans",
"oc": "Occitan",
"ka": "Georgia",
"be": "Belarusia",
"tg": "Tajik",
"sd": "Sindhi",
"gu": "Gujarati",
"am": "Amharik",
"yi": "Yiddish",
"lo": "Lao",
"uz": "Uzbek",
"fo": "Faroe",
"ht": "Kreol Haiti",
"ps": "Pashto",
"tk": "Turkmen",
"nn": "Nynorsk",
“mt”: “maltese”,
"sa": "Sanskerta",
“lb”: “luxembourgish”,
"my": "Myanmar",
“bo”: “tibet”,
"tl": "Tagalog",
"mg": "Malagasi",
“as”: “assamese”,
"tt": "Tatar",
“haw”: “hawaii”,
"ln": "Lingala",
"ha": "Hausa",
"ba": "Bashkir",
"jw": "Jawa",
"su": "Sunda",
"yue": "Kanton".

CARA MENGUJI

1. Unduh Xeoma dari situs web kami dan jalankan. Pastikan bagian server Xeoma berjalan pada mesin dengan prosesor yang dipersyaratkan.
Pastikan juga Xeoma berjalan dalam edisi Uji Coba atau aktifkan lisensi Xeoma Pro untuk menggunakan modul ini.
2. Tambahkan kamera atau tunggu hingga Xeoma secara otomatis menambahkan kamera yang terdeteksi di jaringan Anda. Jika Anda perlu menggunakan mikrofon terpisah yang tidak terintegrasi dengan kamera, hubungkan modul “Microphone” dan pilih sumber suara yang sesuai.
3. Tambahkan modul “Voice-to-Text” ke dalam alur proses dan konfigurasikan.
4. Jika diperlukan, tambahkan modul lain untuk menetapkan respons yang diinginkan, seperti perekaman ke arsip, pengiriman email, atau respons kustom Anda.
5. Selesai! Kini Anda dapat memanfaatkan kemampuan pengenalan ucapan cerdas Xeoma yang luar biasa.

*Modul Voice-to-Text hanya tersedia dan berfungsi pada prosesor berikut:

Prosesor Intel 64-bit seri berikut:
-Prosesor Intel Core mulai dari generasi ke-4 (termasuk generasi 10+);
-Prosesor XEON mulai dari generasi ke-6;
-Prosesor Atom seri “C23”, “C25”, “C27”, “C33”, “C35”, “C37”, “C38”, “C39”, “P59”, “Z34”, “Z35”, “x5-E39”, atau “x5-E8000”;
-Prosesor Intel Xeon seri E5-24, i5-2450M atau i7-2600.

Meskipun modul ini dapat berjalan menggunakan kapasitas CPU, kami sangat menyarankan penggunaan kartu grafis pada mesin server.

Xeoma menawarkan lebih banyak lagi!
Xeoma juga menawarkan modul lain untuk memproses aliran audio:
• Microphone adalah modul yang memungkinkan Anda memilih mikrofon USB atau mikrofon IP terpisah sebagai sumber suara.
• Sound Detector adalah modul yang memungkinkan Anda menganalisis aliran audio dan memicu aksi saat level suara melebihi batas yang ditentukan.
• Sound Events Detector adalah modul cerdas yang mampu mengenali suara tertentu: alarm mobil, tangisan anak, tembakan, teriakan, hingga pecahan kaca.

Tonton video tentang Voice-to-Text Xeoma

Butuh fitur lain? Kami dapat mengembangkannya dan menambahkannya ke dalam Xeoma sebagai layanan pengembangan berbayar. Lihat detail

UJI COBA GRATIS XEOMA

Coba Xeoma secara gratis! Masukkan nama dan alamat email Anda pada kolom di bawah untuk menerima lisensi, lalu klik tombol 'Dapatkan lisensi demo Xeoma gratis via email'.

Kami menyarankan Anda untuk tidak menggunakan alamat email yang mengandung data pribadi, maupun mengirimkan data pribadi melalui cara lain. Jika Anda tetap melakukannya, dengan mengirimkan formulir ini, Anda menyetujui pemrosesan data pribadi Anda

Ada pertanyaan? Butuh bantuan? Hubungi kami! Kami siap membantu Anda!

14 Agustus 2024

Baca selengkapnya:
Modul tambahan di Xeoma
Daftar harga modul berbasis AI di Xeoma