Voice-to-Text: Modul Cerdas Xeoma untuk Pengenalan Ucapan

Modul Voice-to-Text berbasis AI pada perangkat lunak pengawasan video Xeoma 'mendengarkan' aliran audio dari kamera atau mikrofon terpisah, mengenali ucapan, dan menyimpan transkripnya dalam laporan CSV atau menampilkannya sebagai teks pada preview. Anda juga dapat mengaturnya untuk bereaksi terhadap kata atau frasa tertentu. Modul ini juga dapat memproses file audio .mp3 – rekaman percakapan, video pelatihan, dll. – untuk mentranskripsikan ucapan menjadi teks.
Pengoperasian Voice-to-Text Xeoma tidak memerlukan peralatan khusus: aliran suara dari kamera apa pun atau mikrofon terpisah, serta komputer dan kartu grafis standar sudah memadai.
![]() |
Peringatan: modul ini tersedia mulai versi Xeoma 24.8.12 dan masih dalam status beta, sehingga mungkin terdapat kata yang terlewat atau pengulangan. |
Modul Voice-to-Text adalah alat fleksibel yang dapat digunakan untuk berbagai tujuan:
- Call center: transkripsi panggilan aktif atau rekaman panggilan untuk memantau kepatuhan terhadap kebijakan perusahaan dan skrip percakapan
- Perawatan lansia: kemampuan bereaksi instan terhadap teriakan minta tolong
- Pengawasan kota: pengenalan kata-kata yang mengindikasikan bahaya untuk keamanan kontraterorisme
- Kontrol orang tua: menjaga keamanan anak, melindungi mereka dari perundungan atau komunikasi dengan penipu dan pelaku pelecehan
- Kepolisian: integrasi pada body-worn camera untuk transkripsi percakapan antara petugas polisi dan tersangka serta kemampuan deteksi situasi berbahaya
- Bank, pegadaian: tombol panik yang tidak perlu ditekan secara fisik
- Riset, analitik: pengumpulan statistik latar belakang mengenai frekuensi penggunaan berbagai kata dan studi terkait ucapan lainnya
- Pemasaran: mengetahui apakah pelanggan membahas kampanye promosi, reaksi mereka terhadap spanduk atau iklan, dll.
- Segala jenis bisnis: kontrol otomatis kualitas layanan pelanggan (misalnya, deteksi kata-kata kasar)
- Filtrasi dan otomasi: deteksi kata atau frasa terlarang dalam percakapan, serta mengarahkan episode tertentu untuk pemeriksaan lebih lanjut tanpa harus mendengarkan seluruh percakapan
Seperti yang Anda lihat, alat “Voice-to-Text” pada program pengawasan video Xeoma dapat diterapkan dalam berbagai skenario. Tidak hanya meningkatkan keamanan pribadi, lingkungan kota, dan warga, tetapi juga mengoptimalkan operasional bisnis.

Tanpa peralatan khusus:
Dapat menggunakan komputer standar dan hampir semua jenis kamera.

Fleksibilitas tinggi:
Berbagai opsi reaksi dan integrasi dengan sistem pihak ketiga.

Operasional real-time:
Bekerja secara instan dalam mode real-time tanpa latensi. Pemrosesan dilakukan sepenuhnya di komputer Anda.

Solusi terjangkau:
Modul ini sudah termasuk dalam lisensi Xeoma Pro!
Perlu diperhatikan bahwa modul ini hanya muncul dalam daftar modul jika bagian server Xeoma berjalan pada perangkat keras yang sesuai. Jika Anda tidak menemukan modul tersebut dalam daftar, pastikan Anda menggunakan prosesor yang kompatibel dan edisi Xeoma yang tepat (modul hanya tersedia di edisi Xeoma Pro). Karena modul ini bekerja dengan aliran audio, Anda harus memiliki sumber suara dalam rantai tersebut: baik mikrofon yang tertanam di kamera, maupun mikrofon USB atau IP terpisah.
Sebagai contoh, mari asumsikan bahwa aliran suara dalam kasus Anda berasal dari kamera IP itu sendiri. Dalam hal ini, cukup gunakan rantai modul yang memiliki "Universal Camera" – "Voice-to-Text" – "Preview and Archive" di Xeoma Anda:

Klik ikon Voice-to-Text pada rantai untuk membuka pengaturan modul. Langkah pertama dalam menggunakan modul Voice-to-Text adalah mengunduh sumber daya tambahan yang diperlukan. Proses pengunduhan akan dimulai secara otomatis saat Anda pertama kali membuka pengaturan modul. Setelah pengunduhan sumber daya tambahan selesai, pesan “Downloading in progress” akan hilang.

![]() |
Sumber daya tambahan berisi array data untuk AI yang mendasari Voice-to-Text, yang diunduh berdasarkan permintaan dari server FelenaSoft. Data ini tidak disertakan dalam paket perangkat lunak untuk menjaga ukuran program tetap kecil, karena tidak semua sistem CCTV membutuhkannya. |
Opsi baru yang muncul setelah pengunduhan selesai memungkinkan Anda memilih dari beberapa model pengenalan suara berbasis AI. Setiap model memiliki keunggulan dan kelemahan tersendiri—umumnya berbeda dalam tingkat akurasi pengenalan dan beban prosesor. Model-model ini secara konvensional disebut tiny, base, small, medium, large sesuai urutan peningkatan ukuran model, kualitas pengenalan, serta beban pada perangkat keras.

Pada kolom “Language”, pilih bahasa untuk transkrip ucapan (perhatikan bahwa bahasa ucapan itu sendiri tidak perlu ditentukan).
Untuk mentranskripsi semua percakapan yang terdengar, centang kotak “Save data in CSV report”. Dengan demikian, transkrip percakapan akan disimpan dalam file spreadsheet di direktori yang Anda tentukan, yang dapat diintegrasikan ke sistem lain, misalnya sistem statistik.
Selain itu, “Voice-to-Text” dapat mendeteksi frasa atau kata tertentu. Tentukan kata atau frasa yang dicari pada kolom “Keywords for recognition”. Modul akan tetap memantau semua ucapan di sekitar kamera atau mikrofon, namun hanya akan bereaksi saat mendengar kata kunci tersebut. Hubungkan modul reaksi yang diinginkan setelah modul “Voice-to-Text” untuk menerima notifikasi, memulai rekaman, atau mengirim perintah.
Dalam contoh ini, kami menghubungkan modul “Preview and Archive” sebagai modul tujuan, sehingga saat kata kunci terdeteksi, sistem akan mulai merekam stream kamera – dan memudahkan pencarian episode dengan kata kunci yang ditentukan. Opsi ini juga dapat dikombinasikan dengan penyimpanan ke laporan CSV: cukup centang kotak yang sesuai di bawahnya.
“Voice-to-Text” memiliki makro sendiri – %VOICE% – yang dapat digunakan pada modul tujuan seperti “Email Sending”, “Application Runner”, atau “HTTP Request Sender” jika Anda ingin mengirimkan transkripsi ucapan ke modul tersebut.
Voice-to-Text Xeoma juga dapat digunakan oleh program eksternal – misalnya, untuk mentranskripsi percakapan VoIP. Dengan mengikuti instruksi di bawah ini, Anda dapat mengirimkan file .mp3 ke Voice-to-Text untuk didekode menjadi teks. Dengan demikian, modul ini dapat digunakan bahkan untuk workstation operator yang tidak memiliki Xeoma atau kamera. Hal ini dapat dilakukan melalui dua cara: via Xeoma API atau dengan menjalankan perintah konsol. Penting: hanya file .mp3 yang didukung.
1. API. Untuk opsi pertama, gunakan Xeoma API dengan permintaan JSON. Melalui perintah, Anda dapat meminta server Xeoma lokal maupun remote untuk mentranskripsi file .mp3 menjadi teks.
Contoh:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true"
di mana
"speech.mp3" harus diganti dengan path ke file audio di komputer Anda;
“192.168.0.135:10090” harus diganti dengan alamat IP server Xeoma yang sedang berjalan yang memiliki modul Voice-to-Text beserta port-nya (biasanya 10090);
“Administrator” tetap seperti semula karena fitur ini hanya tersedia untuk profil Administrator Xeoma;
“123” harus diganti dengan kata sandi profil Administrator Xeoma;
"model=large" adalah tempat Anda memilih model pengenalan. Lihat lebih banyak opsi di atas;
"denoise=true" disertakan jika Anda ingin mengaktifkan peredaman derau yang dalam beberapa kasus membantu meningkatkan akurasi pengenalan;
Ganti “en” dengan kode bahasa 2–3 karakter (lihat di bawah) untuk bahasa yang Anda inginkan pada teks transkripsi. Jika berbeda dari bahasa ucapan aktual yang diproses oleh Voice-to-Text, teks akan diterjemahkan secara otomatis ke bahasa yang Anda tentukan.
Catatan: Permintaan ini akan menampilkan transkripsi teks file secara langsung di konsol atau alat apa pun yang Anda gunakan untuk mengirim permintaan. Jika Anda ingin menyimpan transkripsi file sebagai file teks, tambahkan “>filename.txt” setelah perintah:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true">savetext.txt
di mana
Ganti savetext.txt dengan nama yang Anda inginkan untuk file transkripsi tersebut.
2. Jalankan perintah. Opsi kedua memungkinkan Anda melakukan pengenalan bukan melalui API, melainkan secara lokal di PC melalui perintah yang dapat dieksekusi di konsol.
Contoh:
{Path to Xeoma executable file} -speech2text file.mp3;out.log;large;en;denoise
di mana
"file.mp3" harus diganti dengan jalur ke file audio di komputer Anda;
"out.log" harus diganti dengan jalur dan nama file teks hasil transkripsi;
"large" adalah tempat Anda memilih model pengenalan. Lihat opsi lebih lanjut di atas;
"en" harus diganti dengan kode bahasa 2-3 karakter (lihat di bawah) untuk bahasa yang Anda inginkan pada teks transkripsi. Jika berbeda dengan bahasa ucapan aktual yang didengar oleh Voice-to-Text, teks akan otomatis diterjemahkan ke bahasa yang Anda tentukan.
"denoise" disertakan jika Anda ingin mengaktifkan peredam bising yang dalam beberapa kasus dapat meningkatkan akurasi pengenalan.
Daftar kode bahasa:
"en": "Inggris",
"zh": "Tiongkok",
"de": "Jerman",
"es": "Spanyol",
"ru": "Rusia",
"ko": "Korea",
"fr": "Prancis",
"ja": "Jepang",
"pt": "Portugis",
"tr": "Turki",
"pl": "Polandia",
"ca": "Katalan",
"nl": "Belanda",
"ar": "Arab",
"sv": "Swedia",
"it": "Italia",
"id": "Indonesia",
"hi": "Hindi",
"fi": "Finlandia",
"vi": "Vietnam",
"he": "Ibrani",
"uk": "Ukraina",
"el": "Yunani",
"ms": "Melayu",
"cs": "Ceko",
"ro": "Rumania",
"da": "Denmark",
"hu": "Hongaria",
"ta": "Tamil",
"no": "Norwegia",
"th": "Thai",
"ur": "Urdu",
"hr": "Kroasia",
"bg": "Bulgaria",
"lt": "Lituania",
"la": "Latin",
"mi": "Maori",
"ml": "Malayalam",
"cy": "Welsh",
"sk": "Slovak",
"te": "Telugu",
"fa": "Persia",
"lv": "Latvia",
"bn": "Bengali",
"sr": "Serbia",
"az": "Azerbaijan",
"sl": "Slovenia",
"kn": "Kannada",
"et": "Estonia",
"mk": "Makedonia",
"br": "Breton",
"eu": "Basque",
"is": "Islandia",
"hy": "Armenia",
"ne": "Nepali",
"mn": "Mongolia",
"bs": "Bosnia",
"kk": "Kazakh",
"sq": "Albania",
"sw": "Swahili",
"gl": "Galisia",
"mr": "Marathi",
"pa": "Punjabi",
"si": "Sinhala",
"km": "Khmer",
"sn": "Shona",
"yo": "Yoruba",
"so": "Somalia",
"af": "Afrikaans",
"oc": "Occitan",
"ka": "Georgia",
"be": "Belarusia",
"tg": "Tajik",
"sd": "Sindhi",
"gu": "Gujarati",
"am": "Amharik",
"yi": "Yiddish",
"lo": "Lao",
"uz": "Uzbek",
"fo": "Faroe",
"ht": "Kreol Haiti",
"ps": "Pashto",
"tk": "Turkmen",
"nn": "Nynorsk",
“mt”: “maltese”,
"sa": "Sanskerta",
“lb”: “luxembourgish”,
"my": "Myanmar",
“bo”: “tibet”,
"tl": "Tagalog",
"mg": "Malagasi",
“as”: “assamese”,
"tt": "Tatar",
“haw”: “hawaii”,
"ln": "Lingala",
"ha": "Hausa",
"ba": "Bashkir",
"jw": "Jawa",
"su": "Sunda",
"yue": "Kanton".
1. Unduh Xeoma dari situs web kami dan jalankan. Pastikan bagian server Xeoma berjalan pada mesin dengan prosesor yang dipersyaratkan.
Pastikan juga Xeoma berjalan dalam edisi Uji Coba atau aktifkan lisensi Xeoma Pro untuk menggunakan modul ini.
2. Tambahkan kamera atau tunggu hingga Xeoma secara otomatis menambahkan kamera yang terdeteksi di jaringan Anda. Jika Anda perlu menggunakan mikrofon terpisah yang tidak terintegrasi dengan kamera, hubungkan modul “Microphone” dan pilih sumber suara yang sesuai.
3. Tambahkan modul “Voice-to-Text” ke dalam alur proses dan konfigurasikan.
4. Jika diperlukan, tambahkan modul lain untuk menetapkan respons yang diinginkan, seperti perekaman ke arsip, pengiriman email, atau respons kustom Anda.
5. Selesai! Kini Anda dapat memanfaatkan kemampuan pengenalan ucapan cerdas Xeoma yang luar biasa.
![]() |
*Modul Voice-to-Text hanya tersedia dan berfungsi pada prosesor berikut:
Prosesor Intel 64-bit seri berikut: Meskipun modul ini dapat berjalan menggunakan kapasitas CPU, kami sangat menyarankan penggunaan kartu grafis pada mesin server. |
Xeoma menawarkan lebih banyak lagi!
Xeoma juga menawarkan modul lain untuk memproses aliran audio:
• Microphone adalah modul yang memungkinkan Anda memilih mikrofon USB atau mikrofon IP terpisah sebagai sumber suara.
• Sound Detector adalah modul yang memungkinkan Anda menganalisis aliran audio dan memicu aksi saat level suara melebihi batas yang ditentukan.
• Sound Events Detector adalah modul cerdas yang mampu mengenali suara tertentu: alarm mobil, tangisan anak, tembakan, teriakan, hingga pecahan kaca.
![]() |
Butuh fitur lain? Kami dapat mengembangkannya dan menambahkannya ke dalam Xeoma sebagai layanan pengembangan berbayar. Lihat detail |
Coba Xeoma secara gratis! Masukkan nama dan alamat email Anda pada kolom di bawah untuk menerima lisensi, lalu klik tombol 'Dapatkan lisensi demo Xeoma gratis via email'.
Kami menyarankan Anda untuk tidak menggunakan alamat email yang mengandung data pribadi, maupun mengirimkan data pribadi melalui cara lain. Jika Anda tetap melakukannya, dengan mengirimkan formulir ini, Anda menyetujui pemrosesan data pribadi Anda
Ada pertanyaan? Butuh bantuan? Hubungi kami! Kami siap membantu Anda!
14 Agustus 2024
Baca selengkapnya:
Modul tambahan di Xeoma
Daftar harga modul berbasis AI di Xeoma
