Voice-to-Text: Xeoma

Voice-to-Text: Intellectual Module ng Xeoma para sa Speech Recognition

AI-powered Voice-to-Text Ang Voice-to-Text module ng Xeoma video surveillance software na may AI ay 'nakikinig' sa audio stream mula sa camera o hiwalay na mikropono, kinikilala ang pananalita, at nagse-save ng transkripsyon nito sa CSV report o nag-o-overlay nito bilang teksto sa preview. Maaari mo ring i-set itong mag-react sa tiyak na mga salita o parirala. Gumagana rin ito sa mga .mp3 audio file – mga recording ng pag-uusap, training video, atbp. – sa pagtatranscribe ng pananalita at pagbibigay nito bilang teksto.

Ang paggamit sa Voice-to-Text ng Xeoma ay hindi nangangailangan ng espesyal na kagamitan: sapat na ang audio stream mula sa anumang camera o hiwalay na mikropono, gayundin ang mga karaniwang computer at video graphics card.

Babala: ang module na ito ay available simula sa Xeoma 24.8.12 at nasa beta state, kaya maaaring makaligtaan ng mga salita o magkaroon ng loops.

Kumuha ng demo

Bumili

Alamin ang mga detalye

MGA SENARYO NG PAGGAMIT

Ang Voice-to-Text module ay isang flexible na tool na maaaring gamitin sa iba't ibang layunin:

Call center: pagtatranscribe ng mga ongoing na tawag o recording ng tawag upang subaybayan ang pagsunod sa polisiya ng kumpanya at mga script ng usapan
Pag-aalaga sa mga nakatatanda: kakayahang mag-react agad sa sigaw ng tulong
City surveillance: pagkilala sa mga salitang nagpapahiwatig ng panganib para sa counter-terrorism security
Parental control: tulong upang tiyakin ang kaligtasan ng bata, protektahan ito laban sa bullying o pakikipag-usap sa mga scammer at molester
Pulisya: bahagi ng mga body-worn camera para sa pagtatranscribe ng usapan sa pagitan ng pulis at suspek at kakayahang mag-detect ng mapanganib na sitwasyon
Bangko, pawnshop: panic button na hindi na kailangang pindutin nang pisikal
Pananaliksik, analytics: background collection ng statistics sa dalas ng paggamit ng iba't ibang salita at iba pang pag-aaral na may kaugnayan sa pananalita
Marketing: pagtukoy kung tinatalakay ng mga customer ang isang promotional campaign, ang kanilang reaksyon sa banner o ad, atbp.
Anumang negosyo: automated control ng kalidad ng customer service (halimbawa, detection ng mga mura)
Filtering at automation: detection ng mga hindi ginustong o ipinagbabawal na salita o parirala sa mga usapan, at pag-direct ng mga partikular na episode na ito para sa mas masusing inspeksyon nang hindi na kailangang pakinggan ang lahat ng usapan

Gaya ng makikita, ang tool na "Voice-to-Text" ng Xeoma video surveillance program ay maaaring gamitin sa malawak na hanay ng mga scenario! Hindi lamang nito pinapahusay ang seguridad sa pribadong buhay, sa lungsod at mga mamamayan, pati na rin sa komersyal na sektor, kundi nakakatulong din ito sa optimization ng mga business operation.

MGA BENTAHA NG VOICE-TO-TEXT MODULE:

Mga bentahe ng Voice-to-Text module: anumang kagamitan

Walang espesyal na kagamitang kailangan:
Maaaring gamitin ang mga karaniwang computer at halos anumang camera.

Mga bentahe ng Voice-to-Text module: flexible at universal

Simple at flexible:
Iba't ibang reactions, integration sa mga third-party system.

Mga bentahe ng Voice-to-Text module: real-time na operasyon

Real-time operation:
On-the-fly na operasyon sa real-time mode nang walang latency. Gumagana lamang ito sa iyong computer.

Mga bentahe ng Voice-to-Text module: abot-kaya

Affordable na solusyon:

Ang module ay kasama na sa mga Xeoma Pro license!

PAANO ITO GUMAGANA:

Una sa lahat, mahalagang tandaan na ang module ay lumalabas lamang sa listahan ng mga module kapag ang server part ng Xeoma ay tumatakbo sa angkop na hardware. Kung hindi mo makita ang module sa listahan, siguraduhing gumagamit ka ng angkop na processor at tamang edition ng Xeoma (ang module ay available lamang sa Xeoma Pro edition). Dahil ang module ay gumagana sa audio stream, kailangan mong magkaroon ng sound source sa chain: maaaring microphone na built-in sa camera, o hiwalay na USB o IP microphone.

Halimbawa, ipagpalagay na ang audio stream sa iyong kaso ay nanggagaling mismo sa IP camera. Sa ganitong sitwasyon, gamitin lamang ang chain ng mga module na may "Universal Camera" – "Voice-to-Text" – "Preview and Archive" sa iyong Xeoma:

Halimbawa ng chain na may Voice-to-Text intellectual module

I-click ang Voice-to-Text icon sa chain upang buksan ang module settings. Ang unang hakbang sa paggamit ng Voice-to-Text module ay ang pag-download ng mga karagdagang resource na kailangan nito. Awtomatikong magsisimula ang pag-download sa unang pagbukas ng module settings. Mawawala ang mensaheng "Downloading in progress" kapag nakumpleto na ang pag-download ng mga karagdagang resource.

Mga setting ng Voice-to-Text intellectual module

Naglalaman ang mga karagdagang resource ng mga data array para sa artificial intelligence na pinagbabatayan ng Voice-to-Text, at dina-download ang mga ito mula sa mga server ng FelenaSoft kapag hiniling. Hindi ito kasama sa software para mapanatiling maliit ang laki ng programa, dahil hindi naman ito kailangan sa lahat ng CCTV system.

Ang mga bagong option na lalabas pagkatapos makumpleto ang pag-download ay nagbibigay-daan sa iyo na pumili mula sa ilang AI-powered voice recognition models na gagamitin para sa speech recognition. Bawat model ay may kanya-kanyang lakas at kahinaan – kadalasan, nagkakaiba ang antas ng recognition accuracy at load sa processor. Tinatawag silang tiny, base, small, medium, large ayon sa paglaki ng model size, kalidad ng recognition, at load sa hardware.

Mga setting ng Voice-to-Text intellectual module

Sa field na “Language”, piliin ang wikang gagamitin para sa transcript ng pananalita (tandaan na hindi na kailangang tukuyin ang wika ng mismong pananalita).

Kung kailangang i-transcribe ang lahat ng naririnig na pag-uusap, i-check ang checkbox ng "Save data in CSV report". Sa ganitong paraan, ang transcript ng mga pag-uusap ay mase-save bilang spreadsheet file sa directory na iyong tinukoy sa disk, na maaaring i-integrate sa ibang system, gaya ng mga statistical tool.

Kayang i-detect ng “Voice-to-Text” ang mga partikular na parirala o salita. Ilagay ang mga salita o pariralang hinahanap sa field na “Keywords for recognition”. Pagkatapos nito, patuloy na makikinig ang module sa lahat ng pananalita sa paligid ng camera o mikropono, ngunit magre-react lamang ito kapag narinig ang mga keyword. I-connect ang nais na reaction module pagkatapos ng “Voice-to-Text” module para makatanggap ng notification, magsimula ng recording, o magpadala ng command.

Sa halimbawang ito, ang “Preview and Archive” module ang naka-connect bilang destination module, kaya kapag na-detect ang mga set keyword, sisimulan nito ang pag-record ng camera stream – at magbibigay-daan sa paghahanap ng mga episode gamit ang keyword na iyong tinukoy. Madali ring mapagsasama ang option na ito sa pag-save sa CSV report: para gawin ito, i-check ang kaukulang box sa ibaba.

Ang "Voice-to-Text" ay may sariling macro – %VOICE% – na maaaring gamitin sa mga destination module gaya ng "Email Sending", "Application Runner", o "HTTP Request Sender" kung nais mong ipadala ang transcription ng pananalita sa mga ito.

INTEGRASYON SA MGA EXTERNAL NA PROGRAMA

Ang Voice-to-Text ng Xeoma ay maaari ring gamitin mula sa mga external na programa – halimbawa, upang i-transcribe ang mga VoIP conversation. Sundin ang mga instruksyon sa ibaba upang magpadala ng .mp3 file sa Voice-to-Text para i-decode ito at makuha ang resulta bilang text. Dahil dito, maaaring gamitin ang module na ito kahit sa mga operator workstation na walang Xeoma o mga camera. Magagawa ito sa dalawang paraan: sa pamamagitan ng Xeoma API o sa pamamagitan ng pag-run ng console command. Importante: .mp3 files lamang ang suportado.

1. API. Para sa unang option, kailangang gamitin ang Xeoma API na may JSON requests. Gamit ang mga command, maaari kang magpadala ng request sa isang remote o local Xeoma server upang i-transcribe ang isang .mp3 file tungo sa text.

Halimbawa:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true"

kung saan
ang "speech.mp3" ay dapat palitan ng path sa audio file sa iyong computer;

ang "192.168.0.135:10090" ay dapat palitan ng IP address ng tumatakbong Xeoma server na may kakayahang magpatakbo ng Voice-to-Text at ang port nito (karaniwang 10090);

ang "Administrator" ay dapat panatilihin gaya ng nakasulat dahil available lamang ito para sa Administrator profile ng Xeoma;

Palitan ang “123” ng password ng Administrator profile ng Xeoma;

“model=large” ang parameter para sa pagpili ng recognition model. Para sa karagdagang detalye sa mga opsyon, tingnan ang nasa itaas;

Isama ang “denoise=true” kung nais mong i-enable ang noise cancellation upang mapataas ang recognition accuracy sa ilang kaso;

Palitan ang “en” ng 2-3 character code (tingnan sa ibaba) ng wikang nais mong gamitin para sa transcribed text. Kung iba ito sa aktwal na wika ng sinasalita na kinikilala ng Voice-to-Text, awtomatiko itong isasalin sa wikang iyong tinukoy.

Paalala: Ibabalik ng request na ito ang text transcription ng file nang direkta sa console o sa anumang tool na ginagamit mo sa pagpapadala ng request. Kung nais mong i-save ang transcription bilang text file, magdagdag ng “>filename.txt” pagkatapos ng command:

curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true">savetext.txt
kung saan
Palitan ang savetext.txt ng pangalang nais mong ibigay sa transcription file.

2. I-launch ang command. Sa ikalawang opsyon, maaaring magsagawa ng recognition nang lokal sa PC sa pamamagitan ng mga command sa console sa halip na sa API.

Halimbawa:

{Path to Xeoma executable file} -speech2text file.mp3;out.log;large;en;denoise

kung saan
Palitan ang “file.mp3” ng path papunta sa audio file sa iyong computer;

Palitan ang “out.log” ng path at pangalan ng resulting transcription text file;

Sa “large” pipiliin ang recognition model. Tingnan ang iba pang opsyon sa itaas;

Palitan ang "en" ng 2–3 character code (tingnan sa ibaba) ng wikang nais mong gamitin para sa transcribed text. Kung iba ito sa aktuwal na wika ng pagsasalita na pinakikinggan ng Voice-to-Text, awtomatiko itong isasalin sa wikang iyong tinukoy.

Isama ang “denoise” kung nais mong i-enable ang noise cancellation na maaaring makatulong sa pagpapataas ng accuracy ng recognition.

Listahan ng mga language code:

“en”: “english”,
“zh”: “chinese”,
“de”: “german”,
“es”: “spanish”,
“ru”: “russian”,
“ko”: “korean”,
“fr”: “french”,
“ja”: “japanese”,
“pt”: “portuguese”,
“tr”: “turkish”,
“pl”: “polish”,
“ca”: “catalan”,
“nl”: “dutch”,
“ar”: “arabic”,
“sv”: “swedish”,
“it”: “italian”,
“id”: “indonesian”,
“hi”: “hindi”,
“fi”: “finnish”,
“vi”: “vietnamese”,
“he”: “hebrew”,
“uk”: “ukrainian”,
“el”: “greek”,
“ms”: “malay”,
“cs”: “czech”,
“ro”: “romanian”,
“da”: “danish”,
“hu”: “hungarian”,
“ta”: “tamil”,
“no”: “norwegian”,
“th”: “thai”,
“ur”: “urdu”,
“hr”: “croatian”,
“bg”: “bulgarian”,
“lt”: “lithuanian”,
“la”: “latin”,
“mi”: “maori”,
“ml”: “malayalam”,
“cy”: “welsh”,
“sk”: “slovak”,
“te”: “telugu”,
“fa”: “persian”,
“lv”: “latvian”,
“bn”: “bengali”,
“sr”: “serbian”,
“az”: “azerbaijani”,
“sl”: “slovenian”,
“kn”: “kannada”,
“et”: “estonian”,
“mk”: “macedonian”,
“br”: “breton”,
“eu”: “basque”,
“is”: “icelandic”,
“hy”: “armenian”,
“ne”: “nepali”,
“mn”: “mongolian”,
“bs”: “bosnian”,
“kk”: “kazakh”,
“sq”: “albanian”,
“sw”: “swahili”,
“gl”: “galician”,
“mr”: “marathi”,
“pa”: “punjabi”,
“si”: “sinhala”,
“km”: “khmer”,
“sn”: “shona”,
“yo”: “yoruba”,
“so”: “somali”,
“af”: “afrikaans”,
“oc”: “occitan”,
“ka”: “georgian”,
“be”: “belarusian”,
“tg”: “tajik”,
“sd”: “sindhi”,
“gu”: “gujarati”,
“am”: “amharic”,
“yi”: “yiddish”,
“lo”: “lao”,
“uz”: “uzbek”,
“fo”: “faroese”,
“ht”: “haitian creole”,
“ps”: “pashto”,
“tk”: “turkmen”,
“nn”: “nynorsk”,
“mt”: “maltese”,
“sa”: “sanskrit”,
“lb”: “luxembourgish”,
“my”: “myanmar”,
“bo”: “tibetan”,
“tl”: “tagalog”,
“mg”: “malagasy”,
“as”: “assamese”,
“tt”: “tatar”,
“haw”: “hawaiian”,
“ln”: “lingala”,
“ha”: “hausa”,
“ba”: “bashkir”,
“jw”: “javanese”,
“su”: “sundanese”,
“yue”: “cantonese”.

PAANO I-TEST

1. I-download ang Xeoma mula sa aming website at i-launch ito. Tiyaking tumatakbo ang server part ng Xeoma sa isang machine na may kinakailangang processor.
Tiyakin din na tumatakbo ang Xeoma sa Trial edition o i-activate ang license ng Xeoma Pro upang magamit ang module na ito.
2. Magdagdag ng camera o maghintay habang awtomatikong idinaragdag ng Xeoma ang mga camera na natukoy sa iyong network. Kung kailangang gumamit ng hiwalay na mikropono na hindi built-in sa camera, ikonekta ang "Microphone" module at piliin ang naaangkop na pinagmumulan ng tunog.
3. Idagdag ang "Voice-to-Text" module sa chain at i-configure ito.
4. Kung kinakailangan, magdagdag ng iba pang mga module upang itakda ang mga kinakailangang reaksyon gaya ng pagre-record sa archive, pagpapadala ng email, o sarili mong reaksyon.
5. Tapos na! Maaari mo nang gamitin ang advanced na intellectual speech recognition ng Xeoma.

*Ang Voice-to-Text module ay lumalabas at gumagana lamang sa mga sumusunod na processor:

Intel 64-bit processors ng mga sumusunod na serye:
-IntelCore processors simula sa ika-4 na henerasyon (kasama ang 10+ henerasyon);
-XEON processors simula sa ika-6 na henerasyon;
-Atom processors ng "C23", "C25", "C27", "C33", "C35", "C37", "C38", "C39", "P59", "Z34", "Z35", "x5-E39", o "x5-E8000" na serye;
-Mga processor na Intel Xeon E5-24 series, i5-2450M o i7-2600.

Bagama't maaaring gumana ang module na ito gamit ang kapasidad ng CPU, inirerekomenda na mayroong video graphics card ang server machine.

Marami pang kaya ang Xeoma!
Nag-aalok din ang Xeoma ng iba pang mga module na nagpoproseso ng audio stream:
• Ang Microphone ay isang module na nagpapahintulot sa iyo na pumili ng USB microphone o hiwalay na IP microphone bilang pinagmumulan ng tunog.
• Ang Sound Detector ay isang module na nagpapahintulot sa iyo na suriin ang audio stream at mag-trigger kapag ang antas ng tunog ay lumampas sa itinakdang limitasyon.
• Ang Sound Events Detector ay isang intelligent module na may kakayahang kilalanin ang mga partikular na tunog: alarm ng sasakyan, iyak ng bata, putok ng baril, sigaw, at pagbasag ng salamin.

Panoorin ang video tungkol sa Voice-to-Text ng Xeoma

May kailangan ka pa ba? Maaari naming i-develop ito at idagdag sa Xeoma bilang bayad na serbisyo ng pagpapaunlad. Tingnan ang detalye

LIBRENG TRIAL NG XEOMA

Subukan ang Xeoma nang libre! Ilagay ang iyong pangalan at email sa mga field sa ibaba upang ipadala ang license, at i-click ang button na 'Kumuha ng mga libreng demo license ng Xeoma sa email'.

Hinihikayat ka naming iwasan ang paggamit ng mga email na naglalaman ng personal na data, at ang pagpapadala sa amin ng personal na data sa anumang paraan. Kung gagawin mo pa rin ito, sa pagsusumite ng form na ito, kinukumpirma mo ang iyong pagsang-ayon sa pagproseso ng iyong personal na data

May mga katanungan? Kailangan ng tulong? Makipag-ugnayan sa amin! Ikalulugod naming tumulong!

Agosto 14, 2024

Magbasa pa:
Karagdagang mga module sa Xeoma
Price list ng mga AI-based module sa Xeoma