Beszéd szöveggé alakítása: A Xeoma intelligens beszédfelismerő modulja

A Xeoma videófelügyeleti szoftver MI-alapú beszéd szöveggé alakítása modulja „lehallgatja" a kamera vagy külön mikrofon hangstreamjét, felismeri a beszédet, majd annak átírását CSV-jelentésbe menti, vagy szövegként jeleníti meg az előnézetben. Beállítható úgy is, hogy bizonyos szavakra vagy kifejezésekre reagáljon. .mp3 hangfájlokkal – például beszélgetésfelvételekkel, oktatóvideókkal – is működik: ezekből kinyeri a beszédet, és szöveges formában szolgáltatja azt.
A Xeoma Beszéd szöveggé alakítása modul használatához nincs szükség speciális berendezésre: bármely kamera vagy külön mikrofon hangstreamje, valamint szabványos, kereskedelmi forgalomban kapható számítógépek és videókártyák is megfelelnek.
![]() |
Figyelmeztetés: ez a modul a Xeoma 24.8.12 verziótól érhető el, és jelenleg béta állapotban van, így előfordulhat szavak kihagyása vagy ismétlődés. |
A Voice-to-Text modul egy rugalmas eszköz, amely számos célra alkalmazható:
- Call center: hívások vagy hívásfelvételek átírása a vállalati irányelvek és beszélgetési forgatókönyvek betartásának ellenőrzésére
- Idősek gondozása: a segítségkérő kiáltásokra való azonnali reagálás lehetősége
- Városfelügyelet: veszélyre utaló szavak felismerése a terrorelhárítási biztonság érdekében
- Szülői felügyelet: a gyermek biztonságának garantálása, védelem a zaklatás ellen, valamint a csalókkal vagy molesztálókkal folytatott kommunikáció figyelése
- Rendőrség: a testre rögzített kamerák része; rögzíti a rendőr és a gyanúsított közötti beszélgetéseket, valamint képes a veszélyes helyzetek észlelésére
- Bankok, lombardok: fizikai nyomás nélküli pánikgomb
- Kutatás, elemzés: statisztikák gyűjtése a különböző szavak előfordulási gyakoriságáról és egyéb beszéddel kapcsolatos vizsgálatokhoz
- Marketing: annak vizsgálata, hogy az ügyfelek beszélgetnek-e egy promóciós kampányról, illetve milyen a reakciójuk egy bannerre vagy hirdetésre
- Bármely vállalkozás: az ügyfélszolgálati minőség automatizált ellenőrzése (például káromkodások észlelése)
- Szűrés és automatizálás: nem kívánt vagy tiltott szavak és kifejezések észlelése a beszélgetésekben, valamint az ilyen esetek továbbirányítása részletes ellenőrzésre anélkül, hogy az összes beszélgetést meg kellene hallgatni
Ahogy látható, a Xeoma videófelügyeleti szoftver „Beszéd szöveggé alakítása" eszköze széles körű forgatókönyvekben alkalmazható. Nemcsak a magánéletben, a városi biztonságban és a kereskedelmi szférában növeli a biztonságot, hanem a vállalati folyamatok optimalizálásához is hozzájárul.

Nincs szükség speciális berendezésre:
Alkalmazhatók egyszerű, általosan elérhető számítógépek és szinte bármilyen kamera.

Kiemelkedő rugalmasság:
Különböző reakciók, integráció harmadik féltől származó rendszerekkel.

Valós idejű működés:
Valós idejű, késleltetés nélküli feldolgozás. Kizárólag a helyi számítógépen fut.

Költséghatékony megoldás:
A modul már alapértelmezetten része a Xeoma Pro licenceknek!
Mindenekelőtt érdemes megjegyezni, hogy a modul csak akkor jelenik meg a listában, ha a Xeoma szerveroldali komponense megfelelő hardveren fut. Ha nem találja a modult a listában, ellenőrizze, hogy megfelelő processzort és a Xeoma megfelelő kiadását használja-e (a modul kizárólag a Xeoma Pro kiadásban érhető el). Mivel a modul hangstreammel dolgozik, a láncban szükséges egy hangforrás: lehet ez a kamerába épített mikrofon vagy egy külön USB-s illetve IP-alapú mikrofon.
Például tegyük fel, hogy a hangstream az IP-kamerából származik. Ebben az esetben egyszerűen használjon a Xeomában egy olyan modulláncot, amely a következő sorrendet követi: „Universal Camera" – „Beszéd szöveggé alakítása" – „Preview and Archive":

Kattintson a láncban található Voice-to-Text ikonra a modul beállításainak megnyitásához. A Voice-to-Text modul használatának első lépése a működéséhez szükséges kiegészítő erőforrások letöltése. A letöltés automatikusan elindul, amikor először nyitja meg a modul beállításait. A kiegészítő erőforrások letöltésének befejezése után a „Letöltés folyamatban” üzenet eltűnik.

![]() |
A további erőforrások olyan adatcsomagokat tartalmaznak a MI számára, amelyre a Voice-to-Text alapozik; ezek a FelenaSoft szervereiről kerülnek letöltésre. A program méretének optimalizálása érdekében ezeket nem csomagoljuk a szoftverbe, mivel nem minden CCTV rendszerhez szükségesek. |
A letöltés befejezése után megjelenő új opciók lehetővé teszik, hogy több MI-alapú beszédelismerési modell közül választhasson. Minden modellnek megvannak a maga erősségei és gyengeségei – általában az azonosítási pontosságban és a processzorterhelésben térnek el. A modellek mérete, felismerési minősége és a hardverterhelés növekvő sorrendjében őket tiny, base, small, medium, large-ként nevezzük.

A „Nyelv” mezőben válassza ki azt a nyelvet, amelyen a beszéd átirata elkészül (megjegyzés: maga a beszéd nyelvét nem kell megadni).
Ha minden hallható párbeszéd átiratára szüksége van, jelölje be közvetlenül az „Adatok mentése CSV-jelentésbe” jelölőnégyzetet. Így a párbeszédek átirata a megadott könyvtárban lévő táblázatfájlba kerül, amely más rendszerekbe, például statisztikai alkalmazásokba is integrálható.
A „Voice-to-Text” modul képes bizonyos kifejezéseket vagy szavakat detekálni. A keresett szavakat vagy kifejezéseket a „Kulcsszavak felismeréséhez” mezőben adja meg. Ezután a modul továbbra is figyel minden beszédet a kamera vagy mikrofon környezetében, de csak a kulcsszavak hallása esetén reagál. Csatlakoztasson egy reakciómodult a „Voice-to-Text” után az értesítések küldéséhez, a felvétel indításához vagy egy parancs elküldéséhez.
A példánkban az „Előnézet és Archívum” modul kapcsolódik célmodulként, így a beállított kulcsszavak detektálása esetén a rendszer elindítja a kamerastream felvételét, és lehetővé teszi a megadott kulcsszavakkal ellátott epizódok keresését. Ez az opció egyszerűen kombinálható a CSV jelentésbe mentés funkcióval: ehhez jelölje be az alul található megfelelő négyzetet.
A „Voice-to-Text” modul saját makróval rendelkezik – %VOICE% –, amely olyan célmodulokban használható, mint az „E-mail küldése”, „Alkalmazásindító” vagy „HTTP-kérés küldő”, ha a beszéd átiratát szeretné továbbítani.
A Xeoma Voice-to-Text modulja külső programokból is használható – például VoIP-hívások átírásához. Az alábbi utasításokat követve átadhat egy .mp3 fájlt a Voice-to-Text modulnak dekódolásra, és szöveges formátumban megkaphatja az eredményt. Így a modul olyan operátori munkaállomásokon is használható, ahol nincs telepítve Xeoma vagy kamera. Két módszer lehetséges: a Xeoma API-n keresztül vagy konzolparancs futtatásával. Fontos: kizárólag .mp3 fájlok támogatottak.
1. API. Az első megoldáshoz a Xeoma API és a JSON-kérések használata szükséges. Parancsokkal kérhet fel egy távoli vagy helyi Xeoma szervert .mp3-fájlok szöveges átírására.
Például:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true"
ahol
a „speech.mp3" helyére írja be a számítógépén található hangfájl elérési útját;
a „192.168.0.135:10090" helyére írja be a Voice-to-Text funkció futtatására képes, működő Xeoma szerver IP-címét és portszámát (alapértelmezés: 10090);
az „Administrator" értéket hagyja változatlanul, mivel ez a funkció kizárólag a Xeoma Administrator profilja számára érhető el;
A „123” kódot cserélje le a Xeoma Administrator profiljának jelszavára;
A „model=large” paraméterrel választható ki a felismerési modell. A további lehetőségeket tekintse fentebb;
A „denoise=true" értékkel aktiválható a zajszűrés, amely bizonyos esetekben növeli a felismerés pontosságát;
Az „en" értéket cserélje ki annak a nyelvnek a 2–3 betűs kódjára (lásd lentebb), amelyen a leírt szöveget kérni szeretné. Ha ez eltér a Voice-to-Text által érzékelt beszélt nyelvtől, a rendszer automatikusan lefordítja azt a megadott nyelvre.
Megjegyzés: Ez a kérés a fájl szöveges átírását közvetlenül a konzolban vagy abban az eszközben jeleníti meg, amelyből a kérést elküldi. Ha a fájlról készült átírást szöveges fájlba szeretné menteni, adja meg a „>filename.txt" kifejezést a parancs után:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true">savetext.txt
ahol
a savetext.txt értéket cserélje ki a kívánt átírási fájlnévre.
2. Parancs indítása. A második lehetőség lehetővé teszi a felismerés elvégzését nem API-n keresztül, hanem helyben, a számítógépen, a konzolban futtatható parancsokkal.
Példa:
{Path to Xeoma executable file} -speech2text file.mp3;out.log;large;en;denoise
ahol
a „file.mp3” helyére írja be a számítógépen található hangfájl elérési útját;
az „out.log” helyére írja be a létrejövő átírást tartalmazó szövegfájl elérési útját és nevét;
a „large” paraméterrel választhatja ki a felismerési modellt. A további lehetőségekről fentebb olvashat;
az „en” kódot cserélje le annak a nyelvnek a 2-3 karakteres kódjára (lásd alább), amelyben a átírt szöveget meg szeretné kapni. Ha ez eltér attól a nyelvtől, amelyet a Voice-to-Text érzékel, a rendszer automatikusan lefordítja a megadott nyelvre.
a „denoise” paraméter beillesztésével aktiválhatja a zajszűrést, amely bizonyos esetekben növeli a felismerési pontosságot.
Nyelvkódok listája:
„en”: „angol”,
„zh”: „kínai”,
„de”: „német”,
„es”: „spanyol”,
„ru”: „orosz”,
„ko”: „koreai”,
„fr”: „francia”,
„ja”: „japán”,
„pt”: „portugál”,
„tr”: „török”,
„pl”: „lengyel”,
„ca”: „katalán”,
„nl”: „holland”,
„ar”: „arab”,
„sv”: „svéd”,
„it”: „olasz”,
„id”: „indonéz”,
„hi”: „hindi”,
„fi”: „finn”,
„vi”: „vietnámi”,
„he”: „héber”,
„uk”: „ukrán”,
„el”: „görög”,
„ms”: „maláj”,
„cs”: „cseh”,
„ro”: „román”,
„da”: „dán”,
„hu”: „magyar”,
„ta”: „tamil”,
„no”: „norvég”,
„th”: „thai”,
„ur”: „urdu”,
„hr”: „horvát”,
„bg”: „bolgár”,
„lt”: „litván”,
„la”: „latin”,
„mi”: „maori”,
„ml”: „malajálam”,
„cy”: „walesi”,
„sk”: „szlovák”,
„te”: „telugu”,
„fa”: „perzsa”,
„lv”: „lett”,
„bn”: „bengáli”,
„sr”: „szerb”,
„az”: „azeri”,
„sl”: „szlovén”,
„kn”: „kannada”,
„et”: „észt”,
„mk”: „macedón”,
„br”: „breton”,
„eu”: „baszk”,
„is”: „izlandi”,
„hy”: „örmény”,
„ne”: „nepáli”,
„mn”: „mongol”,
„bs”: „bosnyák”,
„kk”: „kazah”,
„sq”: „albán”,
„sw”: „szuahéli”,
„gl”: „galíciai”,
„mr”: „marathi”,
„pa”: „pandzsábi”,
„si”: „szingaléz”,
„km”: „khmer”,
„sn”: „sona”,
„yo”: „joruba”,
„so”: „szomáli”,
„af”: „afrikaans”,
„oc”: „okcitán”,
„ka”: „grúz”,
„be”: „belarusz”,
„tg”: „tádzsik”,
„sd”: „szindi”,
„gu”: „gudzsaráti”,
„am”: „amhara”,
„yi”: „jiddis”,
„lo”: „laoszi”,
„uz”: „üzbeg”,
„fo”: „feröeri”,
„ht”: „haiti kreol”,
„ps”: „pastu”,
„tk”: „türkmén”,
„nn”: „nynorsk”,
„mt”: „máltai”,
„sa”: „szanszkrit”,
„lb”: „luxemburgi”,
„my”: „mianmari”,
„bo”: „tibeti”,
„tl”: „tagalog”,
„mg”: „madagaszkári”,
„as”: „asszámi”,
„tt”: „tatár”,
„haw”: „hawaii”,
„ln”: „lingala”,
„ha”: „hausza”,
„ba”: „baskír”,
„jw”: „jávai”,
„su”: „szundanéz”,
„yue”: „kantoni”.
1. Töltse le a Xeoma szoftvert weboldalunkról, és indítsa el. Győződjön meg arról, hogy a Xeoma szerveroldali komponense olyan gépen fut, amely megfelelő processzorral rendelkezik.
Arról is győződjön meg, hogy a Xeoma Trial kiadásban fut, vagy aktiváljon egy Xeoma Pro licencet a modul használatához.
2. Adjon hozzá egy kamerát, vagy várja meg, amíg a Xeoma automatikusan hozzáadja a hálózatában talált kamerákat. Ha külön, nem a kamerába épített mikrofont szeretne használni, csatlakoztassa a „Mikrofon" modult, majd válassza ki a megfelelő hangforrást.
3. Adja hozzá a „Voice-to-Text" modult a láncolathoz, és konfigurálja azt.
4. Szükség esetén adjon hozzá további modulokat a reakciók beállításához, például archív rögzítéshez, e-mail küldéshez vagy egy egyedi reakcióhoz.
5. Kész! Most már használhatja a Xeoma kiemelkedő, intelligens beszédfelismerését.
![]() |
*A Voice-to-Text modul csak a következő processzorokon jelenik meg és működik:
Intel 64 bites processzorok a következő szériákból: Bár a modul a CPU kapacitásával is működhet, javasolt videókártya használata a szervergépen. |
A Xeoma több lehetőséget is kínál!
A Xeoma további, hangstreameket feldolgozó modulokat is kínál:
• A Mikrofon modul lehetővé teszi USB-s vagy különálló IP-mikrofon kiválasztását hangforrásként.
• A Hangdetektáló modul hangstreamek elemzésére szolgál, és eseményt vált ki, ha a hangszint meghaladja a meghatározott határértéket.
• A Hangesemény-detektáló egy intelligens modul, amely képes bizonyos hangok felismerésére: autóriasztó, gyermek sírása, lövés, sikoly, üvegtörés.
![]() |
Másra is szüksége van? Egyedi fejlesztés keretében kidolgozzuk és integráljuk a kért funkciót a Xeomába. Részletek |
Próbálja ki a Xeomát ingyen! Adja meg nevét és e-mail-címét az alábbi mezőkben, ahová a licencet küldjük, majd kattintson a „Xeoma ingyenes demolicencek kérése e-mailben” gombra.
Kérjük, ne használjon olyan e-mail-címeket, amelyek személyes adatokat tartalmaznak, és ne küldjön nekünk személyes adatokat egyéb módon sem. Amennyiben mégis teszi, az űrlap beküldésével kijelenti, hogy hozzájárul személyes adatainak kezeléséhez
Kérdései vannak? Segítségre szorul? Lépjen kapcsolatba velünk! Szívesen segítünk!
2024. augusztus 14
További információk:
További modulok a Xeomában
MI-alapú modulok árlistája a Xeomában
