Voice-to-Text: Inteligentní modul Xeoma pro rozpoznávání řeči

Modul Voice-to-Text poháněný AI v softwaru pro videodohled Xeoma „naslouchá“ audio streamu z kamery nebo externího mikrofonu, rozpoznává řeč a ukládá její přepis do reportu ve formátu CSV nebo jej zobrazuje jako text přímo v náhledu. Alternativně jej lze nastavit tak, aby reagoval na konkrétní slova či fráze. Modul zvládá také zpracování audio souborů .mp3 – záznamů hovorů, školicích videí atd. – přičemž převádí řeč do textové podoby.
Provoz modulu Voice-to-Text v Xeoma nevyžaduje specializované vybavení: postačí audio stream z jakékoli kamery či samostatného mikrofonu a běžné počítače se standardními grafickými kartami.
![]() |
Upozornění: tento modul je dostupný od verze Xeoma 24.8.12 a je ve stavu beta, proto může vynechávat slova nebo vytvářet smyčky. |
Modul Voice-to-Text je flexibilní nástroj vhodný pro různé účely:
- Call centra: přepis probíhajících hovorů nebo jejich záznamů za účelem kontroly dodržování firemních směrnic a komunikačních scénářů
- Péče o seniory: možnost okamžitě reagovat na výkřik o pomoc
- Městský dohled: rozpoznávání slov signalizujících hrozbu v rámci protiteroristické ochrany
- Rodičovská kontrola: podpora bezpečnosti dětí, ochrana před šikanou či komunikací s podvodníky a predátory
- Policie: integrace do osobních kamer pro přepis rozhovorů mezi policistou a podezřelým a detekci nebezpečných situací
- Banky, zastavárny: panikové tlačítko, které není třeba fyzicky stisknout
- Výzkum a analytika: sběr statistik o frekvenci výskytu různých slov a další analýzy řeči
- Marketing: zjišťování, zda zákazníci diskutují o reklamní kampani, jejich reakce na bannery či reklamy atd.
- Jakýkoli podnik: automatizovaná kontrola kvality zákaznického servisu (např. detekce vulgarismů)
- Filtrování a automatizace: detekce nežádoucích nebo zakázaných slov a frází v konverzacích a přesměrování těchto úseků k detailní kontrole bez nutnosti poslouchat všechny hovory
Jak vidíte, nástroj Voice-to-Text v systému videodohledu Xeoma lze využít v široké škále scénářů! Nezvyšuje pouze bezpečnost v soukromém životě, městském prostoru i komerční sféře, ale přispívá také k optimalizaci business procesů.

Bez specializovaného vybavení:
Lze využít běžné dostupné počítače a téměř jakoukoli kameru.

Maximální flexibilita:
Různé typy reakcí, integrace se systémy třetích stran.

Práce v reálném čase:
Zpracování v režimu real-time bez latence. Vše běží lokálně na vašem počítači.

Dostupné řešení:
Modul je již součástí licencí Xeoma Pro!
Především je třeba uvést, že se modul v seznamu zobrazí pouze tehdy, když serverová část Xeoma běží na vhodném hardwaru. Pokud modul v seznamu nenajdete, ověřte, zda používáte kompatibilní procesor a správnou edici Xeoma (modul je dostupný pouze v edici Xeoma Pro). Jelikož modul pracuje s audio streamem, musíte mít v řetězci zdroj zvuku: buď mikrofon integrovaný v kameře, nebo samostatný USB či IP mikrofon.
Předpokládejme například, že audio stream pochází přímo z IP kamery. V Xeoma poté jednoduše vytvořte řetězec modulů: „Universal Camera“ – „Voice-to-Text“ – „Preview and Archive“:

Klikněte v řetězci na ikonu Voice-to-Text a otevřete nastavení modulu. Prvním krokem při práci s modulem Voice-to-Text je stažení doplňkových zdrojů nezbytných pro jeho funkci. Stahování se spustí automaticky při prvním otevření nastavení modulu. Po dokončení stahování doplňkových zdrojů zpráva „Downloading in progress“ zmizí.

![]() |
Doplňkové zdroje obsahují datové sady pro umělou inteligenci, na nichž je modul Voice-to-Text založen, a stahují se na vyžádání ze serverů společnosti FelenaSoft. Nejsou součástí instalace, aby byla zachována nízká velikost programu, protože nejsou potřebné v každém systému CCTV. |
Nové možnosti, které se zobrazí po stažení doplňkových zdrojů, umožňují vybrat si z několika modelů rozpoznávání řeči poháněných AI. Každý model má svá specifika – liší se především přesností rozpoznávání a zatížením procesoru. Konvenčně jsou označovány jako tiny, base, small, medium, large v pořadí podle rostoucí velikosti modelu, kvality rozpoznávání a zatížení hardwaru.

V poli „Language“ vyberte jazyk, ve kterém bude poskytnut přepis řeči (upozorňujeme, že jazyk samotné mluvené řeči není nutné specifikovat).
Chcete-li přepisovat všechny slyšitelné konverzace, přímo zaškrtněte políčko „Save data in CSV report“. Přepis konverzací se poté uloží do tabulkového souboru na disku ve vámi zadaném adresáři, který lze integrovat do jiných systémů, například statistických.
Modul „Voice-to-Text“ umí také detekovat určité fráze nebo slova. Hledaná slova či fráze zadejte do pole „Keywords for recognition“. Modul bude nadále monitorovat veškerou řeč v dosahu kamery nebo mikrofonu, ale zareaguje pouze při detekci klíčových slov. Za modul „Voice-to-Text“ připojte požadovaný reakční modul pro přijetí oznámení, spuštění nahrávání nebo odeslání příkazu.
V našem případě je jako cílový modul připojen „Preview and Archive", takže při detekci zadaných klíčových slov začne nahrávat stream z kamery – a umožní vyhledávání záznamů obsahujících vámi zadané klíčové slovo. Tuto funkci lze snadno kombinovat s možností uložení do CSV reportu: stačí zaškrtnout příslušné políčko níže.
Modul „Voice-to-Text“ disponuje vlastním makrem – %VOICE% – které lze využít v cílových modulech, jako jsou „Email Sending“, „Application Runner“ nebo „HTTP Request Sender“, pokud chcete do nich odeslat přepis řeči.
Modul Voice-to-Text od Xeoma lze využít také z externích programů – například pro přepis VoIP hovorů. Podle následujících pokynů můžete modulu Voice-to-Text předat soubor .mp3 k dekódování a získat výsledek jako text. Tento modul lze tedy použít i na operátorských stanicích, kde není nainstalována Xeoma ani připojeny kamery. To lze provést dvěma způsoby: prostřednictvím Xeoma API nebo spuštěním příkazu v konzoli. Důležité: podporovány jsou pouze soubory .mp3.
1. API. Pro první možnost použijte Xeoma API s požadavky JSON. Pomocí příkazů můžete zaslat požadavek na vzdálený nebo lokální server Xeoma, aby převedl soubor .mp3 na text.
Příklad:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true"
kde
„speech.mp3" nahraďte cestou k audio souboru na vašem počítači;
„192.168.0.135:10090“ nahraďte IP adresou běžícího serveru Xeoma, který má oprávnění spouštět Voice-to-Text, a jeho portem (obvykle 10090);
„Administrator“ ponechte beze změny, protože tato funkce je dostupná pouze pro profil Administrator v systému Xeoma;
„123“ nahraďte heslem administrátorského profilu v Xeoma;
„model=large“ slouží k výběru modelu pro rozpoznávání. Další možnosti naleznete výše;
„denoise=true“ přidejte, pokud chcete aktivovat potlačení šumu, což v některých případech zvyšuje přesnost rozpoznávání;
„en“ nahraďte 2–3znakovým kódem (viz níže) jazyka, ve kterém chcete získat transkribovaný text. Pokud se liší od skutečného jazyka mluvy, který Voice-to-Text zpracovává, bude text automaticky přeložen do vámi zvoleného jazyka.
Poznámka: Tento požadavek vrátí textovou transkripci souboru přímo do konzole nebo nástroje, který používáte k odeslání požadavku. Pokud chcete transkripci uložit jako textový soubor, přidejte za příkaz „>nazevsouboru.txt“:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true">savetext.txt
kde
savetext.txt nahraďte názvem, který chcete pro soubor s transkripcí použít.
2. Spuštění příkazu. Druhá možnost umožňuje provádět rozpoznávání nikoliv přes API, ale lokálně v PC pomocí příkazů spouštěných v konzoli.
Příklad:
{Path to Xeoma executable file} -speech2text file.mp3;out.log;large;en;denoise
kde
„file.mp3“ nahraďte cestou k audio souboru ve vašem počítači;
„out.log“ nahraďte cestou a názvem výsledného textového souboru s transkripcí;
„large“ slouží k výběru modelu pro rozpoznávání. Další možnosti naleznete výše;
„en“ nahraďte 2–3znakovým kódem (viz níže) jazyka, ve kterém chcete získat transkribovaný text. Pokud se liší od skutečného jazyka mluvy, který Voice-to-Text zpracovává, bude text automaticky přeložen do vámi zvoleného jazyka.
„denoise“ přidejte, pokud chcete aktivovat potlačení šumu, což v některých případech zvyšuje přesnost rozpoznávání.
Seznam kódů jazyků:
„en“: „angličtina“,
„zh“: „čínština“,
„de“: „němčina“,
„es“: „španělština“,
„ru“: „ruština“,
„ko“: „korejština“,
„fr“: „francouzština“,
„ja“: „japonština“,
„pt“: „portugalština“,
„tr“: „turečtina“,
„pl“: „polština“,
„ca“: „katalánština“,
„nl“: „nizozemština“,
„ar“: „arabština“,
„sv“: „švédština“,
„it“: „italština“,
„id“: „indonézština“,
„hi“: „hindština“,
„fi“: „finština“,
„vi“: „vietnamština“,
„he“: „hebrejština“,
„uk“: „ukrajinština“,
„el“: „řečtina“,
„ms“: „malajština“,
„cs“: „čeština“,
„ro“: „rumunština“,
„da“: „dánština“,
„hu“: „maďarština“,
„ta“: „tamilština“,
„no“: „norština“,
„th“: „thajština“,
„ur“: „urdština“,
„hr“: „chorvatština“,
„bg“: „bulharština“,
„lt“: „litevština“,
„la“: „latina“,
„mi“: „maorština“,
„ml“: „malajálamština“,
„cy“: „valština“,
„sk“: „slovenština“,
„te“: „telugu“,
„fa“: „perština“,
„lv“: „letonština“,
„bn“: „bengálština“,
„sr“: „srbština“,
„az“: „azerbajdžánština“,
„sl“: „slovinština“,
„kn“: „kannada“,
„et“: „estonština“,
„mk“: „makedonština“,
„br“: „bretonština“,
„eu“: „baškština“,
„is“: „islandština“,
„hy“: „arménština“,
„ne“: „nepálština“,
„mn“: „mongolština“,
„bs“: „bosňáky“,
„kk“: „kazachština“,
„sq“: „albánština“,
„sw“: „svahilština“,
„gl“: „galicijština“,
„mr“: „maráthština“,
„pa“: „pandžábština“,
„si“: „sinhalština“,
„km“: „khmersky“,
„sn“: „šonština“,
„yo“: „jorubština“,
„so“: „somálština“,
„af“: „afrikánština“,
„oc“: „okcitánština“,
„ka“: „gruzínština“,
„be“: „bělorusština“,
„tg“: „tádžikština“,
„sd“: „sindhština“,
„gu“: „gudžaratština“,
„am“: „amharština“,
„yi“: „jidiš“,
„lo“: „laosky“,
„uz“: „uzbekština“,
„fo“: „faroština“,
„ht“: „hajtijská kreolština“,
„ps“: „paštó“,
„tk“: „turkménština“,
„nn“: „nynorsk“,
„mt“: „maltština“,
„sa“: „sankrit“,
„lb“: „luxembursky“,
„my": „barmština",
„bo“: „tibetština“,
„tl“: „tagalog“,
„mg“: „malgašština“,
„as“: „asamština“,
„tt“: „tatarština“,
„haw“: „havajština“,
„ln“: „lingala“,
„ha“: „hausština“,
„ba“: „baškirština“,
„jw“: „jávština“,
„su“: „sundština“,
„yue“: „kantonština“.
1. Stáhněte si Xeoma z našich webových stránek a spusťte ji. Ujistěte se, že serverová část Xeoma běží na počítači s požadovaným procesorem.
Ověřte také, zda Xeoma běží v zkušební verzi, nebo pro práci s tímto modulem aktivujte licenci Xeoma Pro.
2. Přidejte kameru nebo vyčkejte, až Xeoma automaticky vyhledá kamery ve vaší síti. Pokud potřebujete pracovat s externím mikrofonem, který není součástí kamery, připojte modul „Mikrofon“ a vyberte příslušný zdroj zvuku.
3. Do řetězce přidejte modul „Voice-to-Text“ a nakonfigurujte jej.
4. V případě potřeby přidejte další moduly pro nastavení reakcí, např. archivaci záznamu, odeslání e-mailu nebo vlastní reakci.
5. Hotovo! Nyní můžete využívat špičkové inteligentní rozpoznávání řeči od Xeoma.
![]() |
*Modul Voice-to-Text je dostupný a funkční pouze na následujících procesorech:
64bitové procesory Intel těchto řad: Ačkoli může tento modul běžet na výkonu CPU, doporučujeme mít na serveru grafickou kartu. |
Xeoma nabízí více!
Xeoma nabízí i další moduly pro zpracování zvukových streamů:
• Mikrofon je modul, který umožňuje jako zdroj zvuku vybrat USB mikrofon nebo samostatný IP mikrofon.
• Detektor zvuku je modul pro analýzu zvukových streamů, který spustí akci, pokud úroveň zvuku překročí stanovený limit.
• Detektor zvukových událostí je inteligentní modul schopný rozpoznat konkrétní zvuky: alarm vozidla, pláč dítěte, výstřely, křik nebo tříštění skla.
![]() |
Potřebujete něco jiného? Můžeme to vyvinout a implementovat do Xeoma jako zakázkový vývoj. Zobrazit podrobnosti |
Vyzkoušejte Xeoma zdarma! Do polí níže zadejte své jméno a e-mail, na který má být licence zaslána, a klikněte na tlačítko „Zaslat demo licence Xeoma na e-mail“.
Doporučujeme nepoužívat e-maily obsahující osobní údaje a neposílat nám osobní údaje jiným způsobem. Pokud tak přesto učiníte, odesláním tohoto formuláře potvrzujete svůj souhlas se zpracováním vašich osobních údajů
Máte otázky? Potřebujete pomoc? Kontaktujte nás! Rádi vám pomůžeme!
14. srpna 2024
Více informací:
Další moduly v Xeoma
Ceník modulů s AI v Xeoma
