Voice-to-Text: Xeoma

Voice-to-Text: Inteligentní modul Xeoma pro rozpoznávání řeči

Voice-to-Text s podporou AI Modul Voice-to-Text poháněný AI v softwaru pro videodohled Xeoma „naslouchá“ audio streamu z kamery nebo externího mikrofonu, rozpoznává řeč a ukládá její přepis do reportu ve formátu CSV nebo jej zobrazuje jako text přímo v náhledu. Alternativně jej lze nastavit tak, aby reagoval na konkrétní slova či fráze. Modul zvládá také zpracování audio souborů .mp3 – záznamů hovorů, školicích videí atd. – přičemž převádí řeč do textové podoby.

Provoz modulu Voice-to-Text v Xeoma nevyžaduje specializované vybavení: postačí audio stream z jakékoli kamery či samostatného mikrofonu a běžné počítače se standardními grafickými kartami.

Upozornění: tento modul je dostupný od verze Xeoma 24.8.12 a je ve stavu beta, proto může vynechávat slova nebo vytvářet smyčky.

Demo

Koupit

Více informací

SCENÁŘE VYUŽITÍ

Modul Voice-to-Text je flexibilní nástroj vhodný pro různé účely:

Call centra: přepis probíhajících hovorů nebo jejich záznamů za účelem kontroly dodržování firemních směrnic a komunikačních scénářů
Péče o seniory: možnost okamžitě reagovat na výkřik o pomoc
Městský dohled: rozpoznávání slov signalizujících hrozbu v rámci protiteroristické ochrany
Rodičovská kontrola: podpora bezpečnosti dětí, ochrana před šikanou či komunikací s podvodníky a predátory
Policie: integrace do osobních kamer pro přepis rozhovorů mezi policistou a podezřelým a detekci nebezpečných situací
Banky, zastavárny: panikové tlačítko, které není třeba fyzicky stisknout
Výzkum a analytika: sběr statistik o frekvenci výskytu různých slov a další analýzy řeči
Marketing: zjišťování, zda zákazníci diskutují o reklamní kampani, jejich reakce na bannery či reklamy atd.
Jakýkoli podnik: automatizovaná kontrola kvality zákaznického servisu (např. detekce vulgarismů)
Filtrování a automatizace: detekce nežádoucích nebo zakázaných slov a frází v konverzacích a přesměrování těchto úseků k detailní kontrole bez nutnosti poslouchat všechny hovory

Jak vidíte, nástroj Voice-to-Text v systému videodohledu Xeoma lze využít v široké škále scénářů! Nezvyšuje pouze bezpečnost v soukromém životě, městském prostoru i komerční sféře, ale přispívá také k optimalizaci business procesů.

VÝHODY MODULU VOICE-TO-TEXT:

Bez specializovaného vybavení:
Lze využít běžné dostupné počítače a téměř jakoukoli kameru.

Výhody modulu Voice-to-Text: flexibilita a univerzálnost

Maximální flexibilita:
Různé typy reakcí, integrace se systémy třetích stran.

Výhody modulu Voice-to-Text: zpracování v reálném čase

Práce v reálném čase:
Zpracování v režimu real-time bez latence. Vše běží lokálně na vašem počítači.

Výhody modulu Voice-to-Text: dostupná cena

Dostupné řešení:

Modul je již součástí licencí Xeoma Pro!

JAK TO FUNGUJE:

Především je třeba uvést, že se modul v seznamu zobrazí pouze tehdy, když serverová část Xeoma běží na vhodném hardwaru. Pokud modul v seznamu nenajdete, ověřte, zda používáte kompatibilní procesor a správnou edici Xeoma (modul je dostupný pouze v edici Xeoma Pro). Jelikož modul pracuje s audio streamem, musíte mít v řetězci zdroj zvuku: buď mikrofon integrovaný v kameře, nebo samostatný USB či IP mikrofon.

Předpokládejme například, že audio stream pochází přímo z IP kamery. V Xeoma poté jednoduše vytvořte řetězec modulů: „Universal Camera“ – „Voice-to-Text“ – „Preview and Archive“:

Ukázka řetězce s inteligentním modulem Voice-to-Text

Klikněte v řetězci na ikonu Voice-to-Text a otevřete nastavení modulu. Prvním krokem při práci s modulem Voice-to-Text je stažení doplňkových zdrojů nezbytných pro jeho funkci. Stahování se spustí automaticky při prvním otevření nastavení modulu. Po dokončení stahování doplňkových zdrojů zpráva „Downloading in progress“ zmizí.

Nastavení inteligentního modulu Voice-to-Text

Doplňkové zdroje obsahují datové sady pro umělou inteligenci, na nichž je modul Voice-to-Text založen, a stahují se na vyžádání ze serverů společnosti FelenaSoft. Nejsou součástí instalace, aby byla zachována nízká velikost programu, protože nejsou potřebné v každém systému CCTV.

Nové možnosti, které se zobrazí po stažení doplňkových zdrojů, umožňují vybrat si z několika modelů rozpoznávání řeči poháněných AI. Každý model má svá specifika – liší se především přesností rozpoznávání a zatížením procesoru. Konvenčně jsou označovány jako tiny, base, small, medium, large v pořadí podle rostoucí velikosti modelu, kvality rozpoznávání a zatížení hardwaru.

Nastavení inteligentního modulu Voice-to-Text

V poli „Language“ vyberte jazyk, ve kterém bude poskytnut přepis řeči (upozorňujeme, že jazyk samotné mluvené řeči není nutné specifikovat).

Chcete-li přepisovat všechny slyšitelné konverzace, přímo zaškrtněte políčko „Save data in CSV report“. Přepis konverzací se poté uloží do tabulkového souboru na disku ve vámi zadaném adresáři, který lze integrovat do jiných systémů, například statistických.

Modul „Voice-to-Text“ umí také detekovat určité fráze nebo slova. Hledaná slova či fráze zadejte do pole „Keywords for recognition“. Modul bude nadále monitorovat veškerou řeč v dosahu kamery nebo mikrofonu, ale zareaguje pouze při detekci klíčových slov. Za modul „Voice-to-Text“ připojte požadovaný reakční modul pro přijetí oznámení, spuštění nahrávání nebo odeslání příkazu.

V našem případě je jako cílový modul připojen „Preview and Archive", takže při detekci zadaných klíčových slov začne nahrávat stream z kamery – a umožní vyhledávání záznamů obsahujících vámi zadané klíčové slovo. Tuto funkci lze snadno kombinovat s možností uložení do CSV reportu: stačí zaškrtnout příslušné políčko níže.

Modul „Voice-to-Text“ disponuje vlastním makrem – %VOICE% – které lze využít v cílových modulech, jako jsou „Email Sending“, „Application Runner“ nebo „HTTP Request Sender“, pokud chcete do nich odeslat přepis řeči.

INTEGRACE S EXTERNÍMI PROGRAMY

Modul Voice-to-Text od Xeoma lze využít také z externích programů – například pro přepis VoIP hovorů. Podle následujících pokynů můžete modulu Voice-to-Text předat soubor .mp3 k dekódování a získat výsledek jako text. Tento modul lze tedy použít i na operátorských stanicích, kde není nainstalována Xeoma ani připojeny kamery. To lze provést dvěma způsoby: prostřednictvím Xeoma API nebo spuštěním příkazu v konzoli. Důležité: podporovány jsou pouze soubory .mp3.

1. API. Pro první možnost použijte Xeoma API s požadavky JSON. Pomocí příkazů můžete zaslat požadavek na vzdálený nebo lokální server Xeoma, aby převedl soubor .mp3 na text.

Příklad:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true"

kde
„speech.mp3" nahraďte cestou k audio souboru na vašem počítači;

„192.168.0.135:10090“ nahraďte IP adresou běžícího serveru Xeoma, který má oprávnění spouštět Voice-to-Text, a jeho portem (obvykle 10090);

„Administrator“ ponechte beze změny, protože tato funkce je dostupná pouze pro profil Administrator v systému Xeoma;

„123“ nahraďte heslem administrátorského profilu v Xeoma;

„model=large“ slouží k výběru modelu pro rozpoznání. Další možnosti naleznete výše;

Parametr „denoise=true" aktivuje potlačení šumu, což v některých případech zvyšuje přesnost rozpoznání;

„en“ nahraďte 2–3místným kódem (viz níže) jazyka, ve kterém chcete obdržet transkribovaný text. Pokud se liší od jazyka mluveného v nahrávce, Voice-to-Text jej automaticky přeloží do zvoleného jazyka.

Poznámka: Tento požadavek vygeneruje transkripci souboru přímo v konzoli nebo v nástroji, který používáte k odeslání požadavku. Chcete-li transkripci uložit do textového souboru, přidejte za příkaz „>název_souboru.txt“:

curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true">savetext.txt
kde
savetext.txt nahraďte požadovaným názvem výstupního souboru s přepisem.

2. Spuštění příkazu. Druhá možnost umožňuje provést rozpoznání nikoliv přes API, ale lokálně na počítači pomocí příkazů spustitelných v konzoli.

Příklad:

{Path to Xeoma executable file} -speech2text file.mp3;out.log;large;en;denoise

kde
„file.mp3“ nahraďte cestou k audio souboru ve vašem počítači;

„out.log“ nahraďte cestou a názvem výsledného textového souboru s transkripcí;

„large“ slouží k výběru modelu pro rozpoznávání. Další možnosti naleznete výše;

„en“ nahraďte 2–3znakovým kódem (viz níže) jazyka, ve kterém chcete získat transkribovaný text. Pokud se liší od skutečného jazyka mluvy, který Voice-to-Text zpracovává, bude text automaticky přeložen do vámi zvoleného jazyka.

„denoise“ přidejte, pokud chcete aktivovat potlačení šumu, což v některých případech zvyšuje přesnost rozpoznávání.

Seznam kódů jazyků:

„en“: „angličtina“,
„zh“: „čínština“,
„de“: „němčina“,
„es“: „španělština“,
„ru“: „ruština“,
„ko“: „korejština“,
„fr“: „francouzština“,
„ja“: „japonština“,
„pt“: „portugalština“,
„tr“: „turečtina“,
„pl“: „polština“,
„ca“: „katalánština“,
„nl“: „nizozemština“,
„ar“: „arabština“,
„sv“: „švédština“,
„it“: „italština“,
„id“: „indonézština“,
„hi“: „hindština“,
„fi“: „finština“,
„vi“: „vietnamština“,
„he“: „hebrejština“,
„uk“: „ukrajinština“,
„el“: „řečtina“,
„ms“: „malajština“,
„cs“: „čeština“,
„ro“: „rumunština“,
„da“: „dánština“,
„hu“: „maďarština“,
„ta“: „tamilština“,
„no“: „norština“,
„th“: „thajština“,
„ur“: „urdština“,
„hr“: „chorvatština“,
„bg“: „bulharština“,
„lt“: „litevština“,
„la“: „latina“,
„mi“: „maorština“,
„ml“: „malajálamština“,
„cy“: „valština“,
„sk“: „slovenština“,
„te“: „telugu“,
„fa“: „perština“,
„lv“: „letonština“,
„bn“: „bengálština“,
„sr“: „srbština“,
„az“: „azerbajdžánština“,
„sl“: „slovinština“,
„kn“: „kannada“,
„et“: „estonština“,
„mk“: „makedonština“,
„br“: „bretonština“,
„eu“: „baškština“,
„is“: „islandština“,
„hy“: „arménština“,
„ne“: „nepálština“,
„mn“: „mongolština“,
„bs“: „bosňáky“,
„kk“: „kazachština“,
„sq“: „albánština“,
„sw“: „svahilština“,
„gl“: „galicijština“,
„mr“: „maráthština“,
„pa“: „pandžábština“,
„si“: „sinhalština“,
„km“: „khmersky“,
„sn“: „šonština“,
„yo“: „jorubština“,
„so“: „somálština“,
„af“: „afrikánština“,
„oc“: „okcitánština“,
„ka“: „gruzínština“,
„be“: „bělorusština“,
„tg“: „tádžikština“,
„sd“: „sindhština“,
„gu“: „gudžaratština“,
„am“: „amharština“,
„yi“: „jidiš“,
„lo“: „laosky“,
„uz“: „uzbekština“,
„fo“: „faroština“,
„ht“: „hajtijská kreolština“,
„ps“: „paštó“,
„tk“: „turkménština“,
„nn“: „nynorsk“,
„mt“: „maltština“,
„sa“: „sankrit“,
„lb“: „luxembursky“,
„my": „barmština",
„bo“: „tibetština“,
„tl“: „tagalog“,
„mg“: „malgašština“,
„as“: „asamština“,
„tt“: „tatarština“,
„haw“: „havajština“,
„ln“: „lingala“,
„ha“: „hausština“,
„ba“: „baškirština“,
„jw“: „jávština“,
„su“: „sundština“,
„yue“: „kantonština“.

JAK TESTOVAT

1. Stáhněte si Xeoma z našich webových stránek a spusťte ji. Ujistěte se, že serverová část Xeoma běží na počítači s požadovaným procesorem.
Ověřte také, zda Xeoma běží v zkušební verzi, nebo pro práci s tímto modulem aktivujte licenci Xeoma Pro.
2. Přidejte kameru nebo vyčkejte, až Xeoma automaticky vyhledá kamery ve vaší síti. Pokud potřebujete pracovat s externím mikrofonem, který není součástí kamery, připojte modul „Mikrofon“ a vyberte příslušný zdroj zvuku.
3. Do řetězce přidejte modul „Voice-to-Text“ a nakonfigurujte jej.
4. V případě potřeby přidejte další moduly pro nastavení reakcí, např. archivaci záznamu, odeslání e-mailu nebo vlastní reakci.
5. Hotovo! Nyní můžete využívat špičkové inteligentní rozpoznávání řeči od Xeoma.

*Modul Voice-to-Text je dostupný a funkční pouze na následujících procesorech:

64bitové procesory Intel těchto řad:
– procesory Intel Core od 4. generace (včetně 10. a novějších generací);
– procesory XEON od 6. generace;
– procesory Atom řad „C23“, „C25“, „C27“, „C33“, „C35“, „C37“, „C38“, „C39“, „P59“, „Z34“, „Z35“, „x5-E39“ nebo „x5-E8000“;
– procesory Intel Xeon řady E5-24, i5-2450M nebo i7-2600.

Ačkoli může tento modul běžet na výkonu CPU, doporučujeme mít na serveru grafickou kartu.

Xeoma nabízí více!
Xeoma nabízí i další moduly pro zpracování zvukových streamů:
• Mikrofon je modul, který umožňuje jako zdroj zvuku vybrat USB mikrofon nebo samostatný IP mikrofon.
• Detektor zvuku je modul pro analýzu zvukových streamů, který spustí akci, pokud úroveň zvuku překročí stanovený limit.
• Detektor zvukových událostí je inteligentní modul schopný rozpoznat konkrétní zvuky: alarm vozidla, pláč dítěte, výstřely, křik nebo tříštění skla.

Zhlédněte video o modulu Voice-to-Text v Xeoma

Potřebujete něco jiného? Můžeme to vyvinout a implementovat do Xeoma jako zakázkový vývoj. Zobrazit podrobnosti

BEZPLATNÁ ZKOUŠEBNÍ VERZE XEOMA

Vyzkoušejte Xeoma zdarma! Do polí níže zadejte své jméno a e-mail, na který má být licence zaslána, a klikněte na tlačítko „Zaslat demo licence Xeoma na e-mail“.

Doporučujeme nepoužívat e-maily obsahující osobní údaje a neposílat nám osobní údaje jiným způsobem. Pokud tak přesto učiníte, odesláním tohoto formuláře potvrzujete svůj souhlas se zpracováním vašich osobních údajů

Máte otázky? Potřebujete pomoc? Kontaktujte nás! Rádi vám pomůžeme!

14. srpna 2024

Více informací:
Další moduly v Xeoma
Ceník modulů s AI v Xeoma