Voice-to-Text: Xeoma

Voice-to-Text: Inteligentny moduł rozpoznawania mowy w Xeoma

Voice-to-Text: inteligentny moduł rozpoznawania mowy w Xeoma

Moduł Voice-to-Text oparty na AI w oprogramowaniu do monitoringu Xeoma „nasłuchuje” strumienia audio z kamery lub osobnego mikrofonu, wykrywa mowę i zapisuje jej transkrypcję w raporcie CSV lub nakłada ją w formie tekstu na podgląd. Można go również skonfigurować tak, aby reagował na konkretne słowa lub frazy. Moduł obsługuje także pliki audio .mp3 – nagrania rozmów, filmy szkoleniowe itp. – transkrybując mowę na tekst.

Obsługa Voice-to-Text w Xeoma nie wymaga specjalistycznego sprzętu: wystarczy strumień dźwięku z dowolnej kamery lub osobnego mikrofonu oraz standardowe komputery i karty graficzne.

Uwaga: moduł jest dostępny od wersji Xeoma 24.8.12 i znajduje się w fazie beta, co może skutkować pominięciem słów lub występowaniem pętli.

Pobierz demo

Kup teraz

Szczegóły

SCENARIUSZE ZASTOSOWANIA

Moduł Voice-to-Text to elastyczne narzędzie, które można wykorzystać w wielu celach:

Call center: transkrypcja trwających rozmów lub nagrań w celu monitorowania zgodności z polityką firmy i skryptami rozmów
Opieka nad osobami starszymi: możliwość natychmiastowej reakcji na wołanie o pomoc
Monitoring miejski: rozpoznawanie słów sygnalizujących zagrożenie w ramach systemów antyterrorystycznych
Kontrola rodzicielska: wsparcie w zapewnieniu bezpieczeństwa dziecka, ochrona przed bullyingiem oraz kontaktem z oszustami czy osobami niebezpiecznymi
Policja: wykorzystanie w kamerach nasobnych do transkrypcji rozmów funkcjonariusza z podejrzanym oraz wykrywania sytuacji niebezpiecznych
Banki, lombardy: wirtualny przycisk paniki, który nie wymaga fizycznego naciśnięcia
Badania i analityka: zbieranie statystyk dotyczących częstotliwości użycia konkretnych słów oraz inne analizy mowy w tle
Marketing: analiza treści rozmów pod kątem kampanii promocyjnych oraz reakcji klientów na banery lub reklamy.
Każdy biznes: zautomatyzowana kontrola jakości obsługi klienta (np. wykrywanie wulgaryzmów)
Filtrowanie i automatyzacja: wykrywanie niepożądanych lub zakazanych słów i fraz w rozmowach oraz kierowanie wybranych fragmentów do szczegółowej weryfikacji bez konieczności odsłuchiwania wszystkich nagrań

Jak widać, narzędzie Voice-to-Text w systemie Xeoma znajduje zastosowanie w szerokim zakresie scenariuszy. Podnosi poziom bezpieczeństwa w życiu prywatnym, przestrzeni miejskiej i sektorze komercyjnym, a także optymalizuje operacje biznesowe.

ZALETY MODUŁU VOICE-TO-TEXT:

Brak wymagań sprzętowych:
Możliwość wykorzystania standardowych komputerów i niemal każdej kamery.

Zalety modułu Voice-to-Text: elastyczność i uniwersalność

Pełna elastyczność:
Różnorodne reakcje oraz integracja z systemami zewnętrznymi.

Zalety modułu Voice-to-Text: przetwarzanie w czasie rzeczywistym

Praca w czasie rzeczywistym:
Przetwarzanie danych w trybie rzeczywistym bez opóźnień. Wszystkie procesy odbywają się lokalnie na komputerze.

Zalety modułu Voice-to-Text: przystępna cena

Przystępna cena:

Moduł jest już wliczony w licencje Xeoma Pro!

ZASADA DZIAŁANIA:

Należy pamiętać, że moduł pojawia się na liście tylko wtedy, gdy serwer Xeoma pracuje na odpowiednim sprzęcie. Jeśli modułu nie ma na liście, należy sprawdzić procesor oraz wersję oprogramowania (moduł jest dostępny wyłącznie w edycji Xeoma Pro). Ponieważ moduł przetwarza strumień audio, w łańcuchu musi znajdować się źródło dźwięku: mikrofon wbudowany w kamerę lub zewnętrzny mikrofon USB/IP.

Przykładowo, jeśli strumień dźwięku pochodzi z kamery IP, w Xeoma należy zbudować łańcuch modułów: „Universal Camera” – „Voice-to-Text” – „Preview and Archive”:

Przykładowy łańcuch z inteligentnym modułem Voice-to-Text

Kliknij ikonę Voice‑to‑Text w łańcuchu, aby otworzyć ustawienia modułu. Pierwszym krokiem pracy z modułem Voice‑to‑Text jest pobranie dodatkowych zasobów niezbędnych do jego działania. Proces pobierania rozpocznie się automatycznie przy pierwszym otwarciu ustawień modułu. Po zakończeniu pobierania komunikat „Pobieranie w toku” zniknie.

Ustawienia inteligentnego modułu Voice-to-Text

Dodatkowe zasoby zawierają zbiory danych dla sztucznej inteligencji, na których opiera się moduł Voice‑to‑Text, i są pobierane na żądanie z serwerów FelenaSoft. Nie są one dołączane do oprogramowania, aby utrzymać niewielki rozmiar programu, gdyż nie każdy system CCTV ich wymaga.

Nowe opcje dostępne po pobraniu dodatkowych zasobów umożliwiają wybór spośród kilku modeli rozpoznawania mowy wspieranych przez AI. Każdy model ma swoje zalety i wady – różnią się one co do zasady dokładnością rozpoznawania oraz obciążeniem procesora. Umownie noszą one nazwy tiny, base, small, medium, large, uszeregowane według rosnącego rozmiaru modelu, jakości rozpoznawania i obciążenia sprzętu wynikającego z ich użycia.

Ustawienia inteligentnego modułu Voice-to-Text

W polu „Język” wybierz język, w którym zostanie dostarczona transkrypcja mowy (należy pamiętać, że języka samej wypowiedzi nie trzeba określać).

Jeśli chcesz transkrybować wszystkie słyszalne rozmowy, zaznacz pole wyboru „Zapisuj dane w raporcie CSV”. Dzięki temu transkrypcje rozmów będą zapisywane w pliku arkusza kalkulacyjnego na dysku we wskazanym katalogu, co umożliwia ich integrację z innymi systemami, np. statystycznymi.

Moduł „Voice‑to‑Text” potrafi również wykrywać określone frazy lub słowa. Wpisz szukane słowa lub frazy w polu „Słowa kluczowe do rozpoznawania”. Następnie moduł będzie nadal nasłuchiwał całej mowy w pobliżu kamery lub mikrofonu, ale zareaguje tylko na usłyszenie słów kluczowych. Podłącz za modułem „Voice‑to‑Text” wybrany moduł reakcji, aby w takim przypadku otrzymać powiadomienie, uruchomić nagrywanie lub wysłać polecenie.

W naszym przypadku jako moduł docelowy podłączono moduł „Podgląd i Archiwum”, więc po wykryciu ustawionych słów kluczowych rozpocznie on nagrywanie strumienia z kamery i umożliwi wyszukiwanie epizodów zawierających określone słowo kluczowe. Opcję tę można również łatwo połączyć z opcją zapisu do raportu CSV: w tym celu zaznacz odpowiednie pole poniżej.

Moduł „Voice‑to‑Text” posiada własne makro – %VOICE% – którego można użyć w modułach docelowych, takich jak „Wysyłanie e‑mail”, „Uruchamiacz aplikacji” czy „Wysyłacz żądań HTTP”, jeśli chcesz przesłać do nich transkrypcję mowy.

INTEGRACJA Z ZEWNĘTRZNYMI PROGRAMAMI

Moduł Voice‑to‑Text w Xeoma można również wykorzystywać z zewnętrznych programów – na przykład do transkrypcji rozmów VoIP. Postępując zgodnie z poniższą instrukcją, możesz przekazać plik .mp3 do modułu Voice‑to‑Text w celu dekodowania i uzyskać wynik w postaci tekstu. Dzięki temu moduł może być używany nawet na stacjach operatorskich, gdzie nie ma Xeoma ani kamer. Można to zrealizować na dwa sposoby: poprzez Xeoma API lub za pomocą polecenia konsolowego. Ważne: obsługiwane są wyłącznie pliki .mp3.

1. API. W przypadku pierwszej opcji należy użyć Xeoma API wraz z żadaniami JSON. Za pomocą poleceń można wysłać do zdalnego lub lokalnego serwera Xeoma żądanie transkrypcji pliku .mp3 na tekst.

Na przykład:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true"

gdzie
„speech.mp3” należy zastąpić ścieżką do pliku audio na Twoim komputerze;

„192.168.0.135:10090” należy zastąpić adresem IP działającego serwera Xeoma, właściwego do uruchomienia modułu Voice‑to‑Text, oraz jego portem (zazwyczaj 10090);

„Administrator” należy pozostawić bez zmian, ponieważ funkcja ta jest dostępna wyłącznie dla profilu Administratora w Xeoma;

„123" należy zastąpić hasłem profilu Administratora w Xeoma;

Parametr „model=large" pozwala wybrać model rozpoznawania. Więcej informacji o dostępnych opcjach znajduje się powyżej;

Parametr „denoise=true” włącza redukcję szumów, co w niektórych przypadkach zwiększa dokładność rozpoznawania;

„en" należy zastąpić 2–3-znakowym kodem (patrz niżej) języka, w którym ma zostać zwrócony tekst transkrybowany. Jeśli kod ten będzie inny niż język mowy analizowany przez Voice-to-Text, tekst zostanie automatycznie przetłumaczony na wybrany język.

Uwaga: To żądanie zwróci transkrypcję pliku bezpośrednio w konsoli lub narzędziu wykorzystywanym do wysłania żądania. Aby zapisać transkrypcję do pliku tekstowego, należy dodać „>nazwa_pliku.txt” po komendzie:

curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true">savetext.txt
gdzie
savetext.txt należy zastąpić żądaną nazwą pliku z transkrypcją.

2. Uruchomienie komendy. Druga opcja umożliwia rozpoznawanie nie poprzez API, lecz lokalnie na komputerze za pomocą komend wykonywanych w konsoli.

Przykład:

{Path to Xeoma executable file} -speech2text file.mp3;out.log;large;en;denoise

gdzie
„file.mp3" należy zastąpić ścieżką do pliku audio na komputerze;

„out.log" należy zastąpić ścieżką i nazwą wynikowego pliku tekstowego z transkrypcją;

„large" określa wybrany model rozpoznawania. Więcej informacji o dostępnych opcjach znajdziesz powyżej;

„en" należy zastąpić 2–3-znakowym kodem (patrz poniżej) języka, w którym ma zostać wygenerowany tekst transkrybowany. Jeśli kod ten różni się od rzeczywistego języka mowy analizowanej przez moduł Voice-to-Text, tekst zostanie automatycznie przetłumaczony na wskazany język.

„denoise" dodaje się, aby włączyć redukcję szumów, co w niektórych przypadkach zwiększa dokładność rozpoznawania.

Lista kodów językowych:

„en”: „angielski”,
„zh”: „chiński”,
„de”: „niemiecki”,
„es”: „hiszpański”,
„ru”: „rosyjski”,
„ko”: „koreański”,
„fr”: „francuski”,
„ja”: „japoński”,
„pt”: „portugalski”,
„tr”: „turecki”,
„pl”: „polski”,
„ca”: „kataloński”,
„nl”: „niderlandzki”,
„ar”: „arabski”,
„sv”: „szwedzki”,
„it”: „włoski”,
„id”: „indonezyjski”,
„hi”: „hindi”,
„fi”: „fiński”,
„vi”: „wietnamski”,
„he”: „hebrajski”,
„uk”: „ukraiński”,
„el”: „grecki”,
„ms”: „malajski”,
„cs”: „czeski”,
„ro”: „rumuński”,
„da”: „duński”,
„hu”: „węgierski”,
„ta”: „tamilski”,
„no”: „norweski”,
„th”: „tajski”,
„ur”: „urdu”,
„hr”: „chorwacki”,
„bg”: „bułgarski”,
„lt”: „litewski”,
„la”: „łaciński”,
„mi”: „maoryski”,
„ml”: „malajalam”,
„cy”: „walijski”,
„sk”: „słowacki”,
„te”: „telugu”,
„fa”: „perski”,
„lv”: „łotewski”,
„bn”: „bengalski”,
„sr”: „serbski”,
„az”: „azerbejdżański”,
„sl”: „słoweński”,
„kn”: „kannada”,
„et”: „estoński”,
„mk”: „macedoński”,
„br”: „bretoński”,
„eu”: „baskijski”,
„is”: „islandzki”,
„hy”: „ormiański”,
„ne”: „nepalski”,
„mn”: „mongolski”,
„bs”: „bośniacki”,
„kk”: „kazachski”,
„sq”: „albański”,
„sw”: „suahili”,
„gl”: „galicyjski”,
„mr”: „marathi”,
„pa”: „pendżabski”,
„si”: „sinhala”,
„km”: „khmerski”,
„sn”: „shona”,
„yo”: „joruba”,
„so”: „somalijski”,
„af”: „afrikaans”,
„oc”: „oksytański”,
„ka”: „gruziński”,
„be”: „białoruski”,
„tg”: „tadżycki”,
„sd”: „sindhi”,
„gu”: „gudżarati”,
„am”: „amharski”,
„yi”: „jidysz”,
„lo”: „laotański”,
„uz”: „uzbecki”,
„fo”: „farerski”,
„ht": „kreolski haitański",
„ps”: „paszto”,
„tk”: „turkmeński”,
„nn”: „nynorsk”,
„mt”: „maltański”,
„sa”: „sanskryt”,
„lb”: „luksemburski”,
„my”: „birmański”,
„bo”: „tybetański”,
„tl”: „tagalski”,
„mg”: „malgaszki”,
„as”: „asamski”,
„tt”: „tatarski”,
„haw”: „hawajski”,
„ln”: „lingala”,
„ha”: „hausa”,
„ba”: „baszkirski”,
„jw”: „jawajski”,
„su”: „sundanezyjski”,
„yue”: „kantoński”.

JAK TESTOWAĆ

1. Pobierz Xeoma z naszej strony i uruchom program. Upewnij się, że serwer Xeoma działa na urządzeniu z wymaganym procesorem.
Upewnij się również, że Xeoma działa w wersji próbnej lub aktywuj licencję Xeoma Pro, aby korzystać z tego modułu.
2. Dodaj kamerę lub poczekaj, aż Xeoma automatycznie wykryje kamery w Twojej sieci. Jeśli chcesz korzystać z zewnętrznego mikrofonu, który nie jest wbudowany w kamerę, dodaj moduł „Mikrofon” i wybierz odpowiednie źródło dźwięku.
3. Dodaj do łańcucha moduł „Voice-to-Text” i skonfiguruj go.
4. W razie potrzeby dodaj inne moduły, aby zdefiniować reakcje, np. zapis do archiwum, wysłanie e-maila lub własną reakcję.
5. Gotowe! Teraz możesz korzystać z zaawansowanego rozpoznawania mowy Xeoma.

*Moduł Voice-to-Text jest wyświetlany i działa wyłącznie na następujących procesorach:

64-bitowe procesory Intel z następujących serii:
-procesory Intel Core począwszy od 4. generacji (w tym generacje 10+);
-procesory XEON począwszy od 6. generacji;
-procesory Atom z serii „C23”, „C25”, „C27”, „C33”, „C35”, „C37”, „C38”, „C39”, „P59”, „Z34”, „Z35”, „x5-E39” lub „x5-E8000”;
-procesory Intel Xeon serii E5-24, i5-2450M lub i7-2600.

Choć moduł ten może działać w oparciu o moc procesora (CPU), zaleca się wyposażenie serwera w kartę graficzną.

Xeoma oferuje więcej!
Xeoma oferuje również inne moduły do przetwarzania strumieni audio:
• Mikrofon to moduł umożliwiający wybór mikrofonu USB lub zewnętrznego mikrofonu IP jako źródła dźwięku.
• Detektor dźwięku to moduł służący do analizy strumieni audio i wyzwalania reakcji po przekroczeniu zadanego poziomu głośności.
• Detektor zdarzeń dźwiękowych to inteligentny moduł zdolny do rozpoznawania konkretnych dźwięków: alarmu samochodowego, płaczu dziecka, wystrzałów, krzyków czy tłuczenia szkła.

Zobacz wideo prezentujące funkcję Voice-to-Text w Xeoma

Potrzebujesz czegoś innego? Możemy opracować taką funkcję i dodać ją do Xeoma jako płatne zlecenie. Szczegóły

BEZPŁATNY OKRES PRÓBNY XEOMA

Wypróbuj Xeoma za darmo! W poniższych polach wpisz swoje imię i adres e-mail, na który ma zostać wysłana licencja, a następnie kliknij przycisk „Odbierz bezpłatne licencje demo Xeoma na e-mail".

Zalecamy nieużywanie adresów e-mail zawierających dane osobowe oraz nieprzesyłanie nam danych osobowych w żaden inny sposób. Jeśli mimo to Państwo to zrobią, wysłanie tego formularza oznacza wyrażenie zgody na przetwarzanie danych osobowych

Masz pytania? Potrzebujesz pomocy? Skontaktuj się z nami! Chętnie pomożemy!

14 sierpnia 2024

Czytaj więcej:
Dodatkowe moduły w Xeoma
Cennik modułów AI w Xeoma