Voice-to-Text: Inteligentny moduł rozpoznawania mowy w Xeoma

Moduł Voice-to-Text oparty na AI w oprogramowaniu do monitoringu Xeoma „nasłuchuje” strumienia audio z kamery lub osobnego mikrofonu, wykrywa mowę i zapisuje jej transkrypcję w raporcie CSV lub nakłada ją w formie tekstu na podgląd. Można go również skonfigurować tak, aby reagował na konkretne słowa lub frazy. Moduł obsługuje także pliki audio .mp3 – nagrania rozmów, filmy szkoleniowe itp. – transkrybując mowę na tekst.
Obsługa Voice-to-Text w Xeoma nie wymaga specjalistycznego sprzętu: wystarczy strumień dźwięku z dowolnej kamery lub osobnego mikrofonu oraz standardowe komputery i karty graficzne.
![]() |
Uwaga: moduł jest dostępny od wersji Xeoma 24.8.12 i znajduje się w fazie beta, co może skutkować pominięciem słów lub występowaniem pętli. |
Moduł Voice-to-Text to elastyczne narzędzie, które można wykorzystać w wielu celach:
- Call center: transkrypcja trwających rozmów lub nagrań w celu monitorowania zgodności z polityką firmy i skryptami rozmów
- Opieka nad osobami starszymi: możliwość natychmiastowej reakcji na wołanie o pomoc
- Monitoring miejski: rozpoznawanie słów sygnalizujących zagrożenie w ramach systemów antyterrorystycznych
- Kontrola rodzicielska: wsparcie w zapewnieniu bezpieczeństwa dziecka, ochrona przed bullyingiem oraz kontaktem z oszustami czy osobami niebezpiecznymi
- Policja: wykorzystanie w kamerach nasobnych do transkrypcji rozmów funkcjonariusza z podejrzanym oraz wykrywania sytuacji niebezpiecznych
- Banki, lombardy: wirtualny przycisk paniki, który nie wymaga fizycznego naciśnięcia
- Badania i analityka: zbieranie statystyk dotyczących częstotliwości użycia konkretnych słów oraz inne analizy mowy w tle
- Marketing: analiza treści rozmów pod kątem kampanii promocyjnych oraz reakcji klientów na banery lub reklamy.
- Każdy biznes: zautomatyzowana kontrola jakości obsługi klienta (np. wykrywanie wulgaryzmów)
- Filtrowanie i automatyzacja: wykrywanie niepożądanych lub zakazanych słów i fraz w rozmowach oraz kierowanie wybranych fragmentów do szczegółowej weryfikacji bez konieczności odsłuchiwania wszystkich nagrań
Jak widać, narzędzie Voice-to-Text w systemie Xeoma znajduje zastosowanie w szerokim zakresie scenariuszy. Podnosi poziom bezpieczeństwa w życiu prywatnym, przestrzeni miejskiej i sektorze komercyjnym, a także optymalizuje operacje biznesowe.

Brak wymagań sprzętowych:
Możliwość wykorzystania standardowych komputerów i niemal każdej kamery.

Pełna elastyczność:
Różnorodne reakcje oraz integracja z systemami zewnętrznymi.

Praca w czasie rzeczywistym:
Przetwarzanie danych w trybie rzeczywistym bez opóźnień. Wszystkie procesy odbywają się lokalnie na komputerze.

Przystępna cena:
Moduł jest już wliczony w licencje Xeoma Pro!
Należy pamiętać, że moduł pojawia się na liście tylko wtedy, gdy serwer Xeoma pracuje na odpowiednim sprzęcie. Jeśli modułu nie ma na liście, należy sprawdzić procesor oraz wersję oprogramowania (moduł jest dostępny wyłącznie w edycji Xeoma Pro). Ponieważ moduł przetwarza strumień audio, w łańcuchu musi znajdować się źródło dźwięku: mikrofon wbudowany w kamerę lub zewnętrzny mikrofon USB/IP.
Przykładowo, jeśli strumień dźwięku pochodzi z kamery IP, w Xeoma należy zbudować łańcuch modułów: „Universal Camera” – „Voice-to-Text” – „Preview and Archive”:

Kliknij ikonę Voice‑to‑Text w łańcuchu, aby otworzyć ustawienia modułu. Pierwszym krokiem pracy z modułem Voice‑to‑Text jest pobranie dodatkowych zasobów niezbędnych do jego działania. Proces pobierania rozpocznie się automatycznie przy pierwszym otwarciu ustawień modułu. Po zakończeniu pobierania komunikat „Pobieranie w toku” zniknie.

![]() |
Dodatkowe zasoby zawierają zbiory danych dla sztucznej inteligencji, na których opiera się moduł Voice‑to‑Text, i są pobierane na żądanie z serwerów FelenaSoft. Nie są one dołączane do oprogramowania, aby utrzymać niewielki rozmiar programu, gdyż nie każdy system CCTV ich wymaga. |
Nowe opcje dostępne po pobraniu dodatkowych zasobów umożliwiają wybór spośród kilku modeli rozpoznawania mowy wspieranych przez AI. Każdy model ma swoje zalety i wady – różnią się one co do zasady dokładnością rozpoznawania oraz obciążeniem procesora. Umownie noszą one nazwy tiny, base, small, medium, large, uszeregowane według rosnącego rozmiaru modelu, jakości rozpoznawania i obciążenia sprzętu wynikającego z ich użycia.

W polu „Język” wybierz język, w którym zostanie dostarczona transkrypcja mowy (należy pamiętać, że języka samej wypowiedzi nie trzeba określać).
Jeśli chcesz transkrybować wszystkie słyszalne rozmowy, zaznacz pole wyboru „Zapisuj dane w raporcie CSV”. Dzięki temu transkrypcje rozmów będą zapisywane w pliku arkusza kalkulacyjnego na dysku we wskazanym katalogu, co umożliwia ich integrację z innymi systemami, np. statystycznymi.
Moduł „Voice‑to‑Text” potrafi również wykrywać określone frazy lub słowa. Wpisz szukane słowa lub frazy w polu „Słowa kluczowe do rozpoznawania”. Następnie moduł będzie nadal nasłuchiwał całej mowy w pobliżu kamery lub mikrofonu, ale zareaguje tylko na usłyszenie słów kluczowych. Podłącz za modułem „Voice‑to‑Text” wybrany moduł reakcji, aby w takim przypadku otrzymać powiadomienie, uruchomić nagrywanie lub wysłać polecenie.
W naszym przypadku jako moduł docelowy podłączono moduł „Podgląd i Archiwum”, więc po wykryciu ustawionych słów kluczowych rozpocznie on nagrywanie strumienia z kamery i umożliwi wyszukiwanie epizodów zawierających określone słowo kluczowe. Opcję tę można również łatwo połączyć z opcją zapisu do raportu CSV: w tym celu zaznacz odpowiednie pole poniżej.
Moduł „Voice‑to‑Text” posiada własne makro – %VOICE% – którego można użyć w modułach docelowych, takich jak „Wysyłanie e‑mail”, „Uruchamiacz aplikacji” czy „Wysyłacz żądań HTTP”, jeśli chcesz przesłać do nich transkrypcję mowy.
Moduł Voice‑to‑Text w Xeoma można również wykorzystywać z zewnętrznych programów – na przykład do transkrypcji rozmów VoIP. Postępując zgodnie z poniższą instrukcją, możesz przekazać plik .mp3 do modułu Voice‑to‑Text w celu dekodowania i uzyskać wynik w postaci tekstu. Dzięki temu moduł może być używany nawet na stacjach operatorskich, gdzie nie ma Xeoma ani kamer. Można to zrealizować na dwa sposoby: poprzez Xeoma API lub za pomocą polecenia konsolowego. Ważne: obsługiwane są wyłącznie pliki .mp3.
1. API. W przypadku pierwszej opcji należy użyć Xeoma API wraz z żadaniami JSON. Za pomocą poleceń można wysłać do zdalnego lub lokalnego serwera Xeoma żądanie transkrypcji pliku .mp3 na tekst.
Na przykład:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true"
gdzie
„speech.mp3” należy zastąpić ścieżką do pliku audio na Twoim komputerze;
„192.168.0.135:10090” należy zastąpić adresem IP działającego serwera Xeoma, właściwego do uruchomienia modułu Voice‑to‑Text, oraz jego portem (zazwyczaj 10090);
„Administrator” należy pozostawić bez zmian, ponieważ funkcja ta jest dostępna wyłącznie dla profilu Administratora w Xeoma;
„123" należy zastąpić hasłem profilu Administratora w Xeoma;
„model=large" określa wybrany model rozpoznawania. Więcej informacji o dostępnych opcjach znajdziesz powyżej;
„denoise=true" dodaje się, aby włączyć redukcję szumów, co w niektórych przypadkach zwiększa dokładność rozpoznawania;
„en" należy zastąpić 2–3-znakowym kodem (patrz poniżej) języka, w którym ma zostać wygenerowany tekst transkrybowany. Jeśli kod ten różni się od rzeczywistego języka mowy analizowanej przez moduł Voice-to-Text, tekst zostanie automatycznie przetłumaczony na wskazany język.
Uwaga: To polecenie wyświetli transkrypcję pliku bezpośrednio w konsoli lub narzędziu używanym do wysyłania żądania. Aby zapisać transkrypcję jako plik tekstowy, należy dodać „>nazwa_pliku.txt" po komendzie:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true">savetext.txt
gdzie
savetext.txt należy zastąpić wybraną nazwą pliku z transkrypcją.
2. Uruchomienie polecenia. Druga opcja pozwala przeprowadzić rozpoznawanie nie przez API, lecz lokalnie na komputerze, za pomocą poleceń wykonywanych w konsoli.
Przykład:
{Path to Xeoma executable file} -speech2text file.mp3;out.log;large;en;denoise
gdzie
„file.mp3" należy zastąpić ścieżką do pliku audio na komputerze;
„out.log" należy zastąpić ścieżką i nazwą wynikowego pliku tekstowego z transkrypcją;
„large" określa wybrany model rozpoznawania. Więcej informacji o dostępnych opcjach znajdziesz powyżej;
„en" należy zastąpić 2–3-znakowym kodem (patrz poniżej) języka, w którym ma zostać wygenerowany tekst transkrybowany. Jeśli kod ten różni się od rzeczywistego języka mowy analizowanej przez moduł Voice-to-Text, tekst zostanie automatycznie przetłumaczony na wskazany język.
„denoise" dodaje się, aby włączyć redukcję szumów, co w niektórych przypadkach zwiększa dokładność rozpoznawania.
Lista kodów językowych:
„en”: „angielski”,
„zh”: „chiński”,
„de”: „niemiecki”,
„es”: „hiszpański”,
„ru”: „rosyjski”,
„ko”: „koreański”,
„fr”: „francuski”,
„ja”: „japoński”,
„pt”: „portugalski”,
„tr”: „turecki”,
„pl”: „polski”,
„ca”: „kataloński”,
„nl”: „niderlandzki”,
„ar”: „arabski”,
„sv”: „szwedzki”,
„it”: „włoski”,
„id”: „indonezyjski”,
„hi”: „hindi”,
„fi”: „fiński”,
„vi”: „wietnamski”,
„he”: „hebrajski”,
„uk”: „ukraiński”,
„el”: „grecki”,
„ms”: „malajski”,
„cs”: „czeski”,
„ro”: „rumuński”,
„da”: „duński”,
„hu”: „węgierski”,
„ta”: „tamilski”,
„no”: „norweski”,
„th”: „tajski”,
„ur”: „urdu”,
„hr”: „chorwacki”,
„bg”: „bułgarski”,
„lt”: „litewski”,
„la”: „łaciński”,
„mi”: „maoryski”,
„ml”: „malajalam”,
„cy”: „walijski”,
„sk”: „słowacki”,
„te”: „telugu”,
„fa”: „perski”,
„lv”: „łotewski”,
„bn”: „bengalski”,
„sr”: „serbski”,
„az”: „azerbejdżański”,
„sl”: „słoweński”,
„kn”: „kannada”,
„et”: „estoński”,
„mk”: „macedoński”,
„br”: „bretoński”,
„eu”: „baskijski”,
„is”: „islandzki”,
„hy”: „ormiański”,
„ne”: „nepalski”,
„mn”: „mongolski”,
„bs”: „bośniacki”,
„kk”: „kazachski”,
„sq”: „albański”,
„sw”: „suahili”,
„gl”: „galicyjski”,
„mr”: „marathi”,
„pa”: „pendżabski”,
„si”: „sinhala”,
„km”: „khmerski”,
„sn”: „shona”,
„yo”: „joruba”,
„so”: „somalijski”,
„af”: „afrikaans”,
„oc”: „oksytański”,
„ka”: „gruziński”,
„be”: „białoruski”,
„tg”: „tadżycki”,
„sd”: „sindhi”,
„gu”: „gudżarati”,
„am”: „amharski”,
„yi”: „jidysz”,
„lo”: „laotański”,
„uz”: „uzbecki”,
„fo”: „farerski”,
„ht": „kreolski haitański",
„ps”: „paszto”,
„tk”: „turkmeński”,
„nn”: „nynorsk”,
„mt”: „maltański”,
„sa”: „sanskryt”,
„lb”: „luksemburski”,
„my”: „birmański”,
„bo”: „tybetański”,
„tl”: „tagalski”,
„mg”: „malgaszki”,
„as”: „asamski”,
„tt”: „tatarski”,
„haw”: „hawajski”,
„ln”: „lingala”,
„ha”: „hausa”,
„ba”: „baszkirski”,
„jw”: „jawajski”,
„su”: „sundanezyjski”,
„yue”: „kantoński”.
1. Pobierz Xeoma z naszej strony i uruchom program. Upewnij się, że serwer Xeoma działa na urządzeniu z wymaganym procesorem.
Upewnij się również, że Xeoma działa w wersji próbnej lub aktywuj licencję Xeoma Pro, aby korzystać z tego modułu.
2. Dodaj kamerę lub poczekaj, aż Xeoma automatycznie wykryje kamery w Twojej sieci. Jeśli chcesz korzystać z zewnętrznego mikrofonu, który nie jest wbudowany w kamerę, dodaj moduł „Mikrofon” i wybierz odpowiednie źródło dźwięku.
3. Dodaj do łańcucha moduł „Voice-to-Text” i skonfiguruj go.
4. W razie potrzeby dodaj inne moduły, aby zdefiniować reakcje, np. zapis do archiwum, wysłanie e-maila lub własną reakcję.
5. Gotowe! Teraz możesz korzystać z zaawansowanego rozpoznawania mowy Xeoma.
![]() |
*Moduł Voice-to-Text jest wyświetlany i działa wyłącznie na następujących procesorach:
64-bitowe procesory Intel z następujących serii: Choć moduł ten może działać w oparciu o moc procesora (CPU), zaleca się wyposażenie serwera w kartę graficzną. |
Xeoma oferuje więcej!
Xeoma oferuje również inne moduły do przetwarzania strumieni audio:
• Mikrofon to moduł umożliwiający wybór mikrofonu USB lub zewnętrznego mikrofonu IP jako źródła dźwięku.
• Detektor dźwięku to moduł służący do analizy strumieni audio i wyzwalania reakcji po przekroczeniu zadanego poziomu głośności.
• Detektor zdarzeń dźwiękowych to inteligentny moduł zdolny do rozpoznawania konkretnych dźwięków: alarmu samochodowego, płaczu dziecka, wystrzałów, krzyków czy tłuczenia szkła.
![]() |
Potrzebujesz czegoś innego? Możemy opracować taką funkcję i dodać ją do Xeoma jako płatne zlecenie. Szczegóły |
Wypróbuj Xeoma za darmo! W poniższych polach wpisz swoje imię i adres e-mail, na który ma zostać wysłana licencja, a następnie kliknij przycisk „Odbierz bezpłatne licencje demo Xeoma na e-mail".
Zalecamy nieużywanie adresów e-mail zawierających dane osobowe oraz nieprzesyłanie nam danych osobowych w żaden inny sposób. Jeśli mimo to Państwo to zrobią, wysłanie tego formularza oznacza wyrażenie zgody na przetwarzanie danych osobowych
Masz pytania? Potrzebujesz pomocy? Skontaktuj się z nami! Chętnie pomożemy!
14 sierpnia 2024
Czytaj więcej:
Dodatkowe moduły w Xeoma
Cennik modułów AI w Xeoma
