← Zurück zu den Artikeln

Voice-to-Text: Das intelligente Modul von Xeoma für Spracherkennung

Voice-to-Text: Das intelligente Modul von Xeoma zur Spracherkennung

 


KI-gestütztes Voice-to-Text Das KI-gestützte Voice-to-Text-Modul der Videoüberwachungssoftware Xeoma „hört" den Audiostream einer Kamera oder eines separaten Mikrofons, erkennt Sprache und speichert das Transkript in einem CSV-Bericht oder blendet es als Text in der Vorschau ein. Alternativ lässt es sich so konfigurieren, dass es auf bestimmte Wörter oder Phrasen reagiert. Zudem verarbeitet es .mp3-Audiodateien – etwa Gesprächsaufnahmen oder Schulungsvideos –, transkribiert den gesprochenen Inhalt und stellt ihn als Text bereit.

Für den Einsatz von Xeoma Voice-to-Text ist keine Spezialhardware erforderlich: Der Audiostream jeder Kamera oder eines separaten Mikrofons sowie handelsübliche Computer und Grafikkarten sind völlig ausreichend.

Tipps der Xeoma-Videoüberwachungssoftware Warnung: Dieses Modul ist ab Xeoma 24.8.12 verfügbar und befindet sich im Beta-Status; es kann daher Wörter auslassen oder Wortwiederholungen enthalten.

 

 

ANWENDUNGSSZENARIEN

Das Voice-to-Text-Modul ist ein flexibles Werkzeug für vielfältige Zwecke:

  • Callcenter: Transkription laufender Gespräche oder Aufzeichnungen zur Überwachung der Einhaltung von Unternehmensrichtlinien und Gesprächsleitfäden
  • Seniorenbetreuung: Sofortige Reaktion auf Hilferufe
  • Stadtüberwachung: Erkennung von Wörtern, die auf Gefahren hindeuten, im Rahmen der Terrorismusbekämpfung
  • Kindersicherung: Unterstützung bei der Gewährleistung der Sicherheit von Kindern, Schutz vor Mobbing oder Kontakten mit Betrügern und Tätern
  • Polizei: Bestandteil von Bodycams zur Transkription von Gesprächen zwischen Beamten und Verdächtigen sowie zur Erkennung gefährlicher Situationen
  • Banken, Pfandleihhäuser: Panikknopf, der nicht physisch betätigt werden muss
  • Forschung und Analyse: Hintergrundgestützte statistische Erfassung der Häufigkeit bestimmter Begriffe sowie weitere sprachbezogene Studien
  • Marketing: Ermittlung, ob Kunden eine Werbekampagne diskutieren, sowie Analyse ihrer Reaktion auf Banner oder Anzeigen usw.
  • Jedes Unternehmen: Automatisierte Kontrolle der Kundenservice-Qualität (z. B. Erkennung von Schimpfwörtern)
  • Filterung und Automatisierung: Erkennung unerwünschter oder verbotener Wörter oder Phrasen in Gesprächen und gezielte Weiterleitung entsprechender Passagen zur näheren Prüfung, ohne alle Gespräche anhören zu müssen

Wie Sie sehen, lässt sich das „Voice-to-Text“-Tool der Xeoma-Videoüberwachungssoftware in den unterschiedlichsten Szenarien einsetzen! Es verbessert nicht nur die Sicherheit im privaten Bereich, im städtischen Raum und in der Wirtschaft, sondern trägt auch zur Optimierung betrieblicher Abläufe bei.

 

VORTEILE DES VOICE-TO-TEXT-MODULS:
Vorteile des Voice-to-Text-Moduls: Hardwareunabhängig
Keine Spezialhardware erforderlich:
Es können herkömmliche, weit verbreitete Computer und nahezu jede Kamera verwendet werden.
Vorteile des Voice-to-Text-Moduls: Flexibel und universell
Maximale Flexibilität:
Vielfältige Reaktionsmöglichkeiten und Integration in Drittsysteme.
Vorteile des Voice-to-Text-Moduls: Echtzeitverarbeitung
Echtzeit-Verarbeitung:
Verarbeitung im Echtzeitmodus ohne Latenz. Läuft ausschließlich auf Ihrem Computer.
Vorteile des Voice-to-Text-Moduls: Kosteneffizient
Kosteneffiziente Lösung:

Das Modul ist bereits in den Xeoma Pro-Lizenzen enthalten!

 

FUNKTIONSWEISE:

Zunächst ist anzumerken, dass das Modul nur in der Modulliste erscheint, wenn der Server-Teil von Xeoma auf geeigneter Hardware läuft. Wenn Sie das Modul nicht in der Liste finden, vergewissern Sie sich bitte, dass Sie einen geeigneten Prozessor und die passende Xeoma-Edition verwenden (das Modul ist ausschließlich in der Xeoma-Pro-Edition verfügbar). Da das Modul mit einem Audiostream arbeitet, benötigen Sie eine Tonquelle in der Kette: entweder ein in die Kamera integriertes Mikrofon oder ein separates USB- bzw. IP-Mikrofon.

Nehmen wir beispielsweise an, der Audiostream stammt in Ihrem Fall direkt von der IP-Kamera. Konfigurieren Sie in Xeoma einfach folgende Modulkette: „Universal Camera“ – „Voice-to-Text“ – „Preview and Archive“:

Beispiel einer Kette mit dem intelligenten Voice-to-Text-Modul

Klicken Sie auf das Voice-to-Text-Symbol in der Kette, um die Moduleinstellungen zu öffnen. Der erste Schritt bei der Arbeit mit dem Voice-to-Text-Modul ist der Download der erforderlichen zusätzlichen Ressourcen. Dieser startet automatisch beim ersten Öffnen der Moduleinstellungen. Sobald der Download abgeschlossen ist, verschwindet die Meldung „Downloading in progress“.

Einstellungen des intelligenten Voice-to-Text-Moduls

 

Tipps der Xeoma-Videoüberwachungssoftware Diese zusätzlichen Ressourcen enthalten die Datenarrays für die KI, auf der Voice-to-Text basiert, und werden bei Bedarf von den FelenaSoft-Servern heruntergeladen. Um die Programmgröße gering zu halten, sind sie nicht im Softwarepaket enthalten, da sie nicht in jedem CCTV-System benötigt werden.

 

Nach dem Download erscheinen neue Optionen zur Auswahl verschiedener KI-gestützter Spracherkennungsmodelle. Jedes Modell hat spezifische Stärken und Schwächen, die sich primär in der Erkennungsgenauigkeit und der Prozessorlast unterscheiden. Die Modelle werden entsprechend ihrer Größe, Qualität und Hardwarelast als tiny, base, small, medium, large bezeichnet.

Einstellungen des intelligenten Voice-to-Text-Moduls

Wählen Sie im Feld „Sprache" die Sprache aus, in der das Transkript erstellt werden soll (die Sprache der Sprache selbst muss nicht angegeben werden).

Um alle hörbaren Gespräche zu transkribieren, aktivieren Sie das Kontrollkästchen „Daten in CSV-Bericht speichern“. Das Transkript der Gespräche wird dann in einer Tabellendatei im angegebenen Verzeichnis auf der Festplatte gespeichert und kann so in andere Systeme, beispielsweise für statistische Auswertungen, integriert werden.

Zudem kann Voice-to-Text bestimmte Phrasen oder Wörter erkennen. Geben Sie die gesuchten Begriffe im Feld „Schlüsselwörter zur Erkennung" ein. Das Modul analysiert weiterhin die gesamte Sprache in der Umgebung der Kamera oder des Mikrofons, reagiert jedoch nur auf die definierten Schlüsselwörter. Schließen Sie nach dem Voice-to-Text-Modul ein entsprechendes Reaktionsmodul an, um Benachrichtigungen zu erhalten, Aufnahmen zu starten oder Befehle zu senden.

In diesem Beispiel ist das Modul „Vorschau und Archiv“ als Zielmodul verbunden. Bei Erkennung der Schlüsselwörter startet die Aufzeichnung des Kamerastreams, was die gezielte Suche nach Episoden mit dem gewählten Schlüsselwort ermöglicht. Diese Funktion lässt sich nahtlos mit der Option Speichern in CSV-Bericht kombinieren, indem Sie das entsprechende Kontrollkästchen darunter aktivieren.

Voice-to-Text verfügt über ein eigenes Makro – %VOICE% –, das in Zielmodulen wie „E-Mail senden“, „Programm ausführen“ oder „HTTP-Request senden“ verwendet werden kann, um die Transkription der Sprache zu übermitteln.

 

INTEGRATION MIT EXTERNEN PROGRAMMEN

Xeoma Voice-to-Text kann auch von externen Programmen genutzt werden, beispielsweise zur Transkription von VoIP-Gesprächen. Gemäß der folgenden Anleitung können Sie eine .mp3-Datei zur Dekodierung an Voice-to-Text übergeben und das Ergebnis als Text erhalten. Somit ist das Modul auch für Operator-Workstations ohne Xeoma-Installation oder Kameras einsetzbar. Dies erfolgt entweder über die Xeoma API oder per Konsolenbefehl. Wichtig: Es werden nur .mp3-Dateien unterstützt.

1. API. Nutzen Sie für die erste Option die Xeoma API mit JSON-Requests. Über diese Befehle können Sie einen lokalen oder entfernten Xeoma-Server anweisen, eine .mp3-Datei in Text zu transkribieren.

Beispiel:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true"

wobei
„speech.mp3" durch den Pfad zur Audiodatei auf Ihrem Computer ersetzen;

„192.168.0.135:10090" durch die IP-Adresse und den Port (standardmäßig 10090) eines aktiven Xeoma-Servers ersetzen, auf dem Voice-to-Text ausgeführt wird;

„Administrator" unverändert lassen, da diese Funktion nur für das Administrator-Profil von Xeoma verfügbar ist;

Ersetzen Sie „123“ durch das Passwort des Xeoma-Administratorprofils;

Über „model=large“ wählen Sie das Erkennungsmodell. Weitere Optionen finden Sie oben;

„denoise=true“ wird hinzugefügt, wenn Sie die Rauschunterdrückung aktivieren möchten, was in einigen Fällen die Erkennungsgenauigkeit erhöht;

Ersetzen Sie „en“ durch den 2-3-stelligen Code (siehe unten) der Sprache, in der Sie den transkribierten Text erhalten möchten. Weicht dieser von der tatsächlichen Sprache der Voice-to-Text-Erkennung ab, erfolgt eine automatische Übersetzung in die angegebene Sprache.

Hinweis: Diese Anfrage gibt die Texttranskription der Datei direkt in der Konsole oder dem verwendeten Tool aus. Um die Transkription stattdessen als Textdatei zu speichern, fügen Sie „>filename.txt“ am Ende des Befehls hinzu:

curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true">savetext.txt
wobei
Ersetzen Sie savetext.txt durch den gewünschten Namen der Transkriptionsdatei.

 

2. Befehl ausführen. Die zweite Option ermöglicht die Erkennung nicht über die API, sondern lokal auf dem PC via Konsolenbefehle.

Beispiel:

{Path to Xeoma executable file} -speech2text file.mp3;out.log;large;en;denoise

wobei
Ersetzen Sie „file.mp3“ durch den Pfad zur Audiodatei auf Ihrem Computer;

Ersetzen Sie „out.log“ durch den Pfad und den Namen der resultierenden Transkriptionsdatei;

Über „large“ wählen Sie das Erkennungsmodell. Weitere Optionen finden Sie oben;

Ersetzen Sie „en“ durch den 2-3-stelligen Code (siehe unten) der Sprache, in der Sie den transkribierten Text erhalten möchten. Weicht dieser von der tatsächlichen Sprache der Voice-to-Text-Erkennung ab, erfolgt eine automatische Übersetzung in die angegebene Sprache.

„denoise“ wird hinzugefügt, wenn Sie die Rauschunterdrückung aktivieren möchten, was in einigen Fällen die Erkennungsgenauigkeit erhöht.

Liste der Sprachcodes:

„en“: „Englisch“,
„zh“: „Chinesisch“,
„de“: „Deutsch“,
„es“: „Spanisch“,
„ru“: „Russisch“,
„ko“: „Koreanisch“,
„fr“: „Französisch“,
„ja“: „Japanisch“,
„pt“: „Portugiesisch“,
„tr“: „Türkisch“,
„pl“: „Polnisch“,
„ca“: „Katalanisch“,
„nl“: „Niederländisch“,
„ar“: „Arabisch“,
„sv“: „Schwedisch“,
„it“: „Italienisch“,
„id“: „Indonesisch“,
„hi“: „Hindi“,
„fi“: „Finnisch“,
„vi“: „Vietnamesisch“,
„he“: „Hebräisch“,
„uk“: „Ukrainisch“,
„el“: „Griechisch“,
„ms“: „Malaiisch“,
„cs“: „Tschechisch“,
„ro“: „Rumänisch“,
„da“: „Dänisch“,
„hu“: „Ungarisch“,
„ta“: „Tamilisch“,
„no“: „Norwegisch“,
„th“: „Thailändisch“,
„ur“: „Urdu“,
„hr“: „Kroatisch“,
„bg“: „Bulgarisch“,
„lt“: „Litauisch“,
„la“: „Latein“,
„mi“: „Maori“,
„ml“: „Malayalam“,
„cy“: „Walisisch“,
„sk“: „Slowakisch“,
„te“: „Telugu“,
„fa“: „Persisch“,
„lv“: „Lettisch“,
„bn“: „Bengalisch“,
„sr“: „Serbisch“,
„az“: „Aserbaidschanisch“,
„sl“: „Slowenisch“,
„kn“: „Kannada“,
„et“: „Estnisch“,
„mk“: „Mazedonisch“,
„br“: „Brettonisch“,
„eu“: „Baskisch“,
„is“: „Isländisch“,
„hy“: „Armenisch“,
„ne“: „Nepalesisch“,
„mn“: „Mongolisch“,
„bs“: „Bosnisch“,
„kk“: „Kasachisch“,
„sq“: „Albanisch“,
„sw“: „Suaheli“,
„gl“: „Galicisch“,
„mr“: „Marathi“,
„pa“: „Panjabi“,
„si“: „Singhalesisch“,
„km“: „Khmer“,
„sn“: „Shona“,
„yo“: „Yoruba“,
„so“: „Somalisch“,
„af“: „Afrikaans“,
„oc“: „Okzitanisch“,
„ka“: „Georgisch“,
„be“: „Belarussisch“,
„tg“: „Tadschikisch“,
„sd“: „Sindhi“,
„gu“: „Gujarati“,
„am“: „Amharisch“,
„yi“: „Jiddisch“,
„lo“: „Laotisch“,
„uz“: „Usbekisch“,
„fo“: „Färöisch“,
„ht“: „Haitianisches Kreol“,
„ps“: „Paschtu“,
„tk“: „Turkmenisch“,
„nn“: „Nynorsk“,
„mt“: „Maltesisch“,
„sa“: „Sanskrit“,
„lb“: „Luxemburgisch“,
„my“: „Myanmar“,
„bo“: „Tibetisch“,
„tl“: „Tagalog“,
„mg“: „Madagassisch“,
„as“: „Assamesisch“,
„tt“: „Tatarisch“,
„haw“: „Hawaianisch“,
„ln“: „Lingala“,
„ha“: „Hausa“,
„ba“: „Baschkirisch“,
„jw“: „Javanisch“,
„su“: „Sundanesisch“,
„yue“: „Kantonesisch“.

 

TEST DURCHFÜHREN

1. Laden Sie Xeoma von unserer Website herunter und starten Sie es. Stellen Sie sicher, dass der Xeoma-Server auf einem Rechner mit geeignetem Prozessor läuft.
Stellen Sie zudem sicher, dass Xeoma in der Testversion läuft, oder aktivieren Sie eine Xeoma Pro-Lizenz, um dieses Modul zu nutzen.
2. Fügen Sie eine Kamera hinzu oder warten Sie, bis Xeoma im Netzwerk gefundene Kameras automatisch integriert. Wenn Sie ein separates Mikrofon nutzen möchten, das nicht in der Kamera integriert ist, binden Sie das Modul „Mikrofon“ ein und wählen Sie die entsprechende Audioquelle aus.
3. Fügen Sie der Kette das Modul „Voice-to-Text“ hinzu und konfigurieren Sie es.
4. Fügen Sie bei Bedarf weitere Module hinzu, um entsprechende Reaktionen zu definieren, z. B. die Archivierung der Aufnahme, den Versand einer E-Mail oder eine eigene benutzerdefinierte Reaktion.
Fertig! Jetzt können Sie Xeomas hochmoderne Spracherkennung nutzen.

 

Tipps der Xeoma-Videoüberwachungssoftware *Das Modul „Voice-to-Text" wird nur auf den folgenden Prozessoren angezeigt und funktioniert auch nur dort:

Intel 64-Bit-Prozessoren der folgenden Serien:
-Intel Core-Prozessoren ab der 4. Generation (inkl. Generation 10 und höher);
-XEON-Prozessoren ab der 6. Generation;
-Atom-Prozessoren der Serien „C23“, „C25“, „C27“, „C33“, „C35“, „C37“, „C38“, „C39“, „P59“, „Z34“, „Z35“, „x5-E39“ oder „x5-E8000“;
-Prozessoren der Intel Xeon E5-24-Serie, i5-2450M oder i7-2600.

Obwohl dieses Modul auch über die CPU-Rechenleistung betrieben werden kann, wird der Einsatz einer Grafikkarte auf dem Server empfohlen.

 
Xeoma bietet noch mehr!
Xeoma bietet zudem weitere Module zur Verarbeitung von Audiostreams:
Mikrofon: Mit diesem Modul wählen Sie ein USB-Mikrofon oder ein separates IP-Mikrofon als Audioquelle aus.
Sound Detector ist ein Modul zur Analyse von Audiostreams, das bei Überschreiten eines definierten Schallpegels auslöst.
Sound Events Detector ist ein intelligentes Modul zur Erkennung spezifischer Geräusche: Autoalarme, Kinderweinen, Schüsse, Schreie oder Glasbruch.
 

 

Video zu Xeoma Voice-to-Text ansehen

 

Wichtiger Tipp zu Thermal Camera Data Benötigen Sie eine weitere Funktion? Wir entwickeln diese als kostenpflichtige Individualentwicklung und integrieren sie in Xeoma. Details ansehen

 

 
KOSTENLOSE XEOMA-TESTVERSION

Testen Sie Xeoma kostenlos! Geben Sie unten Ihren Namen und Ihre E-Mail-Adresse für den Lizenzversand ein und klicken Sie auf die Schaltfläche „Kostenlose Xeoma-Demo-Lizenzen per E-Mail erhalten".




Wir bitten Sie dringend, keine E-Mails zu verwenden, die personenbezogene Daten enthalten, und uns solche Daten auch nicht auf anderem Wege zu übermitteln. Wenn Sie dies dennoch tun, bestätigen Sie mit dem Absenden dieses Formulars Ihre Einwilligung zur Verarbeitung Ihrer personenbezogenen Daten
 

 

Fragen? Benötigen Sie Unterstützung? Kontaktieren Sie uns bitte! Wir helfen Ihnen gerne weiter

14. August 2024

Weiterlesen:
Zusätzliche Module in Xeoma
Preisliste der KI-basierten Module in Xeoma