Voice-to-Text: Xeoma

Voice-to-Text: Xeoma’s intelligente module voor spraakherkenning

Voice-to-Text: Xeoma's intelligente module voor spraakherkenning

De AI-gestuurde Voice-to-Text-module van de Xeoma-videobewakingssoftware 'luistert' naar de audiostroom van een camera of een aparte microfoon, herkent spraak en slaat de transcriptie op in een CSV-rapport of toont deze als tekst in het voorbeeldbeeld. Daarnaast kunt u de module instellen om te reageren op specifieke woorden of zinnen. Ook werkt de module met .mp3-audiobestanden – zoals opnamen van gesprekken of trainingsvideo's – door spraak te transcriberen en als tekst aan te leveren.

Voor Voice-to-Text in Xeoma is geen gespecialiseerde apparatuur nodig: de audiostroom van elke camera of aparte microfoon, samen met standaard computers en videokaarten, is geschikt.

Waarschuwing: deze module is beschikbaar vanaf Xeoma 24.8.12 en bevindt zich in de beta-fase, waardoor woorden kunnen worden overgeslagen of herhalingen kunnen optreden.

Demo aanvragen

Kopen

Details

Toepassingsscenario's

De Voice-to-Text-module is een flexibel instrument voor diverse doeleinden:

Callcenters: transcriptie van lopende gesprekken of opnamen om naleving van het bedrijfsbeleid en gespreksprotocols te controleren
Ouderenzorg: direct reageren op een hulpkreet
Stadsbewaking: herkenning van trefwoorden die wijzen op gevaar voor antiterrorisme-beveiliging
Ouderlijk toezicht: bijdragen aan de veiligheid van kinderen door bescherming tegen pesten of contact met oplichters en misbruikers
Politie: integratie met bodycams om gesprekken tussen agenten en verdachten te transcriberen en gevaarlijke situaties te detecteren
Banken, pandjeshuizen: een panieknop die niet fysiek ingedrukt hoeft te worden
Onderzoek en analyse: verzamelen van statistieken over de frequentie van woordgebruik en andere spraakgerelateerde studies
Marketing: achterhalen of klanten een promotiecampagne bespreken en analyseren van hun reactie op banners of advertenties
Bedrijfsvoering: geautomatiseerde controle van de klantenservicekwaliteit (bijvoorbeeld de detectie van scheldwoorden)
Filtering en automatisering: detectie van ongewenste of verboden woorden en zinnen in gesprekken, waarbij specifieke fragmenten direct voor inspectie worden gemarkeerd zonder alle gesprekken te hoeven beluisteren

De "Voice-to-Text"-tool van het Xeoma-videobewakingsprogramma is inzetbaar in uiteenlopende scenario's. Het verhoogt niet alleen de veiligheid in de privésfeer, de publieke ruimte en de commerciële sector, maar optimaliseert tevens uw bedrijfsprocessen.

VOORDELEN VAN DE VOICE-TO-TEXT-MODULE:

Geen speciale apparatuur vereist:
Gebruik standaard computers en vrijwel elke camera.

Voordelen van de Voice-to-Text-module: flexibel en universeel

Maximale flexibiliteit:
Diverse reactiemogelijkheden en integratie met systemen van derden.

Voordelen van de Voice-to-Text-module: real-time verwerking

Real-time verwerking:
Directe verwerking in real-time zonder latentie. De verwerking vindt uitsluitend lokaal op uw computer plaats.

Voordelen van de Voice-to-Text-module: betaalbaar

Betaalbare oplossing:

De module is reeds inbegrepen in Xeoma Pro-licenties!

WERKING:

De module verschijnt alleen in de lijst wanneer het servergedeelte van Xeoma draait op geschikte hardware. Indien de module niet zichtbaar is, controleer dan of u een compatibele processor en de juiste editie van Xeoma gebruikt (de module is uitsluitend beschikbaar in de Xeoma Pro-editie). Omdat de module met een audiostroom werkt, is een geluidsbron in de keten vereist: een ingebouwde microfoon in de camera of een externe USB- of IP-microfoon.

Stel dat de audiostroom in uw geval afkomstig is van de IP-camera zelf. Gebruik in Xeoma dan een moduleketen bestaande uit "Universal Camera" – "Voice-to-Text" – "Preview and Archive":

Voorbeeld van een keten met de intelligente Voice-to-Text-module

Klik op het Voice-to-Text-icoon in de keten om de module-instellingen te openen. De eerste stap bij het gebruik van de Voice-to-Text-module is het downloaden van de benodigde aanvullende resources. Het downloadproces start automatisch zodra u de module-instellingen voor het eerst opent. Wanneer het downloaden van de aanvullende resources is voltooid, verdwijnt het bericht "Downloading in progress".

Instellingen van de intelligente Voice-to-Text-module

De extra resources bevatten de gegevensverzamelingen voor de kunstmatige intelligentie waarop Voice-to-Text is gebaseerd en worden op verzoek gedownload van de servers van FelenaSoft. Deze worden niet standaard meegeleverd om de software compact te houden, aangezien ze niet in elk CCTV-systeem nodig zijn.

De opties die na de download verschijnen, laten u kiezen uit verschillende AI-gestuurde voice recognition-modellen voor spraakherkenning. Elk model heeft eigen sterktes en zwaktes; ze verschillen doorgaans in herkenningsnauwkeurigheid en processorbelasting. Deze worden conventioneel aangeduid als tiny, base, small, medium, large, oplopend in modelgrootte, herkenningskwaliteit en hardwarebelasting.

Instellingen van de intelligente Voice-to-Text-module

Selecteer in het veld "Taal" de taal waarin het transcript van de spraak wordt gegenereerd (let op: de taal van de spraak zelf hoeft niet te worden opgegeven).

Als u alle hoorbare gesprekken wilt transcriberen, kunt u direct het selectievakje "Gegevens opslaan in CSV-rapport" activeren. Het transcript van de gesprekken wordt dan opgeslagen in een spreadsheetbestand in de door u opgegeven map, wat integratie in andere systemen, zoals statistieksoftware, mogelijk maakt.

Daarnaast kan "Voice-to-Text" bepaalde zinnen of woorden detecteren. Geef de gezochte woorden of zinnen op in het veld "Trefwoorden voor herkenning". De module blijft luisteren naar alle spraak in de buurt van de camera of microfoon, maar reageert alleen op de trefwoorden. Koppel een gewenste reactiemodule na de "Voice-to-Text"-module om in dat geval een melding te ontvangen, een opname te starten of een commando te verzenden.

In dit voorbeeld is de module "Voorvertoning en Archief" als doelmodule gekoppeld. Bij detectie van de ingestelde trefwoorden start de opname van de camerastream, waardoor u kunt zoeken naar fragmenten met het opgegeven trefwoord. Deze optie is eenvoudig te combineren met de optie opslaan in een CSV-rapport: vink daarvoor het bijbehorende vakje hieronder aan.

"Voice-to-Text" heeft een eigen macro – %VOICE% – die u kunt gebruiken in doelmodules zoals "E-mail verzenden", "Applicatie uitvoeren" of "HTTP-verzoek verzender" als u spraaktranscripties naar deze modules wilt sturen.

INTEGRATIE MET EXTERNE PROGRAMMA'S

Xeoma Voice-to-Text kan ook vanuit externe programma's worden gebruikt, bijvoorbeeld om VoIP-gesprekken te transcriberen. Volg de onderstaande instructies om een .mp3-bestand naar Voice-to-Text te sturen voor decodering naar tekst. Zo kan deze module ook worden ingezet op operatorwerkstations waar geen Xeoma of camera's aanwezig zijn. Dit kan op twee manieren: via de Xeoma API of door een consolecommando uit te voeren. Belangrijk: alleen .mp3-bestanden worden ondersteund.

1. API. Voor de eerste optie gebruikt u de Xeoma API met JSON-requests. Met commando's kunt u een verzoek sturen naar een externe of lokale Xeoma-server om een .mp3-bestand naar tekst te laten transcriberen.

Bijvoorbeeld:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true"

waarbij
Vervang "speech.mp3" door het pad naar het audiobestand op uw computer;

Vervang "192.168.0.135:10090" door het IP-adres van een actieve Xeoma-server waarop Voice-to-Text is geconfigureerd en de bijbehorende poort (meestal 10090);

Laat "Administrator" ongewijzigd, aangezien dit uitsluitend beschikbaar is voor het Administrator-profiel van Xeoma;

“123” moet worden vervangen door het wachtwoord van het beheerdersprofiel van Xeoma;

“model=large” is de parameter waarmee u het herkenningsmodel kiest. Zie bovenstaande opties voor meer informatie;

“denoise=true” activeert ruisonderdrukking, wat in sommige gevallen de herkenningsnauwkeurigheid verhoogt;

“en” vervangt u door de 2-3 letterige code (zie hieronder) van de taal waarin u de getranscribeerde tekst wilt ontvangen. Indien dit afwijkt van de gesproken taal die Voice-to-Text detecteert, wordt de tekst automatisch vertaald naar de door u opgegeven taal.

Let op: Deze aanvraag stuurt de teksttranscriptie van het bestand direct naar de console of het door u gebruikte tool. Wilt u de transcriptie liever opslaan als tekstbestand? Voeg dan “>bestandsnaam.txt” toe aan het commando:

curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true">savetext.txt
waarbij
savetext.txt vervangt u door de gewenste naam voor het transcriptiebestand.

2. Commando uitvoeren. Met de tweede optie voert u de herkenning niet via de API uit, maar lokaal op de pc via commando's in de console.

Voorbeeld:

{Path to Xeoma executable file} -speech2text file.mp3;out.log;large;en;denoise

waar
Vervang “file.mp3” door het pad naar het audiobestand op uw computer;

Vervang “out.log” door het pad naar en de naam van het resulterende tekstbestand met de transcriptie;

Met “large” kiest u het herkenningsmodel. Zie hierboven voor meer informatie over de opties;

Vervang “en” door de 2-3 letterige code (zie hieronder) van de taal waarin u de getranscribeerde tekst wilt ontvangen. Als deze afwijkt van de gesproken taal die Voice-to-Text analyseert, wordt de tekst automatisch vertaald naar de door u opgegeven taal.

Voeg “denoise” toe om ruisonderdrukking in te schakelen, wat in sommige gevallen de herkenningsnauwkeurigheid verbetert.

Lijst met taalcodes:

“en”: “Engels”,
“zh”: “Chinees”,
“de”: “Duits”,
“es”: “Spaans”,
“ru”: “Russisch”,
“ko”: “Koreaans”,
“fr”: “Frans”,
“ja”: “Japans”,
“pt”: “Portugees”,
“tr”: “Turks”,
“pl”: “Pools”,
“ca”: “Catalaans”,
“nl”: “Nederlands”,
“ar”: “Arabisch”,
“sv”: “Zweeds”,
“it”: “Italiaans”,
“id”: “Indonesisch”,
“hi”: “Hindi”,
“fi”: “Fins”,
“vi”: “Vietnamees”,
“he”: “Hebreeuws”,
“uk”: “Oekraïens”,
“el”: “Grieks”,
“ms”: “Maleis”,
“cs”: “Tsjechisch”,
“ro”: “Roemeens”,
“da”: “Deens”,
“hu”: “Hongaars”,
“ta”: “Tamil”,
“no”: “Noors”,
“th”: “Thai”,
“ur”: “Urdu”,
“hr”: “Kroatisch”,
“bg”: “Bulgaars”,
“lt”: “Litouws”,
“la”: “Latijn”,
“mi”: “Maori”,
“ml”: “Malayalam”,
“cy”: “Welsh”,
“sk”: “Slowaaks”,
“te”: “Telugu”,
“fa”: “Perzisch”,
“lv”: “Lets”,
“bn”: “Bengali”,
“sr”: “Servisch”,
“az”: “Azerbeidzjaans”,
“sl”: “Sloveens”,
“kn”: “Kannada”,
“et”: “Ests”,
“mk”: “Macedonisch”,
“br”: “Bretons”,
“eu”: “Baskisch”,
“is”: “IJslands”,
“hy”: “Armeens”,
“ne”: “Nepalees”,
“mn”: “Mongools”,
“bs”: “Bosnisch”,
“kk”: “Kazachs”,
“sq”: “Albanees”,
“sw”: “Swahili”,
“gl”: “Galicisch”,
“mr”: “Marathi”,
“pa”: “Punjabi”,
“si”: “Sinhala”,
“km”: “Khmer”,
“sn”: “Shona”,
“yo”: “Yoruba”,
“so”: “Somali”,
“af”: “Afrikaans”,
“oc”: “Occitaans”,
“ka”: “Georgisch”,
“be”: “Wit-Russisch”,
“tg”: “Tadzjieks”,
“sd”: “Sindhi”,
“gu”: “Gujarati”,
“am”: “Amhaars”,
“yi”: “Jiddisch”,
“lo”: “Laotiaans”,
“uz”: “Oezbeeks”,
“fo”: “Faeröisch”,
“ht”: “Haitiaans Creools”,
“ps”: “Pashto”,
“tk”: “Turkmeens”,
“nn”: “Nynorsk”,
“mt”: “Maltese”,
“sa”: “Sanskriet”,
“lb”: “Luxemburgs”,
“my”: “Birmaans”,
“bo”: “Tibetaans”,
“tl”: “Tagalog”,
“mg”: “Malagassisch”,
“as”: “Assamees”,
“tt”: “Tatars”,
“haw”: “Hawaïaans”,
“ln”: “Lingala”,
“ha”: “Hausa”,
“ba”: “Baskirisch”,
“jw”: “Javaans”,
“su”: “Soendanees”,
“yue”: “Kantonees”.

TESTEN

1. Download Xeoma vanaf onze website en start het programma. Zorg ervoor dat het servergedeelte van Xeoma draait op een machine met de vereiste processor.
Zorg er daarnaast voor dat Xeoma draait in de Trial-editie, of activeer een Xeoma Pro-licentie om met deze module te werken.
2. Voeg een camera toe of wacht tot Xeoma automatisch camera's in uw netwerk detecteert. Wilt u een aparte microfoon gebruiken die niet in de camera is geïntegreerd? Verbind dan de module “Microfoon” en selecteer de juiste geluidsbron.
3. Voeg de “Voice-to-Text”-module toe aan de keten en configureer deze.
4. Voeg indien nodig andere modules toe voor de gewenste acties, zoals archivering van opnames, het verzenden van e-mails of een eigen reactie.
5. Klaar! U kunt nu gebruikmaken van de geavanceerde spraakherkenning van Xeoma.

*De Voice-to-Text-module is alleen zichtbaar en functioneel op de volgende processoren:

Intel 64-bit processoren van de volgende series:
-IntelCore-processoren vanaf de 4e generatie (inclusief 10+ generaties);
-XEON-processoren vanaf de 6e generatie;
-Atom-processoren van de series “C23”, “C25”, “C27”, “C33”, “C35”, “C37”, “C38”, “C39”, “P59”, “Z34”, “Z35”, “x5-E39” of “x5-E8000”;
-Processoren Intel Xeon E5-24 serie, i5-2450M of i7-2600.

Hoewel deze module via de CPU-capaciteit kan werken, wordt een videokaart op de servermachine aanbevolen.

Xeoma biedt meer!
Xeoma biedt ook andere modules voor het verwerken van audiostreams:
• Microfoon is een module waarmee u een USB-microfoon of een aparte IP-microfoon als geluidsbron selecteert.
• Sound Detector is een module waarmee u audiostreams analyseert en een trigger activeert zodra het geluidsniveau een bepaalde limiet overschrijdt.
• Geluidsgebeurtenissendetector is een intelligente module die specifieke geluiden herkent: autoalarmen, een huilend kind, schoten, geschreeuw of brekend glas.

Bekijk de video over Xeoma Voice-to-Text

Heeft u andere wensen? Wij ontwikkelen deze op maat als betaalde uitbreiding voor Xeoma. Details bekijken

GRATIS PROEFVERSIE VAN XEOMA

Probeer Xeoma gratis! Vul hieronder uw naam en e-mailadres in om de licentie te ontvangen, en klik op de knop 'Gratis Xeoma-demolicenties per e-mail ontvangen'.

Wij adviseren u geen e-mailadressen met persoonsgegevens te gebruiken of persoonsgegevens op andere wijze naar ons te verzenden. Indien u dit toch doet, bevestigt u bij het verzenden van dit formulier uw toestemming voor de verwerking van uw persoonsgegevens

Vragen? Behoefte aan ondersteuning? Neem contact met ons op! Wij helpen u graag

14 augustus 2024

Lees meer:
Aanvullende modules in Xeoma
Prijslijst AI-modules in Xeoma