Voice-to-Text: Xeoma

Voice-to-Text: Xeomas intelligente modul til talegenkendelse

AI-drevet Voice-to-Text Det AI-drevne Voice-to-Text-modul i Xeoma-videoovervågningssoftwaren 'lytter' til lydstrømmen fra et kamera eller en separat mikrofon, registrerer tale og gemmer transskriptionen i en CSV-rapport eller viser den som tekst oven på forhåndsvisningen. Alternativt kan du indstille det til at reagere på bestemte ord eller sætninger. Det kan også behandle .mp3-lydfiler – f.eks. optagelser af samtaler, træningsvideoer osv. – ved at transskribere talen og levere den som tekst.

Brug af Xeomas Voice-to-Text kræver intet specialudstyr: lydstrømmen fra ethvert kamera eller en separat mikrofon samt standardcomputere og grafikkort er tilstrækkelige.

Advarsel: Dette modul er tilgængeligt fra Xeoma 24.8.12 og befinder sig i beta-stadie, så det kan springe ord over eller indeholde gentagelser.

Hent demo

Køb

Detaljer

ANVENDELSESSCENARIER

Voice-to-Text-modulet er et fleksibelt værktøj, der kan anvendes til forskellige formål:

Callcenter: Transskription af igangværende opkald eller opkaldsoptagelser for at overvåge overholdelse af virksomhedspolitikker og samtalemanus
Ældrepleje: mulighed for øjeblikkelig reaktion på råb om hjælp
Byovervågning: Genkendelse af ord, der varsler fare i forbindelse med terrorbekæmpelse
Forældrekontrol: Hjælp til at sikre barnets tryghed og beskytte mod mobning eller kontakt med svindlere og seksuelle overgreb
Politi: integreret i bodycams til transskription af samtaler mellem betjent og mistænkt samt registrering af farlige situationer
Banker og pantelånere: panikknap, der ikke kræver fysisk aktivering
Forskning og analyse: indsamling af statistik over hyppigheden af bestemte ord og andre talebaserede studier
Marketing: analyse af, om kunder diskuterer en kampagne, og deres reaktion på et banner eller en annonce m.m.
Enhver virksomhed: automatiseret kontrol af kundeservicekvaliteten (f.eks. detektering af bandeord)
Filtrering og automatisering: registrering af uønskede eller forbudte ord og vendinger i samtaler, hvor specifikke episoder videresendes til nærmere gennemgang uden behov for at aflytte alle samtaler

Som det fremgår, kan "Voice-to-Text"-værktøjet i Xeoma-videoovervågningsprogrammet anvendes i en bred vifte af scenarier. Det styrker ikke kun sikkerheden i privatlivet, i bymiljøet og for borgerne samt i den kommercielle sektor, men bidrager også til optimering af forretningsgangen.

FORDELE VED VOICE-TO-TEXT-MODULET:

Intet specialudstyr påkrævet:
Almindelige standardcomputere og næsten ethvert kamera kan anvendes.

Fordele ved Voice-to-Text-modulet: fleksibelt og universelt

Fleksibel og enkel:
Diverse reaktionsmuligheder og integration med tredjepartssystemer.

Fordele ved Voice-to-Text-modulet: realtidsbehandling

Realtidsbehandling:
Behandling i realtid uden latenstid. Kører udelukkende lokalt på din computer.

Fordele ved Voice-to-Text-modulet: prisvenligt

Prisvenlig løsning:

Modulet er allerede inkluderet i Xeoma Pro-licenser!

SÅDAN FUNGERER DET:

Det er først og fremmest værd at bemærke, at modulet kun vises på listen over moduler, når serverdelen af Xeoma kører på kompatibel hardware. Hvis du ikke kan finde modulet på listen, skal du sikre dig, at du bruger en understøttet processor og den korrekte version af Xeoma (modulet er kun tilgængeligt i Xeoma Pro). Da modulet arbejder med en lydstrøm, skal du have en lydkilde i kæden: enten en mikrofon indbygget i kameraet eller en separat USB- eller IP-mikrofon.

Lad os f.eks. antage, at lydstrømmen i dit tilfælde kommer fra selve IP-kameraet. I så fald skal du blot bruge en modulkæde med "Universal Camera" – "Voice-to-Text" – "Preview and Archive" i din Xeoma:

Eksempel på en kæde med det intelligente Voice-to-Text-modul

Klik på Voice-to-Text-ikonet i kæden for at åbne modulindstillingerne. Det første skridt i arbejdet med Voice-to-Text-modulet er at downloade de ekstra ressourcer, det kræver for at fungere. Downloadprocessen starter automatisk, når du åbner modulindstillingerne for første gang. Når download af de ekstra ressourcer er fuldført, forsvinder meddelelsen "Downloading in progress".

Indstillinger for det intelligente Voice-to-Text-modul

De ekstra ressourcer indeholder datasæt til den kunstige intelligens, som Voice-to-Text er baseret på, og downloades efter anmodning fra FelenaSofts servere. De leveres ikke sammen med softwaren for at holde programstørrelsen nede, da de ikke er nødvendige i alle overvågningssystemer.

Nye indstillinger, der bliver tilgængelige, når download af de ekstra ressourcer er fuldført, giver dig mulighed for at vælge mellem flere AI-drevne talegenkendelsesmodeller. Hver model har sine egne styrker og svagheder – typisk varierer de i genkendelsesnøjagtighed og processorbelastning. De benævnes konventionelt tiny, base, small, medium, large i rækkefølge efter stigende modelstørrelse, genkendelseskvalitet og hardwarebelastning.

Indstillinger for det intelligente Voice-to-Text-modul

Vælg det sprog, som transskriptionen af talen skal leveres på, i feltet "Language" (bemærk, at sproget for selve talen ikke behøver at blive angivet).

Hvis du skal transskribere alle hørbare samtaler, kan du gå direkte til afkrydsningsfeltet "Save data in CSV report" og markere det. På denne måde gemmes transskriptionen af samtalerne i en regnearksfil på disken i den mappe, du har angivet, hvilket muliggør integration med andre systemer, f.eks. statistiske systemer.

"Voice-to-Text" kan også registrere bestemte sætninger eller ord. Angiv de søgte ord eller sætninger i feltet "Keywords for recognition". Derefter lytter modulet fortsat til al tale i nærheden af kameraet eller mikrofonen, men reagerer kun, når nøgleordene registreres. Tilslut det ønskede reaktionsmodul efter "Voice-to-Text"-modulet for at modtage en notifikation, starte optagelse eller sende en kommando i dette tilfælde.

I vores tilfælde er modulet "Preview and Archive" tilsluttet som destinationsmodul, så når de angivne nøgleord registreres, startes optagelse af kamerastrømmen – hvilket muliggør søgning efter episoder med det angivne nøgleord. Denne funktion kan også nemt kombineres med indstillingen gem til CSV-rapport: markér blot den tilsvarende boks herunder.

"Voice-to-Text" har sin egen makro – %VOICE% – som kan bruges i destinationsmoduler som "Email Sending", "Application Runner" eller "HTTP Request Sender", hvis du vil sende taletransskriptionen til disse.

INTEGRATION MED EKSTERNE PROGRAMMER

Xeomas Voice-to-Text kan også bruges fra eksterne programmer – f.eks. til at transskribere VoIP-samtaler. Ved at følge instruktionerne nedenfor kan du give Voice-to-Text en .mp3-fil til afkodning og modtage resultatet som tekst. Dermed kan modulet også bruges på operatørstationer, hvor der ikke er installeret Xeoma eller kameraer. Dette kan gøres på to måder: via Xeoma API eller ved at køre en konsolkommando. Vigtigt: Kun .mp3-filer understøttes.

1. API. Til den første mulighed skal du bruge Xeoma API med JSON-forespørgsler. Ved hjælp af kommandoer kan du sende en anmodning til en fjern eller lokal Xeoma-server om at transskribere en .mp3-fil til tekst.

For eksempel:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true"

hvor
"speech.mp3" skal erstattes med stien til lydfilen på din computer;

"192.168.0.135:10090" skal erstattes med IP-adressen på en kørende Xeoma-server, der er konfigureret til at køre Voice-to-Text, og dens port (normalt 10090);

"Administrator" skal beholdes uændret, da denne funktion kun er tilgængelig for Xeomas Administrator-profil;

“123” skal erstattes med adgangskoden til Xeomas Administrator-profil;

“model=large” bruges til at vælge genkendelsesmodel. Se flere muligheder ovenfor;

"denoise=true" medtages, hvis du også vil aktivere støjreduktion, hvilket i visse tilfælde øger genkendelsesnøjagtigheden;

"en" skal erstattes med den 2–3 tegn lange kode (se nedenfor) for det sprog, du ønsker den transkriberede tekst på. Hvis dette afviger fra det faktisk talte sprog, som Voice-to-Text lytter til, oversættes teksten automatisk til det valgte sprog.

Bemærk: Denne anmodning returnerer filens teksttranskription direkte i konsollen eller det værktøj, du bruger til at sende anmodningen. Hvis du i stedet vil gemme transkriptionen som en tekstfil, skal du tilføje ">filnavn.txt" efter kommandoen:

curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true">savetext.txt
hvor
savetext.txt skal erstattes med det navn, du vil give transkriptionsfilen.

2. Kør kommando. Den anden mulighed giver dig mulighed for at udføre genkendelse lokalt på pc'en via kommandoer, du kan køre i en konsol, i stedet for via API'et.

Eksempel:

{Path to Xeoma executable file} -speech2text file.mp3;out.log;large;en;denoise

hvor
“file.mp3” skal erstattes med stien til lydfilen på din computer;

“out.log” skal erstattes med stien og navnet på den resulterende tekstfil med transkriptionen;

“large” er her, du vælger genkendelsesmodellen. Se ovenfor for flere valgmuligheder;

"en" skal erstattes med den 2-3 tegn lange kode (se nedenfor) for det sprog, du ønsker den transkriberede tekst på. Hvis dette afviger fra det faktiske talesprog, som Voice-to-Text lytter til, oversættes det automatisk til det angivne sprog.

“denoise” tilføjes, hvis du ønsker at aktivere støjreduktion, hvilket i visse tilfælde øger genkendelsespræcisionen.

Liste over sprogkoder:

“en”: “engelsk”,
“zh”: “kinesisk”,
“de”: “tysk”,
“es”: “spansk”,
“ru”: “russisk”,
“ko”: “koreansk”,
“fr”: “fransk”,
“ja”: “japansk”,
“pt”: “portugisisk”,
“tr”: “tyrkisk”,
“pl”: “polsk”,
“ca”: “catalansk”,
“nl”: “nederlandsk”,
“ar”: “arabisk”,
“sv”: “svensk”,
“it”: “italiensk”,
“id”: “indonesisk”,
“hi”: “hindi”,
“fi”: “finsk”,
“vi”: “vietnamesisk”,
“he”: “hebraisk”,
“uk”: “ukrainsk”,
“el”: “græsk”,
“ms”: “malaysisk”,
“cs”: “tjekkisk”,
“ro”: “rumænsk”,
“da”: “dansk”,
“hu”: “ungarsk”,
“ta”: “tamilsk”,
“no”: “norsk”,
“th”: “thai”,
“ur”: “urdu”,
“hr”: “kroatisk”,
“bg”: “bulgarsk”,
“lt”: “litauisk”,
“la”: “latin”,
“mi”: “maori”,
“ml”: “malayalam”,
“cy”: “walisisk”,
“sk”: “slovakisk”,
“te”: “telugu”,
“fa”: “persisk”,
“lv”: “lettisk”,
“bn”: “bengalsk”,
“sr”: “serbisk”,
“az”: “aserbajdsjansk”,
“sl”: “slovensk”,
“kn”: “kannada”,
“et”: “estisk”,
“mk”: “makedonsk”,
“br”: “bretonsk”,
“eu”: “baskisk”,
“is”: “islandsk”,
“hy”: “armensk”,
“ne”: “nepalesisk”,
“mn”: “mongolsk”,
“bs”: “bosnisk”,
“kk”: “kasakhisk”,
“sq”: “albansk”,
“sw”: “swahili”,
“gl”: “galicisk”,
“mr”: “marathi”,
“pa”: “punjabi”,
“si”: “sinhalese”,
“km”: “khmer”,
“sn”: “shona”,
“yo”: “yoruba”,
“so”: “somali”,
“af”: “afrikaans”,
“oc”: “occitansk”,
“ka”: “georgisk”,
“be”: “hviderussisk”,
“tg”: “tadsjikisk”,
“sd”: “sindhi”,
“gu”: “gujarati”,
“am”: “amharisk”,
“yi”: “jiddisch”,
“lo”: “laotisk”,
“uz”: “usbekisk”,
“fo”: “færøsk”,
“ht”: “haitiansk kreolsk”,
“ps”: “pashto”,
“tk”: “turkmensk”,
“nn”: “nynorsk”,
“mt”: “maltesisk”,
“sa”: “sanskrit”,
“lb”: “luxembourgsk”,
“my”: “myanmarsk”,
“bo”: “tibetansk”,
“tl”: “tagalog”,
“mg”: “madagaskisk”,
“as”: “assamisk”,
“tt”: “tatarisk”,
“haw”: “hawaiiansk”,
“ln”: “lingala”,
“ha”: “hausa”,
“ba”: “bashkir”,
“jw”: “javanesisk”,
“su”: “sundanesisk”,
“yue”: “kantonesisk”.

SÅDAN TESTER DU

1. Download Xeoma fra vores hjemmeside, og start programmet. Sørg for, at serverdelen af Xeoma kører på en maskine med en kompatibel processor.
Sørg også for, at Xeoma kører i Trial-udgaven, eller aktiver en Xeoma Pro-licens for at kunne bruge dette modul.
2. Tilføj et kamera, eller vent, mens Xeoma automatisk finder og tilføjer kameraer på dit netværk. Hvis du skal bruge en separat mikrofon, der ikke er indbygget i kameraet, skal du tilkoble modulet “Microphone” og vælge den relevante lydkilde.
3. Tilføj modulet “Voice-to-Text” til kæden, og konfigurer det.
4. Tilføj eventuelt andre moduler for at definere de ønskede reaktioner, f.eks. arkivering af optagelser, afsendelse af e-mail eller en brugerdefineret reaktion.
5. Færdig! Du kan nu benytte Xeomas avancerede intelligente talegenkendelse.

*Modulet Voice-to-Text vises og fungerer kun på følgende processorer:

Intel 64-bit processorer fra følgende serier:
-IntelCore-processorer fra 4. generation (inklusive 10+ generationer);
-XEON-processorer fra 6. generation;
- Atom-processorer i serierne “C23”, “C25”, “C27”, “C33”, “C35”, “C37”, “C38”, “C39”, “P59”, “Z34”, “Z35”, “x5-E39” eller “x5-E8000”;
-Processorer: Intel Xeon E5-24-serien, i5-2450M eller i7-2600.

Selvom modulet kan køre ved hjælp af CPU-kapacitet, anbefales det at have et grafikkort på serveren.

Xeoma kan endnu mere!
Xeoma tilbyder også andre moduler til behandling af lydstrømme:
• Microphone er et modul, der giver dig mulighed for at vælge en USB-mikrofon eller en separat IP-mikrofon som lydkilde.
• Sound Detector er et modul, der analyserer lydstrømme og udløser en hændelse, når lydniveauet overstiger en fastsat grænse.
• Sound Events Detector er et intelligent modul, der kan genkende specifikke lyde: bilalarmer, grædende børn, skud, skrig og knust glas.

Se video om Xeomas Voice-to-Text

Mangler du andre funktioner? Vi kan udvikle og integrere dem i Xeoma som betalt specialudvikling. Se detaljer

GRATIS PRØVEVERSION AF XEOMA

Prøv Xeoma gratis! Indtast dit navn og din e-mailadresse i felterne nedenfor for at modtage licensen, og klik på knappen “Get Xeoma free demo licenses to email”.

Vi opfordrer dig til ikke at bruge e-mails, der indeholder personfølsomme oplysninger, eller at sende os personoplysninger på anden vis. Hvis du alligevel gør det, bekræfter du ved at indsende denne formular dit samtykke til behandling af dine personoplysninger

Har du spørgsmål? Brug for hjælp? Kontakt os! Vi hjælper gerne!

14. august 2024

Læs mere:
Yderligere moduler i Xeoma
Prisliste over AI-baserede moduler i Xeoma