Tale-til-tekst: Xeoma

Tale-til-tekst: Xeomas intelligente modul for talegjenkjenning

Voice-to-Text: Xeomas intelligente modul for talegjenkjenning

AI-drevet Voice-to-Text Den AI-drevne Tale-til-tekst-modulen i overvåkingsprogramvaren Xeoma «lytter» til lydstrømmen fra et kamera eller en separat mikrofon, gjenkjenner tale og lagrer transkripsjonen i en CSV-rapport eller legger den over forhåndsvisningen som tekst. Alternativt kan den konfigureres til å reagere på spesifikke ord eller fraser. Den støtter også .mp3-lydfiler – som samtaleopptak, opplæringsvideoer osv. – for transkribering av tale til tekst.

Bruk av Xeomas Tale-til-tekst krever ikke spesialutstyr: lydstrømmen fra ethvert kamera eller en separat mikrofon, samt standard maskinvare og skjermkort, er tilstrekkelig.

Advarsel: Denne modulen er tilgjengelig fra Xeoma 24.8.12 og befinner seg i beta-fasen, noe som betyr at den kan utelate ord eller inneholde løkker.

Prøv demo

Kjøp

Se detaljer

BRUKSOMRÅDER

Tale-til-tekst-modulen er et fleksibelt verktøy for ulike formål:

Callsenter: Transkripsjon av pågående samtaler eller samtaleopptak for å overvåke etterlevelse av bedriftens retningslinjer og samtalemanus
Eldreomsorg: Mulighet til å reagere umiddelbart på nødrop
Byovervåking: Gjenkjenning av ord som varsler fare innen kontraterrorisme
Foreldrekontroll: Bidrar til barns sikkerhet ved å beskytte mot mobbing eller kontakt med svindlere og overgripere
Politi: Integrert i kroppsbårne kameraer for transkripsjon av samtaler mellom politi og mistenkte, samt deteksjon av farlige situasjoner
Banker og pantelånere: Panikkknapp som ikke krever fysisk aktivering
Forskning og analyse: Innsamling av statistikk over hyppigheten av ulike ord og andre talebaserte studier
Markedsføring: Analyse av om kunder diskuterer en kampanje, deres reaksjon på en banner eller annonse, osv.
Alle virksomheter: Automatisert kontroll av kundeservicekvalitet (for eksempel deteksjon av banneord)
Filtrering og automatisering: Deteksjon av uønskede eller forbudte ord og fraser i samtaler, med automatisk flagging av slike episoder for nærmere inspeksjon uten behov for å lytte til alle samtaler

Som du ser, kan «Tale-til-tekst»-verktøyet i Xeoma brukes i en rekke ulike scenarier. Det forbedrer ikke bare sikkerheten i privatlivet, i bybildet og for innbyggerne, men optimaliserer også kommersielle driftsprosesser.

FORDELER MED TALE-TIL-TEKST-MODULEN:

Fordeler med Voice-to-Text-modulen: kompatibel med alt utstyr

Krever ikke spesialutstyr:
Standard maskinvare og nesten alle typer kameraer kan benyttes.

Fordeler med Voice-to-Text-modulen: fleksibel og universell

Fleksibel:
Ulike reaksjonsmuligheter og integrasjon med tredjepartssystemer.

Fordeler med Voice-to-Text-modulen: sanntidsbehandling

Sanntidsbehandling:
Behandler data i sanntid uten forsinkelse. Kjøres utelukkende lokalt på din maskin.

Fordeler med Voice-to-Text-modulen: svært kostnadseffektiv

Kostnadseffektiv løsning:

Modulen er allerede inkludert i Xeoma Pro-lisenser!

SLIK FUNGERER DET:

Først og fremst er det verdt å merke seg at modulen kun vises i listen over moduler når serverdelen av Xeoma kjører på kompatibel maskinvare. Hvis du ikke finner modulen i listen, må du forsikre deg om at du bruker en støttet prosessor og riktig utgave av Xeoma (modulen er kun tilgjengelig i Xeoma Pro). Siden modulen arbeider med en lydstrøm, må du ha en lydkilde i kjeden: enten en mikrofon innebygd i kameraet, eller en separat USB- eller IP-mikrofon.

La oss for eksempel anta at lydstrømmen i ditt tilfelle kommer fra selve IP-kameraet. I så fall bruker du ganske enkelt en modulrekke med «Universal Camera» – «Tale-til-tekst» – «Preview and Archive» i Xeoma:

Eksempel på en kjede med den intelligente Voice-to-Text-modulen

Klikk på Voice-to-Text-ikonet i kjeden for å åpne modulinnstillingene. Det første steget i arbeidet med Voice-to-Text-modulen er å laste ned de tilleggsressursene den trenger. Nedlastingen starter automatisk når du åpner modulinnstillingene for første gang. Når nedlastingen av tilleggsressursene er fullført, forsvinner meldingen «Downloading in progress».

Innstillinger for den intelligente Voice-to-Text-modulen

Tilleggsressursene inneholder datasett for den kunstige intelligensen som Voice-to-Text er basert på, og lastes ned på forespørsel fra FelenaSofts servere. Disse leveres ikke sammen med programvaren for å holde installasjonsstørrelsen nede, ettersom de ikke er nødvendige i alle overvåkingssystemer.

Når nedlastingen av tilleggsressursene er fullført, åpnes nye alternativer som lar deg velge mellom flere AI-drevne modeller for talegjenkjenning. Hver modell har sine styrker og svakheter; de varierer først og fremst i gjenkjenningsnøyaktighet og belastning på prosessoren. Modellene benevnes som tiny, base, small, medium, large, sortert etter økende modellstørrelse, gjenkjenningskvalitet og belastning på maskinvaren.

Innstillinger for den intelligente Voice-to-Text-modulen

Velg språket som transkripsjonen av talen skal leveres på, i feltet «Language» (merk at selve språket for talen ikke trenger å angis).

Hvis du trenger å transkribere alle hørbare samtaler, kan du gå direkte til avkrysningsboksen «Save data in CSV report» og merke den. Da lagres transkripsjonen av samtalene i en regnearkfil på disken, i katalogen du har angitt. Filen kan integreres med andre systemer, for eksempel statistikkverktøy.

Voice-to-Text kan også gjenkjenne bestemte fraser eller ord. Angi ordene eller frasene du søker etter, i feltet «Keywords for recognition». Modulen vil fortsatt lytte til all tale i nærheten av kameraet eller mikrofonen, men reagerer kun når nøkkelordene gjenkjennes. Koble til ønsket reaksjonsmodul etter Voice-to-Text-modulen for å motta varsler, starte opptak eller sende en kommando i slike tilfeller.

I dette tilfellet er modulen «Preview and Archive» koblet til som destinasjonsmodul. Når de angitte nøkkelordene gjenkjennes, starter den opptak av kamerastrømmen – og lar deg søke etter hendelser med det nøkkelordet du har angitt. Dette alternativet kan også enkelt kombineres med alternativet for lagring til CSV-rapport: merk av i den tilsvarende boksen nedenfor for å aktivere dette.

Voice-to-Text har sin egen makro – %VOICE% – som kan brukes i destinasjonsmoduler som «Email Sending», «Application Runner» eller «HTTP Request Sender» hvis du ønsker å sende transkripsjonen av talen videre til disse.

INTEGRASJON MED EKSTERNE PROGRAMMER

Xeomas Voice-to-Text kan også brukes fra eksterne programmer – for eksempel for å transkribere VoIP-samtaler. Ved å følge instruksjonene nedenfor kan du sende en .mp3-fil til Voice-to-Text for dekoding og motta resultatet som tekst. Dermed kan modulen brukes selv på operatørstasjoner hvor det ikke finnes Xeoma eller kameraer. Dette kan gjøres på to måter: via Xeoma API eller ved å kjøre en konsollkommando. Viktig: Kun .mp3-filer støttes.

1. API. For det første alternativet må du bruke Xeoma API med JSON-forespørsler. Ved hjelp av kommandoer kan du sende en forespørsel til en lokal eller ekstern Xeoma-server om å transkribere en .mp3-fil til tekst.

For eksempel:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true"

hvor
«speech.mp3» må erstattes med banen til lydfilen på datamaskinen din;

«192.168.0.135:10090» må erstattes med IP-adressen til en aktiv Xeoma-server som er egnet for å kjøre Voice-to-Text, samt porten (vanligvis 10090);

«Administrator» må beholdes uendret, da dette kun er tilgjengelig for Administrator-profilen i Xeoma;

"123" må erstattes med passordet for Xeomas administratorprofil;

"model=large" er der du velger gjenkjenningsmodell. Se mer om alternativene ovenfor;

"denoise=true" inkluderes hvis du også vil aktivere støyreduksjon, noe som i noen tilfeller øker gjenkjenningsnøyaktigheten;

"en" skal erstattes med en 2–3 tegns kode (se nedenfor) for språket du vil ha den transkriberte teksten på. Hvis dette avviker fra det faktiske talespråket som Voice-to-Text lytter til, oversettes teksten automatisk til det angitte språket.

Merk: Denne forespørselen gir deg teksttranskripsjonen av filen direkte i konsollen eller i verktøyet du bruker til å sende forespørselen. Hvis du heller vil lagre transkripsjonen som en tekstfil, legger du til ">filnavn.txt" etter kommandoen:

curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true">savetext.txt
hvor
savetext.txt erstattes med navnet du vil gi transkripsjonsfilen.

2. Kjør kommando. Det andre alternativet lar deg utføre gjenkjenning lokalt på PC-en via kommandoer du kan kjøre i en konsoll, i stedet for gjennom API-et.

Eksempel:

{Path to Xeoma executable file} -speech2text file.mp3;out.log;large;en;denoise

der
"file.mp3" må erstattes med banen til lydfilen på datamaskinen din;

"out.log" må erstattes med banen til og navnet på den resulterende transkripsjonsfilen;

"large" er der du velger gjenkjenningsmodell. Se mer om alternativene ovenfor;

"en" må erstattes med en 2–3 tegns kode (se nedenfor) for språket du ønsker at den transkriberte teksten skal være på. Hvis dette avviker fra det faktiske talespråket Voice-to-Text lytter til, oversettes teksten automatisk til det angitte språket.

"denoise" inkluderes hvis du ønsker å aktivere støyreduksjon, noe som i visse tilfeller forbedrer gjenkjenningsnøyaktigheten.

Liste over språkkoder:

“en”: “engelsk”,
“zh”: “kinesisk”,
“de”: “tysk”,
“es”: “spansk”,
“ru”: “russisk”,
“ko”: “koreansk”,
“fr”: “fransk”,
“ja”: “japansk”,
“pt”: “portugisisk”,
“tr”: “tyrkisk”,
“pl”: “polsk”,
“ca”: “katalansk”,
“nl”: “nederlandsk”,
“ar”: “arabisk”,
“sv”: “svensk”,
“it”: “italiensk”,
“id”: “indonesisk”,
“hi”: “hindi”,
“fi”: “finsk”,
“vi”: “vietnamesisk”,
“he”: “hebraisk”,
“uk”: “ukrainsk”,
“el”: “gresk”,
“ms”: “malayisk”,
“cs”: “tsjekkisk”,
“ro”: “rumensk”,
“da”: “dansk”,
“hu”: “ungarsk”,
“ta”: “tamil”,
“no”: “norsk”,
“th”: “thai”,
“ur”: “urdu”,
“hr”: “kroatisk”,
“bg”: “bulgarsk”,
“lt”: “litauisk”,
“la”: “latin”,
“mi”: “maori”,
“ml”: “malayalam”,
“cy”: “walisisk”,
“sk”: “slovakisk”,
“te”: “telugu”,
“fa”: “persisk”,
“lv”: “latvisk”,
“bn”: “bengalsk”,
“sr”: “serbisk”,
“az”: “aserbajdsjansk”,
“sl”: “slovensk”,
“kn”: “kannada”,
“et”: “estisk”,
“mk”: “makedonsk”,
“br”: “bretonsk”,
“eu”: “baskisk”,
“is”: “islandsk”,
“hy”: “armensk”,
“ne”: “nepalsk”,
“mn”: “mongolsk”,
“bs”: “bosnisk”,
“kk”: “kasakhisk”,
“sq”: “albansk”,
“sw”: “swahili”,
“gl”: “galisisk”,
“mr”: “marathi”,
“pa”: “punjabi”,
“si”: “sinhala”,
“km”: “khmer”,
“sn”: “shona”,
“yo”: “yoruba”,
“so”: “somalsk”,
“af”: “afrikaans”,
“oc”: “oksitansk”,
“ka”: “georgisk”,
“be”: “hvitrussisk”,
“tg”: “tadsjikisk”,
“sd”: “sindhi”,
“gu”: “gujarati”,
“am”: “amharisk”,
“yi”: “jiddisch”,
“lo”: “laotisk”,
“uz”: “usbekisk”,
“fo”: “færøysk”,
“ht”: “haitisk kreol”,
“ps”: “pashto”,
“tk”: “turkmensk”,
“nn”: “nynorsk”,
“mt”: “maltesisk”,
“sa”: “sanskrit”,
“lb”: “luxemburgsk”,
“my”: “myanmarsk”,
“bo”: “tibetansk”,
“tl”: “tagalog”,
“mg”: “malagassisk”,
“as”: “assamesisk”,
“tt”: “tatarisk”,
“haw”: “hawaiisk”,
“ln”: “lingala”,
“ha”: “hausa”,
“ba”: “bashkir”,
“jw”: “javanesisk”,
“su”: “sundanesisk”,
“yue”: “kantonesisk”.

SLIK TESTER DU

1. Last ned Xeoma fra nettstedet vårt og start programmet. Kontroller at serverdelen av Xeoma kjører på en maskin med en støttet prosessor.
Kontroller også at Xeoma kjører i Trial-utgaven, eller aktiver en Xeoma Pro-lisens for å bruke denne modulen.
2. Legg til et kamera, eller vent mens Xeoma automatisk legger til kameraer funnet i nettverket. Hvis du må bruke en separat mikrofon som ikke er innebygd i kameraet, kobler du til modulen «Mikrofon» og velger riktig lydkilde.
3. Legg til modulen «Voice-to-Text» i kjeden og konfigurer den.
4. Legg eventuelt til andre moduler for å angi nødvendige reaksjoner, f.eks. arkivering av opptak, sending av e-post eller egendefinerte reaksjoner.
5. Ferdig! Du kan nå bruke Xeomas avanserte talegjenkjenning.

*Voice-to-Text-modulen vises og fungerer kun på følgende prosessorer:

Intel 64-bit prosessorer i følgende serier:
-Intel Core-prosessorer fra 4. generasjon (inkludert generasjon 10 og nyere);
-XEON-prosessorer fra 6. generasjon;
-Atom-prosessorer i serien «C23», «C25», «C27», «C33», «C35», «C37», «C38», «C39», «P59», «Z34», «Z35», «x5-E39» eller «x5-E8000»;
-Prosessorer i seriene Intel Xeon E5-24, i5-2450M eller i7-2600.

Selv om denne modulen kan kjøre på CPU, anbefales det å ha et skjermkort på serveren.

Xeoma har mer!
Xeoma tilbyr også andre moduler for prosessering av lydstrømmer:
• Mikrofon er en modul som lar deg velge en USB-mikrofon eller en separat IP-mikrofon som lydkilde.
• Lyddetektor er en modul som analyserer lydstrømmer og utløses når lydnivået overstiger en angitt grense.
• Lydhendelsesdetektor er en intelligent modul som kan gjenkjenne spesifikke lyder: bilalarmer, barn som gråter, skudd, skrik og knust glass.

Se video om Xeomas Voice-to-Text

Trenger du noe annet? Vi kan utvikle det og legge det til i Xeoma som en betalt spesialutvikling. Se detaljer

GRATIS PRØVEVERSJON AV XEOMA

Prøv Xeoma gratis! Skriv inn navn og e-postadresse i feltene nedenfor for å motta lisensen, og klikk på knappen «Send gratis Xeoma-demolisenser til e-post».

Vi oppfordrer deg til å unngå e-postadresser som inneholder personopplysninger, og til ikke å sende oss personopplysninger på andre måter. Dersom du likevel gjør dette, bekrefter du ved innsending av dette skjemaet ditt samtykke til behandling av personopplysningene dine

Har du spørsmål? Trenger du hjelp? Kontakt oss! Vi hjelper deg gjerne!

14. august 2024

Les mer:
Tilleggsmoduler i Xeoma
Prisliste for AI-baserte moduler i Xeoma