Voice-to-Text: Xeoma

Voice-to-Text: Xeomas intelligenta modul för taligenkänning

AI-driven Voice-to-Text Den AI-drivna Voice-to-Text-modulen i Xeomas videobevakningsprogram ”lyssnar” på ljudströmmen från en kamera eller en separat mikrofon, identifierar tal och sparar transkriptionen i en CSV-rapport eller visar den som text i förhandsvisningen. Du kan även konfigurera modulen att reagera på specifika ord eller fraser. Den hanterar också .mp3-ljudfiler – såsom inspelningar av samtal eller utbildningsvideor – genom att transkribera talet till text.

Användning av Voice-to-Text i Xeoma kräver ingen specialutrustning: ljudströmmar från valfri kamera eller separat mikrofon fungerar, liksom vanliga standarddatorer och grafikkort.

Varning: Denna modul är tillgänglig från och med Xeoma 24.8.12 och befinner sig i beta-stadiet, vilket innebär att ord kan utelämnas eller att upprepningar kan förekomma.

Hämta demo

Köp

Visa detaljer

ANVÄNDNINGSOMRÅDEN

Voice-to-Text-modulen är ett flexibelt verktyg för flera olika ändamål:

Callcenter: transkribering av pågående samtal eller samtalinspelningar för att övervaka efterlevnaden av företagets policy och samtalsmanus
Äldreomsorg: möjlighet att omedelbart reagera på nödrop
Stadsovervakning: igenkänning av ord som signalerar fara inom ramen för kontraterrorism och säkerhet
Föräldrakontroll: stöd för att trygga barns säkerhet och skydda dem mot mobbning eller kontakt med bedragare och förövare
Polis: Integreras med kroppsburna kameror för transkribering av samtal mellan polis och misstänkt, samt för att upptäcka farliga situationer
Banker och pantbanker: Panikknapp som aktiveras utan fysisk beröring
Forskning och analys: Automatisk insamling av statistik över frekvensen av olika ord och andra talrelaterade studier
Marknadsföring: Identifiera om kunder diskuterar en kampanj samt analysera deras reaktion på banners och annonser.
Alla företag: Automatiserad kvalitetskontroll av kundtjänst (t.ex. detektering av svordomar)
Filtrering och automatisering: Detektering av oönskade eller förbjudna ord och fraser i samtal, med dirigering av specifika händelser för granskning utan att behöva lyssna på allt

Som du ser kan verktyget "Voice-to-Text" i Xeomas videobevakningsprogram användas i en mängd olika scenarier! Det höjer inte bara säkerheten i privatlivet, i staden och inom den kommersiella sektorn, utan bidrar även till att optimera affärsverksamheten.

FÖRDELAR MED VOICE-TO-TEXT-MODULEN:

Ingen specialutrustning krävs:
Vanliga standarddatorer och nästan vilken kamera som helst kan användas.

Fördelar med Voice-to-Text-modulen: flexibel och universell

Enkelt och flexibelt:
Olika reaktionsmöjligheter och integration med tredjepartssystem.

Fördelar med Voice-to-Text-modulen: bearbetning i realtid

Realtidsbearbetning:
Bearbetning i realtid utan fördröjning. Körs lokalt på din dator.

Fördelar med Voice-to-Text-modulen: prisvärd

Kostnadseffektiv lösning:

Modulen ingår redan i Xeoma Pro-licenserna!

HUR DET FUNGERAR:

Observera att modulen endast visas i listan när Xeomas serverdel körs på lämplig hårdvara. Om modulen saknas i listan bör du kontrollera att du använder en kompatibel processor och rätt version av Xeoma (modulen finns endast i Xeoma Pro). Eftersom modulen bearbetar ljudströmmar krävs en ljudkälla i kedjan: antingen en inbyggd mikrofon i kameran eller en separat USB- eller IP-mikrofon.

Låt oss anta att ljudströmmen kommer från själva IP-kameran. Använd i så fall följande modulkedja i Xeoma: ”Universal Camera” – ”Voice-to-Text” – ”Preview and Archive”:

Exempel på en kedja med den intelligenta modulen Voice-to-Text

Klicka på ikonen för Voice-to-Text i kedjan för att öppna modulinställningarna. Det första steget vid användning av Voice-to-Text-modulen är att ladda ner de nödvändiga tilläggsresurserna. Nedladdningen startar automatiskt när du öppnar inställningarna för första gången. Meddelandet ”Downloading in progress” försvinner när nedladdningen är klar.

Inställningar för den intelligenta modulen Voice-to-Text

Tilläggsresurserna innehåller de datauppsättningar för AI som Voice-to-Text bygger på och laddas ner vid behov från FelenaSofts servrar. De ingår inte i installationen för att hålla programvarans storlek nere, eftersom de inte behövs i alla övervakningssystem.

När nedladdningen är klar visas nya alternativ där du kan välja mellan flera AI-drivna modeller för röstigenkänning. Varje modell har olika styrkor och svagheter, främst vad gäller precision och processorbelastning. Modellerna kategoriseras som tiny, base, small, medium, large i stigande ordning baserat på storlek, kvalitet och hårdvarukrav.

Inställningar för den intelligenta modulen Voice-to-Text

I fältet ”Language” väljer du språket för transkriberingen (observera att språket för själva talet inte behöver anges).

Om du vill transkribera alla hörbara samtal markerar du kryssrutan ”Save data in CSV report”. Transkriberingen sparas då i en kalkylfil på hårddisken i den katalog du angav, vilket möjliggör integration med andra system, exempelvis statistiska system.

Voice-to-Text kan även detektera specifika fraser eller ord. Ange sökorden i fältet ”Keywords for recognition”. Modulen fortsätter då att lyssna på allt tal i kamerans eller mikrofonens närhet, men reagerar endast vid träff på nyckelorden. Anslut en reaktionsmodul efter Voice-to-Text för att exempelvis få en avisering, starta inspelning eller skicka ett kommando.

I detta exempel är modulen ”Preview and Archive” ansluten som målmodul. När de angivna nyckelorden detekteras startar inspelningen av kameraströmmen, vilket möjliggör sökning efter händelser baserat på det valda nyckelordet. Denna funktion kan enkelt kombineras med export till CSV-rapport genom att markera motsvarande ruta nedan.

Voice-to-Text har ett eget makro – %VOICE% – som kan användas i målmoduler som ”Email Sending”, ”Application Runner” eller ”HTTP Request Sender” för att skicka transkriberad text.

INTEGRATION MED EXTERNA PROGRAM

Xeomas Voice-to-Text kan även användas från externa program, till exempel för att transkribera VoIP-samtal. Genom att följa instruktionerna nedan kan du skicka en .mp3-fil till Voice-to-Text för avkodning till text. Modulen kan därmed användas även på operatörsstationer där Xeoma eller kameror saknas. Detta kan göras på två sätt: via Xeoma API eller genom ett konsolkommando. Viktigt: endast .mp3-filer stöds.

1. API. För det första alternativet används Xeoma API med JSON-anrop. Via kommandon kan du begära att en lokal eller fjärrstyrd Xeoma-server transkriberar en .mp3-fil till text.

Exempel:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true"

där
”speech.mp3” ersätts med sökvägen till ljudfilen på din dator;

”192.168.0.135:10090” ersätts med IP-adressen och porten (normalt 10090) för den aktiva Xeoma-servern som kör Voice-to-Text;

”Administrator” behålls oförändrat då funktionen endast är tillgänglig för Xeomas administratörsprofil;

"123" ska ersättas med lösenordet för Xeomas administratörsprofil;

"model=large" är där du väljer igenkänningsmodell. Se fler alternativ ovan;

”denoise=true” inkluderas om du vill aktivera brusreducering, vilket i vissa fall ökar igenkänningsprecisionen;

"en" ska ersättas med den 2–3 tecken långa koden (se nedan) för det språk som den transkriberade texten ska vara på. Om detta skiljer sig från det faktiska talade språket som Voice-to-Text lyssnar på, översätts texten automatiskt till det angivna språket.

Obs: Denna begäran returnerar filens texttranskribering direkt i konsolen eller i det verktyg du använder för att skicka begäran. Om du vill spara transkriberingen som en textfil istället lägger du till ">filename.txt" efter kommandot:

curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true">savetext.txt
där
savetext.txt ska ersättas med det namn du vill ge transkriberingsfilen.

2. Kör kommando. Det andra alternativet låter dig utföra igenkänning lokalt på datorn via kommandon i konsolen istället för via API.

Exempel:

{Path to Xeoma executable file} -speech2text file.mp3;out.log;large;en;denoise

där
"file.mp3" ska ersättas med sökvägen till ljudfilen på din dator;

"out.log" ska ersättas med sökvägen till och namnet på den resulterande transkriberingsfilen;

"large" är där du väljer igenkänningsmodell. Se fler alternativ ovan;

"en" ska ersättas med den 2–3 tecken långa koden (se nedan) för det språk som du vill ha den transkriberade texten på. Om detta skiljer sig från det faktiska talets språk som Voice-to-Text lyssnar på, översätts texten automatiskt till det angivna språket.

“denoise” inkluderas om du vill aktivera brusreducering, vilket i vissa fall ökar igenkänningsnoggrannheten.

Lista över språkkoder:

“en”: “engelska”,
“zh”: “kinesiska”,
“de”: “tyska”,
“es”: “spanska”,
“ru”: “ryska”,
“ko”: “koreanska”,
“fr”: “franska”,
“ja”: “japanska”,
“pt”: “portugisiska”,
“tr”: “turkiska”,
“pl”: “polska”,
“ca”: “katalanska”,
“nl”: “nederländska”,
“ar”: “arabiska”,
“sv”: “svenska”,
“it”: “italienska”,
“id”: “indonesiska”,
“hi”: “hindi”,
“fi”: “finska”,
“vi”: “vietnamesiska”,
“he”: “hebreiska”,
“uk”: “ukrainska”,
“el”: “grekiska”,
“ms”: “malajiska”,
“cs”: “tjeckiska”,
“ro”: “rumänska”,
“da”: “danska”,
“hu”: “ungerska”,
“ta”: “tamil”,
“no”: “norska”,
“th”: “thailändska”,
“ur”: “urdu”,
“hr”: “kroatiska”,
“bg”: “bulgariska”,
“lt”: “litauiska”,
“la”: “latin”,
“mi”: “maori”,
“ml”: “malayalam”,
“cy”: “walesiska”,
“sk”: “slovakiska”,
“te”: “telugu”,
“fa”: “persiska”,
“lv”: “lettiska”,
“bn”: “bengali”,
“sr”: “serbiska”,
“az”: “azerbajdzjanska”,
“sl”: “slovenska”,
“kn”: “kannada”,
“et”: “estniska”,
“mk”: “makedonska”,
“br”: “bretonska”,
“eu”: “baskiska”,
“is”: “isländska”,
“hy”: “armeniska”,
“ne”: “nepalesiska”,
“mn”: “mongoliska”,
“bs”: “bosniska”,
“kk”: “kazakiska”,
“sq”: “albaniska”,
“sw”: “swahili”,
“gl”: “galiciska”,
“mr”: “marathi”,
“pa”: “punjabi”,
“si”: “sinhala”,
“km”: “khmer”,
“sn”: “shona”,
“yo”: “yoruba”,
“so”: “somaliska”,
“af”: “afrikaans”,
“oc”: “occitanska”,
“ka”: “georgiska”,
“be”: “belarusiska”,
“tg”: “tadzjikiska”,
“sd”: “sindhi”,
“gu”: “gujarati”,
“am”: “amhariska”,
“yi”: “jiddisch”,
“lo”: “laotiska”,
“uz”: “uzbekiska”,
“fo”: “färöiska”,
"ht": "haitisk kreol",
“ps”: “pashto”,
“tk”: “turkmenska”,
“nn”: “nynorska”,
“mt”: “maltesiska”,
“sa”: “sanskrit”,
“lb”: “luxemburgiska”,
“my”: “myanmarska”,
“bo”: “tibetanska”,
“tl”: “tagalog”,
“mg”: “malagassiska”,
“as”: “assamiska”,
“tt”: “tatariska”,
“haw”: “hawaiianska”,
“ln”: “lingala”,
“ha”: “hausa”,
“ba”: “bashkiriska”,
“jw”: “javanesiska”,
“su”: “sundanesiska”,
“yue”: “kantonesiska”.

SÅ HÄR TESTAR DU

1. Ladda ner Xeoma från vår webbplats och starta programmet. Se till att serverdelen av Xeoma körs på en maskin med en kompatibel processor.
Se även till att Xeoma körs i Trial edition eller aktivera en Xeoma Pro-licens för att kunna använda denna modul.
2. Lägg till en kamera eller vänta medan Xeoma automatiskt hittar och lägger till kameror i ditt nätverk. Om du vill använda en separat mikrofon som inte är inbyggd i kameran, anslut modulen ”Microphone” och välj lämplig ljudkälla.
3. Lägg till modulen ”Voice-to-Text” i kedjan och konfigurera den.
4. Lägg vid behov till andra moduler för att ställa in önskade reaktioner, t.ex. arkivering av inspelning, utskick av e-post eller en egen anpassad reaktion.
5. Klart! Nu kan du använda Xeomas avancerade intelligenta taligenkänning.

*Modulen Voice-to-Text visas och fungerar endast på följande processorer:

Intel 64-bitsprocessorer av följande serier:
-IntelCore-processorer från 4:e generationen (inklusive 10+ generationer);
-XEON-processorer från 6:e generationen;
-Atom-processorer av serierna ”C23”, ”C25”, ”C27”, ”C33”, ”C35”, ”C37”, ”C38”, ”C39”, ”P59”, ”Z34”, ”Z35”, ”x5-E39” eller ”x5-E8000”;
-Processorer i Intel Xeon E5-24-serien, i5-2450M eller i7-2600.

Även om modulen kan köras via CPU:n rekommenderas ett grafikkort på servermaskinen.

Xeoma erbjuder mer!
Xeoma har även andra moduler för bearbetning av ljudströmmar:
• Microphone är en modul som låter dig välja en USB-mikrofon eller en separat IP-mikrofon som ljudkälla.
• Sound Detector är en modul som analyserar ljudströmmar och utlöser en reaktion när ljudnivån överstiger ett angivet gränsvärde.
• Sound Events Detector är en intelligent modul som kan känna igen specifika ljud: billarm, barngråt, skott, skrik och glaskross.

Se video om Xeomas Voice-to-Text

Behöver du något mer? Vi kan utveckla och integrera det i Xeoma som ett betalt uppdrag. Läs mer

GRATIS TESTPERIOD AV XEOMA

Testa Xeoma gratis! Ange ditt namn och din e-postadress i fälten nedan för att få licensen skickad till dig och klicka på knappen "Skicka gratis demolicenser för Xeoma till e-post".

Vi uppmanar dig att undvika e-postadresser som innehåller personuppgifter och att inte skicka oss personuppgifter på något annat sätt. Om du ändå gör det, bekräftar du genom att skicka in detta formulär ditt samtycke till behandling av dina personuppgifter

Har du frågor? Behöver du hjälp? Kontakta oss! Vi hjälper dig gärna!

14 augusti 2024

Läs mer:
Ytterligare moduler i Xeoma
Prislista för AI-baserade moduler i Xeoma