Puheesta tekstiksi: Xeoma

Puheesta tekstiksi: Xeoman älykäs puheentunnistusmoduuli

Voice-to-Text: Xeoman älykäs puheentunnistusmoduuli

AI-pohjainen Voice-to-Text Xeoma-videovalvontaohjelmiston tekoälypohjainen Puheesta tekstiksi-moduuli kuuntelee kameran tai erillisen mikrofonin äänivirtaa, tunnistaa puheen ja tallentaa litteroinnin CSV-raporttiin tai näyttää sen tekstinä esikatselukuvassa. Moduulin voi myös määrittää reagoimaan tiettyihin sanoihin tai fraaseihin. Se tukee myös .mp3-äänitiedostoja – kuten keskustelutallenteita ja koulutusvideoita – muuntaen puheen tekstiksi.

Xeoman Puheesta tekstiksi -moduuli ei vaadi erikoislaitteistoa: mikä tahansa kameran äänivirta tai erillinen mikrofoni sekä tavalliset tietokoneet ja näytönohjaimet riittävät.

Huomio: tämä moduuli on saatavilla versiosta Xeoma 24.8.12 alkaen ja on beta-vaiheessa, joten se saattaa jättää sanoja väliin tai toistaa niitä.

Kokeile demoa

Osta

Lisätiedot

KÄYTTÖKOHTEET

Voice-to-Text-moduuli on joustava työkalu, jota voidaan hyödyntää useisiin tarkoituksiin:

Call center: käynnissä olevien puheluiden tai tallenteiden litterointi yrityspolitiikan ja puheskriptien noudattamisen valvontaan
Ikäihmisten hoito: kyky reagoida välittömästi avunhuutoon
Kaupunkivalvonta: vaaran merkkejä sisältävien sanojen tunnistus terrorismin vastaisessa turvallisuudessa
Vanhempainvalvonta: lapsen turvallisuuden varmistaminen ja suojaaminen kiusaamiselta, huijareilta sekä ahdistelijoilta
Poliisi: rintakameroiden integrointi keskustelujen litterointiin poliisin ja epäillyn välillä sekä vaaratilanteiden tunnistamiseen
Pankit ja panttilainausliikkeet: hätäpainike, jota ei tarvitse painaa fyysisesti
Tutkimus ja analytiikka: tilastojen kerääminen eri sanojen käyttötiheydestä sekä muut puheeseen liittyvät tutkimukset
Markkinointi: selvitys siitä, keskustelevatko asiakkaat kampanjasta, ja analyysi heidän reaktioistaan mainoksiin
Yritystoiminta: asiakaspalvelun laadun automatisoitu valvonta (esim. kirosanojen tunnistus)
Suodatus ja automaatio: ei-toivottujen tai kiellettyjen sanojen ja fraasien tunnistus keskusteluista sekä kyseisten kohtien ohjaaminen tarkempaan tarkasteluun ilman kaikkien puheluiden kuuntelua

Kuten huomaatte, Xeoman Puheesta tekstiksi -työkalua voidaan hyödyntää laajasti eri käyttötarkoituksissa! Se ei ainoastaan paranna yksityishenkilöiden, kaupunkien ja kansalaisten turvallisuutta sekä kaupallista toimintaa, vaan optimoi myös liiketoimintaprosesseja.

VOICE-TO-TEXT-MODUULIN EDUT:

Ei vaadi erikoislaitteistoa:
Tavalliset tietokoneet ja lähes mikä tahansa kamera riittävät.

Voice-to-Text-moduulin edut: joustavuus ja yleiskäyttöisyys

Täydellinen joustavuus:
Monipuoliset reaktiot ja integraatiot kolmannen osapuolen järjestelmiin.

Voice-to-Text-moduulin edut: reaaliaikainen käsittely

Reaaliaikainen toiminta:
Toimii reaaliajassa ilman viivettä. Prosessointi tapahtuu paikallisella tietokoneella.

Voice-to-Text-moduulin edut: kohtuullinen hinta

Kustannustehokas ratkaisu:

Moduuli sisältyy jo Xeoma Pro -lisensseihin!

TOIMINTAPERIAATE:

On tärkeää huomioida, että moduuli näkyy moduulilistassa vain, kun Xeoman palvelinosa toimii yhteensopivalla laitteistolla. Jos moduuli ei löydy listalta, varmista, että käytössä on tuettu prosessori ja oikea Xeoma-versio (moduuli on saatavilla vain Xeoma Pro -versiossa). Koska moduuli käsittelee äänivirtaa, ketjussa on oltava äänilähde: joko kameraan integroitu mikrofoni tai erillinen USB- tai IP-mikrofoni.

Oletetaan esimerkiksi, että äänivirta tulee IP-kamerasta. Tällöin käytä Xeomassa moduuliketjua: "Universal Camera" – "Puheesta tekstiksi" – "Preview and Archive":

Esimerkki ketjusta, jossa on Voice-to-Text-älymoduuli

Napsauta ketjussa olevaa Voice-to-Text-kuvaketta avataksesi moduulin asetukset. Ensimmäinen vaihe Voice-to-Text-moduulin käytössä on ladata sen toimintaan tarvittavat lisäresurssit. Lataus alkaa automaattisesti, kun avaat moduulin asetukset ensimmäistä kertaa. Kun lisäresurssien lataus on valmis, ”Lataus käynnissä” -ilmoitus katoaa.

Voice-to-Text-älymoduulin asetukset

Lisäresurssit sisältävät Voice-to-Textin hyödyntämät tekoälydatojen sarjat, ja ne ladataan FelenaSoftin palvelimilta pyynnöstä. Ohjelmiston koko pidetään pienenä jättämällä nämä tiedostot pois peruspaketista, sillä niitä ei tarvita kaikissa valvontajärjestelmissä.

Lisäresurssien latauksen jälkeen avautuvilla uusilla asetuksilla voit valita useista tekoälypohjaisista puheentunnistusmalleista. Jokaisella mallilla on omat vahvuutensa ja heikkoutensa – ne eroavat yleensä tunnistustarkkuudeltaan ja prosessorikuormaltaan. Mallit on nimetty koon, tunnistuslaadun ja laitteistokuorman mukaan nousevaan järjestykseen: tiny, base, small, medium, large.

Voice-to-Text-älymoduulin asetukset

Valitse ”Kieli”-kentästä kieli, jolla puheen tekstitys tuotetaan (huomaa, ettei itse puheen kieltä tarvitse määrittää).

Jos haluat litteroida kaikki kuultavat keskustelut, siirry suoraan ”Tallenna tiedot CSV-raporttiin” -valintaruutuun ja valitse se. Tällöin keskustelujen litteroinnit tallennetaan määrittämääsi hakemistoon levylle taulukkolaskentatiedostona, joka voidaan integroida muihin järjestelmiin, kuten tilastointijärjestelmiin.

Voice-to-Text voi myös tunnistaa tiettyjä fraaseja tai sanoja. Määritä haettavat sanat tai fraasit ”Tunnistuksen avainsanat” -kenttään. Tämän jälkeen moduuli kuuntelee edelleen kaikkea puhetta kameran tai mikrofonin läheisyydessä, mutta reagoi vain avainsanojen havaitsemiseen. Yhdistä Voice-to-Text-moduulin jälkeen haluamasi reaktiomoduuli saadaksesi ilmoituksen, aloittaaksesi tallennuksen tai lähettääksesi komennon.

Tässä esimerkissä kohdemoduulina on ”Esikatselu ja arkisto”, joten määritettyjen avainsanojen havaitsemisen se aloittaa kameravirran tallennuksen – ja mahdollistaa määritettyyn avainsanaan liittyvien jaksojen etsimisen. Tämä toiminto voidaan myös helposti yhdistää CSV-raporttiin tallentamiseen: tee tämä merkitsemällä alla oleva vastaava valintaruutu.

Voice-to-Textissä on oma makronsa – %VOICE% – jota voidaan käyttää kohdemoduuleissa, kuten ”Sähköpostin lähetys”, ”Sovelluksen suorittaja” tai ”HTTP-pyynnön lähetys”, jos haluat lähettää niihin puheen litteroinnin.

INTEGRAATIO ULKOISIIN OHJELMIIN

Xeoman Voice-to-Textiä voidaan käyttää myös ulkoisista ohjelmista – esimerkiksi VoIP-puheluiden litterointiin. Seuraamalla alla olevia ohjeita voit syöttää Voice-to-Textille dekoodattavaksi .mp3-tiedoston ja saada tuloksen tekstinä. Näin moduulia voidaan käyttää jopa operaattorityöasemilla, joissa ei ole Xeomaa tai kameroita. Tämä voidaan tehdä kahdella tavalla: Xeoma API:n kautta tai ajamalla konsolikomento. Tärkeää: vain .mp3-tiedostot ovat tuettuja.

1. API. Ensimmäisessä vaihtoehdossa käytetään Xeoma API:a ja JSON-pyyntöjä. Komennoilla voit pyytää etä- tai paikallista Xeoma-palvelinta litteroimaan .mp3-tiedoston tekstiksi.

Esimerkki:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true"

missä
”speech.mp3” tulee korvata tietokoneellasi olevan äänitiedoston polulla;

”192.168.0.135:10090” tulee korvata sen käynnissä olevan Xeoma-palvelimen IP-osoitteella ja portilla (yleensä 10090), jossa Voice-to-Text on käytössä;

”Administrator” tulee pitää ennallaan, sillä tämä on käytettävissä vain Xeoman Administrator-profiilille;

Korvaa “123” Xeoman ylläpitäjäprofiilin salasanalla;

"model=large" määrittää käytettävän tunnistusmallin. Lisätietoja vaihtoehdoista on yllä;

"denoise=true" ottaa käyttöön kohinanvaimennuksen, joka voi joissakin tapauksissa parantaa tunnistustarkkuutta;

Korvaa "en" 2–3-merkkisellä kielikoodilla (katso alta) sen kielen mukaan, jolle haluat transkriptiotekstin. Jos kieli eroaa puhekielestä, jota Voice-to-Text kuuntelee, teksti käännetään automaattisesti määrittämällesi kielelle.

Huom: Tämä pyyntö tulostaa tiedoston transkription suoraan konsoliin tai siihen työkaluun, jolla lähetät pyynnön. Jos haluat tallentaa transkription tekstitiedostona, lisää komennon perään ">tiedostonimi.txt":

curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true">savetext.txt
missä
Korvaa savetext.txt haluamallasi transkriptiotiedoston nimellä.

2. Komennon suorittaminen. Toinen vaihtoehto mahdollistaa tunnistuksen suorittamisen paikallisesti tietokoneella konsolikomennoilla API:n sijaan.

Esimerkki:

{Path to Xeoma executable file} -speech2text file.mp3;out.log;large;en;denoise

missä
"file.mp3" korvataan tietokoneella olevan äänitiedoston polulla;

"out.log" korvataan syntyvän transkriptiotiedoston polulla ja nimellä;

Kohdassa “large” valitaan tunnistusmalli. Katso lisätiedot vaihtoehdoista ylhäältä;

Korvaa “en” 2–3 merkin koodilla (katso alta), jolla haluat transkrioidun tekstin saada. Jos kieli eroaa Voice-to-Textin tunnistamasta puhekielestä, teksti käännetään automaattisesti määritettyyn kieleen.

Lisää “denoise”, jos haluat ottaa käyttöön kohinanvaimennuksen, mikä joissakin tapauksissa parantaa tunnistuksen tarkkuutta.

Kielikoodiluettelo:

“en”: “englanti”,
“zh”: “kiina”,
“de”: “saksa”,
“es”: “espanja”,
“ru”: “venäjä”,
“ko”: “korea”,
“fr”: “ranska”,
“ja”: “japani”,
“pt”: “portugali”,
“tr”: “turkki”,
“pl”: “puola”,
“ca”: “katalaani”,
"nl": "hollanti",
“ar”: “arabia”,
“sv”: “ruotsi”,
“it”: “italia”,
“id”: “indonesia”,
“hi”: “hindi”,
“fi”: “suomi”,
“vi”: “vietnam”,
“he”: “heprea”,
“uk”: “ukraina”,
“el”: “kreikka”,
“ms”: “malaiji”,
“cs”: “tšekki”,
“ro”: “romania”,
“da”: “tanska”,
“hu”: “unkari”,
“ta”: “tamili”,
“no”: “norja”,
“th”: “thai”,
“ur”: “urdu”,
“hr”: “kroatia”,
“bg”: “bulgaria”,
“lt”: “liettua”, (Wait, the language is "liettua". Correct.)
“la”: “latina”,
“mi”: “maori”,
“ml”: “malajalam”,
“cy”: “kymri”,
“sk”: “slovakia”,
“te”: “telugu”,
“fa”: “persia”,
“lv”: “latvia”, (Language is "latvia". Correct.)
“bn”: “bengali”,
“sr”: “serbia”, (Language is "serbia". Correct.)
“az”: “azerbaidžan”,
“sl”: “slovenia”, (Language is "slovenia". Correct.)
“kn”: “kannada”,
“et”: “viro”,
“mk”: “makedonia”, (Language is "makedonia". Correct.)
“br”: “bretoni”,
“eu”: “baski”,
“is”: “islanti”,
“hy”: “armenia”, (Language is "armenia". Correct.)
“ne”: “nepali”,
“mn”: “mongolia”, (Language is "mongolia". Correct.)
“bs”: “bosnia”, (Language is "bosnia". Correct.)
“kk”: “kazak”,
“sq”: “albania”, (Language is "albania". Correct.)
“sw”: “swahili”,
“gl”: “galicia”,
“mr”: “marathi”,
“pa”: “punjabi”,
“si”: “sinhala”,
“km”: “khmer”,
“sn”: “shona”,
“yo”: “yoruba”,
“so”: “somalia”,
“af”: “afrikaans”,
“oc”: “oksitaani”,
“ka”: “georgia”,
“be”: “valkovenäjä”,
“tg”: “tadžiki”,
“sd”: “sindhi”,
“gu”: “gujarati”,
“am”: “amhara”,
“yi”: “jiddis”,
“lo”: “laos”,
“uz”: “uzbek”,
“fo”: “färööri”,
“ht”: “haitin kreoli”,
“ps”: “paštu”,
“tk”: “turkmeeni”,
“nn”: “nynorsk”,
“mt”: “malta”, (Language is "malta". Correct.)
“sa”: “sanskrit”,
“lb”: “luxemburg”, (Language is "luxemburg". Correct.)
“my”: “myanmar”,
“bo”: “tiibet”, (Language is "tiibet". Correct.)
“tl”: “tagalog”,
“mg”: “malagassi”,
“as”: “assam”,
“tt”: “tataari”,
“haw”: “havaiji”,
“ln”: “lingala”,
“ha”: “hausa”,
“ba”: “baškiri”,
“jw”: “java”, (Language is "java". Correct.)
“su”: “sundanesi”,
“yue”: “kantoni”.

TESTAUSOHJEET

1. Lataa Xeoma verkkosivustoltamme ja käynnistä se. Varmista, että Xeoman palvelinpuoli on asennettu koneelle, jossa on vaadittu prosessori.
Varmista myös, että Xeoma on koeversiossa tai aktivoi Xeoma Pro -lisenssi tämän moduulin käyttämiseksi.
2. Lisää kamera tai odota, että Xeoma lisää verkon kamerat automaattisesti. Jos käytät erillistä, kameraan liittämätöntä mikrofonia, ota käyttöön ”Microphone”-moduuli ja valitse sopiva äänilähde.
3. Lisää ”Voice-to-Text”-moduuli ketjuun ja määritä se.
4. Lisää tarvittaessa muita moduuleja määrittääksesi halutut toiminnot, kuten arkistointi, sähköpostin lähetys tai mukautettu reagointi.
5. Valmis! Voit nyt hyödyntää Xeoman edistynyttä äänitunnistusta.

*Voice-to-Text-moduuli näkyy ja toimii vain seuraavilla prosessoreilla:

Intel 64-bittiset prosessorit seuraavista sarjoista:
-Intel Core -prosessorit 4. sukupolvesta alkaen (mukaan lukien 10. sukupolvi ja uudemmat);
-Xeon-prosessorit 6. sukupolvesta alkaen;
-Atom-prosessorit sarjoista ”C23”, ”C25”, ”C27”, ”C33”, ”C35”, ”C37”, ”C38”, ”C39”, ”P59”, ”Z34”, ”Z35”, ”x5-E39” tai ”x5-E8000”;
-Intel Xeon E5-24-sarjan prosessorit, i5-2450M tai i7-2600.

Vaikka moduuli voi toimia prosessorin voimavaroin, palvelimelle suositellaan näytönohjainta.

Xeomassa on tarjolla enemmänkin!
Xeoma tarjoaa myös muita äänivirtoja käsitteleviä moduuleja:
• Microphone on moduuli, jonka avulla voit valita äänilähteeksi USB-mikrofonin tai erillisen IP-mikrofonin.
• Sound Detector on moduuli, jonka avulla voit analysoida äänivirtoja ja laukaista toimintoja, kun äänitaso ylittää määritetyn rajan.
• Sound Events Detector on älykäs moduuli, joka tunnistaa tietyt äänet: autohälytykset, lapsen itkun, laukaukset, huudot ja lasin särkyminen.

Katso video Xeoman Voice-to-Text-toiminnosta

Tarvitsetko jotain muuta? Voimme kehittää sen ja lisätä Xeomaan maksullisena räätälöintinä. Lue lisää

XEOMAN ILMAINEN KOKEILUVERSIO

Kokeile Xeomaa ilmaiseksi! Syötä nimesi ja sähköpostiosoitteesi alla oleviin kenttiin ja napsauta ”Get Xeoma free demo licenses to email” -painiketta.

Kehotamme välttämään sellaisten sähköpostiosoitteiden käyttöä, jotka sisältävät henkilötietoja, sekä henkilötietojen lähettämistä millään muulla tavalla. Jos näin kuitenkin menet, lähettämällä tämän lomakkeen vahvistat suostumuksesi henkilötietojesi käsittelyyn

Kysymyksiä? Tarvitsetko apua? Ota yhteyttä! Autamme mielellämme!

14.8.2024

Lue lisää:
Xeoman lisämoduulit
Xeoman AI-pohjaisten moduulien hinnasto