← חזרה למאמרים

Voice-to-Text: המודול האינטליגנטי של Xeoma לזיהוי דיבור

Voice-to-Text: המודול החכם של Xeoma לזיהוי דיבור

 


מודול Voice-to-Text מבוסס AI מודול ה-Voice-to-Text מבוסס ה-AI של תוכנת ניטור הווידאו Xeoma 'מקשיב' לזרם השמע ממצלמה או ממיקרופון נפרד, מזהה דיבור ושומר את התמלול בדוח CSV או מציג אותו כטקסט על גבי התצוגה המקדימה. לחלופין, ניתן להגדירו להגיב למילים או ביטויים מסוימים. המודול תומך גם בקבצי שמע בפורמט mp3 – הקלטות של שיחות, סרטוני הדרכה וכדומה – מתמלל את הדיבור ומספק אותו כטקסט.

העבודה עם Voice-to-Text של Xeoma אינה דורשת ציוד מיוחד: זרם שמע מכל מצלמה או מיקרופון נפרד, כמו גם מחשבים סטנדרטיים וכרטיסי מסך רגילים, הם מתאימים לשימוש.

טיפ מתוכנת המעקב והאבטחה של Xeoma אזהרה: מודול זה זמין החל מגרסה 24.8.12 של Xeoma ונמצא במצב beta, לכן ייתכנו דילוגים על מילים או חזרות.

 

 

תרחישי יישום

מודול ה-Voice-to-Text הוא כלי גמיש המתאים למגוון מטרות:

  • מוקדים טלפוניים: תמלול שיחות פעילות או מוקלטות לצורך ניטור עמידה בנהלי החברה ובתסריטי השיחה
  • טיפול בקשישים: יכולת תגובה מיידית לקריאות לעזרה
  • ניטור עירוני: זיהוי מילים המעידות על סכנה לצורכי ביטחון ומאבק בטרור
  • בקרת הורים: סיוע בשמירה על בטיחות הילד, הגנה מפני בריונות או מפני תקשורת עם נוכלים ומטרידים
  • משטרה: שימוש במצלמות גוף (Body-worn) לתמלול שיחות בין שוטר לחשוד, וזיהוי מצבים מסוכנים
  • בנקים ובתי משכונות: כפתור מצוקה שאינו דורש לחיצה פיזית
  • מחקר וניתוח נתונים: איסוף נתונים ברקע אודות תדירות השימוש במילים שונות וביצוע מחקרים נוספים הקשורים לדיבור
  • שיווק: בירור האם לקוחות דנים בקמפיין קידום מכירות, ובחינת תגובתם לבאנר או למודעה וכדומה
  • לכל עסק: בקרה אוטומטית על איכות שירות הלקוחות (למשל, זיהוי קללות)
  • סינון ואוטומציה: זיהוי מילים או ביטויים בלתי רצויים או אסורים בשיחות, והפניית מקרים ספציפיים לבדיקה מעמיקה – ללא צורך בהאזנה לכלל השיחות

כפי שניתן לראות, כלי ה-"Voice-to-Text" בתוכנת ניטור הווידאו Xeoma מתאים למגוון רחב של תרחישים. הוא לא רק משפר את האבטחה במישור האישי, העירוני והמסחרי, אלא גם תורם לייעול התהליכים העסקיים.

 

יתרונות מודול ה-Voice-to-Text:
יתרונות מודול ה-Voice-to-Text: תאימות לכל ציוד
ללא צורך בציוד מיוחד:
ניתן להשתמש במחשבים סטנדרטיים ובכמעט כל מצלמה.
יתרונות מודול ה-Voice-to-Text: גמישות ואוניברסליות
גמישות מרבית:
מגוון אפשרויות תגובה ואינטגרציה עם מערכות צד שלישי.
יתרונות מודול ה-Voice-to-Text: עיבוד בזמן אמת
עבודה בזמן אמת:
עיבוד מיידי במצב זמן אמת (Real-time), ללא שיהוי. העיבוד מתבצע במחשב שלכם בלבד.
יתרונות מודול ה-Voice-to-Text: מחיר נגיש
פתרון משתלם:

המודול כלול כבר ברישיונות Xeoma Pro!

 

איך זה עובד:

תחילה, חשוב לציין כי המודול יופיע ברשימת המודולים רק כאשר צד השרת של Xeoma פועל על חומרה מתאימה. אם אינכם מוצאים את המודול ברשימה, ודאו שאתם משתמשים במעבד תומך ובמהדורה המתאימה של Xeoma (המודול זמין אך ורק במהדורת Xeoma Pro). מכיוון שהמודול עובד עם זרם שמע, יש צורך במקור שמע כלשהו בשרשרת: מיקרופון מובנה במצלמה, או מיקרופון USB או IP חיצוני.

לדוגמה, נניח שזרם השמע במקרה שלכם מגיע ממצלמת ה-IP עצמה. במקרה זה, פשוט הגדירו ב-Xeoma שרשרת מודולים הכוללת את: "Universal Camera" – "Voice-to-Text" – "Preview and Archive":

דוגמה לשרשרת עם המודול החכם Voice-to-Text

לחצו על סמל ה-Voice-to-Text בשרשרת כדי לפתוח את הגדרות המודול. השלב הראשון בעבודה עם מודול ה-Voice-to-Text הוא הורדת המשאבים הנוספים הנדרשים לפעולתו. תהליך ההורדה ייפתח באופן אוטומטי עם הפתיחה הראשונה של הגדרות המודול. עם סיום הורדת המשאבים, ההודעה "Downloading in progress" תיעלם.

הגדרות המודול החכם Voice-to-Text

 

טיפ מתוכנת המעקב והאבטחה של Xeoma המשאבים הנוספים מכילים מערכי נתונים לבינה מלאכותית (AI) שעליהם מתבסס ה-Voice-to-Text, והם מורדים לפי דרישה משרתי FelenaSoft. רכיבים אלו אינם כלולים בחבילת התוכנה כדי לשמור על נפח התקנה קטן, שכן הם אינם נדרשים בכל מערכות ה-CCTV.

 

לאחר השלמת ההורדה ייפתחו אפשרויות חדשות המאפשרות לבחור מתוך מספר מודלים לזיהוי קולי מבוסס-AI שישמשו לפענוח הדיבור. לכל מודל יתרונות וחסרונות משלו – לרוב הם נבדלים ברמת דיוק הזיהוי ובעומס המוטל על המעבד. באופן קונבנציונלי, הם מכונים tiny, base, small, medium, large בסדר עולה של גודל המודל, איכות הזיהוי והעומס על החומרה הכרוך בשימוש בהם.

הגדרות המודול החכם Voice-to-Text

בשדה "Language", בחרו את השפה שבה יופק ה-תמלול של הדיבור (שימו לב: אין צורך לציין את שפת ה-דיבור עצמה).

אם ברצונכם לתמלל את כל השיחות הנשמעות, ניתן לסמן ישירות את תיבת הסימון "Save data in CSV report". בדרך זו, תמלול השיחות יישמר כקובץ גיליון אלקטרוני בדיסק, בנתיב שציינתם, ויאפשר שילוב עם מערכות אחרות, כגון מערכות סטטיסטיות.

כמו כן, מודול ה-"Voice-to-Text" מסוגל לזהות ביטויים או מילים ספציפיים. הגדירו את המילים או הביטויים המבוקשים בשדה "Keywords for recognition". לאחר מכן, המודול ימשיך להאזין לכל הדיבור בסביבת המצלמה או המיקרופון, אך יגיב רק עם שמיעת מילות המפתח. חברו מודול תגובה רצוי לאחר מודול ה-"Voice-to-Text" כדי לקבל התראה, להפעיל הקלטה או לשלוח פקודה במקרה כזה.

בדוגמה שלפנינו, מודול "Preview and Archive" מחובר כמודול יעד; לפיכך, עם זיהוי מילות המפתח שהוגדרו, תופעל הקלטת הזרם מהמצלמה – דבר שיאפשר לחפש קטעים המכילים את מילת המפתח שציינתם. ניתן גם לשלב אפשרות זו בקלות עם האפשרות של שמירה לדוח CSV: לשם כך, סמנו את תיבת הסימון המתאימה המופיעה למטה.

ל-"Voice-to-Text" יש מאקרו ייעודי – %VOICE% – שניתן להשתמש בו במודולי יעד כגון "Email Sending", "Application Runner" או "HTTP Request Sender" אם ברצונכם לשלוח אליהם את תמלול הדיבור.

 

אינטגרציה עם תוכנות חיצוניות

מודול ה-Voice-to-Text של Xeoma מאפשר שימוש גם מתוכנות חיצוניות – למשל, לתמלול שיחות VoIP. בעזרת ההוראות להלן, תוכלו להעביר קובץ .mp3 אל מודול ה-Voice-to-Text לפענוח ולקבל את התוצאה כטקסט. כך ניתן להשתמש במודול זה אפילו בתחנות עבודה של מפעילים שבהן לא מותקן Xeoma ואין מצלמות. הדבר ניתן לביצוע בשתי דרכים: באמצעות ה-Xeoma API או על ידי הרצת פקודת מסוף. חשוב: נתמכים קבצי .mp3 בלבד.

1. API. באפשרות הראשונה יש להשתמש ב-Xeoma API עם בקשות JSON. באמצעות פקודות, ניתן לשלוח בקשה לשרת Xeoma (מרוחק או מקומי) כדי שיבצע תמלול של קובץ .mp3 לטקסט.

לדוגמה:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true"

כאשר
יש להחליף את "speech.mp3" בנתיב לקובץ השמע במחשב שלכם;

יש להחליף את "192.168.0.135:10090" בכתובת ה-IP של שרת Xeoma פעיל שבו מותקן מודול ה-Voice-to-Text ובמספר היציאה שלו (לרוב 10090);

יש להשאיר את "Administrator" כפי שהוא, שכן אפשרות זו זמינה רק עבור פרופיל ה-Administrator של Xeoma;

יש להחליף את "123" בסיסמה של פרופיל המנהל ב-Xeoma;

“model=large” משמש לבחירת מודל הזיהוי. לפרטים נוספים על האפשרויות ראו למעלה;

השתמשו ב-“denoise=true” כדי להפעיל סינון רעשים, ובכך לשפר במקרים מסוימים את דיוק הזיהוי;

יש להחליף את “en” בקוד בן 2-3 תווים (ראו להלן) של השפה שבה תרצו לקבל את התמלול. אם היא שונה משפת הדיבור שבה המערכת (Voice-to-Text) משתמשת, הטקסט יתורגם אוטומטית לשפה שהגדרתם.

הערה: בקשה זו תציג את תמלול הקובץ ישירות במסוף (Console) או בכל כלי אחר המשמש לשליחת הבקשה. כדי לשמור את התמלול כקובץ טקסט נפרד, הוסיפו “>filename.txt” בסוף הפקודה:

curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true">savetext.txt
כאשר
החליפו את השם savetext.txt בשם הרצוי לקובץ התמלול.

 

2. הרצת פקודה. אפשרות זו מאפשרת לבצע זיהוי לא באמצעות ה-API, אלא באופן מקומי במחשב באמצעות פקודות להרצה במסוף.

דוגמה:

{Path to Xeoma executable file} -speech2text file.mp3;out.log;large;en;denoise

כאשר
יש להחליף את "file.mp3" בנתיב לקובץ השמע במחשב שלכם;

יש להחליף את "out.log" בנתיב ובשם של קובץ הטקסט שבו יישמר התמלול;

ב-"large" בוחרים את מודל הזיהוי. לפרטים נוספים על האפשרויות, ראו לעיל;

יש להחליף את "en" בקוד בן 2-3 תווים (ראו להלן) של השפה שבה תרצו לקבל את התמלול. אם קוד זה שונה משפת הדיבור אליה מאזין שירות ה-Voice-to-Text, הטקסט יתורגם אוטומטית לשפה שציינתם.

הפרמטר "denoise" נכלל אם ברצונכם להפעיל גם סינון רעשים, העשוי במקרים מסוימים לשפר את דיוק הזיהוי.

רשימת קודי השפות:

"en": "אנגלית",
"zh": "סינית",
"de": "גרמנית",
"es": "ספרדית",
"ru": "רוסית",
"ko": "קוריאנית",
"fr": "צרפתית",
"ja": "יפנית",
"pt": "פורטוגזית",
"tr": "טורקית",
"pl": "פולנית",
"ca": "קטלנית",
"nl": "הולנדית",
"ar": "ערבית",
"sv": "שוודית",
"it": "איטלקית",
"id": "אינדונזית",
"hi": "הינדי",
"fi": "פינית",
"vi": "וייטנאמית",
"he": "עברית",
"uk": "אוקראינית",
"el": "יוונית",
"ms": "מלאית",
"cs": "צ'כית",
"ro": "רומנית",
"da": "דנית",
"hu": "הונגרית",
"ta": "טמילית",
"no": "נורווגית",
"th": "תאית",
"ur": "אורדו",
"hr": "קרואטית",
"bg": "בולגרית",
"lt": "ליטאית",
"la": "לטינית",
"mi": "מאורית",
"ml": "מליאלם",
"cy": "ולשית",
"sk": "סלובקית",
"te": "טלוגו",
"fa": "פרסית",
"lv": "לטבית",
"bn": "בנגלית",
"sr": "סרבית",
"az": "אזרית",
"sl": "סלובנית",
"kn": "קנאדה",
"et": "אסטונית",
"mk": "מקדונית",
"br": "ברטונית",
"eu": "בסקית",
"is": "איסלנדית",
"hy": "ארמנית",
"ne": "נפאלית",
"mn": "מונגולית",
"bs": "בוסנית",
"kk": "קזחית",
"sq": "אלבנית",
"sw": "סוואהילית",
"gl": "גליסיאנית",
"mr": "מראטהית",
"pa": "פנג'אבי",
"si": "סינהלית",
"km": "חמרית",
"sn": "שונה",
"yo": "יורובה",
"so": "סומלית",
"af": "אפריקאנס",
"oc": "אוקסיטנית",
"ka": "גאורגית",
"be": "בלארוסית",
"tg": "טג'יקית",
"sd": "סינדית",
"gu": "גוג'ראטית",
"am": "אמהרית",
"yi": "יידיש",
"lo": "לאו",
"uz": "אוזבקית",
"fo": "פארואזית",
"ht": "קריאולית האיטית",
"ps": "פשטו",
"tk": "טורקמנית",
"nn": "נינורסק",
"mt": "מלטזית",
"sa": "סנסקריט",
"lb": "לוקסמבורגית",
"my": "בורמזית",
"bo": "טיבטית",
"tl": "טגאלוג",
"mg": "מלגשית",
"as": "אסמית",
"tt": "טטרית",
"haw": "הוואית",
"ln": "לינגלה",
"ha": "האוסה",
"ba": "בשקירית",
"jw": "ג'אוונית",
"su": "סונדנית",
"yue": "קנטונזית".

 

כיצד לבדוק

1. הורידו את Xeoma מהאתר שלנו והפעילו אותה. ודאו שרכיב השרת של Xeoma פועל על מכונה עם מעבד נתמך.
ודאו גם ש-Xeoma פועלת ב-גרסת ניסיון, או הפעילו רישיון Xeoma Pro כדי לעבוד עם מודול זה.
2. הוסיפו מצלמה, או המתינו עד ש-Xeoma תאתר ותוסיף באופן אוטומטי מצלמות ברשת שלכם. אם עליכם להשתמש במיקרופון חיצוני שאינו מובנה במצלמה, חברו את המודול “Microphone” ובחרו את מקור השמע המתאים.
3. הוסיפו את המודול “Voice-to-Text” לשרשרת והגדירו אותו.
4. לפי הצורך, הוסיפו מודולים נוספים כדי להגדיר תגובות רצויות, כגון הקלטה לארכיון, שליחת דוא״ל או תגובה מותאמת אישית.
5. סיימנו! כעת תוכלו ליהנות מיכולות זיהוי הדיבור החכמות של Xeoma.

 

טיפ מתוכנת המעקב והאבטחה של Xeoma *מודול ה-Voice-to-Text מוצג ופעיל רק במעבדים הבאים:

מעבדי Intel 64-bit מהסדרות הבאות:
-מעבדי Intel Core החל מהדור ה-4 (כולל דור 10 ומעלה);
-מעבדי XEON החל מהדור ה-6;
-מעבדי Atom מסדרות “C23”, “C25”, “C27”, “C33”, “C35”, “C37”, “C38”, “C39”, “P59”, “Z34”, “Z35”, “x5-E39” או “x5-E8000”;
-מעבדי Intel Xeon מסדרת E5-24, דגמי i5-2450M או i7-2600.

אף שהמודול יכול לפעול באמצעות כוח העיבוד של המעבד (CPU), מומלץ להתקין בשרת כרטיס מסך ייעודי.

 
ל-Xeoma יש עוד מה להציע!
Xeoma מציעה גם מודולים נוספים לעיבוד זרמי שמע:
Microphone הוא מודול המאפשר לבחור מיקרופון USB או מיקרופון IP חיצוני כמקור השמע.
Sound Detector הוא מודול המנתח זרמי שמע ומפעיל התראה כאשר עוצמת השמע עולה על סף מוגדר.
Sound Events Detector הוא מודול חכם המזהה צלילים ספציפיים: אזעקות רכב, בכי של תינוק, יריות, צרחות וניפוץ זכוכית.
 

 

צפו בסרטון על יכולות ה-Voice-to-Text של Xeoma

 

טיפ חשוב בנוגע לנתוני מצלמות תרמיות זקוקים למשהו נוסף? אנו יכולים לפתח ולהטמיע זאת ב-Xeoma כשירות פיתוח מותאם אישית בתשלום. לפרטים נוספים

 

 

גרסת ניסיון חינמית של XEOMA

נסו את Xeoma בחינם! הזינו את שמכם ואת כתובת הדוא״ל אליה ישלח הרישיון בשדות למטה, ולחצו על הכפתור 'Get Xeoma free demo licenses to email'.




אנו ממליצים להימנע משימוש בכתובות דוא״ל המכילות נתונים אישיים ומשליחת נתונים אישיים בכל דרך אחרת. אם בחרתם לעשות זאת, הגשת הטופס מהווה אישור שלכם לעיבוד הנתונים האישיים
 

 

יש לכם שאלות? זקוקים לעזרה? צרו איתנו קשר! נשמח לסייע

14 באוגוסט 2024

קראו עוד:
מודולים נוספים ב-Xeoma
מחירון מודולי ה-AI ב-Xeoma