← العودة إلى المقالات

تحويل الصوت إلى نص: الوحدة الذكية من زيوما للتعرف على الكلام

Voice-to-Text: وحدة زيوما الذكية للتعرف على الكلام

 


تقنية Voice-to-Text المدعومة بالذكاء الاصطناعي تستمع وحدة تحويل الصوت إلى نص المدعومة بالذكاء الاصطناعي في برنامج زيوما للمراقبة بالفيديو إلى البث الصوتي الصادر عن الكاميرا أو ميكروفون منفصل، فتلتقط الكلام وتحفظ نصّه في تقرير بصيغة CSV أو تعرضه كنص مُدمَج فوق المعاينة. ويمكنك أيضاً ضبطها للتفاعل مع كلمات أو عبارات محددة. كما تدعم الوحدة ملفات الصوت بصيغة .mp3 – مثل تسجيلات المحادثات ومقاطع الفيديو التدريبية – لتحويل الكلام المنطوق إلى نص مكتوب.

لا يتطلب استخدام وحدة تحويل الصوت إلى نص في زيوما معدات متخصصة؛ إذ يكفي وجود بث صوتي من أي كاميرا أو ميكروفون منفصل، إلى جانب أجهزة كمبيوتر وبطاقات رسومات قياسية جاهزة للاستخدام.

نصائح من برنامج زيوما للمراقبة بالفيديو تنبيه: هذه الوحدة متاحة بدءاً من إصدار زيوما 24.8.12 وهي في مرحلة beta، لذا قد تتخطى بعض الكلمات أو تحتوي على تكرارات.

 

 

سيناريوهات الاستخدام

تُعد وحدة تحويل الصوت إلى نص أداة مرنة يمكن استخدامها لأغراض متنوعة:

  • مراكز الاتصال: تفريغ المكالمات الجارية أو المسجَّلة لمراقبة الالتزام بسياسة الشركة وسيناريوهات الحوار المعتمدة
  • رعاية كبار السن: القدرة على الاستجابة الفورية لنداءات الاستغاثة
  • مراقبة المدن: التعرف على الكلمات التي تشير إلى خطر محتمل في إطار الأمن ومكافحة الإرهاب
  • الرقابة الأبوية: المساهمة في ضمان سلامة الطفل وحمايته من التنمر أو من التواصل مع المحتالين والمتحرشين
  • أجهزة الشرطة: دمجها في الكاميرات المثبتة على الجسم لتفريغ المحادثات بين الضابط والمشتبه به، والكشف عن المواقف الخطرة
  • البنوك ومحلات الرهن: تفعيل زر الذعر صوتياً دون الحاجة إلى الضغط عليه يدوياً
  • الأبحاث والتحليلات: جمع إحصائيات خلفية حول تكرار استخدام كلمات معينة وإجراء دراسات أخرى متعلقة بالكلام
  • التسويق: معرفة ما إذا كان العملاء يناقشون حملة ترويجية، ورصد ردود أفعالهم تجاه إعلان أو لافتة معينة.
  • أي نشاط تجاري: رقابة آلية على جودة خدمة العملاء (مثل كشف الألفاظ النابية)
  • التصفية والأتمتة: كشف الكلمات أو العبارات غير المرغوب فيها أو المحظورة في المحادثات، وتوجيه تلك المقاطع للفحص الدقيق دون الحاجة إلى الاستماع إلى جميع المكالمات

كما يتضح، يمكن استخدام أداة "تحويل الصوت إلى نص" في برنامج المراقبة بالفيديو زيوما في طيف واسع من السيناريوهات! فهي لا تعزز الأمن في الحياة الخاصة والحياة المدنية والتجارية فحسب، بل تساهم أيضاً في تحسين العمليات التشغيلية للأعمال.

 

مزايا وحدة تحويل الصوت إلى نص:
مزايا وحدة Voice-to-Text: التوافق مع مختلف المعدات
لا تتطلب معدات خاصة:
يمكن استخدام أجهزة الكمبيوتر القياسية المتوفرة في السوق وأي كاميرا تقريباً.
مزايا وحدة Voice-to-Text: المرونة والشمولية
مرونة عالية:
تفاعلات متنوعة وتكامل مع أنظمة جهات خارجية.
مزايا وحدة Voice-to-Text: المعالجة الفورية في الوقت الفعلي
عمل في الوقت الفعلي:
معالجة فورية في وضع الوقت الفعلي دون أي تأخير، وتتم المعالجة محلياً على جهاز الكمبيوتر الخاص بك فقط.
مزايا وحدة Voice-to-Text: تكلفة في المتناول
حل ميسور التكلفة:

الوحدة مدرجة بالفعل ضمن تراخيص زيوما برو!

 

آلية العمل:

أولاً، تجدر الإشارة إلى أن الوحدة تظهر في قائمة الوحدات فقط عندما يعمل خادم زيوما على أجهزة متوافقة. فإذا لم تجد الوحدة في القائمة، فتأكد من استخدام معالج مناسب وإصدار متوافق من زيوما (الوحدة متاحة فقط في إصدار زيوما برو). ونظراً لأن الوحدة تتعامل مع بث صوتي، فيجب توفر مصدر صوت في السلسلة: إما ميكروفون مدمج في الكاميرا، أو ميكروفون منفصل عبر USB أو IP.

على سبيل المثال، لنفترض أن البث الصوتي في حالتك يأتي من كاميرا IP نفسها. في هذه الحالة، ما عليك سوى استخدام سلسلة وحدات تتكون من "Universal Camera" – "Voice-to-Text" – "Preview and Archive" في زيوما:

نموذج لسلسلة تتضمن وحدة Voice-to-Text الذكية

انقر على أيقونة «تحويل الصوت إلى نص» في السلسلة لفتح إعدادات الوحدة. الخطوة الأولى لاستخدام وحدة «تحويل الصوت إلى نص» هي تنزيل الموارد الإضافية اللازمة لعملها. تبدأ عملية التنزيل تلقائياً عند فتح إعدادات الوحدة لأول مرة. وعند اكتمال تنزيل الموارد الإضافية، ستختفي رسالة «جاري التنزيل».

إعدادات وحدة Voice-to-Text الذكية

 

نصائح من برنامج زيوما للمراقبة بالفيديو تحتوي الموارد الإضافية على مصفوفات بيانات للذكاء الاصطناعي تعتمد عليها وحدة «تحويل الصوت إلى نص»، ويتم تنزيلها عند الطلب من خوادم فيليناسوفت. لا تُرفَق هذه الموارد مع البرنامج للحفاظ على صغر حجمه، إذ ليست ضرورية في جميع أنظمة المراقبة بالفيديو.

 

تتيح الخيارات الجديدة التي تظهر بعد اكتمال التنزيل الاختيار من بين عدة نماذج للتعرف على الصوت مدعومة بالذكاء الاصطناعي. يتميز كل نموذج بنقاط قوة وضعف؛ فهي تختلف عادةً في دقة التعرف وعبء المعالج. وتصنَّف هذه النماذج تقليدياً كالتالي: tiny, base, small, medium, large، مرتبةً حسب زيادة حجم النموذج وجودة التعرف وعبء الأجهزة الناتج عن استخدامها.

إعدادات وحدة Voice-to-Text الذكية

في حقل «اللغة»، اختر اللغة التي سيُقدَّم بها نص التفريغ للكلام (لاحظ أنه لا يلزم تحديد لغة الكلام نفسها).

لتفريغ جميع المحادثات المسموعة، فعِّل خيار «حفظ البيانات في تقرير CSV». سيُحفَظ نص تفريغ المحادثات في ملف جداول بيانات على القرص ضمن الدليل الذي حددته، مما يتيح دمجها في أنظمة أخرى، مثل الأنظمة الإحصائية.

كما يمكن لوحدة «تحويل الصوت إلى نص» رصد عبارات أو كلمات معينة. حدد الكلمات أو العبارات المطلوب البحث عنها في حقل «الكلمات المفتاحية للتعرف». ستستمر الوحدة في الاستماع لكل الكلام في محيط الكاميرا أو الميكروفون، لكنها ستتفاعل فقط عند سماع الكلمات المفتاحية. اربط وحدة الاستجابة المطلوبة بعد وحدة «تحويل الصوت إلى نص» لتلقي إشعار، أو بدء التسجيل، أو إرسال أمر في هذه الحالة.

في حالتنا هذه، ربطنا وحدة «المعاينة والأرشيف» كوحدة وجهة، لذا عند رصد الكلمات المفتاحية المحددة، سيبدأ تسجيل بث الكاميرا، مما يتيح البحث عن المقاطع التي تحتوي على الكلمة المفتاحية المحددة. يمكن دمج هذا الخيار بسهولة مع خيار الحفظ في تقرير CSV؛ وللفعل، فعِّل المربع المقابل أدناه.

تمتلك وحدة «تحويل الصوت إلى نص» ماكرو خاصاً بها هو %VOICE%، ويمكن استخدامه في وحدات الوجهة مثل «إرسال بريد إلكتروني» أو «مشغل التطبيقات» أو «مرسل طلبات HTTP» إذا أردت إرسال نص تفريغ الكلام إليها.

 

التكامل مع البرامج الخارجية

تتيح ميزة «تحويل الصوت إلى نص» في زيوما استخدامها من برامج خارجية، مثل تفريغ محادثات VoIP. باتباع التعليمات أدناه، يمكنك تزويد وحدة «تحويل الصوت إلى نص» بملف .mp3 لفك تشفيره والحصول على النتيجة كنص. بذلك، يمكن استخدام هذه الوحدة حتى في محطات عمل المشغلين التي لا تتوافر فيها كاميرات أو برنامج زيوما. يتم ذلك بطريقتين: عبر Xeoma API أو بتشغيل أمر في وحدة التحكم. هام: تُدعَم ملفات .mp3 فقط.

1. API. للخيار الأول، استخدم Xeoma API مع طلبات JSON. باستخدام الأوامر، يمكنك إرسال طلب إلى خادم زيوما (محلي أو بعيد) لتفريغ ملف .mp3 إلى نص.

مثال:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true"

حيث
استبدل «speech.mp3» بمسار الملف الصوتي على جهاز الكمبيوتر الخاص بك؛

استبدل «192.168.0.135:10090» بعنوان IP لخادم زيوما نشط يدعم تشغيل «تحويل الصوت إلى نص» ومنفذه (عادةً 10090)؛

اترك «Administrator» كما هي، إذ تتاح هذه الميزة فقط لحساب المسؤول في زيوما؛

استبدل "123" بكلمة مرور حساب المسؤول في زيوما؛

"model=large" هو الحقل الذي تختار منه نموذج التعرف. اطّلع على الخيارات المذكورة أعلاه للمزيد من التفاصيل؛

يُضاف "denoise=true" إذا رغبت في تفعيل إلغاء الضوضاء، مما يسهم في بعض الحالات في رفع دقة التعرف؛

استبدل "en" بالرمز المكوّن من حرفين أو ثلاثة (انظر أدناه) للغة التي ترغب في الحصول على النص المفرّغ بها. وإذا اختلفت عن لغة الكلام الفعلية التي يستمع إليها نظام تحويل الصوت إلى نص، فسيتم ترجمتها تلقائيًا إلى اللغة التي حددتها.

ملاحظة: يعيد لك هذا الطلب النص المفرّغ للملف مباشرة في وحدة التحكم أو أي أداة تستخدمها لإرسال الطلب. أما إذا رغبت في حفظ التفريغ كملف نصي، فأضف ">filename.txt" بعد الأمر:

curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true">savetext.txt
حيث
استبدل savetext.txt بالاسم الذي تريده لملف التفريغ النصي.

 

2. تشغيل الأمر. يتيح لك الخيار الثاني إجراء التعرف محليًا على الكمبيوتر عبر أوامر تُنفَّذ في وحدة التحكم، عوضًا عن استخدام API.

مثال:

{Path to Xeoma executable file} -speech2text file.mp3;out.log;large;en;denoise

حيث
استبدل "file.mp3" بالمسار المؤدي إلى الملف الصوتي على جهاز الكمبيوتر الخاص بك؛

استبدل "out.log" بالمسار واسم ملف النص المفرّغ الناتج؛

"large" هو الحقل الذي تختار منه نموذج التعرف. اطّلع على الخيارات المذكورة أعلاه للمزيد من التفاصيل؛

استبدل "en" بالرمز المكوّن من حرفين أو ثلاثة (انظر أدناه) للغة التي ترغب في الحصول على النص المفرّغ بها. وإذا اختلفت عن لغة الكلام الفعلية التي يستمع إليها نظام تحويل الصوت إلى نص، فسيتم ترجمتها تلقائيًا إلى اللغة التي حددتها.

يُضاف "denoise" إذا رغبت في تفعيل إلغاء الضوضاء، مما يسهم في بعض الحالات في رفع دقة التعرف.

قائمة رموز اللغات:

"en": "الإنجليزية",
"zh": "الصينية",
"de": "الألمانية",
"es": "الإسبانية",
"ru": "الروسية",
"ko": "الكورية",
"fr": "الفرنسية",
"ja": "اليابانية",
"pt": "البرتغالية",
"tr": "التركية",
"pl": "البولندية",
"ca": "الكتالونية",
"nl": "الهولندية",
"ar": "العربية",
"sv": "السويدية",
"it": "الإيطالية",
"id": "الإندونيسية",
"hi": "الهندية",
"fi": "الفنلندية",
"vi": "الفيتنامية",
"he": "العبرية",
"uk": "الأوكرانية",
"el": "اليونانية",
"ms": "الملايوية",
"cs": "التشيكية",
"ro": "الرومانية",
"da": "الدنماركية",
"hu": "المجرية",
"ta": "التاميلية",
"no": "النرويجية",
"th": "التايلاندية",
"ur": "الأردية",
"hr": "الكرواتية",
"bg": "البلغارية",
"lt": "الليتوانية",
"la": "اللاتينية",
"mi": "الماورية",
"ml": "المالايالامية",
"cy": "الويلزية",
"sk": "السلوفاكية",
"te": "التيلوغوية",
"fa": "الفارسية",
"lv": "اللاتفية",
"bn": "البنغالية",
"sr": "الصربية",
"az": "الأذربيجانية",
"sl": "السلوفينية",
"kn": "الكانادية",
"et": "الإستونية",
"mk": "المقدونية",
"br": "البريتونية",
"eu": "الباسكية",
"is": "الآيسلندية",
"hy": "الأرمنية",
"ne": "النيبالية",
"mn": "المنغولية",
"bs": "البوسنية",
"kk": "الكازاخستانية",
"sq": "الألبانية",
"sw": "السواحيلية",
"gl": "الجاليكية",
"mr": "الماراثية",
"pa": "البنجابية",
"si": "السنهالية",
"km": "الخميرية",
"sn": "الشونا",
"yo": "اليوروبية",
"so": "الصومالية",
"af": "الأفريكانية",
"oc": "الأوكسيتانية",
"ka": "الجورجية",
"be": "البيلاروسية",
"tg": "الطاجيكية",
"sd": "السندية",
"gu": "الغوجاراتية",
"am": "الأمهرية",
"yi": "الييديشية",
"lo": "اللاوية",
"uz": "الأوزبكية",
"fo": "الفاروية",
"ht": "الكريولية الهايتية",
"ps": "البشتوية",
"tk": "التركمانية",
"nn": "النونورسك",
"mt": "المالطية",
"sa": "السنسكريتية",
"lb": "اللوكسمبرغية",
"my": "الميانمارية",
"bo": "التبتية",
"tl": "التاغالوغية",
"mg": "المالغاشية",
"as": "الأسامية",
"tt": "التتارية",
"haw": "الهاوائية",
"ln": "اللينغالا",
"ha": "الهوسا",
"ba": "الباشكيرية",
"jw": "الجاوية",
"su": "السوندانية",
"yue": "الكانتونية".

 

طريقة الاختبار

1. نزّل زيوما من موقعنا الإلكتروني وشغّله. وتأكد من تشغيل جزء الخادم من زيوما على جهاز يحتوي على المعالج المطلوب.
وتأكد أيضًا من تشغيل زيوما في النسخة التجريبية، أو فعّل رخصة زيوما برو للعمل مع هذه الوحدة.
2. أضف كاميرا، أو انتظر حتى تكتشف زيوما تلقائياً الكاميرات الموجودة على شبكتك. إذا كنت بحاجة إلى استخدام ميكروفون خارجي غير مدمج في الكاميرا، فوصل وحدة «Microphone» وحدد مصدر الصوت المناسب.
3. أضف وحدة «Voice-to-Text» إلى السلسلة وقم بإعدادها.
4. أضف وحدات أخرى عند الحاجة لتعيين ردود الفعل المطلوبة، مثل أرشفة التسجيل، أو إرسال بريد إلكتروني، أو رد فعل مخصص.
5. تم! يمكنك الآن الاستفادة من قدرات زيوما المتقدمة في التعرف الذكي على الكلام.

 

نصائح من برنامج زيوما للمراقبة بالفيديو *تظهر وحدة Voice-to-Text وتعمل فقط على المعالجات التالية:

معالجات Intel بمعمارية 64 بت من السلاسل التالية:
-معالجات Intel Core بدءاً من الجيل الرابع (بما في ذلك الأجيال العاشرة وما بعدها)؛
-معالجات XEON بدءاً من الجيل السادس؛
-معالجات Atom من السلاسل "C23"، "C25"، "C27"، "C33"، "C35"، "C37"، "C38"، "C39"، "P59"، "Z34"، "Z35"، "x5-E39"، أو "x5-E8000"؛
-معالجات Intel Xeon سلسلة E5-24، أو i5-2450M أو i7-2600.

رغم إمكانية عمل هذه الوحدة بالاعتماد على قدرة المعالج المركزي (CPU)، يوصى بتوفر بطاقة رسوميات في جهاز الخادم.

 
زيوما تقدم المزيد!
توفر زيوما أيضاً وحدات أخرى لمعالجة التدفقات الصوتية:
Microphone وحدة تتيح لك اختيار ميكروفون USB أو ميكروفون IP منفصل كمصدر للصوت.
كاشف الصوت وحدة تتيح تحليل البث الصوتي وتفعيل التنبيهات عند تجاوز مستوى الصوت حداً معيناً.
كاشف الأحداث الصوتية وحدة ذكية قادرة على التعرف على أصوات محددة: إنذارات السيارات، وبكاء الأطفال، وطلقات الرصاص، والصراخ، وتحطّم الزجاج.
 

 

شاهد فيديو عن وحدة تحويل الصوت إلى نص في زيوما

 

نصيحة هامة حول بيانات الكاميرا الحرارية هل تحتاج إلى ميزات أخرى؟ يمكننا تطويرها وإضافتها إلى زيوما عبر خدمة التطوير المخصصة. التفاصيل

 

 
تجربة مجانية لزيوما

جرّب زيوما مجاناً! أدخل اسمك وبريدك الإلكتروني في الحقول أدناه لاستلام الترخيص، ثم انقر على زر «إرسال تراخيص زيوما التجريبية المجانية إلى البريد الإلكتروني».




نوصي بعدم استخدام عناوين بريد إلكتروني تحتوي على بيانات شخصية، وبعدم إرسال أي بيانات شخصية إلينا بأي وسيلة أخرى. وفي حال قيامك بذلك، فإن إرسال هذا النموذج يعني تأكيد موافقتك على معالجة بياناتك الشخصية
 

 

لديك أسئلة؟ تحتاج إلى مساعدة؟ اتصل بنا! يسعدنا مساعدتك!

14 أغسطس 2024

اقرأ المزيد:
وحدات إضافية في زيوما
قائمة أسعار الوحدات المعتمدة على الذكاء الاصطناعي في زيوما