NeuralSpace Arabic

في عالم تكنولوجيا تحويل الكلام إلى نص (STT) سريع التطور، قد يبدو اتخاذ قرار مستنير أمرًا صعبًا. ومع ذلك، فإن نجاح مشروعك يتوقف على هذا القرار الحاسم. مع وجود الكثير من الادعاءات حول الأداء والدقة، كيف يمكنك التنقل في متاهة الضجيج التسويقي لاختيار البائع المناسب؟ الجواب يكمن في المقارنة الموضوعية.

أحد العوامل الرئيسية التي يجب مراعاتها عند تقييم نموذج STT هو معدل الخطأ في الكلمات (WER). WER هو مقياس يستخدم لتحديد دقة النسخ التي ينتجها نظام STT. في منشور المدونة هذا، سوف نستكشف ماهية WER، وسبب أهميتها، والفروق الدقيقة في حساب WER للغات المختلفة، وما الذي يعتبر درجة WER جيدة.

‍ الوجبات الرئيسية:

يعد WER مقياسًا حيويًا لأداء نموذج STT.
فهم تقنيات التطبيع في حساب WER والتحديات المرتبطة بها.
من الضروري مقارنة الخدمات باستخدام مجموعة اختبار ذات صلة بسبب اختلاف طرق التقييم.
يختلف حساب WER باختلاف اللغات، حيث أنها تظهر خصائص لغوية ونطقًا فريدًا.
تعرف على كيفية قياس WER وإجراء التقييمات الخاصة بك باستخدام الآلة الحاسبة الخاصة بنا.

ما هو معدل خطأ الكلمات (WER)؟

معدل خطأ الكلمات أو WER هو مقياس يستخدم بشكل أساسي في مجال التعرف على الكلام لقياس أداء نظام التعرف التلقائي على الكلام (ASR). يقوم WER بحساب الحد الأدنى لعدد العمليات (الاستبدالات والحذف والإدراج) المطلوبة لتغيير نسخ النظام (التنبؤ) إلى النسخ المرجعي (الحقيقة)، مقسومًا على عدد الكلمات في المرجع.

يمكن أن تتراوح WER من 0 إلى ما لا نهاية. كلما اقترب WER من 0، كلما كان ذلك أفضل. غالبًا ما يتم تمثيل WER أيضًا كنسبة مئوية. وعادة ما يتم حسابه عن طريق ضرب 100 فيه فقط. على سبيل المثال، يمكن أيضًا تمثيل WER بقيمة 0.15 على أنها 15%.

WER مهم لأنه يوفر:

مقياس الأداء : يعطي مقياسًا موضوعيًا لمدى نجاح نظام ASR في نسخ الكلام إلى نص.
المقارنة : تتيح المقارنة بين أنظمة ASR المختلفة أو إصدارات النظام.

لماذا تقيم النماذج بنفسك؟

أعلن الموفر X عن WER لنموذجه باللغة الإنجليزية باعتباره 4.5، وقام آخر بنشر 7.5 باعتباره نموذجه. نحن نعلم أن انخفاض WER يشير إلى دقة أعلى، فهل يعني ذلك أن المزود X هو المزود الأفضل بالنسبة لك؟ لا، الجواب ليس بهذه البساطة.

قد تكون طريقة التقييم التي كان من الممكن أن يستخدمها الموفران X وY مختلفة تمامًا. كان من الممكن أن يقوموا بتقييمهم على مجموعات اختبار مختلفة (تتأثر بجودة التسجيل، والضوضاء، واللهجات، وما إلى ذلك) أو كان من الممكن أن يتم تطبيعهم بشكل مختلف. يعد WER مقياسًا حساسًا ويمكن أن تؤثر هذه العوامل بشكل كبير على النتائج.

ومن هنا تأتي الحاجة إلى تقييم جميع مقدمي الخدمات على مجموعة اختبار تمثل حالة الاستخدام الخاصة بك، ثم مقارنة النتائج والمقاييس.

كيفية تقييم خدمات STT

حدد حالة الاستخدام الخاصة بك وقم بإعداد مجموعة اختبار صوتي تمثيلية تحتوي على عدد مناسب من الملفات. في مكان ما حوالي 5 ساعات من الصوت (2000 ملف مدة كل منها 10 ثوانٍ تقريبًا) يعد رقمًا جيدًا!
قم بتشغيل النسخ على كافة النماذج/الموفرين لمجموعة الاختبار بأكملها.
بعد الحصول على النتائج، قم بتطبيع (المزيد حول التطبيع أدناه) كلاً من النتائج والحقائق الأرضية.
حساب WER على جميع العينات. لا تحسب WER لكل عينة ثم قم بمتوسطها.
قارن على أساس هذا WER.
التقييم البشري.

ما هو التطبيع؟

تطبيع النص هو عملية تحويل النص إلى نموذج ثابت وموحد. يعد التطبيع خطوة حاسمة قبل حساب WER. فهو يساعد على ضمان التعامل مع الأشكال المختلفة أو التمثيلات لنفس المحتوى على أنها متكافئة، وبالتالي تحسين دقة وكفاءة تحليل النص. ولكنها ليست عملية سهلة ويمكن أن تكون دقيقة للغاية بالنسبة للغات المختلفة.

عادةً ما يتضمن التطبيع للغة الإنجليزية ما يلي:

تحويل جميع الحروف إلى أحرف صغيرة أو كبيرة.
إزالة علامات الترقيم أو الأحرف الخاصة.
توسيع الانقباضات (على سبيل المثال، "ليست" إلى "ليست").
تحويل الأرقام إلى كلمات (على سبيل المثال، "100" إلى "مائة") أو العكس.
تصحيح الأخطاء الإملائية.

يمكن أن يصبح التطبيع مع لغات أخرى مثل اللغة العربية أكثر صعوبة بسبب تنوعها النحوي والكتابي والتنوع الصوتي. تتضمن بعض الخطوات الإضافية لتطبيع البرنامج النصي ما يلي:

إزالة علامات التشكيل
توحيد وتطبيع الحرف (على سبيل المثال، توحيد حرف ا (الألف) الذي له تمثيلات متعددة وتحويل ة (تا مربوطا) إلى ه (ها))
تحليل الحروف (على سبيل المثال، تحلل لا (لام-ألف) إلى الحروف المكونة لها ا و ا)

يمكن فهم الحاجة إلى التطبيع بشكل أفضل باستخدام مثال:

بدون التطبيع، تبلغ نسبة WER 50% لأن كلمتين من أصل 4 كلمات في الجملة المتوقعة تحتاج إلى استبدال للوصول إلى الحقيقة. من ناحية أخرى، مع التطبيع، WER هو 0٪ حيث أن الحقيقة الأساسية والتنبؤ هي نفسها تمامًا بعد التطبيع.

وبالتالي، ساعدنا التطبيع في المثال أعلاه على قياس مدى قدرة النموذج على تحويل الكلام إلى نص بدقة، دون أن يتأثر بمدى جودة ترقيم النص. يعد هذا المثال أيضًا مؤشرًا واضحًا على مدى حساسية WER للميزات البسيطة للنص.

التقييم البشري

يعد التقييم البشري أيضًا خطوة مهمة جدًا في عملية اختيار أفضل مزود خدمة STT. وذلك لأن النموذج يمكن أن يؤدي أداءً جيدًا ولكن أرقام WER تشير إلى أنه دون المتوسط للأسباب التالية:

الاختلاف في التمثيل - قد يكون لبعض الكلمات تمثيلات محتملة مختلفة (مسافة إضافية أو واصلة) أو تهجئات مختلفة - على سبيل المثال، في التاغالوغية، "أليس كذلك؟" يمكن كتابتها كـ "di ba" و"diba".
يمكن أن يختلف تمثيل التواريخ والعملة والأعداد الترتيبية نظرًا لوجود عدة طرق صحيحة لكتابتها.

ومن ثم، فمن الجيد أن يتم التحقق من التوقعات من قبل إنسان يمكنه التحدث وقراءة اللغة.

جرب حاسبة WER الخاصة بنا بنفسك

توجه هنا لتجربة حاسبة WER التفاعلية الخاصة بنا.

ما الذي يعتبر WER جيدًا؟

غالبًا ما تتوقف نتيجة WER المستهدفة على الاحتياجات الفريدة لصناعة معينة. بشكل عام، يشير انخفاض WER إلى الأداء المتفوق. يمثل 0% WER نسخًا مثاليًا، وإن كان نادرًا. عادةً ما يُنظر إلى نسبة WER التي تقل عن 10% على أنها ممتازة، في حين تعتبر الدرجات التي تتراوح بين 10% و20% جيدة.

لكن هذا التعميم لا ينبغي بالضرورة أن يكون نجمك الهادي. WER، كما رأينا، يمكن أن يختلف كثيرًا اعتمادًا على منهجيات الاختبار ومجموعات الاختبار. ومن ثم، ينبغي النظر إلى WER بطريقة نسبية. إن استخدام نفس استراتيجيات الاختبار لمقارنة النتائج بين مقدمي الخدمة يساعد في اتخاذ قرار أكثر استنارة من مجرد النظر في النتائج المطلقة. من الضروري أيضًا مواءمة معايير WER مع المتطلبات المحددة ومعايير الصناعة لتطبيقك.

تلعب WER دورًا حيويًا في تقييم دقة وموثوقية بائع STT. من خلال فهم WER والفروق الدقيقة بين اللغات المختلفة، إلى جانب تحديد النطاق المناسب لدرجات WER بناءً على السياق المحدد، يمكنك اتخاذ قرار مستنير بشأن أي مورد STT يتوافق بشكل أفضل مع متطلباتك وتوقعاتك الفريدة.

توجه إلى https://voice.neuralspace.ai/login لتجربة VoiceAI مجانًا.