في عالم تكنولوجيا تحويل الكلام إلى نص (STT) سريع التطور، قد يبدو اتخاذ قرار مستنير أمرًا صعبًا. ومع ذلك، فإن نجاح مشروعك يتوقف على هذا القرار الحاسم. مع وجود الكثير من الادعاءات حول الأداء والدقة، كيف يمكنك التنقل في متاهة الضجيج التسويقي لاختيار البائع المناسب؟ الجواب يكمن في المقارنة الموضوعية.
أحد العوامل الرئيسية التي يجب مراعاتها عند تقييم نموذج STT هو معدل الخطأ في الكلمات (WER). WER هو مقياس يستخدم لتحديد دقة النسخ التي ينتجها نظام STT. في منشور المدونة هذا، سوف نستكشف ماهية WER، وسبب أهميتها، والفروق الدقيقة في حساب WER للغات المختلفة، وما الذي يعتبر درجة WER جيدة.
معدل خطأ الكلمات أو WER هو مقياس يستخدم بشكل أساسي في مجال التعرف على الكلام لقياس أداء نظام التعرف التلقائي على الكلام (ASR). يقوم WER بحساب الحد الأدنى لعدد العمليات (الاستبدالات والحذف والإدراج) المطلوبة لتغيير نسخ النظام (التنبؤ) إلى النسخ المرجعي (الحقيقة)، مقسومًا على عدد الكلمات في المرجع.
يمكن أن تتراوح WER من 0 إلى ما لا نهاية. كلما اقترب WER من 0، كلما كان ذلك أفضل. غالبًا ما يتم تمثيل WER أيضًا كنسبة مئوية. وعادة ما يتم حسابه عن طريق ضرب 100 فيه فقط. على سبيل المثال، يمكن أيضًا تمثيل WER بقيمة 0.15 على أنها 15%.
WER مهم لأنه يوفر:
أعلن الموفر X عن WER لنموذجه باللغة الإنجليزية باعتباره 4.5، وقام آخر بنشر 7.5 باعتباره نموذجه. نحن نعلم أن انخفاض WER يشير إلى دقة أعلى، فهل يعني ذلك أن المزود X هو المزود الأفضل بالنسبة لك؟ لا، الجواب ليس بهذه البساطة.
قد تكون طريقة التقييم التي كان من الممكن أن يستخدمها الموفران X وY مختلفة تمامًا. كان من الممكن أن يقوموا بتقييمهم على مجموعات اختبار مختلفة (تتأثر بجودة التسجيل، والضوضاء، واللهجات، وما إلى ذلك) أو كان من الممكن أن يتم تطبيعهم بشكل مختلف. يعد WER مقياسًا حساسًا ويمكن أن تؤثر هذه العوامل بشكل كبير على النتائج.
ومن هنا تأتي الحاجة إلى تقييم جميع مقدمي الخدمات على مجموعة اختبار تمثل حالة الاستخدام الخاصة بك، ثم مقارنة النتائج والمقاييس.
تطبيع النص هو عملية تحويل النص إلى نموذج ثابت وموحد. يعد التطبيع خطوة حاسمة قبل حساب WER. فهو يساعد على ضمان التعامل مع الأشكال المختلفة أو التمثيلات لنفس المحتوى على أنها متكافئة، وبالتالي تحسين دقة وكفاءة تحليل النص. ولكنها ليست عملية سهلة ويمكن أن تكون دقيقة للغاية بالنسبة للغات المختلفة.
عادةً ما يتضمن التطبيع للغة الإنجليزية ما يلي:
يمكن أن يصبح التطبيع مع لغات أخرى مثل اللغة العربية أكثر صعوبة بسبب تنوعها النحوي والكتابي والتنوع الصوتي. تتضمن بعض الخطوات الإضافية لتطبيع البرنامج النصي ما يلي:
يمكن فهم الحاجة إلى التطبيع بشكل أفضل باستخدام مثال:
بدون التطبيع، تبلغ نسبة WER 50% لأن كلمتين من أصل 4 كلمات في الجملة المتوقعة تحتاج إلى استبدال للوصول إلى الحقيقة. من ناحية أخرى، مع التطبيع، WER هو 0٪ حيث أن الحقيقة الأساسية والتنبؤ هي نفسها تمامًا بعد التطبيع.
وبالتالي، ساعدنا التطبيع في المثال أعلاه على قياس مدى قدرة النموذج على تحويل الكلام إلى نص بدقة، دون أن يتأثر بمدى جودة ترقيم النص. يعد هذا المثال أيضًا مؤشرًا واضحًا على مدى حساسية WER للميزات البسيطة للنص.
يعد التقييم البشري أيضًا خطوة مهمة جدًا في عملية اختيار أفضل مزود خدمة STT. وذلك لأن النموذج يمكن أن يؤدي أداءً جيدًا ولكن أرقام WER تشير إلى أنه دون المتوسط للأسباب التالية:
ومن ثم، فمن الجيد أن يتم التحقق من التوقعات من قبل إنسان يمكنه التحدث وقراءة اللغة.
توجه هنا لتجربة حاسبة WER التفاعلية الخاصة بنا.
غالبًا ما تتوقف نتيجة WER المستهدفة على الاحتياجات الفريدة لصناعة معينة. بشكل عام، يشير انخفاض WER إلى الأداء المتفوق. يمثل 0% WER نسخًا مثاليًا، وإن كان نادرًا. عادةً ما يُنظر إلى نسبة WER التي تقل عن 10% على أنها ممتازة، في حين تعتبر الدرجات التي تتراوح بين 10% و20% جيدة.
لكن هذا التعميم لا ينبغي بالضرورة أن يكون نجمك الهادي. WER، كما رأينا، يمكن أن يختلف كثيرًا اعتمادًا على منهجيات الاختبار ومجموعات الاختبار. ومن ثم، ينبغي النظر إلى WER بطريقة نسبية. إن استخدام نفس استراتيجيات الاختبار لمقارنة النتائج بين مقدمي الخدمة يساعد في اتخاذ قرار أكثر استنارة من مجرد النظر في النتائج المطلقة. من الضروري أيضًا مواءمة معايير WER مع المتطلبات المحددة ومعايير الصناعة لتطبيقك.
تلعب WER دورًا حيويًا في تقييم دقة وموثوقية بائع STT. من خلال فهم WER والفروق الدقيقة بين اللغات المختلفة، إلى جانب تحديد النطاق المناسب لدرجات WER بناءً على السياق المحدد، يمكنك اتخاذ قرار مستنير بشأن أي مورد STT يتوافق بشكل أفضل مع متطلباتك وتوقعاتك الفريدة.
توجه إلى https://voice.neuralspace.ai/login لتجربة VoiceAI مجانًا.