دقة التسجيل في تحويل الكلام إلى نص باللغة الهندية

Aditya Dalmia

يسعدنا أن نعلن أن VoiceAI لم تضع معايير جديدة في دقة تحويل الكلام إلى نص (STT) باللغة العربية فحسب، بل أيضًا باللغة الهندية. في هذه الاختبارات، تفوق نموذج STT الخاص بشركة NeuralSpace على سبعة مقدمي خدمات آخرين، بأداء أفضل بنسبة 138% عن OpenAI و77% عن Google. وهذا يعني أن نسخ NeuralSpace تحتوي على أخطاء أقل بمقدار 1.8 مرة من Google و2.4 مرة أقل من OpenAI في المتوسط.

وضع معيار جديد في التعرف على الكلام باللغة الهندية

ولا توضح المقارنة المعيارية الأخيرة لنموذجنا الهندي إنشاء معيار صناعي جديد في لغة الذكاء الاصطناعي فحسب، بل توضح أيضًا سعينا الحثيث لتطوير ابتكاراتنا. ما يميز نموذجنا حقًا هو دقته التي لا مثيل لها. تحقيق تحسن نسبي ملحوظ بنسبة 15% مقارنة بنموذجنا السابق (كما هو مفصل في الجدول 1).

مع أكثر من 25000 ساعة من البيانات الصوتية، تم تدريب نموذج STT الخاص بنا بدقة على أصوات متنوعة، من أشخاص من مختلف الأعمار والأجناس واللهجات واللهجات، بجودة صوت متفاوتة. وقد أدى هذا التدريب القوي، المكمل بالتحقق البشري من النسخ التي تم إنشاؤها بواسطة الذكاء الاصطناعي، إلى نموذج تفوق في الأداء على جميع البائعين الآخرين.

في تحليلنا، وجدنا أن تقنية STT الخاصة بنا تتفوق حتى في السيناريوهات الأكثر تحديًا، مثل الكلام المكتوم بسبب ضوضاء الخلفية الشديدة أو المتأثر باضطرابات الميكروفون - وهي عقبة شائعة في بيئات مراكز الاتصال.

مع هذا الإنجاز البارز في دقة STT الهندية، يسعدنا أن نعلن عن إطلاق ميزات جديدة لتحليل الكلام في VoiceAI، المبنية على أساس تقنية التعرف على الكلام الرائدة لدينا. تبدأ الرؤى ذات المغزى بالنسخ الدقيق. تساعدنا هذه التقنيات معًا على تحقيق تقدم كبير نحو مهمتنا المتمثلة في إزالة حواجز اللغة في مجال التكنولوجيا.

الجدول 1: متوسط معدل الخطأ في الكلمات في تحويل الكلام إلى نص باللغة الهندية من NeuralSpace (WER). الحساب: التغيير في WER / WER السابق

منهجية المقارنة المرجعية

لقد استخدمنا الطريقة الأكثر شيوعًا لاختبار دقة أنظمة تحويل الكلام إلى نص (STT)، وهي معدل خطأ الكلمات (WER)*. يحدد هذا المقياس النسبة المئوية للكلمات في مخرجات STT التي تختلف عن النسخ الفعلي "الحقيقة الأساسية" الدقيق بنسبة 100%. يتم حساب WER عن طريق قسمة العدد الإجمالي للأخطاء، والذي يتضمن الاستبدالات والحذف والإدراج، على إجمالي عدد الكلمات في نسخ الحقيقة الأساسية.

حساب وير

يشير انخفاض WER إلى دقة أعلى لنظام STT. تعرف على كيف يمكن للاختلاف الهامشي في WER أن يؤثر على جودة النسخ الخاص بك.

الجدول 2: يوضح نص المقارنة لموفري STT كيفية مقارنة المخرجات المعترف بها بالمرجع. تشير الكلمات باللون الأحمر إلى الأخطاء مع الاستبدالات بالخط المائل، وعمليات الحذف التي يتم شطبها، والإدراجات التي تتم الإشارة إليها بشرطة سفلية. ( النسخ 1 الصوت ; النسخ 2 الصوت )

مجموعة بيانات الاختبار

ولضمان إجراء تقييم شامل، قمنا بحساب معدل خطأ الكلمات (WER) عبر 5 مجموعات بيانات متنوعة باستخدام 2000 عينة صوتية تم اختيارها عشوائيًا.

الجدول 3: أوصاف مجموعة بيانات الاختبار

نتائج

بالنسبة لمعيار STT الهندي التالي، استخدمنا WER كمقياس عبر مجموعات البيانات المحددة. يحقق نموذج NeuralSpace أدنى مستوى من WER (أعلى دقة) متفوقًا على سبعة موردين، مع أداء أفضل بنسبة 138% على OpenAI و77% على Google.

انخفاض WER أفضل

نتائج قياس الأداء لمجموعة البيانات

عبر مجموعات البيانات، تُصنف شركة NeuralSpace باستمرار بين أفضل الشركات أداءً. يحقق نموذج STT الهندي الخاص بنا معدل WER يبلغ 18.05، مما يوضح فعاليته العامة عبر سياقات صوتية متعددة.

الجدول 4: WER لمقدمي الخدمات ومجموعات البيانات المختلفة
انخفاض WER أفضل

تنوع مجموعات البيانات: بدءًا من مدخلات الصوت العام (CV11) مفتوحة المصدر وحتى محاضرات MUCS الفنية ونشرات أخبار Shrutilipi، تمتد مجموعات البيانات لدينا على نطاق صوتي واسع. ويضمن هذا التنوع اختبارًا قويًا لنماذج تحويل الكلام إلى نص عبر مختلف الصفات واللهجات الصوتية.

التفوق على Shrutilipi: يبرز أداء NeuralSpace في مجموعة بيانات Shrutilipi بـ WER يبلغ 10.47. تؤكد مجموعة البيانات هذه، المستمدة من نشرات أخبار إذاعة All India Radio، على قدرة النموذج على فهم ونسخ الخطاب الهندي الرسمي، وهي ميزة حاسمة للتطبيقات المهنية.

الميزة التنافسية في MUCS: في مجموعة بيانات MUCS، التي تتضمن محاضرات فنية، سجلت NeuralSpace معدل WER قدره 24.07. وهذا أمر جدير بالملاحظة نظرًا لأن المحاضرات الفنية غالبًا ما تحتوي على مصطلحات خاصة بمجال معين، مما قد يكون من الصعب نسخه.

المتانة في Gram Vaani: تمثل مجموعة بيانات Gram Vaani، التي تحتوي على كلام بجودة الهاتف، تحديات فريدة بسبب جودة الصوت واللهجات الإقليمية المتنوعة. يعد معدل WER الخاص بـ NeuralSpace البالغ 26.77 أمرًا جديرًا بالثناء نظرًا للصعوبات الكامنة في مجموعة البيانات هذه. تسجل Google، أحد منافسيها الرئيسيين، معدل WER قدره 56.77 على نفس مجموعة البيانات، مما يظهر فرقًا قدره 29.99 لصالح NeuralSpace.

مساهمة اللغة العالمية (ULCA): في مجموعة بيانات ULCA، التي تحتوي على صوتيات من مصادر متنوعة مثل القنوات التلفزيونية والإذاعية الحكومية، حققت NeuralSpace معدل WER قدره 12.48. Azure، المنافس القريب، حصل على 27.75 نقطة، بفارق 15.27 نقطة.

الاستفادة من الدقة للحصول على رؤى صوتية متقدمة

تبدأ رؤى البيانات عالية الجودة بالنسخ الدقيق. باستخدام منصة VoiceAI ، يمكنك إنشاء رؤى صوتية لتحليل بيانات ما بعد المكالمة بسهولة لتحديد الاتجاهات في عملك وتتبع أداء الوكيل. بفضل STT الدقيقة جنبًا إلى جنب مع التحليلات المتقدمة وإمكانيات الترجمة، يحصل عملك وعملائك على أفضل الحلول في السوق.

قم بزيارة موقعنا الإلكتروني لمعرفة المزيد أو قم بالتسجيل في منصة VoiceAI لتجربة خدمة تحويل الكلام إلى الرسائل النصية مجانًا!

الحواشي

*على الرغم من أن WER هو المقياس الأكثر شيوعًا لتقييم موردي STT، فإنه يمكن أن يختلف كثيرًا اعتمادًا على منهجيات الاختبار ومجموعات الاختبار. ومن ثم، ينبغي النظر إلى WER بطريقة نسبية. اقرأ المزيد .

**تم إجراء الاختبارات في أكتوبر 2023 ضد Google وAzure وAWS وOpenAI وDeepgram وSpeechmatics وSymbAI ضد نموذج STT المحدث لشركة NeuralSpace VoiceAI.

Join our expert-led session where we demystify the selection process for STT systems.

What’s a Rich Text element?

The rich text element allows you to create and format headings, paragraphs, blockquotes, images, and video all in one place instead of having to add and format them individually. Just double-click and easily create content.

Static and dynamic content editing

A rich text element can be used with static or dynamic content. For static content, just drop it into any page and begin editing. For dynamic content, add a rich text field to any collection and then connect a rich text element to that field in the settings panel. Voila!

How to customize formatting for each rich text

Headings, paragraphs, blockquotes, figures, images, and figure captions can all be styled after a class is added to the rich text element using the "When inside of" nested selector system.

  • JKDV
  • EVEV
  • EV
  • dfdb
  • dfb

اشترك في نشرتنا الإخبارية