تحويل الكلام إلى نص باللغة العربية: مقارنة نتائج أفضل موفري خدمة STT

Felix Laumann


النتائج مأخوذة من أحدث معاييرنا لخدمات تحويل الكلام إلى نص (STT) باللغة العربية. لقد برزت شركة NeuralSpace كشركة رائدة في مجال الدقة، حيث حققت متوسط دقة مثير للإعجاب يصل إلى 91% عبر اللهجات المختلفة. لقد تجاوز أدائنا خدمات Google وAWS وAzure وIntella وOpenAI وSymbl AI، مع زيادة مطلقة في الدقة بنسبة 59% مقارنة بشركة IBM.

قيمة STT الدقيقة

لدى STT مجموعة متنوعة من التطبيقات بدءًا من تحويل المكالمات والاجتماعات إلى أنظمة خدمة العملاء الآلية وإنشاء الترجمة وتحليلات الكلام والمزيد. ومع ذلك، لكي تكون حالات الاستخدام هذه فعالة حقًا، تعد دقة STT أمرًا بالغ الأهمية.

يمكن أن يؤدي النسخ غير الدقيق إلى سوء فهم وتفسيرات خاطئة، مما يؤدي إلى عواقب وخيمة، خاصة في مجالات مثل الرعاية الصحية والإجراءات القانونية. بالإضافة إلى ذلك، يمكن أن تؤثر نسخ STT غير الدقيقة سلبًا على رضا المستخدم، مما يؤدي إلى تآكل الثقة في المنتج أو الخدمة التي تقدمها، مما يعيق في النهاية اعتماد المستخدم. على هذا النحو، من المهم تقييم أداء خدمات STT بلغة ولهجة المستخدمين النهائيين.

تحدي اللهجات لـ STT

يتطلب تطوير نظام STT دقيق خوارزميات ونماذج متقدمة. تتضمن العملية تحويل البيانات الصوتية المعقدة إلى نص، الأمر الذي يتطلب من النظام بناء فهم عميق للفروق الدقيقة في اللغة واللهجات واللهجات التي يدعمها. أحد التحديات الرئيسية التي تواجه أنظمة STT هو التعامل مع اللهجات الإقليمية. قد تواجه نماذج STT المدربة على بيانات اللغة الموحدة صعوبة في نسخ اللغة المنطوقة التي تنحرف عن المعيار بدقة.

على الرغم من أن اللغة العربية الفصحى الحديثة (MSA) هي اللغة المكتوبة الرسمية المستخدمة في معظم السياقات الرسمية، إلا أنها ليست اللغة المستخدمة في الحياة اليومية من قبل غالبية الناس الذين يعيشون في البلدان الناطقة باللغة العربية في الشرق الأوسط وشمال أفريقيا (MENA). وبدلاً من ذلك، يتحدث الناس لهجات إقليمية مختلفة يمكن أن تختلف بشكل كبير في النطق والقواعد والمفردات. ولمواجهة هذا التحدي، تحتاج نماذج STT إلى التدريب على كمية هائلة من البيانات اللغوية المتنوعة التي تشمل اللهجات الإقليمية لتحسين دقتها وأدائها.

بالإضافة إلى ذلك، تعتمد دقة خدمة STT بشكل كبير على جودة ووضوح إدخال الصوت، مع انخفاض الأداء في البيئات الصاخبة أو مع التسجيلات منخفضة الجودة. يمكن أن يساعد دمج المعرفة اللغوية باللهجات الإقليمية وتكييف النماذج الصوتية مع لهجات محددة في تحسين دقة أنظمة STT للغات غير الموحدة. التأكد من قدرتهم على الأداء بشكل موثوق في مواقف العالم الحقيقي.

لتوفير تقييم شامل لأنظمة STT العربية لدينا، أجرينا اختبارات دقة قارنت تدوينات NeuralSpace مع تلك الخاصة بثمانية من مقدمي الخدمات الآخرين، وهم Intella، وSpeechmatics، وOpenAI's Whisper، وGoogle، وAzure، وAWS، وIBM، وSymbl AI. تم إجراء الاختبار على خمس مجموعات بيانات متاحة للجمهور والتي تضمنت أصواتًا متنوعة لمتحدثين باللغة العربية يتحدثون مجموعة متنوعة من اللهجات واللهجات الإقليمية.

استخدمنا الطريقة الأكثر شيوعًا لاختبار دقة أنظمة تحويل الكلام إلى نص (STT)، وهي معدل خطأ الكلمات (WER). يحدد هذا المقياس النسبة المئوية للكلمات في مخرجات STT التي تختلف عن النسخ الفعلي الدقيق بنسبة 100%، والذي يسمى "الحقيقة الأساسية". يتم حساب WER عن طريق قسمة العدد الإجمالي للأخطاء، والذي يتضمن الاستبدالات والحذف والإدراج، على إجمالي عدد الكلمات في نسخ الحقيقة الأساسية.

💡 عادةً ما يتم إنشاء الحقيقة الأساسية بواسطة الناسخين البشريين الذين يستمعون إلى الصوت ويحولونه يدويًا إلى نص.
يشير انخفاض WER إلى دقة أعلى لنظام STT.

ومع ذلك، فإن WER حساس للاختلافات في التهجئة وعلامات الترقيم والأحرف الكبيرة، مما قد يؤدي إلى معدلات خطأ أعلى حتى بالنسبة لعمليات النسخ الصحيحة. لمعالجة هذه المشكلة، نستخدم أداة تسوية خاصة باللغة لتوحيد النص وجعله أقل حساسية لمثل هذه الاختلافات، مما يؤدي إلى تقييم أكثر دقة لأداء نظام STT. يعرض هذا المعيار مقارنة بين دقة مقدمي خدمات STT المختلفين. يتم حساب الدقة ببساطة عن طريق طرح WER من 100.

الدقة = 100 - WER

مجموعات بيانات الاختبار

تم إجراء المعيار باستخدام مجموعات البيانات التالية:

نتائج

حققت شركة NeuralSpace أعلى دقة بين موفري خدمة تحويل الكلام إلى نص (STT) باللغة العربية في جميع مجموعات البيانات التي تم تقييمها، بمتوسط دقة 90.75 % ودقة قصوى تبلغ 95%. ومن الجدير بالذكر أنه في مجموعة بيانات MASC، حققت NeuralSpace معدل دقة أعلى بنسبة 59% من النظام الأقل أداءً (IBM)، مما يوضح تباينًا كبيرًا في أداء أنظمة STT عبر مقدمي الخدمات.

يوضح الجدول أدناه دقة Intella وSpeechmatics وOpenAI Whisper وGoogle وAzure وAWS وIBM وSymbl وNeuralSpace في جميع مجموعات البيانات التي قمنا بقياسها

حققت شركة NeuralSpace أداءً استثنائيًا في اللهجات العربية من خلال تدريب نموذج تحويل الكلام إلى نص (STT) الخاص بنا باستخدام بيانات من مصادر ومنسقة بعناية، وذلك باستخدام خبرة فريقنا من اللغويين الذين يتقنون جميع اللهجات. هذا النموذج عبارة عن نظام قائم على محول التشفير وفك التشفير يمكنه نسخ تسجيلات الكلام بأطوال مختلفة بدقة، حتى في وجود ضوضاء في الخلفية أو موسيقى، أو مكبرات صوت متعددة، أو ضغط عالي الجودة.

خاتمة

لقد أدى تركيز NeuralSpace على إنشاء نماذج دقيقة للغة العربية إلى أداء استثنائي في النسخ STT، متجاوزًا موفري STT الرائدين في الصناعة باللغات الأخرى. ومع الالتزام المستمر بتطوير الخوارزميات والنماذج المتقدمة التي تلتقط الفروق الدقيقة في اللهجات العربية الإقليمية، تهدف NeuralSpace إلى توفير تجارب سلسة وموثوقة مدعومة بالذكاء الاصطناعي للعملاء في العالم الناطق باللغة العربية.

تواصل معنا لمعرفة المزيد عن NeuralSpace أو قم بزيارة موقعنا على الإنترنت. توجه إلى منصة NeuralSpace VoiceAI لتجربة خدمة STT مجانًا!


What’s a Rich Text element?

The rich text element allows you to create and format headings, paragraphs, blockquotes, images, and video all in one place instead of having to add and format them individually. Just double-click and easily create content.

Static and dynamic content editing

A rich text element can be used with static or dynamic content. For static content, just drop it into any page and begin editing. For dynamic content, add a rich text field to any collection and then connect a rich text element to that field in the settings panel. Voila!

How to customize formatting for each rich text

Headings, paragraphs, blockquotes, figures, images, and figure captions can all be styled after a class is added to the rich text element using the "When inside of" nested selector system.

  • JKDV
  • EVEV
  • EV
  • dfdb
  • dfb

اشترك في نشرتنا الإخبارية