ماذا يحدث:
في مارس 2019،
صحيفة نوي تسورشر أطلقت شركة (NZZ) خدمة جديدة لتحويل النص إلى كلام للجمهور، كنسخة محسّنة من مشغل الصوت التجريبي الذي أطلقته في أكتوبر الماضي. وقد شاركت الشركة بعض الدروس الرئيسية التي تعلمتها خلال هذه العملية.
حفر أعمق:
لا يكفي جوجل وايف نت للغة الألمانية السويسرية
استخدمت NZZ تقنية Google Wavenet لإنشاء ملفاتها الصوتية، ورغم كفاءة هذه التقنية في التعامل مع اللغات (حيث تدعم حاليًا تسع لغات بجودة صوت طبيعية)، إلا أنها لم تكن كافية للتعامل مع تعقيدات اللغة الألمانية السويسرية. ولحل هذه المشكلة، زودت NZZ برنامجًا وسيطًا مزودًا بمعجم لمعالجة الكلمات قبل تحويلها إلى صوت.
يجب أن تكون الهندسة المعمارية قابلة للمزج والتنسيق
في ظلّ صناعة متغيرة باستمرار، تتطور فيها الأدوات والاحتياجات والمنتجات، احتاجت شركة NZZ إلى بناء خدمة قابلة للتكيف بسهولة مع الظروف المتغيرة. ومن خلال بناء بنية مرنة قابلة للتخصيص، تمكنت من نقل الخدمة من منصة Amazon Polly إلى منصة Google Wavenet في وقت قصير، مما أدى إلى تحسينات كبيرة.
الصوت ليس للجميع
بعض الناس يعشقون الصوت، بينما لا يفضله آخرون. طلبت NZZ من كلا النوعين من المستخدمين تقييم محركات تحويل النص إلى كلام المختلفة، بالإضافة إلى نص يقرأه شخص حقيقي. وكما هو متوقع، قيّمت المجموعتان الصوت البشري الطبيعي بأعلى تقييم. مع ذلك، لم تكن هذه النتيجة ذات أهمية كبيرة، باستثناء حقيقة أن المستخدمين إما يفضلون الصوت أو لا، وأن وجود الصوت البشري أو عدمه لم يكن له تأثير يُذكر على الاستخدام.
تقنيات لتحويل نص مكتوب إلى ملف صوتي جيد
من المهم أن يكون المحتوى الصوتي ممتعًا للاستماع، ولذلك اضطرت NZZ إلى استخدام تصميم مختلف لتحويل مقالاتها إلى صيغة MP3 عالية الجودة. وقد تطلب ذلك دراسة متأنية لكيفية تفضيل المستخدمين للاستماع إلى المقالات، وهو ما أثر على قوالب الصوت الخاصة بهم.
تُشكل تجارب اللاعبين المختلفة تحديًا
أرادت شركة NZZ تقديم نظام الصوت الخاص بها عبر جميع منتجاتها وعلى جميع المنصات (أجهزة الكمبيوتر المكتبية والأجهزة اللوحية والتطبيقات). وقد استلزم ذلك تصميم وتطوير العديد من إصدارات المشغلات المختلفة لمراعاة الاعتبارات التقنية في مختلف المشغلات.
الخط السفلي:
هناك العديد من المتغيرات التي تدخل في إنشاء خدمة صوتية جيدة لتحويل النص إلى كلام، ويجب أخذها في الاعتبار بشكل كامل أثناء البناء والاختبار والإصدار التجريبي من أجل إطلاق منتج محتوى صوتي عالي الجودة بنجاح.