اخبار منصات الأفلام

اكتشاف الكلام والموسيقى في المحتوى الصوتي | بواسطة مدونة Netflix للتكنولوجيا


مدونة نيتفليكس التقنية

إيرورو أوريف، تشيه وي وو، ويون نينغ (إيمي) هونغ

عندما تستمتع بالموسم الأخير من أشياء غريبة أو كاسا دي بابيل (سرقة الأموال)هل تساءلت يومًا عن أسرار رواية القصص الرائعة إلى جانب العرض المرئي المذهل؟ من لحن الكمان المصاحب لمشهد محوري إلى الترتيب الأوركسترالي المرتفع والمؤثرات الصوتية المدوية التي تدفع تسلسل الحركة على حافة مقعدك، تتحد المكونات المختلفة للموسيقى التصويرية الصوتية لإثارة جوهر رواية القصة. للكشف عن سحر الموسيقى التصويرية وتحسين التجربة الصوتية، نحتاج إلى طريقة لفحص تفاعل هذه المكونات بشكل منهجي، والتي يتم تصنيفها عادةً على أنها حوار وموسيقى وتأثيرات.

في منشور المدونة هذا، سنقدم اكتشاف الكلام والموسيقى كتقنية تمكينية لمجموعة متنوعة من التطبيقات الصوتية في الأفلام والتلفزيون، بالإضافة إلى تقديم نظام اكتشاف الكلام والنشاط الموسيقي (SMAD) الذي نشرناه مؤخرًا كمقال صحفي في مجلة EURASIP لمعالجة الصوت والكلام والموسيقى.

مثل التجزئة الدلالية للصوت، يقوم SMAD بتتبع مقدار الكلام والموسيقى بشكل منفصل في كل إطار في ملف صوتي وهو مفيد في فهم المحتوى المهام خلال دورة حياة إنتاج الصوت والتسليم. تعد البيانات الوصفية الزمنية التفصيلية التي يوفرها SMAD حول مناطق الكلام والموسيقى في مزيج صوتي متعدد الألحان بمثابة خطوة أولى لتجزئة الصوت الهيكلية وفهرستها ومعالجة الصوت مسبقًا للمهام النهائية التالية. دعونا نلقي نظرة على بعض التطبيقات.

إعداد مجموعة البيانات الصوتية

يعد نشاط الكلام والموسيقى خطوة مهمة في المعالجة المسبقة لإعداد المواد الدراسية للتدريب. يقوم SMAD بتصنيف وتقسيم الصوت الطويل لاستخدامه في مجموعات كبيرة، مثل

من “تصنيف الإشارة الصوتية” لديفيد جيرهارد

تحليل الحوار ومعالجته

  • أثناء التشفير في Netflix، يتم حساب جهارة الصوت المرتبطة بالكلام لكل مسار صوتي رئيسي ويتم استخدامها لتطبيع جهارة الصوت. وبالتالي، تعد البيانات التعريفية لنشاط الكلام جزءًا أساسيًا من الإدارة الدقيقة لجهارة الصوت على مستوى الكتالوج وتحسين تجربة مستوى الصوت لأعضاء Netflix.
  • وبالمثل، يتم تطبيق خوارزميات وضوح الحوار وتحديد اللغة المنطوقة ونسخ الكلام فقط على المناطق الصوتية التي يوجد بها كلام مُقاس.

استرجاع معلومات الموسيقى

  • هناك عدد قليل من حالات استخدام الاستوديو حيث تكون البيانات التعريفية للنشاط الموسيقي مهمة، بما في ذلك مراقبة الجودة (QC) وتحليل محتوى الوسائط المتعددة ووضع العلامات على نطاق واسع.
  • هناك أيضًا مهام بين المجالات مثل تحديد هوية المغني ونسخ كلمات الأغاني، والتي لا تتلاءم تمامًا مع مهام الكلام أو مهام MIR الكلاسيكية، ولكنها مفيدة في إضافة تعليقات توضيحية إلى المقاطع الموسيقية مع كلمات الأغاني في التسميات التوضيحية المغلقة والعناوين الفرعية.
  • على العكس من ذلك، في حالة عدم وجود نشاط كلامي أو موسيقي، يُقدر أن تحتوي هذه المناطق الصوتية على محتوى مصنف على أنه صاخب أو بيئي أو مؤثرات صوتية.

التعريب والدبلجة

وأخيرًا، هناك مهام ما بعد الإنتاج، والتي تستفيد من تجزئة الكلام الدقيقة على مستوى الكلام المنطوق أو الجملة، قبل الترجمة وإنشاء نص الدبلجة. وبالمثل، تتضمن ميزات إمكانية الوصول للتأليف مثل الوصف الصوتي (AD) تجزئة الموسيقى والكلام. عادةً ما يتم خلط رواية AD بحيث لا تتداخل مع الحوار الأساسي، في حين أن كلمات الموسيقى المرتبطة بقوة بمخطط القصة، يتم الرجوع إليها أحيانًا بواسطة منشئي AD، خاصة بالنسبة إلى AD المترجمة.

ممثل صوت في الاستوديو

على الرغم من أن تطبيق أساليب التعلم العميق قد أدى إلى تحسين أنظمة التصنيف الصوتي في السنوات الأخيرة، إلا أن هذا النهج المبني على البيانات لـ SMAD يتطلب كميات كبيرة من مواد المصدر الصوتي مع تسميات الكلام والنشاط الموسيقي على مستوى الإطار الصوتي. يعد جمع مثل هذه الملصقات عالية الدقة أمرًا مكلفًا، وغالبًا ما لا يمكن مشاركة المحتوى الصوتي بشكل عام بسبب قيود حقوق الطبع والنشر. نحن نتعامل مع التحدي من زاوية مختلفة.

المحتوى والنوع واللغات

بدلاً من زيادة بيانات التدريب أو تجميعها، نقوم بأخذ عينات من البيانات واسعة النطاق المتوفرة في كتالوج Netflix بتسميات مشوشة. وعلى النقيض من التسميات النظيفة، التي تشير إلى أوقات البدء والانتهاء الدقيقة لكل منطقة كلام/موسيقى، توفر التسميات المزعجة توقيتًا تقريبيًا فقط، مما قد يؤثر على أداء تصنيف SMAD. ومع ذلك، تسمح لنا التصنيفات المزعجة بزيادة حجم مجموعة البيانات بأقل جهد يدوي وربما تعميمها بشكل أفضل عبر أنواع مختلفة من المحتوى.

تحتوي مجموعة البيانات الخاصة بنا، والتي قدمناها باسم TVSM (الخطاب التلفزيوني والموسيقى) في منشورنا، على إجمالي 1608 ساعة من الصوت المسجل والمنتج بشكل احترافي. تعد TVSM أكبر بكثير من مجموعات بيانات SMAD الأخرى وتحتوي على تسميات الكلام والموسيقى على مستوى الإطار. يحتوي TVSM أيضًا على تسميات موسيقى وكلام متداخلة، ولكلا الفئتين مدة إجمالية مماثلة.

تم إنتاج أمثلة تدريبية بين عامي 2016 و2019، في 13 دولة، وكان مصدر 60% من العناوين في الولايات المتحدة الأمريكية. تراوحت مدة المحتوى من 10 دقائق إلى أكثر من ساعة واحدة، عبر الأنواع المختلفة المذكورة أدناه.

تحتوي مجموعة البيانات على مسارات صوتية بثلاث لغات مختلفة، وهي الإنجليزية والإسبانية واليابانية. ال توزيع اللغة يظهر في الشكل أدناه. يظل اسم الحلقة/البرنامج التلفزيوني لكل عينة غير منشور. ومع ذلك، تحتوي كل عينة على معرف العرض ومعرف الموسم للمساعدة في تحديد العلاقة بين العينات. على سبيل المثال، قد تشترك عينتان من مواسم مختلفة من نفس العرض في نفس معرف العرض ويكون لهما معرفات موسم مختلفة.

ما الذي يشكل الموسيقى أو الكلام؟

لتقييم مجموعة البيانات الخاصة بنا وقياسها، قمنا يدويًا بتصنيف 20 مسارًا صوتيًا من برامج تلفزيونية مختلفة والتي لا تتداخل مع بيانات التدريب لدينا. كانت إحدى المشكلات الأساسية التي تمت مواجهتها أثناء التعليق التوضيحي لمجموعة اختبار TVSM التي تم تصنيفها يدويًا، هي تعريف الموسيقى والكلام. الاستخدام المكثف للأصوات المحيطة والمؤثرات الصوتية يطمس الحدود بين المناطق الموسيقية النشطة وغير الموسيقية. وبالمثل، فإن التبديل بين الكلام التحادثي وأصوات الغناء في بعض أنواع التلفزيون يحجب مكان بدء الكلام وتوقف الموسيقى. علاوة على ذلك، هل يجب أن يكون هاتان الفئتان متنافيتين؟ لضمان جودة الملصق واتساقه وتجنب الغموض، اتفقنا على الإرشادات التالية للتمييز بين الموسيقى والكلام:

  • يجب إضافة تعليقات توضيحية إلى أي موسيقى يمكن للمعلق شرحها بمستوى تشغيل مريح.
  • نظرًا لأن كلمات الأغاني غالبًا ما يتم تضمينها في التسميات التوضيحية المغلقة أو الترجمة، فيجب إضافة تعليقات توضيحية إلى أصوات الغناء البشري على أنها كلام وموسيقى.
  • الصوت المحيط أو المؤثرات الصوتية بدون ملامح لحنية واضحة لا ينبغي أن تكون مشروحة كموسيقى. لا ينبغي الإشارة إلى جرس الهاتف التقليدي أو الرنين أو الطنين بدون ملامح لحنية واضحة كموسيقى.
  • لا ينبغي إضافة تعليقات توضيحية إلى فترات التوقف المملوءة (آه، أم، آه، إيه)، والقنوات الخلفية (هم، آه)، والتنهد، والصراخ على أنها كلام.

تنسيق الصوت والمعالجة المسبقة

تم تسليم جميع الملفات الصوتية في الأصل من استوديوهات ما بعد الإنتاج بالتنسيق المحيطي القياسي 5.1 بمعدل أخذ عينات يبلغ 48 كيلو هرتز. نقوم أولاً بتطبيع جميع الملفات إلى متوسط ​​جهارة صوت يبلغ −27 LKFS ± 2 LU، ثم نقوم باختزالها إلى 16 كيلو هرتز قبل إنشاء خلط مخفض للاتحاد الدولي للاتصالات.

العمارة النموذجية

تستفيد خيارات النمذجة لدينا من البنى التلافيفية والمتكررة، والتي من المعروف أنها تعمل بشكل جيد في مهام تصنيف التسلسل الصوتي، وتدعمها التحقيقات السابقة بشكل جيد. قمنا بتكييف الشبكة العصبية التلافيفية المتكررة SOTA (CRNN) لتلبية متطلباتنا فيما يتعلق بأبعاد الإدخال/الإخراج وتعقيد النموذج. كان أفضل نموذج هو CRNN بثلاث طبقات تلافيفية، تليها طبقتان متكررتان ثنائي الاتجاه وطبقة واحدة متصلة بالكامل. يحتوي النموذج على 832 ألف معلمة قابلة للتدريب ويصدر تنبؤات على مستوى الإطار لكل من الكلام والموسيقى بدقة زمنية تبلغ 5 إطارات في الثانية.

للتدريب، قمنا بالاستفادة من مجموعة بيانات الكتالوج الكبيرة والمتنوعة الخاصة بنا باستخدام التصنيفات المزعجة، التي تم تقديمها أعلاه. من خلال تطبيق إستراتيجية أخذ العينات العشوائية، تكون كل عينة تدريب عبارة عن مقطع مدته 20 ثانية يتم الحصول عليه عن طريق الاختيار العشوائي لملف صوتي وإزاحة رمز وقت البدء المقابل له بسرعة. تم تدريب جميع النماذج في تجاربنا عن طريق التقليل فقدان الإنتروبيا الثنائية (BCE)..

تقييم

من أجل فهم تأثير المتغيرات المختلفة في الإعداد التجريبي لدينا، على سبيل المثال بنية النموذج أو بيانات التدريب أو متغيرات تمثيل المدخلات مثل log-Mel Spectrogram مقابل تطبيع الطاقة لكل قناة (PCEN)، نقوم بإعداد دراسة الاجتثاث مفصلة، والتي نشجع القارئ على استكشافها بالكامل في مقالتنا في مجلة EURASIP.

في كل تجربة، أبلغنا عن درجة F ومعدل الخطأ على مستوى الفصل بحجم مقطع يبلغ 10 مللي ثانية. معدل الخطأ هو مجموع معدل الحذف (سلبي كاذب) ومعدل الإدراج (إيجابي كاذب). نظرًا لأنه يجب التوصل إلى قرار ثنائي للموسيقى والكلام لحساب درجة F، فقد تم استخدام عتبة قدرها 0.5 لقياس الإخراج المستمر لوظائف نشاط الكلام والموسيقى.

نتائج

قمنا بتقييم نماذجنا على أربع مجموعات بيانات مفتوحة تشتمل على بيانات صوتية من البرامج التلفزيونية ومقاطع اليوتيوب ومحتويات متنوعة مثل الحفلات الموسيقية والبث الإذاعي والموسيقى الشعبية منخفضة الدقة. يوضح الأداء الممتاز لنماذجنا أهمية بناء نظام قوي يكتشف تداخل الكلام والموسيقى ويدعم افتراضنا بأن مجموعة بيانات كبيرة ولكن ذات علامات صاخبة في العالم الحقيقي يمكن أن تكون بمثابة حل قابل للتطبيق لـ SMAD.

في Netflix، غالبًا ما تكون المهام طوال دورة حياة إنتاج المحتوى وتسليمه مهتمة بجزء واحد من الموسيقى التصويرية. يتم تنفيذ المهام التي تعتمد على الحوار أو الموسيقى أو المؤثرات فقط مئات المرات يوميًا، بواسطة فرق من جميع أنحاء العالم، وبعشرات اللغات الصوتية المختلفة. لذا فإن الاستثمارات في الأدوات المدعومة خوارزميًا لفهم المحتوى الصوتي تلقائيًا مثل SMAD، يمكن أن تحقق عوائد إنتاجية كبيرة على نطاق واسع مع تقليل الملل.

لقد جعلنا ميزات الصوت والتسميات متاحة عبر Zenodo. يوجد أيضًا مستودع GitHub يحتوي على الأدوات الصوتية التالية:

  • كود Python للمعالجة المسبقة للبيانات، بما في ذلك البرامج النصية لخلط 5.1، وإنشاء مخطط طيفي Mel، وإنشاء MFCCs، وإنشاء ميزات VGGish، وتنفيذ PCEN.
  • رمز Python لإعادة إنتاج جميع التجارب، بما في ذلك البرامج النصية لأدوات تحميل البيانات، وتنفيذ النماذج، وخطوط التدريب والتقييم.
  • نماذج مدربة مسبقاً لكل تجربة تم إجراؤها.
  • مخرجات التنبؤ لجميع الملفات الصوتية في مجموعات بيانات التقييم.

شكر خاص لفريق الخوارزميات الصوتية بأكمله، وكذلك امير ضياء, آنا بوليدو، و انجي بوليما.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى