ترجمة: فاضل حمود
مراجعة: محمد كامل
تمهيد
أظهرت بعض الإحصائيات أن خدمة بث الأفلام والتلفزيون Netflix تمثل الثلث من تدفق البيانات في الإنترنت في وقت الذروة في الولايات المتحدة ، وبلغ عدد المشتركين في هذه الخدمة 65 مليون مشترك من أكثر من 50 دولة يستمتعون بأكثر من 100 مليون ساعة من البرامج التلفزيونية والأفلام يوميا ً. يتم جمع البيانات من هؤلاء الملايين من المشتركين ومراقبتها في محاولة لفهم عادات المشاهدة لديهم. لكن بيانات Netflix ليست فقط “ضخمة” بالمعنى الحرفي. إن الجمع بين هذه البيانات والتقنيات التحليلية المتطورة هو ما يجعل Netflix شركة بيانات ضخمة حقيقية.
كيف استخدمت البيانات الضخمة عمليا ً؟
يكفي إلقاء نظرة سريعة على صفحة وظائف Netflix لترى جدية التعامل مع البيانات والتحليلات. يتم تعيين المتخصصين للانضمام إلى فرق ماهرة بشكل خاص في تطبيق المهارات التحليلية على مجالات عمل معينة منها: تحليلات التخصيص (personalization analytics) ، وتحليلات الرسائل (messaging analytics) ، وتحليلات عرض المحتوى (content delivery analytics)، وتحليلات جهاز المستخدم (device analytics) . . . وغير ذلك من التحليلات. ومع ذلك ، على الرغم من استخدام البيانات الضخمة في كل جانب من جوانب أعمال Netflix ، فقد كان هدفهم المنشود دائما ً هو التنبؤ بما سيستمتع العملاء بمشاهدته. تحليلات البيانات الضخمة هي الوقود المحرك ل “محركات التوصية” (recommendation engines) المصممة لخدمة هذا الغرض.
بدأت الجهود هنا في عام 2006 ، عندما كانت الشركة لا تزال تعمل بشكل أساسي في مجال إرسال أقراص DVD (بدأ البث بعد عام). أطلقت الشركة جائزة Netflix ، حيث قدموا مليون دولار للمجموعة التي يمكنها التوصل إلى أفضل خوارزمية للتنبؤ بكيفية تقييم عملائهم لفيلم بناءً على تقييماتهم السابقة. تم الإعلان عن المشاركة الفائزة في عام 2009 ، وعلى الرغم من تحديث الخوارزميات باستمرار ، لا تزال المبادئ الأساسية عنصرا ً رئيسيا ً في محرك التوصية.
في البداية ، كان المحللون مقيدين بنقص المعلومات المتوفرة لديهم عن عملائهم – أربع سمات فقط لكل عميل (معرّف العميل ومعرف الفيلم وتصنيف وتاريخ مشاهدة الفيلم) كانت متاحة للتحليل. بمجرد أن أصبح البث هو طريقة العرض الأساسية، أصبح الوصول إلى العديد من سمات البيانات الجديدة متاحا ً. مكنت هذه البيانات الجديدة Netflix من بناء نماذج للتنبؤ بأفضل الأفلام التي سيستمتع بها العملاء. فالعملاء السعداء هم الأكثر احتمالية في مواصلة اشتراكهم.
عنصر مهم آخر في محاولة Netflix لمنحنا أفلاما ً سنستمتع بها هو وضع العلامات (Tagging). تدفع الشركة للناس مقابل مشاهدة الأفلام ثم توصيفها بالعناصر التي تحتوي عليها الأفلام. سيقترحون عليك بعد ذلك مشاهدة الإصدارات الأخرى التي تم وضع علامات عليها بشكل مشابه لتلك التي أعجبتك. هذا هو المصدر الذي تأتي منه “الاقتراحات” غير العادية في بعض الأحيان (والتي تبدو آلية إلى حد ما): “هل أنت في حالة مزاجية لكوميديا مراهقة حمقاء تظهر فيه بطلة قوية؟” وهو السبب في أن الخدمة في بعض الأحيان توصي بمشاهدة الأفلام التي تم تصنيفها بنجمة واحدة أو نجمتين فقط. قد يبدو هذا مخالفا ً للمنطق بالنسبة لهدفهم المتمثل في عرض أفلام ستعجبك. لكن ما حدث هو أن ترجيح هذه التقييمات قد فاقه التنبؤ بأن المشاهد سيستحسن محتوى هذا الفيلم . في الواقع ، حددت Netflix بشكل فعال ما يقارب من ٨٠ ألف “نوع صغير” (micro-genres) جديد من الأفلام بناءً على عادات المشاهدة لدينا!
في الآونة الأخيرة ، تحركت Netflix لتصبح منشئ محتوى ، وليس مجرد موزع لاستوديوهات الأفلام والشبكات الأخرى. كانت استراتيجيتهم هنا أيضا ً مدفوعة بقوة ببياناتهم – التي أظهرت أن مشتركيهم لديهم شهية نهمة للمحتوى الذي أخرجه ديفيد فينشر وبطولة كيفن سبيسي. بعد المزايدة على الشبكات بما في ذلك HBO و ABC للحصول على حقوق House of Cards ، كانوا واثقين جدا ً من أنها تناسب نموذجهم التنبؤي لـ “العرض التلفزيوني المثالي” لدرجة أنهم لم ينتجوا منتجا ً تجريبيا ًوقاموا على الفور بإنتاج موسمين يتألفان من 26 حلقة . كل جانب من جوانب الإنتاج الخاص ب Netflix كان مدعوما بالبيانات – حتى مجموعة الألوان المستخدمة في صورة الغلاف للمسلسل تم تحديدها لجذب المشاهدين إليها.
المقياس النهائي الذي تأمل Netflix في تحسينه هو عدد الساعات التي يقضيها المشتركين في استخدام خدمتهم. لا حاجة للإحصائيات لتعلم بأن المشاهدين الذين لا يقضون وقتا ً طويلاً في استخدام الخدمة من المحتمل أن يشعروا أنهم لا يحصلون على قيمة مقابل المال الذي يدفعونه مقابل اشتراكاتهم ، وبالتالي قد يلغوا تلك الاشتراكات. ولهذه الغاية ، تتم مراقبة الطريقة التي تؤثر بها العوامل المختلفة على “جودة التجربة” عن كثب ويتم تصميم النماذج لاستكشاف كيفية تأثير ذلك على سلوك المستخدم. من خلال جمع بيانات المستخدم النهائي حول كيفية تأثير الموقع الفعلي للمحتوى على تجربة المشاهد ، يمكن إجراء حسابات حول وضع البيانات لضمان وجود خدمة مثالية لأكبر عدد ممكن من المنازل.
ماذا كانت النتائج؟
تُظهر رسالة Netflix إلى المساهمين في أبريل 2015 أن استراتيجية البيانات الضخمة كانت تؤتي ثمارها. لقد أضافوا ٤.٩ مليون مشترك جديد في الربع الأول من عام 2015 ، مقارنة ٤ ملايين في نفس الفترة من عام 2014. وقد عزت Netflix الكثير من هذا النجاح إلى “المحتوى المتطور باستمرار” ، بما في ذلك House of Cards و Orange is the New Black. يؤدي هذا المحتوى الأصلي إلى اكتساب أعضاء جدد والاحتفاظ بالعملاء. في الواقع ، 90٪ من المشتركين تفاعلوا مع هذا المحتوى الأصلي. من الواضح أن قدرتهم على التنبؤ بما سيستمتع به المشاهدون هو جزء كبير من هذا النجاح.
وماذا عن مقياسهم النهائي: كم عدد الساعات التي يقضيها العملاء في استخدام الخدمة؟ حسنا ً ، في الربع الأول من عام 2015 وحده ، بث مشتركو Netflix ١٠ مليارات ساعة من المحتوى. إذا استمرت استراتيجية البيانات الضخمة لشركة Netflix في التطور ، فمن المتوقع أن يرتفع هذا الرقم.
ما هي البيانات التي تم استخدامها؟
يتم تغذية خوارزميات التوصيات وقرارات المحتوى ببيانات حول العناوين التي يشاهدها المشركون ، ووقت مشاهدة الأفلام في اليوم ، والوقت المنقضي في اختيار الأفلام ، وعدد مرات إيقاف التشغيل (إما من قبل المستخدم أو بسبب الشبكة) والتقييمات المعطاة. من أجل تحليل جودة التجربة ، تجمع Netflix بيانات عن التأخيرات الناتجة عن التخزين المؤقت (معدل إعادة التخزين المؤقت) ومعدل البت (الذي يؤثر على جودة الصورة) ، بالإضافة إلى موقع العميل.
ما هي التفاصيل الفنية؟
على الرغم من استضافة الكتالوج الضخم للأفلام والبرامج التلفزيونية في السحابة على Amazon Web Services) AWS) ، إلا أنه ينعكس أيضا ً في جميع أنحاء العالم بواسطة مزودي خدمة الإنترنت والمضيفين الآخرين. بالإضافة إلى تحسين تجربة المستخدم عن طريق تقليل التأخير عند دفق المحتوى حول العالم ، فإن هذا يقلل من التكاليف لمزودي خدمة الإنترنت – مما يوفر عليهم تكلفة تنزيل البيانات من خادم Netflix قبل تمريرها إلى المشاهدين في المنزل.
في عام 2013 ، قيل أن حجم الكتالوج الخاص بهم يتجاوز ٣ بيتابايت. سبب كمية البيانات الهائلة هذه هو الحاجة إلى الاحتفاظ بالعديد من العناوين بعدة تنسيقات تصل إلى 120 تنسيقا ً مختلفا ً للفيديو ، نظرا ً لعدد الأجهزة المختلفة التي تشغل Netflix.
في الأصل ، استخدمت أنظمة Netflix قواعد بيانات Oracle ، لكنهم تحولوا إلى NoSQL و Cassandra للسماح بتحليل البيانات غير المهيكلة المعتمد على البيانات الضخمة.
في حديثه في مؤتمر Strata + Hadoop World ، أوضح كيرت براون ، الذي يقود فريق Data Platform في Netflix ، كيف تتطور منصة بيانات Netflix باستمرار. تتضمن البنية التحتية لبيانات Netflix تقنيات البيانات الضخمة مثل Hadoop و Hive و Pig بالإضافة إلى أدوات ذكاء الأعمال التقليدية مثل Teradata و MicroStrategy. ويتضمن أيضًا تطبيقات وخدمات المصدر المفتوح الخاصة بـ Netflix Lipstick و Genie. ومثل كل البنية التحتية الأساسية لـ Netflix ، تعمل جميعها في سحابة AWS. مستقبلا، تستكشفNetflix سبارك (Spark) للبث والتعلم الآلي (Machine Learning) وحالات لاستخدام التحليلات، وهم مستمرون في تطوير إضافات جديدة لمجموعة البرامج مفتوحة المصدر الخاصة بهم.
أبرز التحديات
على الرغم من أن الكثير من البيانات الوصفية التي جمعتها Netflix – التي تمثل الممثلين الذي يحب المشاهد مشاهدتهم وفي أي وقت من اليوم يشاهدون فيه الأفلام أو التلفاز – هي بيانات منظمة بسيطة وسهلة القياس ، أدركت Netflix في وقت مبكر أنه هناك الكثير من البيانات القيمة موجودة في المحتوى الفوضوي وغير المنظم للفيديو والصوت.
لجعل هذه البيانات متاحة للتحليل بالكمبيوتر وبالتالي الاستفادة منها، كان لا بد من قياسها بطريقة ما. قامت Netflix بذلك عن طريق الدفع لفرق من المشاهدين ، يبلغ عددهم الآلاف ، لمشاهدة ساعات عديدة من المحتوى ، ووضع علامات دقيقة على العناصر التي وجدوها فيها.
بعد قراءة كتيب مؤلف من 32 صفحة ، قام هؤلاء المشاهدين المدفوع لهم بترميز الموضوعات والقضايا والأفكار التي حدثت على الشاشة ، مثل البطل الذي يعاني من ظهور ديني أو شخصية أنثوية قوية تتخذ قرارا ً أخلاقيا ً صعبا ً. من خلال هذه البيانات ، حددت Netflix ما يقرب من 80000 “نوع صغير” مثل “الأفلام الكوميدية التي تعرض حيوانات متكلمة” يمكن لـ Netflix الآن تحديد الأفلام التي تحب مشاهدتها بدقة أكبر بكثير من مجرد رؤية أنك تحب أفلام الرعب أو أفلام التجسس ، ويمكنها استخدام هذا للتنبؤ بما تريد مشاهدته. وهذا يعطي البيانات الفوضوية غير المهيكلة مزايا هيكل معين يمكن تقييمه كميا ً – وهو أحد المبادئ الأساسية للبيانات الضخمة.
واليوم ، يُقال أن Netflix بدأ في أتمتة هذه العملية ، من خلال إنشاء إجراءات يمكنها التقاط لقطة للمحتوى بتنسيق Jpeg وتحليل ما يحدث على الشاشة باستخدام تقنيات متطورة مثل التعرف على الوجه وتحليل الألوان. يمكن التقاط هذه اللقطات إما على فترات زمنية مجدولة أو عندما يتخذ المستخدم إجراءً معينا ً مثل الإيقاف المؤقت أو إيقاف التشغيل. على سبيل المثال ، إذا كان يعرف أن المستخدم يميل إلى التوقف عن المشاهدة بعد مشاهدة المشاهد الدامية أو الجنسية ، فيمكنه اقتراح المزيد من البدائل الرزينة في المرة القادمة التي يجلس فيها لمشاهدة شيء ما.
الخلاصة ونقاط التعلم الرئيسية
إن توقع ما سيرغب المشاهدون في مشاهدته هو عمل كبير للشبكات والموزعين والمنتجين (جميع الأدوار التي تشغلها Netflix الآن في صناعة الإعلام). احتلت Netflix زمام المبادرة ، لكن الخدمات المنافسة مثل Hulu و Amazon Instant Box Office وقريبًا Apple ، يمكن الاعتماد عليها أيضا ً في تحسين وتنقيح تحليلاتها الخاصة. تعد برمجة المحتوى التنبئي مجالا ً يمكننا أن نتوقع فيه استمرار الابتكار ، مدفوعًا بمنافسة شرسة ، مع مرور الوقت.
بدأت Netflix في بناء أسس “التلفزيون المخصص” ، حيث سيكون لكل مشاهد جدوله الخاص للترفيه الذي يمكنه مشاهدته ، بناءً على تحليل تفضيلاته. تم الحديث عن هذه الفكرة لفترة طويلة من قبل شبكات التلفزيون ولكننا بدأنا الآن في رؤيتها أصبحت كحقيقة واقعة في عصر البيانات الضخمة.