ترجمة: أثير الحارثي
لطالما كانت شركة جوجل مسؤولة بشكل كبير عن تعريفنا بفوائد تحليل وتفسير البيانات الضخمة في حياتنا اليومية أكثر من أي شركة أخرى. فعندما نقوم بالبحث في جوجل، فإننا نتعامل مع البيانات الضخمة. يُقدر حجم فهرس جوجل – أرشيف جوجل الخاص بكل صفحة ويب يمكنه العثور عليها والذي يُستخدم لإرجاع نتائج البحث – بحوالي 100 بيتابايت (أو 100 مليون جيجابايت!) من البيانات الضخمة، بمعايير أي شخص. ولكن كما شهدنا خلال العقد الماضي، فإن جمع جميع المعلومات على الإنترنت معا ً لجعل عملية العثور على الأشياء أسهل ليس سوى بداية خطتهم. ذهبت جوجل إلى إطلاق متصفحات ويب وخدمات البريد الإلكتروني وأنظمة تشغيل الهواتف المحمولة وأكبر شبكة إعلانية على الإنترنت في العالم كلها مبنية على تقنيات البيانات الضخمة التي جعلتهم يعرفون الكثير من التفاصيل عن المستخدمين.
ما هي المشكلة التي ساعدت البيانات الضخمة في حلها؟
الإنترنت هو مساحة ضخمة جدا ً. فمنذ انتقالنا جماعيا ً إلى استخدام الإنترنت في التسعينيات، أصبح الإنترنت ينمو بمعدل هائل بدون تباطؤ. و يعتبر هذا النمو الهائل تحديا ً بحد ذاته.
لا تتميز شبكة الإنترنت بضخامة حجمها فحسب، بل بانتشارها بشكل واسع جدا ً. يتم تحميل المعلومات على خوادم قد تكون موجودة في أي مكان في العالم، مما يعني أن أي شخص يرغب في تصفح البيانات المتاحة لديه يتصل بأجهزة الكمبيوتر التي قد تكون مرتبطة أحيانا ً بآلاف الأميال بعيدة عن بعضها البعض. لا يستغرق نقل البيانات الفردية إلى المستخدم وقتا ً طويلاً، بفضل سرعة انتقال المعلومات عبر كابلات النحاس أو الألياف البصرية – وهي مسألة ثوانٍ. ولكن هذا يفترض أن يعرف المستخدم أين توجد البيانات في المقام الأول. البحث في الإنترنت بأكمله حتى عن معلومة بسيطة جدا ً، إذا كنت لا تعرف عنوان الآي بي IP الدقيق للكمبيوتر الذي يتم تخزينه فيه، سيستغرق وقتا ً طويلاً جدا ً إذا لم يكن لديك فهرس يحتوي على المعلومات اللازمة.
مع وجود مليارات الصفحات من المعلومات المتاحة على الإنترنت، فإن بناء فهرس ليس أمرا ً سهلا ً. سيستغرق من البشر سنوات طويلة للوصول إلى قاعدة بيانات شاملة لمحتويات الإنترنت. لذلك يجب أن يتم هذا الأمر بشكل آلي – عن طريق الحواسيب نفسها. ولكن هذا الاتجاه أثار مشكلة أخرى: كيف تعرف الحواسيب ما هي المعلومات ذات الجودة العالية وماهي المعلومات ذات الجودة المنخفضة؟ بشكل آلي، لا تستطيع الحواسيب تصنيف ذلك بمفردها: فليس لديها مفهوم الفرق بين المفيد والغير مفيد، ما لم يتم تدريبها على ذلك، وعلى أي حال، ما هو غير مفيد لشخص ما قد يكون ضروريا ً لشخص آخر لحل مشكلة يبحث عن حلها.
كيف تم استخدام البيانات الضخمة عمليا ً؟
لم تخترع جوجل مفهوم محرك البحث أو فهرس الويب، ولكن بعد وقت قصير من إطلاقها في عام 1997، أثبتت نفسها كأفضل محرك بحث، وهو لقب استمرت في حمله لما يقارب من 20 عاما ً.
المفهوم الذي عُرفت به جوجل في كل بقاع العالم، بينما بالكاد يُتذكر منافسوها الأوائل مثل Alta Vista أو Ask Jeeves، ما يُعرف بتسمية جوجل بيج رانك PageRank. (جوجل تحب إعطاء أسماء جديدة للأشياء عن طريق دمج كلمتين معا ً، ولكن مع الاحتفاظ بحرفي البداية كأنهما كلمتين منفصلتين!).
تم تطوير PageRank من قبل مؤسسي جوجل، لاري بيج وسيرجي برين، قبل تأسيس الشركة، أثناء البحث في جامعة ستانفورد. المبدأ هو أنه كلما زاد عدد الصفحات المرتبطة بصفحة معينة، زادت “سلطتها” – حيث يُفترض أن تكون المواقع المرتبطة تشير إليها بطريقة ما. قامت جوجل بإنشاء خوارزميات البحث الأولى لتعيين تصنيف لكل صفحة في فهرسها استنادا ً إلى عدد المواقع الأخرى التي تستخدم كلمات مفتاحية مماثلة (وبالتالي من المرجح أن تكون على نفس الموضوع). بعبارة أخرى، هذه هي عملية تنطوي على تحويل البيانات غير المنظمة (محتويات صفحات الويب) إلى بيانات منظمة لقياس تلك المعلومات وترتيبها حسب الفائدة.
تقوم جوجل ببناء فهرسها للويب عن طريق إرسال روبوتات برمجية – يُطلق عليها في كثير من الأحيان اسم الزواحف أو العناكب – والتي تجمع جميع النصوص والمعلومات الأخرى، مثل الصور أو الأصوات، الموجودة على موقع الويب وتنسخها إلى أرشيفات جوجل الضخمة – حيث يقال إن مراكز البيانات الخاصة بجوجل تستهلك 0.01٪ من إجمالي الكهرباء المستخدمة على كوكب الأرض!
مع تخزين تلك البيانات في مكان واحد، يمكن البحث فيها بسرعة أكبر – بدلاً من البحث في جميع أنحاء العالم للعثور على وثائق تحتوي على المعلومات التي يبحث عنها المستخدمون، فإنها متوفرة تحت سقف واحد كبير جدًا. بالاقتران مع PageRank وتطورات لاحقة مثل Knowledge Graph سنوضح ذلك أدناه، يقوم جوجل ببذل قصارى جهده لمطابقة استفسارنا مع المعلومات التي ستكون مفيدة لنا.
في وقت كتابة هذا النص، تعتبر جوجل مسؤولة عن 89% من استخدام البحث على الإنترنت. بين المنافسين الأقرب لها، تأتي ياهو وبينغ وبايدو تباعًا لتحتل تقريبا ً الـ 11% المتبقية.
تستخدم جوجل البيانات من فهرس الويب الخاص بها لمطابقة الاستفسارات مع النتائج المفيدة بدءا ً من الأولويات. يتم تعزيز هذا بالبيانات من مصادر موثوقة ومواقع أخرى تم تصنيفها بناءً على دقة البيانات باستخدام خوارزميات التعلم الآلي التي تم تصميمها لتقييم موثوقية البيانات.
وفي النهاية، تقوم جوجل أيضا ً بدمج المعلومات التي يعرفها عن المستخدم – مثل سجل البحث السابق وأي معلومات قد أدخلها في ملفه الشخصي فيGoogle Plus لتوفير لمسة شخصية في نتائج البحث.
التفاصيل التقنية
يُقال إن لدى جوجل حوالي 100 مليون جيجابايت من المعلومات في فهرس الويب الخاص بها، والتي تغطي حوالي 35 تريليون صفحة ويب حسب التقديرات. ومع ذلك، يُعتقد أن هذا يمثل فقط 4% من المعلومات المتاحة على الإنترنت، حيث يتم استضافة الكثير منها على شبكات خاصة لا يمكن للروبوتات الخاصة بجوجل الوصول لها.
تقوم خوادم جوجل بمعالجة 20 بيتابايت من المعلومات يوميا ً للرد على طلبات البحث وتقديم الإعلانات بناءً على الملفات الشخصية التي تقوم ببنائها عن المستخدمين حيث تعتمد بعض أنظمة جوجل مثل البحث والخرائط واليوتيوب التي توفر كميات ضخمة من بيانات جوجل في متناول أيدينا على إطار قاعدة البيانات الخاصة بهم وأداة التحليل المعروفة بأسماء BigTable . BigQuery في الآونة الأخيرة، قامت الشركة أيضاً بتوفير هذه التقنيات كخدمات حوسبة سحابية للشركات الأخرى، وفقا ً لمنافسيها مثل أمازون وآي بي إم.
جوجل ومحركات البحث الأخرى كانت تواجه تحديات فيما يتعلق بالتغلب على حاجز اللغة بين البشر والآلات، مما قيد قدرة هذه المحركات على تقديم المساعدة للبشر.
لقد طورنا لغات البرمجة استنادا ً إلى مفهوم الشفرات، يمكننا إدخالها بتقريب من اللغة البشرية الممزوجة بالرياضيات، ويمكن للكمبيوتر ترجمتها (من خلال برنامج يسمى مترجم) إلى الأصفار والواحدات الأساسية للغة الثنائية واللغة المنطقية – الشيء الوحيد الذي يستطيع الكمبيوتر فهمه حقاً.
هذا جيد إذا كنت مبرمج كمبيوتر، ولكن هدف جوجل من البداية كان وضع معلومات العالم بين يدي الجميع، وليس فقط الفئة المتقنة تقنيًا. ولهذا الغرض، انتقلوا إلى تطوير تقنية “البحث الدلالي” – والتي تتضمن تعليم الكمبيوترات فهم الكلمات التي يتم تغذيتها إليها ليس ككائنات فردية فحسب، بل لفحص وتفسير العلاقة بينها.
تقوم جوجل بذلك عن طريق إدراج مجموعة واسعة من المعلومات الأخرى عند محاولتها فهم ما تريده. ابتداءً من عام 2007، قدمت الشركة البحث الشامل. وهذا يعني أنه عند إدخال استعلام، لا تقوم خوارزميات البحث فقط بالبحث في فهرس الويب عن الكلمات الرئيسية المتعلقة بمدخل البحث الخاص بك. بل تقوم أيضا ً بالبحث في قواعد بيانات ضخمة تحتوي على البيانات العلمية والبيانات التاريخية وبيانات الطقس والبيانات المالية وما إلى ذلك لإيجاد إشارات إلى ما يعتقد أنك تبحث عنه. في عام 2012، تطور ذلك إلى Knowledge Graph، الذي سمح له ببناء قاعدة بيانات تتكون ليس فقط من الحقائق ولكن أيضا ً من العلاقات بين تلك الحقائق. في عام 2014، تم تعزيز ذلك بـ Knowledge Vault وقد أخذ هذا الأمر خطوة إضافية عن طريق تنفيذ خوارزميات التعلم الآلي لتحديد موثوقية الحقائق. يقوم بذلك من خلال حساب عدد الموارد التي تتفق مع مصدر بيانات معين كـ “حقيقة”. كما يفحص كيفية مصداقية المواقع التي تتفق معها من خلال ملاحظة مدى ارتباط المواقع الأخرى بها بانتظام. إذا كان العديد من الأشخاص يثقون فيها ويربطون بها، فمن المرجح أن تكون موثوقة، خاصة إذا كانت مرتبطة بمواقع ذات “سلطة عالية”، مثل المجالات الأكاديمية أو الحكومية.
الهدف النهائي يبدو أنه هو بناء واجهة بين الكمبيوترات والبشر تعمل بنفس الطريقة التي رأيناها في أفلام الخيال العلمي، مما يتيح لنا طرح الأسئلة بلغة بشرية طبيعية وتقديم الإجابة المناسبة بالضبط التي نحتاجها.
ما هي نقاط التعلم الرئيسية والمستندات المستفادة؟
أصبحت جوجل مسيطرة في مجال البحث بسبب جهدهم لإيجاد طرق أكثر كفاءة لربطنا بالبيانات التي نحتاجها مما نجحت فيه على منافسيها.
حافظت جوجل على لقبها من خلال الابتكار المستمر. استغلوا محرك البحث الخاص بهم عن طريق معرفة كيفية التقاط البيانات التي يجمعها منا أثناء تصفحنا للويب، وبناء إيرادات ضخمة من خلال أن تصبح أكبر بائعي الإعلانات عبر الإنترنت في العالم. ثم استخدموا الموارد الهائلة التي كانوا يجمعونها للتوسع بشكل سريع، وتحديد مجالات النمو مثل الهواتف المحمولة وإنترنت الأشياء (انظر الفصل 18، عن Nest) التي يمكن أيضًا تطبيق نموذج الأعمال المدفوع بالبيانات الخاص بهم عليها.
في السنوات الأخيرة، يُقال أن المنافسين مثل محرك بحث Bing التابع لشركة مايكروسوفت وشركة ياهو يكتسبون بعض الميزة، على الرغم من أن جوجل لا تزال تتصدر بشكل كبير كأكثر محرك بحث شعبية في العالم. ولكن مع استثمارات جوجل المستمرة في مجالات التكنولوجيا الجديدة والناشئة مثل السيارات بدون سائق والتحكم المنزلي الآلي، يمكننا توقع استمرار الابتكار وربما المزيد من المفاجآت.