بدأ الانقطاع الهائل الذي أدى إلى تعطل منصة فيسبوك والخدمات المرتبطة بها (واتساب وإنستاجرام وماسنجر و Oculus) ومنصتها للشركات والشبكة الداخلية الخاصة بالشركة من خلال الصيانة الروتينية.
ووفقًا لنائب رئيس البنية التحتية سانتوش جاناردان، تسبب أمر صدر أثناء الصيانة عن غير قصد في إغلاق العمود الفقري الذي يربط جميع مراكز بيانات الشركة في كل مكان في العالم.
وقال جاناردان: كان هذا الانقطاع ناتجًا عن النظام الذي يدير سعة شبكتنا الأساسية العالمية. العمود الفقري هو الشبكة التي أنشأتها الشركة لربط جميع مرافق الحوسبة لدينا معًا، التي تتكون من عشرات الآلاف من الأميال من كابلات الألياف الضوئية التي تعبر الكرة الأرضية وتربط جميع مراكز البيانات لدينا.
وتأتي مراكز البيانات هذه في أشكال مختلفة. بعضها عبارة عن مبانٍ ضخمة تضم ملايين الأجهزة التي تخزن البيانات وتشغل الأحمال الحاسوبية الثقيلة التي تحافظ على تشغيل المنصات، والبعض الآخر عبارة عن منشآت أصغر تربط شبكة الشركة الأساسية بالإنترنت الأوسع والأشخاص الذين يستخدمون المنصات.
وعند فتح أحد تطبيقات الشركة وتحميل خلاصتك أو رسائلك، ينتقل طلب التطبيق للبيانات من جهازك إلى أقرب منشأة، التي تتواصل بعد ذلك مباشرةً عبر شبكة الشركة الأساسية إلى مركز بيانات أكبر. وهذا هو المكان الذي يتم فيه استرداد المعلومات التي يحتاجها التطبيق ومعالجتها، وإرسالها مرة أخرى عبر الشبكة إلى هاتفك.
وتتم إدارة حركة البيانات بين جميع مرافق الحوسبة هذه بواسطة أجهزة توجيه، التي تحدد مكان إرسال جميع البيانات الواردة والصادرة.
وغالبًا ما يحتاج مهندسو فيسبوك إلى المشاركة في العمود الفقري دون اتصال لصيانة هذه البنية التحتية. وكان هذا هو مصدر الانقطاع.
وخلال إحدى وظائف الصيانة الروتينية هذه، تم إصدار أمر بهدف تقييم مدى توفر قدرة العمود الفقري العالمية، التي أدت دون قصد إلى قطع جميع الاتصالات في شبكة الشركة الأساسية، مما أدى إلى فصل مراكز بيانات فيسبوك على مستوى العالم.
اقرأ أيضًا: فيسبوك جاهدت لإصلاح الانقطاع الكبير في الخدمة
فيسبوك توضح سبب التوقف العالمي
تم تصميم أنظمة الشركة لتدقيق أوامر مثل هذه لمنع مثل هذه الأخطاء. ولكن خطأ في أداة التدقيق هذه منعها من إيقاف الأمر بشكل صحيح. وتسبب هذا التغيير في انقطاع كامل لاتصالات الخادم بين مراكز البيانات والإنترنت. وتسبب هذا الفقد الكامل للاتصال في مشكلة ثانية تتعلق بـ DNS و BGP.
وبالرغم من فداحة الموقف، ولكن سبب عدم قدرتك على استخدام فيسبوك هو أن معلومات توجيه DNS و BGP التي تشير إلى خوادمها اختفت فجأة.
ووفقًا لجاناردان، كانت هذه المشكلة مشكلة ثانوية، حيث لاحظت خوادم DNS الخاصة بالشركة فقدان الاتصال بالعمود الفقري. وتوقفت عن الإعلان عن معلومات توجيه BGP التي تساعد كل حاسب عبر الإنترنت في العثور على خوادمه. وكانت خوادم DNS لا تزال تعمل. ولكن تعذر الوصول إليها.
وأدى نقص اتصالات الشبكة وفقدان DNS إلى قطع الخوادم عن المهندسين الذين يحاولون إصلاح المشكلة. وتعطيل العديد من الأدوات التي يستخدمونها عادةً للإصلاح والاتصال.
وتشير التدوينة إلى أن المهندسين واجهوا عقبات إضافية بسبب الأمان المادي وأمن النظام حول هذه الأجهزة المهمة. وبمجرد قيامهم بتنشيط بروتوكولات الوصول الآمن، فقد تمكنوا من استعادة العمود الفقري واستعادة الخدمات ببطء في زيادة الأحمال تدريجياً.
وهذا جزء من السبب وراء استغراق بعض الأشخاص وقتًا أطول للوصول إلى البيانات مرة أخرى. إذ ربما تسببت القوة ومتطلبات الحوسبة لتشغيل كل شيء في وقت واحد في حدوث المزيد من الأعطال.
اقرأ أيضًا: فيسبوك تضيف البث المشترك إلى Facebook Gaming