كيف سارعت أقسام تكنولوجيا المعلومات لمعالجة فوضى CrowdStrike
قبل الساعة الواحدة صباحًا بالتوقيت المحلي يوم الجمعة، استيقظ فجأة مسؤول النظام في إحدى شركات الساحل الغربي التي تتولى خدمات الجنازة والمشرحة ولاحظ أن شاشة جهاز الكمبيوتر الخاص به كانت متوهجة. عندما فحص هاتف شركته، كان مليئًا بالرسائل حول ما وصفه زملاؤه بمشكلة في الشبكة. وكانت بنيتهم التحتية بأكملها معطلة، مما هدد بقلب الجنازات والدفن رأسا على عقب.
وسرعان ما أصبح من الواضح أن الاضطراب الهائل كان سببه انقطاع خدمة CrowdStrike. تسببت شركة الأمن عن طريق الخطأ في حدوث فوضى في جميع أنحاء العالم يوم الجمعة وحتى نهاية الأسبوع بعد توزيع برامج معيبة على منصة المراقبة Falcon الخاصة بها، مما أدى إلى عرقلة شركات الطيران والمستشفيات والشركات الأخرى، الصغيرة والكبيرة على حد سواء.
وهرع المسؤول، الذي طلب عدم الكشف عن هويته لأنه غير مخول بالتحدث علنًا عن الانقطاع، إلى التحرك. وانتهى به الأمر بالعمل لمدة 20 ساعة تقريبًا في اليوم، حيث كان يقود سيارته من مشرحة إلى أخرى ويعيد ضبط العشرات من أجهزة الكمبيوتر شخصيًا لحل المشكلة. يوضح المسؤول أن الوضع كان عاجلاً، لأن أجهزة الكمبيوتر كانت بحاجة إلى العودة إلى الإنترنت حتى لا يكون هناك انقطاع في جدولة مراسم الجنازة واتصالات المشرحة مع المستشفيات.
“في ظل مشكلة واسعة النطاق كما رأينا مع انقطاع خدمة CrowdStrike، كان من المنطقي التأكد من أن شركتنا كانت على ما يرام حتى نتمكن من استقبال هذه العائلات، حتى يتمكنوا من المرور عبر الخدمات والتواجد مع عائلاتهم “الأعضاء”، يقول مسؤول النظام. “الناس يحزنون.”
أدى تحديث CrowdStrike المعيب إلى تعطيل حوالي 8.5 مليون جهاز كمبيوتر يعمل بنظام Windows في جميع أنحاء العالم، مما أدى إلى دخولها في دوامة شاشة الموت الزرقاء (BSOD) المروعة. كتب شون هنري، كبير مسؤولي الأمن في CrowdStrike، على موقع LinkedIn في وقت مبكر من يوم الاثنين: “لقد ضاعت الثقة التي بنيناها بالتنقيط على مر السنين في دلاء في غضون ساعات، وكان ذلك بمثابة لكمة قوية”. “لكن هذا يتضاءل مقارنة بالألم الذي سببناه لعملائنا وشركائنا. لقد خذلنا الأشخاص الذين التزمنا بحمايتهم”.
لقد تسببت انقطاعات النظام الأساسي السحابي ومشكلات البرامج الأخرى – بما في ذلك الهجمات الإلكترونية الضارة – في حدوث انقطاعات كبيرة في تكنولوجيا المعلومات واضطراب عالمي من قبل. لكن حادثة الأسبوع الماضي كانت جديرة بالملاحظة بشكل خاص لسببين. أولاً، نشأ الأمر عن خطأ في برنامج يهدف إلى مساعدة الشبكات والدفاع عنها، وليس الإضرار بها. وثانيًا، يتطلب حل المشكلة الوصول العملي إلى كل جهاز متأثر؛ كان على الشخص تشغيل كل جهاز كمبيوتر يدويًا في الوضع الآمن لنظام التشغيل Windows وتطبيق الإصلاح.
غالبًا ما تكون تكنولوجيا المعلومات وظيفة غير جذابة وناكرة للجميل، لكن كارثة CrowdStrike كانت بمثابة اختبار للمستوى التالي. كان على بعض متخصصي تكنولوجيا المعلومات التنسيق مع الموظفين البعيدين أو مواقع متعددة عبر الحدود، وإرشادهم خلال عمليات إعادة التعيين اليدوية للأجهزة. كان على أحد مسؤولي النظام المبتدئين في إندونيسيا لإحدى العلامات التجارية للأزياء أن يكتشف كيفية التغلب على الحواجز اللغوية للقيام بذلك. “لقد كان أمرًا شاقًا” ، كما يقول.
قال أحد مسؤولي النظام في إحدى منظمات الرعاية الصحية في ولاية ماريلاند لمجلة WIRED: “لا يتم ملاحظتنا إلا إذا حدث خطأ ما”.
تم إيقاظ هذا الشخص قبل الساعة 1:00 صباحًا بتوقيت شرق الولايات المتحدة بوقت قصير. أصبحت الشاشات في المواقع الفعلية للمنظمة باللون الأزرق وغير مستجيبة. قضى فريقهم عدة ساعات في الصباح الباكر في إعادة الخوادم إلى الإنترنت، ثم اضطروا إلى البدء في إصلاح أكثر من 5000 جهاز آخر داخل الشركة يدويًا. أدى انقطاع الخدمة إلى منع المكالمات الهاتفية إلى المستشفى وقلب نظام توزيع الأدوية رأسًا على عقب، إذ كان لا بد من كتابة كل شيء يدويًا والركض إلى الصيدلية سيرًا على الأقدام.
اكتشاف المزيد من مجلة الإبداع
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.