به گزارش شهرآرانیوز؛ کلودفلر (Cloudflare) یکی از اصلیترین ارائهدهندگان خدمات CDN، امنیت وب و DNS در جهان است و امروز بخش قابلتوجهی از ترافیک اینترنت از میان زیرساخت آن عبور میکند. همین وابستگی عظیم باعث شده هر اختلال یا خطا در شبکهٔ کلودفلر تنها یک مشکل فنی ساده نباشد، بلکه به رویدادی تبدیل شود که میلیونها کاربر، هزاران سرویس بزرگ و صدها کسبوکار در سراسر جهان را تحت تأثیر قرار میدهد. طی سالهای گذشته، مجموعهای از قطعیها _ از نشت داده معروف Cloudbleed تا خاموشیهای سراسری ناشی از پیکربندی شبکه و حتی مشکل برق در دیتاسنترها _ بهخوبی نشان دادهاند که پایداری اینترنت تا چه حد به عملکرد این شرکت وابسته است.
در این مطلب، با مرور دقیق و مستند مهمترین اختلالها و قطعهای کلودفلر، دلایل فنی، ابعاد تأثیرگذاری و درسهایی که هر رویداد برای آیندهٔ اینترنت به همراه داشته را بررسی میکنیم.
تاریخ (محدوده وقوع / افشا): خطا از سپتامبر ۲۰۱۶ تا ۱۸ فوریه ۲۰۱۷ کشف و گزارش شد؛ گزارش رسمی و انتشار جزئیات در ۱ مارس ۲۰۱۷.
علت فنی: باگ در parser (تجزیهکننده) یکی از اجزای Cloudflare که باعث میشد حافظهٔ سرور (responses) بهطور تصادفی در نتایج HTTP ظاهر شود؛ در نتیجه ممکن بود کوکیها، توکنها، محتوای پردازششده و دادههای حساس لو بروند.
مدتزمان / دامنه: نشتی در بازهٔ چند ماهه رخ داده و Cloudflare گفت بیشترین اثر بین ۱۳ فوریه و ۱۸ فوریه بوده؛ اما دادههای کششدهٔ موتورهای جستوجو باعث تشدید اثر شد.
پیامدها: اطلاعات حساس برخی سایتها (پیامها، توکنها، کوکیها) بهصورت متنی در وب افشا شد؛ موتورهای جستوجو نیز بخشی از این دادهها را فهرست کرده بودند و لازم شد آن کشها پاک شوند. این حادثه اعتبار و اعتماد به CDN/پراکسیهای اشتراکی را بهچالش کشید و موجب بازنگریهای امنیتی Cloudflare شد.
منابع: توضیحات و پستمورتِ رسمی Cloudflare + تحلیلهای امنیتی.
تاریخ: ۲ July ۲۰۱۹ (۲ ژوئیه ۲۰۱۹)
علت فنی: در یک بهروزرسانی Web Application Firewall، یک قاعده نادرست منتشر شد که باعث «backtracking» عظیم و اشباع CPU روی هستههای پردازشی مربوط به ترافیک HTTP/HTTPS شد.
مدتزمان: حدود ۲۷–۳۰ دقیقه (Cloudflare گزارش کرده ۲۷ دقیقه).
پیامدها: درخواستها خطای ۵۰۲ میدادند؛ بسیاری از سایتهای proxied توسط Cloudflare بهطور همزمان دچار خطا شدند. شرکت بلافاصله «global kill» روی آن Managed Rules انجام داد تا سرویس بازگردانده شود. این مورد یکی از نمونههای کلاسیکِ «یک قاعدهٔ نرمافزاری که کل شبکه را از کار میاندازد» شد.
منابع: پستمورت Cloudflare و تحلیلهای مستقل.
تاریخ: ۱۷ July ۲۰۲۰ (۱۷ ژوئیه ۲۰۲۰)
علت فنی: خطای پیکربندی در backbone Cloudflare؛ بهروزرسانی روی یکی از روترها (مثلاً در مسیر Newark–Chicago یا تغییرات مربوط) باعث شد که ترافیک بهصورت نادرست به یک نقطه هدایت شود و آن روتر/نقظهٔ میانی اشباع شود؛ در نتیجه resolver عمومی ۱.۱.۱.۱ و برخی PoPها تحت تأثیر قرار گرفتند.
مدتزمان: تقریباً ۲۰–۳۰ دقیقه (گزارشها بین ۲۳ تا ۲۷ دقیقه).
پیامدها: سرویسهای زیادی (Discord، Shopify، GitLab، Politico و سایر سایتها) برای بازهٔ کوتاهی غیرقابلدسترس یا دارای افت عملکرد شدند؛ Downdetector و سرویسهای بستگیپذیر نیز اختلال گزارش کردند.
منابع: پستمورت و گزارشهای خبری (TechCrunch, Cloudflare status).
تاریخ: ۲۱ June ۲۰۲۲ (۲۱ ژوئن ۲۰۲۲)
علت فنی: بهروزرسانی پیکربندی در پروژهای برای افزایش مقاومت شبکه که در ۱۹ دیتاسنتر/PoP (نقاط حضور) اعمال شد؛ یک تغییر نامطلوب باعث شد آن PoPها ترافیک را بدرستی پردازش نکنند و کاربران در مناطقِ تحتتأثیر خطاهای ۵ xx یا عدم دسترسی مشاهده کردند.
مدتزمان: اختلالِ اصلی حدود ۱ تا ۲ ساعت گزارش شد (بسته به ناحیه و تأثیر).
پیامدها: تعداد زیادی از سرویسها و سایتهای بزرگِ اینترنتی به شکل موقت دچار افت یا قطع شدند؛ این حادثه نشان داد که حتی تغییراتی که با هدف افزایش مقاومت انجام میشوند، میتوانند در شرایط خاص خودِ شبکه اثر معکوس داشته باشند.
منابع: بیانیهٔ رسمی Cloudflare و پوشش خبری (BleepingComputer).
تاریخ: ۲ November ۲۰۲۳ (۲ نوامبر ۲۰۲۳)
علت فنی: خرابی/قطع برق در یکی از تاسیسات حیاتی (Portland, OR region) که با مجموعهای از خطاها و رویدادهای زنجیرهای تشدید شد؛ در اثر آن کنترلپلین (dashboard و API و سرویسهای آنالیتیکس) تحتتأثیر قرار گرفت.
مدتزمان: اختلال در کنترلپلین و آنالیتیکس چند ساعت طول کشید؛ گزارشها و پستمورت Cloudflare جزئیات مورد به مورد را تشریح کردهاند.
پیامدها: داشبورد مشتریان و APIها دچار قطعی یا کاهش عملکرد شدند؛ این موضوع بحث دربارهٔ وابستگی بخشهایی از زیرساخت اینترنت به تاسیسات فیزیکی و رویههای بازیابی برق را دوباره داغ کرد. Cloudflare پستمورت مفصلی منتشر کرد.
منابع: پستمورت رسمی Cloudflare و گزارشهای فنی/خبری.
تاریخ: ۱۸ November ۲۰۲۵ (۱۸ نوامبر ۲۰۲۵)
علت اولیه (گزارش اولیه Cloudflare): Cloudflare اعلام کرد که یک «spike in unusual traffic» (افزایش غیرمعمول ترافیک) در شبکه رخ داده که باعث خطاهای ۵۰۰ و degradation در ترافیک شد. بررسیها و گزارشهای خبری هم نشان دادند که طی ساعات اولیه صبح (ET) بخش بزرگی از ترافیک تحتتأثیر قرار گرفت.
مدتزمان: شرکت اعلام کرد اختلال رفع شده ولی برخی اختلالات باقیماند؛ گزارشها زمان بازگردانی اولیه را در بازهٔ چند ساعت ذکر کردند (جزئیات دقیق زمانها در پستمورت/بهروزرسانیها ذکر خواهند شد).
پیامدها: سرویسهای بزرگ (X، ChatGPT/OpenAI، Spotify، Canva، League of Legends و بسیاری دیگر) بهصورت موقتی دچار خطا یا عدم دسترسی شدند؛ دوباره نشاندهندهٔ وابستگی بالای اینترنت به چند تامینکنندهٔ زیرساختی شد. (رویترز و بهروزرسانی وضعیت Cloudflare).
{$sepehr_key_167882}
اختلالهای Cloudflare صرفاً یک لیست تاریخی نیستند؛ بلکه هر یک درسهایی مهمی درباره ساختار اینترنت و چالشهای زیرساخت جهانی به ما میآموزد.
اینترنت بسیار متمرکزتر از چیزی است که تصور میکنیم. وقتی حتی یک شرکت، که ماهیتش «میانجی» بین کاربر و سرور است، دچار اختلال میشود و نتیجه آن اختلال در شبکههای اجتماعی، سرویسهای هوش مصنوعی، وبسایتهای خبری، فروشگاههای آنلاین، بازیهای آنلاین میشود، این نشان میدهد که اینترنت عملاً به چند نقطهٔ مرکزی تکیه دارد و هرگونه خطا میتواند اثر دومینویی داشته باشد.
کوچکترین خطای نرمافزاری میتواند به قطع جهانی تبدیل شود. در اختلال ۲۰۱۹، تنها یک regexp اشتباه باعث اشباع CPU در کل شبکه، خطاها، از دسترس خارجشدن میلیونها سایت شد. این نشان میدهد که عملیات Cloudflare چقدر پیچیده است و چقدر انتشار تغییرات کوچک باید کنترلشده باشد. Cloudflare بعد از این حادثه سیستمهای self-test و canary deployment خود را تقویت کرد.
حملات DDoS فقط حمله نیستند؛ میتوانند بحران زیرساختی ایجاد کنند. حتی اگر Cloudflare بتواند حمله را دفع کند، باز هم ظرفیت شبکه تحت فشار قرار میگیرد، تأخیر افزایش مییابد، مسیرهای ترافیکی دچار ناپایداری میشوند. این نشان میدهد دفاع در برابر DDoS فقط یک مسئلهٔ امنیتی نیست؛ بلکه یک مسئلهٔ طراحی شبکه در مقیاس سیارهای است.
مشکل برق یا سختافزار همچنان نقطهٔ ضعف شبکههای ابری است. رخداد ۲۰۲۳ نشان داد که حتی بزرگترین دیتاسنترها با پیشرفتهترین UPSها در بهترین شرایط فیزیکی هنوز میتوانند با یک خطای فیزیکی دچار اختلال شوند.
این یک یادآوری مهم است که «ابر» یک مفهوم انتزاعی نیست؛ شبکهای از دستگاهها در ساختمانهایی واقعی است و آسیبپذیریهای فیزیکی خود را دارد.
شبکهٔ جهانی Cloudflare یک موجود زنده و خودتنظیم، اما حساس است. Cloudflare دائماً مسیرهای اینترنتی را تغییر میدهد، بار را توزیع میکند، قوانین امنیتی را بهروزرسانی میکند و cache را بازسازی میکند. به همین دلیل حتی تغییرهای کوچک نیز ممکن است اثرات غیرمنتظره داشته باشند.
وابستگی بیش از حد به CDNها برای برخی سرویسها ریسکزاست. وقتی سایتها برای همهچیز به Cloudflare وابستهاند، اختلال در یک بخش میتواند پشتیبانی شبکه را مختل کند. حتی اگر سرور اصلی کاملاً سالم باشد، سایت از دسترس خارج میشود.
شفافیت در گزارشدهی، بخش حیاتی اعتماد است. Cloudflare پس از چند رخداد (مثل Cloudbleed و قطعهای ۲۰۱۹ و ۲۰۲۲) گزارشهای بسیار شفافی منتشر کرد. این گزارشها به استانداردی تبدیل شدهاند برای بررسی علل ریشهای پیشگیری از رخدادهای مشابه، ایجاد اعتماد بین مشتریان و سرویسدهندگان. هرچقدر زیرساخت مهمتر باشد، میزان شفافیت نیز باید بیشتر باشد.
{$sepehr_key_167883}