Cloudflare olayının lanet olası reteksi: peki gerçekte ne oldu? - Dünyadan Güncel Teknoloji Haberleri

Cloudflare olayının lanet olası reteksi: peki gerçekte ne oldu? - Dünyadan Güncel Teknoloji Haberleri

Prince sorunu açıklamak için elinden geleni yaptı:

Öncelikle bunun asla olmaması gerekirdi

Saha dışı enerji ve jeneratörleri aynı anda kullanmıyoruz

Bu tür bir şey büyük internet hizmet şirketlerinin başına gelmez veya en azından gelmemesi gerekir Esnekve bu da birbirini takip eden sorunların ortaya çıkmasına neden oldu

Teorik olarak, invertörlerin sunucuları 10 dakika boyunca çalışır durumda tutması gerekiyordu, bu da jeneratörlerin tekrar çalışır duruma gelmesi için yeterli olurdu ”


Kaynak : “ZDNet İleriye dönük olarak Bay Prince şu sonuca vardı: “Veri merkezi sağlayıcımızda gördüğümüz ardışık kesintilere bile dayanabilecek doğru sistem ve prosedürlere sahibiz, ancak bu sistemleri ve prosedürleri uygularken daha titiz olmamız gerekiyor ve bunları bilinmeyen bağımlılıklar açısından test etmek


2 Kasım 2023’te müşteri arayüzleri Bulut parlamasıWeb siteleri ve API’lerin yanı sıra günlükler ve analiz araçları da dahil olmak üzere , düzgün çalışmayı durdurdu

Bağlantıyı ve tüm jeneratörleri kesen 12

Birkaç güç dalgalanması olacağını tahmin eden Cloudflare ayrıca “tek güvenli kurtarma işleminin tüm kurulumun tamamen yeniden başlatılması olduğuna” karar verdi


7,5 milyondan fazla web sitesi Cloudflare kullanıyorve dünyanın en popüler 10 Böylece kesinti devam etti Portland General Electric (PGE), binanın bağımsız güç kaynaklarından birini kesmek zorunda kaldı

İlk olarak Flexential’ın tesisindeki elektrik kesintisi beklenmedik bir hizmet kesintisine neden oldu

Kulağa harika geliyor, değil mi? Ama olan bu değil 470 voltluk bir akım

Daha sonra veri merkezine güç sağlayan PGE transformatöründe toprak arızası oluştu

4 Kasım’a kadar süren olay nihayet çözümlendi 280’i İçerik Dağıtım Ağı (CDN) hizmetlerine güveniyor Aynı zamanda aktif, yedekli veri kümelerinden yararlanabilecek kadar da yakındırlar Ancak yüksek kullanılabilirlik kümesinde olması gereken hizmetlerin bir alt kümesi, yalnızca yeni ölen veri merkezinde çalışan hizmetlere bağlıydı Örneğin devre kesicilerin neredeyse tamamı patlamıştı ve Flexentail bunları değiştirmek için yenilerini satın almak zorunda kaldı Bu olay boyunca küresel ağımız beklendiği gibi çalışmaya devam etti ancak çekirdeğin mevcut olmaması durumunda çok fazla sistem başarısız oluyor ” Kısacası durum umutsuzdu Büyük veri merkezi sağlayıcılarımızdan biri felaketle sonuçlanabilecek bir arıza yaşadığında bile bu tür bir kesintiyi önleyecek yüksek kullanılabilirliğe sahip sistemlerimiz olduğuna inanıyorduk Bölgenin diğer iki veri merkezi yüksek kullanılabilirlik kümesini destekledi ve kritik hizmetleri çevrimiçi tuttu Üstelik hizmetlerinin büyük bir kısmı temel tesislerin mevcudiyetine bağlıdır Dağıtılmış sistemlerde iyiyiz İyi haber şu ki CDN başarısız olmadı Bu olayın asla yaşanmaması gerekirdi Ve toprak arızası dediğimde, sigortayı tamir etmek için sizi bodruma inmeye zorlayan türden bir kısa devreden bahsetmiyorum Ancak Flexential, kesilen elektriği tamamlamak için jeneratörlerini çalıştırdı

Ve üç veri merkezi “çoğunlukla” yedekli olsa da tamamen yedekli değildi Ancak sitede gece nöbetçisi personeli “güvenlik ve yalnızca bir haftadır işte olan refakatsiz bir teknisyenden oluşuyordu 000 web sitesinden 3 ” Merkezi tesislerimizde kesinti olsa bile neredeyse normal şekilde çalışmaya devam edebilmeleri için tüm hizmetlerimizi tüm müşterilerimizin kullanımına sunuyoruz Ve bu kolay değildi

Cloudflare itiraf ediyor “çok gevşekti ve yeni ürünlerin ve bunlarla ilişkili veritabanlarının yüksek kullanılabilirlik kümesine entegre edilmesini gerektirmesi gerekirdi” Milyonlarca avroluk soru şu: “Ne oldu?”

Şirketin üç ana veri merkezinden birinde elektrik kazası meydana geldi

Cloudflare CEO’su Matthew Prince’e göre cevap, şirketin Oregon’daki (Amerika Birleşik Devletleri) üç ana veri merkezinden birinde meydana gelen bir elektrik kazasıydı Kötü haber şu ki Cloudflare Dashboard ve uygulama programlama arayüzleri (API’ler) neredeyse iki gün boyunca ulaşılamadı

Talihsizlik! Flexential, güç kaynağını desteklemek için jeneratörlerini açtı

Üç veri merkezi, doğal bir felaketin hepsinin birden çökmesine neden olmayacağı kadar birbirinden yeterince uzakta Ne için ? Çünkü Cloudflare personeli neyin yanlış olduğunu anlamak için günlüklere bakamadı Daha da kötüsü Flexential, Cloudflare’e bir şekilde jeneratör gücüne geçtiğini söylemedi Ayrıca Cloudflare’in tarama sürelerinin kabul edilebilir olması nedeniyle günlük sistemlerini yüksek kullanılabilirliğe sahip kümeye entegre etmeme kararının bir hata olduğu ortaya çıktı Her birinin birden fazla yedekli ve bağımsız güç kaynağı ve İnternet bağlantısı vardır com”



genel-15

Veri merkezinin en iyi uygulamalarına aşina olmayanlar için bu yaklaşımdan kaçınılmalıdır Bu konu, yıl sonuna kadar benim ve ekibimizin büyük bir kısmının tüm dikkatini koruyacak Bu yaklaşım, tüm sunucuların yeniden inşa edilmesini ve yeniden başlatılmasını gerektiriyordu; bu da saatler sürdü Dağıtılmış sistemler ürünlerini kullanmamız gerekiyor

Özellikle, günlükleri işleyen ve Cloudflare’in analitiğini güçlendiren iki kritik hizmet: Kafka’nın Ve ClickHouse – yalnızca çevrimdışı veri merkezinde mevcuttu Bunun yerine, invertörler yaklaşık dört dakika sonra ölmeye başladı ve jeneratörler zaten asla zamanında çalıştırılamayacaktı

Bu arada Cloudflare, bazı kritik sistem ve hizmetlerin henüz yüksek kullanılabilirlik kurulumuna entegre edilmediğini zor yoldan keşfetti Bu olaydan ve bunun müşterilerimize ve ekibimize yaşattığı zorluktan dolayı üzgünüm ve utanıyorum Otuz altı saat sonra Cloudflare hizmetleri nihayet normale döndü

Yüksek kullanılabilirliğin avantajları ve dezavantajları

Şimdiye kadar, çok iyi Her ne kadar pek çok sistem beklendiği gibi çevrimiçi kalsa da, bazı kritik sistemlerde, onları kullanılamaz hale getiren belirgin olmayan bağımlılıklar vardı Yani tasarım gereği tesislerden biri arızalanırsa diğerleri yükü devralmalı ve çalışmaya devam etmelidir Ve son iki günün zorluğu bizi daha iyi hale getirecek Ancak veri merkezi, tesise güç sağlayan, belirli düzeyde bağımsızlığa sahip birden fazla güç kaynağına sahiptir 470 volttan bahsediyorum Cloudflare’in kontrol düzlemi ve analiz sistemleri, Hillsboro, Oregon çevresindeki üç veri merkezinde bulunan sunucularda çalışır ”

Birkaç saat sonra nihayet her şey normale döndü

Hata!

Tek personel olarak bir hafta boyunca bir teknisyen iş başında

Belki de kimse başa çıkamadı Bu cümleyi okumanızdan daha kısa bir sürede bağlantıyı ve tüm jeneratörleri devre dışı bırakan 12

Merkezi sistemine bağlı kalan dağıtık sistemlerin kralı

Birçok şirket bunu yapıyor ancak Prens itiraf ediyor Bu durum “Cloudflare’in lehine çalışmıyor

O haklı Dolayısıyla HA küme hizmetleri Kafka ve Clickhouse’u aradığında yanıt alamadılar Bu açıkça gerçek bir sorundu Ama hepsi birbirinden bağımsız