SQL Yeterli Değilken: Çok Büyük Yeni Veri Merkezlerini Kontrol Ediyor

İçerik

Google Dosya Sistemi: Büyük Bir Vaka Çalışması
Hata Yok, Stres Yok - Hayatınızı Yok Etmeden Hayat Değiştiren Yazılım Yaratma Adım Adım Kılavuzunuz
Çekirdek Teknolojiye Bir Bakış
Diğer Büyük Sistemler Bunu Nasıl Başarır?
DFS’nin Bakımı

Paket servisi:

Geliştiricilerin ve mühendislerin, klasik 1990'lı yılların arketiplerinin çok ötesine geçen platformlarda hizmetleri hızlandırmak ve iyileştirmek için sürekli çalışmaları gerekir.

Özel hayatlarımız hakkında milyarlarca veri bitini tutan muazzam NSA veri merkezleriyle ilgili tüm bu sıkıntılarla, en azından CNN'de çok fazla konuşulmamış bir şey var. Bulut teknolojisi, büyük veriler ve şu anda tüm dünyada inşa edilen etkileyici fiziksel veri depolama merkezleriyle birlikte ortaya çıkan bir mühendislik problemini içermektedir. Peki bu nedir? Bu tesisleri işleten mamut BT sistemlerinden birini kim yönetiyorsa yönetsin, tüm bu verilerin boru hattına hızlı bir şekilde girip çıkmasına yardımcı olan yazılım sistemlerine ihtiyaç vardır. Bu ihtiyaç, bugün profesyonellerin karşılaştığı en ilginç BT sorularından veya bulmacalarından birini temsil ediyor.

Birçok uzmanın işaret ettiği gibi, bugünün veri işlemeye olan aşırı talebi, geleneksel yaklaşımların çok ötesine geçiyor. Basitçe söylemek gerekirse, basit bir veritabanı yapıları ve SQL sorgu arayüzü gibi araçlar kullanmak, son birkaç yılda geliştirilen tescilli sistemlerin beğenileri için yeterli işlem gücü veya işlevsellik sağlamayacak. Günümüzün büyük teknoloji şirketlerinin arşivleri son derece ölçeklenebilir teknolojiye ihtiyaç duyuyor. Tek bir sunucunun sağlayabileceğinden çok daha yüksek hacimli sonuçlar girebilen ve çıkaran veri işleme araçlarına ihtiyaç duyarlar. Büyüme için hızla rampa edilebilecek çözümlere, yapay zekanın karmaşık seviyelerini içeren çözümlere, bir BT departmanı tarafından kolay yönetim için tasarlanmış çözümlere ihtiyaçları var.

Asıl soru, şirketler ve devlet kurumları geleneksel veri işleme yolunun sınırlarını nasıl ele geçiriyor? İşte size umut vaat eden bir seçeneğe bir göz atın: Büyük verileri yöneten yazılım ve birden fazla veri merkezinin yönetimi.

Google Dosya Sistemi: Büyük Bir Vaka Çalışması

Google'ın veri merkezlerine erişmek için kullandığı tescilli teknoloji, büyük veri işleme ve çoklu veri merkezi yönetimi için kullanılan en yaygın modellerden biridir. 2003 yılında geliştirilen Google Dosya Sistemi (GFS), milyonlarca kullanıcı tıklattıkça, tek bir platformda çok fazla yeni bilgi edinmenin bir parçası olan veri sistemlerindeki yüksek hızlı değişikliklerin büyük bölümünü desteklemek üzere tasarlanmıştır. Aynı zaman. Uzmanlar bunu dağıtık bir dosya sistemi olarak adlandırıyor ve bu oldukça karmaşık teknikleri tanımlamak için "veri nesnesi saklama" terimini kullanıyor. Ancak gerçekte, bu terimler, işte ne olduğunu açıklayan terimleri bile yüzeyden çizmez.

Bireysel olarak, GFS gibi bir sistemi oluşturan özellikler ve bileşenler artık çığır açan olmayabilir, ancak karmaşıktır. Birçoğu bu sitede, her zaman bağlı, her zaman bağlantıda olan yeni bir global BT sisteminin temelini oluşturan görece yeni yenilikler olarak ele alınmıştır. Toplu olarak, GFS gibi bir sistem, parçalarının toplamından çok daha fazlasıdır: Bu, tek tek veri parçalarının bu şekilde fırlatıldığı ve bu şekilde görsel olarak tamamen modellenirse kaosa benzeyen bir süreçte iç içe geçmiş olan, büyük ölçüde görünmez fakat oldukça karmaşık bir ağdır. Tüm verilerin nereye gittiğini anlamak, bu sistemlerin savaş istasyonlarını yönetenlerin kolayca kabul edeceği gibi, çok fazla enerji ve taahhüt gerektirir.

“Dış ve iç parçalanma, log tabanlı ve yerinde güncellemeler ve işlem tutarlılığı düzeyleri dahil olmak üzere kullanılabilirlik alanları üzerinde derin bir etkiye sahip çok fazla ayrıntı var - tek bir özlü cümleyle çalışma şeklini özetlemek için "diyor Sanbolic'in CEO'su ve kurucusu Momchil Michailov.

"Dağıtılmış bir dosya sistemi ya yerel ad alanlarının ve katılımcı düğümlerin boş alanlarının dağıtılmış bir toplayıcısı ya da dağıtılmış bir kilit yöneticisi bileşeninin yardımı ile paylaşılan depolamaya erişen çok sayıda düğümde çalışan yerel bir dosya sistemidir" dedi.

Kerry Lebel, ölçeklenebilir otomasyon platformları ile tanınan Automic firmasında kıdemli ürün yöneticisidir. Lebel, bir DFS'yi düşük maliyetli donanıma bağlı sunuculara iş yükleri atayan bir sistem olarak tanımlamanın doğru olmasına rağmen, tüm hikayeyi gerçekten anlatmıyor.

Hata Yok, Stres Yok - Hayatınızı Yok Etmeden Hayat Değiştiren Yazılım Yaratma Adım Adım Kılavuzunuz

Hiç kimse yazılım kalitesiyle ilgilenmediğinde programlama becerilerinizi geliştiremezsiniz.

"Kaybettiğiniz son şey tüm harika faktör Nasıl Lebel, “yaptıklarını yapıyorlar” dedi.

Teknik detaylardan uzak durduğunuzda ve dağıtılmış dosya sisteminin arkasındaki temel fikri düşündüğünüzde, Lebel'in bahsettiği "harika faktör" belirgindir. Bu büyük veri işleme sistemleri, eski dosya / klasör sistemlerini yalnızca birden fazla dağıtım sistemi değil, darboğazları önlemek için buraya ve oraya çok sayıda ünitenin dağıldığı “nesneye yönelik” bir yaklaşım içeren yapılarla değiştirir.

Örneğin, yüzbinlerce arabanın çok yollu bir uçaktan aşağı doğru fırlatılmasının yanı sıra, etrafında döndürülen ve gönderilen temiz küçük yonca yaprağı ya da oxbow kollarına sürülen son teknoloji ürünü bir otoyol sistemi düşünün. çeşitli sapma noktalarındaki hedeflerine doğru. Gökyüzünden, her şey bir İsviçre saati kadar koreografisi gibi görünüyor. Bu, mühendislerin, çok katmanlı bir veri içerme şemasının farklı seviyelerine "tekmeleyerek" bilgileri sınırlandırmak için yeni yollar hayal ettiklerinde gördükleri görsel model. Teknik özellikleri bir kenara bırakarak, bu bir taşıma sisteminin en üst düzey hedefidir: kendi içinde barındırılan nesnelerin gömülü meta verileriyle, ihtiyaç duydukları yere en yüksek hızda hareket etmelerini sağlamak, tutarlılık hedeflerine ulaşmak, son kullanıcıları memnun etmek veya Hatta üst düzey bir gözlem veya analiz bildirmek için.

Çekirdek Teknolojiye Bir Bakış

Ars Technica'da yayınlanan Sean Gallagher'ın bir makalesi, GFS tasarımını biraz daha yönetilebilir parçalara ayırıyor ve Google'da sayfanın altındakileri gösteriyor.

GFS, veri okuma ve yazma için yedekli ve hataya dayanıklı bir modelle başlar. Buradaki fikir, tek bir sürücüye belirli bir güncelleme yazmak yerine, yeni sistemler birden çok hedefe veri parçaları yazmaktır. Bu şekilde, bir yazma başarısız olursa, diğerleri kalacaktır. Bunu barındırmak için, bir birincil ağ bileşeni, bir istemci için "aradığında" verileri bir araya toplayarak, diğer alt birimlere veri işleme koyar. Tüm bunlar, belirli güncellemelerin ve iletim sonuçlarının daha büyük sistem içinde nerede olduğunu tanımlamaya yardımcı olan bir meta veri protokolüyle mümkün olur.

Bunun bir diğer önemli yönü de, bu yinelenen ağır sistemlerin veri tutarlılığını nasıl güçlendirdiğidir. Gallagher'ın belirttiği gibi, GFS tasarımı hala "atomitliği güçlendirirken" ya da verinin zaman içinde eşleşmek üzere birden fazla depolama biriminde nasıl güncelleneceği prensibini korurken bazı tutarlılığı feda ediyor. Google’ın “rahat tutarlılık modeli”, tutarlılık uygulama için daha uzun bir zaman dilimi karşılığında daha fazla esneklik sağlayan BASE modelinin temel teorisini takip ediyor gibi görünüyor.

Diğer Büyük Sistemler Bunu Nasıl Başarır?

Michailov, “Yeterince büyük bir ölçeğe ulaşıldığında, verilerdeki tutarsızlıklar veya bozulmalar kaçınılmaz hale geliyor” diyor. "Bu nedenle, dağıtılmış dosya sistemlerinin temel amacı, yolsuzluğun varlığında mümkün olduğu kadar çok işlem gerçekleştirme ve aynı zamanda yolsuzlukla eşzamanlı olarak başa çıkmak için etkili yöntemler sağlama yeteneği olmalıdır." Michailov ayrıca, fazlalıkların dikkatlice uygulanmasıyla performansı koruma ihtiyacından da bahsetmektedir.

Michailov, "Örneğin, her bir diskte meta veriler (verilerle ilgili veriler) oluşturmak, aynanın kopyası bozuksa, diskin uygun veri yapısını yeniden oluşturmasını sağlar." Dedi. "Ayrıca, RAID düzeyleri, dosya sistemi toplayıcısındaki veya paylaşılan birim yöneticisi düzeylerindeki depolama hatalarıyla mücadele etmek için kullanılabilir."

Lebel, başka bir tutarlılık modelini tartışırken Hadoop dağıtılmış dosya sistemi (HDFS) adı verilen ve “fiili bir endüstri standardı” olarak adlandırdığı bir sisteme odaklanıyor.

Lebels, HDFS'de her veri bloğunun farklı düğümlerde ve iki farklı rafta üç kez çoğaltıldığını söylüyor. Veriler uçtan uca kontrol edilir. Hatalar, bozulmuş bloklardan kurtulan ve yenilerini yaratan bir veri işleyicisi olan NameNode'a bildirilir.

Tüm bunlar, bu toplu veri sistemlerinden birinin bütünlüğü için çok önemli olan "temiz veri" türlerini desteklemektedir.

DFS’nin Bakımı

GFS'ye çok farklı bir bakış, Wired yazarı Steven Levy'nin Ekim 2012 tarihli bir makalesinden geliyor. Google’ın toplu yukarıdan aşağıya ağ kullanımına yönelik yazılım yaklaşımını karakterize etmede çok daha kısa bir süredir.

"Yıllar boyunca," diye yazıyor Levy, "Google ayrıca sayısız sunucusunu dev bir varlıkmış gibi yönetmesini sağlayan bir yazılım sistemi kurdu. Şirket içi geliştiricileri, kukla ustaları gibi davranarak binlerce bilgisayar göndererek tek bir makineyi çalıştırmak kadar kolay görevler. "

Bunu yapmak, sunucu sistemlerini "parçalamaya" çalışan özel test ekiplerinden, veri şifreleme salonlarında dikkatlice kontrol edilen sıcaklıklara kadar tonlarca siber tabanlı ve çevresel bakım gerektirir.

Levy ayrıca bir bulut uygulama aracı olan MapReduce ve bazı tasarım ilkelerini GFS ile paylaşan bir analitik motoru olan Hadoop gibi GFS için ek teknolojilerden de bahsetmektedir. Bu araçların büyük veri merkezi taşıma sistemlerinin nasıl tasarlandığı ve gelecekte ortaya çıkması muhtemel olan şeyler üzerinde kendi etkileri vardır. (Büyük Verilerin Evrimi'nde bu teknolojiler hakkında daha fazla bilgi edinin.)

Michailov, MapReduce'un her zamankinden daha büyük veri merkezi sistemlerini destekleme potansiyeline sahip olduğuna inanıyor ve toplu bir dosya sisteminin ad düğümlerini depolamak için SSD'lerle paylaşılan bir kümede "tutabilecek" tek bir uygulama "hakkında konuşuyor ."

Lebel, parti işlemesinden (Hadoop destekli yöntem) akış işlemeye doğru bir hamle görüyor ve bu veri işlemlerini gerçek zamana yaklaştıracak.

"Verileri ne kadar hızlı işleyebilir ve iş karar vericiler veya müşterilerimiz için erişilebilir hale getirebilirsek, rekabet avantajı da o kadar artacaktır" diyor Lebel, yukarıdaki işleme terminolojisini, son kullanıcı. Lebel, şirketlerin "senkronize" faaliyetleri veya son kullanıcı eylemleriyle senkronize edilen etkinlikler ve uygulama açısından daha esnek "asenkron" etkinlikler hakkında düşünerek, şirketlerin belirli bir hizmet sisteminin nasıl çalışacağını tanımlamak için SLA'ları ve diğer kaynakları kullanabileceğini söylüyor .

Tüm bunların bir anlamda kaynadığı şey, bir anlamda, geliştiricilerin ve mühendislerin, 1990'lı yılların klasik arketiplerinin çok ötesine geçen platformlarda hizmetleri hızlandırmak ve iyileştirmek için sürekli çalışmak zorunda olmalarıdır. Bu, veri makinesine eleştirel bir bakışla bakmak ve darboğazı yalnızca büyüyen bir nüfusu değil aynı zamanda “hızlı sanayi devrimi” olarak nitelendiren çığır açan hızda gerçekleşen üssel değişimin yol açtığı şekillerde kırmak anlamına geliyor. Bu cephelerde en fazla çığır açanların geleceğin piyasalarına ve ekonomilerine hükmetmesi muhtemeldir.