Kudu: Hadoop Ekosisteminde Bir Oyun Değiştirici?

Video: EuroCC Türkiye Seminerleri IV - EuroCC Seminerleri: Büyük Veri ile Makine Öğrenmesi Nasıl Yapılır?

İçerik

Kudu Nedir?
Kudus Mevcut Durum Nedir?
Kudu HDFS / HBase'i Nasıl Tamamlayabilir?
Kudu Çerçevesinin Özellikleri
Kudu, Hadoop Ekosistemini Nasıl Değiştirebilir?
Hata Yok, Stres Yok - Hayatınızı Yok Etmeden Hayat Değiştiren Yazılım Yaratma Adım Adım Kılavuzunuz
Sonuç

Kaynak: Agsandrew / Dreamstime.com

Paket servisi:

Kudu, depolamayı daha verimli yönetmeye yardımcı olan açık kaynaklı bir projedir.

Kudu, güncellenebilir depolama sağlayan yeni bir açık kaynaklı projedir. Sıralı ve salt okunur saklama sağlayan HDFS / HBase'nin tamamlayıcısıdır. Kudu, şu an iş talebi olan hızlı verilerdeki hızlı analizler için daha uygundur. Dolayısıyla, Kudu sadece başka bir Hadoop ekosistem projesi değil, piyasayı değiştirme potansiyeline sahiptir. (Hadoop hakkında daha fazla bilgi için, Bilmeniz ve Anlamanız Gereken En Önemli 10 Hadoop Terimine bakınız.)

Kudu Nedir?

Kudu, yapılandırılmış verileri tablo şeklinde depolayan özel bir depolama sistemidir. Her tabloda önceden tanımlanmış sütun sayısı vardır. Her birinin, aslında o tablonun bir veya daha fazla sütunundan oluşan bir grup olan bir birincil anahtar vardır. Bu birincil anahtar, bir kısıtlama eklemek ve sütunları güvence altına almak ve ayrıca kolay güncelleme ve silme olanağı sağlayan bir dizin olarak da çalışır. Bu tablolar, tablet adı verilen bir dizi veri altkümesidir.

Kudus Mevcut Durum Nedir?

Kudu gerçekten çok iyi gelişmiştir ve zaten birçok özelliğe sahiptir. Bununla birlikte, kullanıcılar bazı önerilerde bulunur ve değişiklikler yaparlarsa, daha kolay yapılabilecek bazı cilalama işlemlerine ihtiyacı olacaktır.

Kudu tamamen açık kaynak ve Apache Software License 2.0'a sahip. Ayrıca Apache'ye sunulması amaçlanmıştır, böylece Apache Incubator projesi olarak geliştirilebilir. Bu, gelişiminin daha da hızlı ilerlemesini ve izleyicisini daha da büyütmesini sağlayacaktır. Belli bir süre sonra, Kudu’nun gelişimi kamuya açık ve şeffaf bir şekilde yapılacak. AtScale, Xiaomi, Intel ve Splice Machine gibi birçok firma Kudu'nun gelişimine katkıda bulunmak için bir araya geldi. Kudu ayrıca, çok sayıda izleyicinin öneri ve katkılarını sunduğu çok sayıda topluluğa sahiptir. Demek ki Kudu’nun gelişimini ilerleten insanlar.

Kudu HDFS / HBase'i Nasıl Tamamlayabilir?

Kudu, HDFS / HBase'in yerine geçecek bir şey değil. Aslında hem HBase hem de HFDS'yi desteklemek için tasarlanmıştır ve özelliklerini artırmak için yanlarında koşarlar. Bunun nedeni, HBase ve HDFS'nin bazı makinelerde onları Kudu'dan daha güçlü yapan birçok özelliğe sahip olmalarıdır. Genel olarak, bu tür makineler bu sistemlerden daha fazla fayda sağlayacak.

Kudu Çerçevesinin Özellikleri

Kudu çerçevesinin temel özellikleri şunlardır:

Tablonun sütunlarının son derece hızlı taranması - Parquet ve ORCFile gibi en iyi veri formatları, Kudu tarafından mükemmel şekilde ele alınan en iyi tarama prosedürlerine ihtiyaç duyar. Bu tür formatlar, yalnızca sütunlu veriler uygun şekilde kodlandığında ortaya çıkabilecek hızlı taramalara ihtiyaç duyar.
Performansın güvenilirliği - Kudu çerçevesi, Hadoop'taki birçok boşluk ve boşluğu kapatarak Hadoop’un genel güvenilirliğini artırmaktadır.
Hadoop ile kolay entegrasyon - Kudu, daha fazla verimlilik için Hadoop ve farklı bileşenleriyle kolayca entegre edilebilir.
Tamamen açık kaynak - Kudu, Apache 2.0 lisansına sahip açık kaynaklı bir sistemdir. Düzenli olarak güncelleyen ve değişiklik önerileri sunan farklı şirketlerden ve kökenden gelen geliştiricilerden oluşan geniş bir topluluğa sahiptir.

Kudu, Hadoop Ekosistemini Nasıl Değiştirebilir?

Kudu, Hadoop’un ekosistemine uyacak ve özelliklerini geliştirecek şekilde inşa edildi. Ayrıca Hadoop’un MapReduce, HBase ve HDFS gibi bazı önemli bileşenleriyle de bütünleşebilir. MapReduce işleri veri sağlayabilir veya Kudu tablolarından veri alabilir. Bu özellikler Spark'ta da kullanılabilir. Özel bir katman, Spark SQL ve DataFrame gibi bazı Spark bileşenlerini Kudu'ya erişilebilir hale getirir. Kudu, bu özelliklerin yerini alacak kadar gelişmiş olmasa da, birkaç yıl sonra, bunu yapacak kadar gelişmiş olacağı tahmin edilmektedir. O zamana kadar, Hadoop ve Kudu arasındaki entegrasyon gerçekten çok faydalıdır ve Hadoop’un ekosisteminin ana boşluklarını doldurabilir. (Apache Spark hakkında daha fazla bilgi için, bkz. Apache Spark, Hızlı Uygulama Geliştirmeye Nasıl Yardımcı Olur.)

Kudu çeşitli yerlerde uygulanabilir. Bu tür yerlerden bazı örnekler aşağıda verilmiştir:

Hata Yok, Stres Yok - Hayatınızı Yok Etmeden Hayat Değiştiren Yazılım Yaratma Adım Adım Kılavuzunuz

Hiç kimse yazılım kalitesini önemsemediğinde programlama becerilerinizi geliştiremezsiniz.

Gerçek zamanlıya yakın girdiler akışı - En kısa sürede girdilerin alınması gereken yerlerde, Kudu kayda değer bir iş yapabilir. Böyle bir yerin bir örneği, büyük miktarlarda dinamik verilerin farklı kaynaklardan aktığı ve gerçek zamanlı olarak hızlı bir şekilde sunulması gereken işletmelerdir.
Değişken erişim düzenine sahip zaman serisi uygulamaları - Kudu, zaman serisi tabanlı uygulamalar için mükemmeldir, çünkü tabloları oluşturmak ve bunları kullanmak daha kolaydır. Bu kullanımın bir örneği, eski verilerin hızlı bir şekilde bulunması ve ürünlerin gelecekteki popülerliğini tahmin etmek için işlenmesi gereken büyük mağazalardadır.
Eski sistemler - Çeşitli kaynaklardan veri alan ve farklı iş istasyonlarında saklayan birçok şirket Kudu ile kendilerini evlerinde hissedecek. Kudu son derece hızlıdır ve tüm makinelerdeki verileri işlemek için Impala ile etkili bir şekilde bütünleşebilir.
Tahmini modelleme - Modelleme için iyi bir platform isteyen veri bilimcileri Kudu'yu kullanabilir. Kudu, içine beslenen her veri kümesinden öğrenebilir. Bilim adamı ne olacağını görmek için modeli tekrar tekrar çalıştırabilir.

Sonuç

Kudu hala geliştirme aşamasında olsa da, HDFS ve HBase gibi standart Hadoop bileşenleri için iyi bir eklenti olma potansiyeline sahip. Tüm boşlukları doldurarak ve bazı özellikler ekleyerek Hadoop ekosistemini tamamen değiştirmek için yeterli potansiyele sahiptir. Aynı zamanda çok hızlı ve güçlüdür ve büyük veri tablolarını hızlı bir şekilde analiz etmenize ve saklamanıza yardımcı olabilir. Bununla birlikte, daha verimli kullanılması için yapılması gereken bazı işler var.