Bilmeniz ve Anlamanız Gereken En Önemli 10 Hadoop Terimleri

İçerik

Ama önce, Hadoop'un nasıl çalıştığına bir bakın
Hadoop Ortak
Hadoop Dağıtılmış Dosya Sistemi (HDFS)
Harita indirgeme
HBase
kovan
Hata Yok, Stres Yok - Hayatınızı Yok Etmeden Hayat Değiştiren Yazılım Yaratma Adım Adım Kılavuzunuz
Apache Domuz
Apache Spark
Apache Cassandra
Yine Başka Bir Kaynak Müzakereci (YARN)
İmpala

Kaynak: Trueffelpix / Dreamstime.com

Paket servisi:

Büyük verileri gerçekten anlamak için Hadoop ve etrafındaki dil hakkında biraz bilgi sahibi olmanız gerekir.

Büyük miktarda yapılandırılmış, yapılandırılmamış veya yarı yapılandırılmış veri için akılda kalıcı bir isim olan büyük veri, en azından geleneksel veritabanı ve yazılım uygulamalarını kullanarak, yakalamak, depolamak, yönetmek, paylaşmak, analiz etmek ve görselleştirmek için oldukça zordur. Bu nedenle büyük veri teknolojilerinin büyük hacimli verileri etkin ve verimli bir şekilde yönetme ve işleme potansiyeli vardır. Ve bilgisayar kümeleri arasında büyük veri setlerini dağıtık bir şekilde işlemek için çerçeve ve ilgili teknolojileri sağlayan Apache Hadoop. Dolayısıyla, büyük verileri gerçekten anlamak için Hadoop hakkında biraz bilgi sahibi olmanız gerekir. Burada, Hadoop ile ilgili olarak duyacağınız üst terimlere ve ne anlama geldiğine bir göz atın.

Ama önce, Hadoop'un nasıl çalıştığına bir bakın

Hadoop eko sistemine girmeden önce, iki temel şeyi açıkça anlamanız gerekir. Birincisi, bir dosyanın Hadoop'ta nasıl depolandığı; İkincisi, depolanan verilerin nasıl işlendiğidir. Hadoop ile ilgili tüm teknolojiler temel olarak bu iki alanda çalışır ve onu daha kullanıcı dostu yapar. (Hadoop'un Büyük Veri Sorununu Çözmeye Nasıl Yardımcı Olduğu bölümünde Hadoop'un nasıl çalıştığının temellerini öğrenin.)

Şimdi şartlara göre.

Hadoop Ortak

Hadoop çerçevesi farklı işlevler için farklı modüllere sahiptir ve bu modüller çeşitli nedenlerle birbirleriyle etkileşime girebilir. Hadoop Ortak, Hadoop ekosistemindeki bu modülleri desteklemek için ortak bir yardımcı program kütüphanesi olarak tanımlanabilir. Bu yardımcı programlar temelde Java tabanlı, arşivlenmiş (JAR) dosyalardır. Bu yardımcı programlar, geliştirme süresi boyunca çoğunlukla programcılar ve geliştiriciler tarafından kullanılır.

Hadoop Dağıtılmış Dosya Sistemi (HDFS)

Hadoop Dağıtılmış Dosya Sistemi (HDFS), Apache Software Foundation kapsamında Apache Hadoop'un bir alt projesidir. Bu, Hadoop çerçevesinde depoların omurgasıdır. Hadoop kümesi olarak bilinen birden fazla ürün donanımına yayılan dağıtılmış, ölçeklenebilir ve hataya dayanıklı bir dosya sistemidir. HDFS'nin amacı, uygulama verilerine yüksek verim erişimi olan güvenilir bir şekilde büyük miktarda veri depolamaktır. HDFS, master'ın NameNode ve slave'lerin DataNodes olarak bilindiği master / slave mimarisini takip eder.

Harita indirgeme

Hadoop MapReduce ayrıca Apache Software Foundation'ın bir alt projesidir. MapReduce aslında tamamen Java ile yazılmış bir yazılım çerçevesidir. Birincil hedefi, geniş bir veri kümesini dağıtılmış bir ortamda (emtia donanımından oluşan) tamamen paralel bir şekilde işlemek. Çerçeve, iş planlaması, izleme, yürütme ve yeniden yürütme gibi tüm faaliyetleri yönetir (başarısız işler durumunda).

HBase

Apache HBase, Hadoop veritabanı olarak bilinir. Sütunlu, dağıtılmış ve ölçeklenebilir büyük bir veri deposudur. İlişkisel bir veritabanı yönetim sistemi olmayan bir NoSQL veritabanı türü olarak da bilinir. HBase uygulamaları ayrıca Java ile yazılmıştır, Hadoop'un üzerine kuruludur ve HDFS ile çalışır. HBase, gerçek zamanlı okuma / yazma ve büyük verilere rastgele erişim gerektiğinde kullanılır. HBase, Googles BigTable konseptlerine göre modellenmiştir.

kovan

Apache Hive açık kaynaklı bir veri ambarı yazılım sistemidir. Hive, Apache Software Foundation'a girmeden önce açık bir kaynak haline gelmeden önce geliştirilmiştir. Dağıtılmış Hadoop uyumlu depolama alanındaki büyük veri kümelerinin yönetimini ve sorgulanmasını kolaylaştırır. Hive tüm faaliyetlerini HiveQL olarak bilinen SQL benzeri bir dil kullanarak gerçekleştirir. (Daha fazla bilgi için bkz. Apache Hive and Pig.

Hata Yok, Stres Yok - Hayatınızı Yok Etmeden Hayat Değiştiren Yazılım Yaratma Adım Adım Kılavuzunuz

Hiç kimse yazılım kalitesini önemsemediğinde programlama becerilerinizi geliştiremezsiniz.

Apache Domuz

Pig, aslen büyük miktarda dağıtılmış veri üzerinde MapReduce işleri geliştirmek ve yürütmek için Yahoo tarafından başlatıldı. Şimdi Apache Software Foundation kapsamında açık kaynaklı bir proje haline geldi. Apache Pig, çok büyük veri setlerini verimli bir şekilde analiz etmek için bir platform olarak tanımlanabilir. Domuzlar altyapı katmanı, gerçek işlemi yapmak için MapReduce işleri dizileri üretir. Domuz dil katmanı Pig Latince olarak bilinir ve dağıtılmış veri kümelerinde sorgular gerçekleştirmek için SQL benzeri özellikler sağlar.

Apache Spark

Spark başlangıçta UC Berkeley'deki AMPLab tarafından geliştirilmiştir. Şubat 2014'te Apache'nin üst düzey bir projesi oldu. Apache Spark, veri analizini çok daha hızlı yapan açık kaynaklı, genel amaçlı, küme hesaplama çerçevesi olarak tanımlanabilir. Hadoop Dağıtılmış Dosya Sistemi üzerine inşa edilmiştir, ancak MapReduce çerçevesine bağlı değildir. Kıvılcım performansı MapReduce'a göre çok daha hızlı. Scala, Python ve Java'da üst düzey API'ler sağlar.

Apache Cassandra

Apache Cassandra başka bir açık kaynak kodlu NoSQL veritabanıdır. Cassandra, çok sayıda veri merkezi ve bulut depolama alanındaki büyük miktarda yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış veri alanlarını yönetmek için yaygın olarak kullanılır. Cassandra, "masterless" mimarisine dayanarak tasarlanmıştır, yani master / slave modelini desteklemiyor demektir. Bu mimaride, tüm düğümler aynıdır ve veriler tüm düğümlere otomatik ve eşit olarak dağıtılmaktadır. Cassandras'ın en önemli özellikleri sürekli kullanılabilirlik, doğrusal ölçeklenebilirlik, yerleşik / özelleştirilebilir çoğaltma, tek bir arıza noktası ve operasyonel basitliktir.

Yine Başka Bir Kaynak Müzakereci (YARN)

Yine Başka Bir Kaynak Müzakerecisi (YARN), MapReduce 2.0 olarak da bilinir, ancak aslında Hadoop 2.0'ın altına düşer. YARN, iş planlaması ve kaynak yönetimi çerçevesi olarak tanımlanabilir. YARN'ın temel fikri, JobTracker'ın işlevselliklerini, kaynak yönetimi ve zamanlama / izlemeden sorumlu iki ayrı bölümle değiştirmektir. Bu yeni çerçevede, Global ResourceManager (RM) ve ApplicationMaster (AM) olarak bilinen uygulamaya özel bir master bulunacaktır. Global ResourceManager (RM) ve NodeManager (her düğüm kölesi için) gerçek veri hesaplama çerçevesini oluşturur. Mevcut MapReduce v1 uygulamaları da YARN'da çalıştırılabilir, ancak bu uygulamaların Hadoop2.x kavanozlarıyla yeniden derlenmesi gerekir.

İmpala

Impala, büyük paralel işleme (MPP) gücüne sahip bir SQL sorgu motoru olarak tanımlanabilir. Doğal olarak Apache Hadoop çerçevesinde çalışır. Impala, Hadoop ekosisteminin bir parçası olarak tasarlanmıştır. Diğer Hadoop ekosistem bileşenleri tarafından kullanılanlarla aynı esnek dosya sistemini (HDFS), meta verileri, kaynak yönetimini ve güvenlik çerçevelerini paylaşır. En önemli nokta, Impala'nın sorgu işlemede Hive ile karşılaştırıldığında çok daha hızlı olduğunu belirtmek. Ancak Impala'nın küçük bir veri kümesi üzerinde sorgulama / analiz amaçlı olduğunu ve çoğunlukla işlenmiş ve yapılandırılmış veriler üzerinde çalışan bir analiz aracı olarak tasarlandığını da unutmamalıyız.

Hadoop BT'de önemli bir konudur, ancak uzun vadeli uygulanabilirliği konusunda şüpheci olanlar var. Hadoop Nedir? Bir Sinik Teorisi.