Hadoop Hakkında Bilmeniz Gereken 7 Şey

Video: iPhone SE 2022, 5. Nesil iPad Air, M1 Ultra, Mac Studio ve Studio Display tanıtıldı!

İçerik

Hadoop nasıl başladı?
Hadoop hakkında bu kadar önemli olan nedir?
Şema okunuyor?
Kovan nedir?
Hadoop ne tür verileri analiz ediyor?
Gerçek dünyadan bir Hadoop örneği verebilir misiniz?
Hadoop zaten eski mi yoksa sadece geçiş mi?

Kaynak: Pressureua / Dreamstime.com

Paket servisi:

Hadoop yıllardır verileri analiz etmeye yardımcı oluyor, ancak muhtemelen bilmediğiniz birkaç şeyden daha fazlası var.

Hadoop Nedir? Sarı bir oyuncak fil. Beklediğiniz değil mi? Buna ne dersin: Bu açık kaynaklı yazılım projesinin yaratıcısı Doug Cutting - oyuncak fil Hadoop adını alan oğlunun adını ödünç aldı. Özetle, Hadoop, Apache Software Foundation tarafından geliştirilen ve veri yoğun, dağıtık bir hesaplama geliştirmek için kullanılan bir yazılım çerçevesidir. Ve başka bir terim-yazar-okuyucunun önemli bir bileşeni asla yeterince doyamayacak gibi görünmüyor: büyük veri. İşte bu eşsiz, özgür lisanslı yazılım hakkında bilmeniz gereken yedi şey.

Hadoop nasıl başladı?

On iki yıl önce, Google topladığı büyük miktarda veriyi işlemek için bir platform oluşturdu. Şirketin sık sık yaptığı gibi, Google da tasarımını iki kâğıt şeklinde halka açık hale getirdi: Google Dosya Sistemi ve MapReduce.

Aynı zamanda, Doug Cutting ve Mike Cafarella, yeni bir arama motoru olan Nutch üzerinde çalışıyorlardı. İkisi de büyük miktarda veri ile nasıl başa çıkılacağıyla mücadele ediyorlardı. Ardından iki araştırmacı Google’ın bildiri belgelerini aldı. Bu şanslı kavşak, Cutting ve Cafarella'yı daha iyi bir dosya sistemine ve verileri takip etmenin bir yolunu açarak nihayetinde Hadoop'un oluşturulmasına yol açan her şeyi değiştirdi.

Hadoop hakkında bu kadar önemli olan nedir?

Bugün veri toplamak hiç olmadığı kadar kolay. Tüm bu verilere sahip olmak birçok fırsat sunar, ancak zorluklar da var:

Büyük miktarda veri, yeni işleme yöntemleri gerektirir.
Yakalanan veriler yapılandırılmamış bir biçimde.

Çok sayıda yapılandırılmamış veriyi yönetme zorluklarının üstesinden gelmek için Cutting ve Cafarella iki bölümden oluşan bir çözümle geldi. Veri miktarı problemini çözmek için Hadoop, atanmış görevin yerine getirilmesi için daha fazla işlem gücü getiren paralel bir işlem kümesi oluşturarak dağıtılmış bir ortam (bir meta sunucu ağı) kullanır.

Daha sonra, yapılandırılmamış verileri veya standart ilişkisel veritabanı sistemlerinin kullanamadığı formatlardaki verileri ele almaları gerekiyordu. Cutting ve Cafarella, Hadoop'u her tür veriyle çalışacak şekilde tasarladı: yapılandırılmış, yapılandırılmamış, görüntüler, ses dosyaları. Bu Cloudera (Hadoop entegratörü) beyaz kağıdı, bunun neden önemli olduğunu açıklıyor:

“Tüm verilerinizi kullanılabilir hale getirerek, yalnızca veritabanlarınızda olanları değil, Hadoop gizli ilişkileri ortaya çıkarmanıza ve her zaman erişemeyeceği yanıtları açığa çıkarmanıza olanak tanır. tam veri setlerinde, sadece örnekler ve özetler değil. "

Şema okunuyor?

Daha önce de belirtildiği gibi, Hadoop'un avantajlarından biri, yapılandırılmamış verileri kullanma yeteneğidir. Bir anlamda, "kutudan aşağıya tekme atmak" demek. Sonunda verilerin analiz edilmesi için bir tür yapıya ihtiyacı vardır.

İşte okuma şema devreye giriyor. Okunan şema, verilerin hangi formatta olduğunu, verilerin nerede bulunacağını (verilerin çeşitli sunucular arasında dağıldığını hatırlayın) ve verilere ne yapılması gerektiğini - basit bir iş değil. Bir Hadoop sistemindeki verilerin manipüle edilmesinin bir iş analisti, istatistikçi ve Java programcısı becerileri gerektirdiği söyleniyor. Ne yazık ki, bu niteliklere sahip çok fazla insan yok.

Kovan nedir?

Hadoop başarılı olacaksa verilerle çalışma basitleştirilmelidir. Böylece, açık kaynaklı kalabalık işe yarayarak Hive'i yarattı:

"Hive, yapıyı bu verilere yansıtmak ve verileri HiveQL adlı SQL benzeri bir dil kullanarak sorgulamak için bir mekanizma sağlar. Aynı zamanda, bu dil geleneksel harita / azaltma programcılarının kendi uygun haritalayıcılarını ve redüktörlerini uygun olmayan durumlarda takmalarına da izin verir. HiveQL'de bu mantığı ifade etmede yetersiz. "
Hive her iki dünyanın da en iyisini sağlar: SQL komutlarına aşina olan veritabanı personeli verileri yönetebilir ve okuma sürecindeki şemaya aşina olan geliştiriciler hala özelleştirilmiş sorgular oluşturabilirler.

Hadoop ne tür verileri analiz ediyor?

Web analizi, web sitelerini optimize etmek için Web günlüklerini ve Web trafiğini analiz eden ilk akla gelen şeydir. örneğin, şirketin topladığı verilerin terabaytlarını sıralamak için Hadoop kullanarak, kesinlikle Web analitiğine giriyor.

Şirketler risk analizi, sahtekarlık tespiti ve müşteri bazında segmentasyon yapmak için Hadoop kümelerini kullanıyor. Kamu hizmeti şirketleri, elektrik verilerini optimize etmek için elektrik şebekesinden sensör verilerini analiz etmek için Hadoop kullanıyor. Target, 3M ve Medtronics gibi büyük bir şirket, ürün dağıtımını, iş riski değerlendirmelerini ve müşteri bazında bölümlemeyi optimize etmek için Hadoop kullanıyor.

Üniversiteler de Hadoop'a yatırım yapıyor. Thomas University of Software’de doçent olan Brad Rubin, Yazılım’daki Lisansüstü Programları’nın, Hadoop uzmanlığının üniversitedeki araştırma grupları tarafından derlenen çok sayıda veriyi sıralamaya yardımcı olduğunu belirtti.

Gerçek dünyadan bir Hadoop örneği verebilir misiniz?

Daha iyi bilinen örneklerden biri TimesMachine'dir. New York Times, tam sayfa gazete TIFF imgeleri, ilişkili meta veriler ve 1851'den 1922'ye kadar terabaytlık veriden oluşan bir koleksiyona sahiptir. NYT’den Derek Gottfrid, EC2 / S3 / Hadoop sistemi ve özel kod kullanarak:

"405.000 çok büyük TIFF görüntüsü, SGML'de 3.3 milyon makale ve TIFF'lerdeki dikdörtgen bölgelere eşleme yapan 405.000 xml dosya aldı. Bu veri daha web dostu bir 810.000 PNG resmine (küçük resimler ve tam resimler) ve 405.000 JavaScript dosyasına dönüştürüldü. "
Amazon Web Hizmetleri bulutundaki sunucuları kullanan Gottfrid, TimesMachine için gereken tüm verileri 36 saatten daha az bir sürede işleyebildiklerini belirtti.

Hadoop zaten eski mi yoksa sadece geçiş mi?

Hadoop şimdi on yıldan beri var. Bu eski söyleyerek birçok vardır. Uzmanlardan biri olan Dr. David Rico, “BT ürünleri kısa ömürlüdür. Köpek yıllarında Googles ürünleri yaklaşık 70 iken, Hadoop 56'dır” dedi.

Rico'nun söylediklerine bazı gerçekler olabilir. Hadoop'un büyük bir revizyondan geçtiği anlaşılıyor. Bu konuda daha fazla bilgi edinmek için Rubin beni İkiz Şehirler Hadoop Kullanıcı Grubu toplantısına davet etti ve tartışma konusu YARN'a Giriş oldu:

"Apache Hadoop 2, daha iyi ölçeklenebilirlik ve kaynak kullanımı da dahil olmak üzere önceki uygulamaya göre birçok avantaja sahip olan yeni bir MapReduce motoru içeriyor. Yeni uygulama, YARN adlı dağıtılmış uygulamaları çalıştırmak için genel bir kaynak yönetim sistemi üzerine kuruludur."Hadoop, veritabanı ve içerik yönetimi çevrelerinde çok fazla vızıltı alıyor, ancak çevresinde ve hala en iyi şekilde nasıl kullanılabileceği konusunda birçok soru var. Bunlar sadece birkaçı. Daha fazlasına sahipseniz, bizim yöntemimiz. Techopedia.com'daki en iyilerine cevap verin.