Hadoop Neden Genom Dizilimi İçin Mükemmel Bir Eşleme?

Yazar: Roger Morrison
Yaratılış Tarihi: 19 Eylül 2021
Güncelleme Tarihi: 5 Mayıs Ayı 2024
Anonim
Hadoop Neden Genom Dizilimi İçin Mükemmel Bir Eşleme? - Teknoloji
Hadoop Neden Genom Dizilimi İçin Mükemmel Bir Eşleme? - Teknoloji

İçerik


Kaynak: A3701027 / Dreamstime.com

Paket servisi:

Genom dizilimi, tüm verilerini idare etmek için güçlü teknoloji araçlarına ihtiyaç duyar ve Hadoop görevdedir.

Klinik genomik, insanların hızlı ve doğru sonuçları işlemek için en son teknolojiler üzerinde çalıştıkları büyüleyici bir konudur. Piyasada birçok genom sekanseri vardır ve bunlar sekans veri petabaytları üretmektedir ve sekanslamadaki büyüme yakın gelecekte veri exabaytları üretecektir. Burada, Hadoop karmaşık genomik iş akışını işlemek için mükemmel bir platformdur. Hadoop büyük miktarda bilgiyi saklayabilir ve sıralayabilir ve ayrıca anlamlı analizler yapabilir. (Bunun gerçekten ne kadar veri gerektirdiği hakkında bir fikir edinmek için, Bitleri, Baytları ve Katlarını Anlama bölümünü okuyun.)

Genomiklerin Bugünü ve Geleceği

Günümüzde genom haritalaması en üst seviyeye ulaştı. Genomik endüstrisi ile ilgili birçok insan merakla doludur ve yeni fırsatlar kendilerini tanıtırken, saatin ihtiyacı daha iyi bir teknolojidir. Genom dizilimi çok tekrarlayan ve kaynak yoğun bir iştir. Sadece 2013 yılında, yaklaşık 15 petabayt veri üretildi ve sadece 2.000 sıralayıcı tarafından üretildi. Bu çene bırakma miktarı, 300 KB sıralı insan genomu verisini içerir. Bu veri üretimi hızında, 2018 yılına kadar, yaklaşık bir exabayt veri üretileceği tahmin edilebilir. Bu, çalışma başına gittikçe daha fazla veri üretecek olan sıralayıcıların büyümesinden kaynaklanacaktır. Diğer bir neden ise son derece güçlü ve düşük maliyetli genom dizileme makinelerinin ortaya çıkmasıdır. 2008'den bu yana, bu makinelerin fiyatı giderek azalıyor. Bunun nedeni, piyasaya giren güçlü gelecek nesil makinelerdir.


Genom Haritalama Endüstrisinin İhtiyaçları

İnsan genomundan toplanan verilerin işlenmesi için karmaşık algoritmalar kullanılır. Ardından, bu bilgilerin saklanması gerekir. Orijinal verilerle karşılaştırmak için gelecekte incelenebilir. 100 GB veri işleme ve saklama görevi, özellikle sıralama merkezlerinde kullanılan güçlü makinelerle yaptığınız zaman çok zor değildir. Araştırmalar, bu miktardaki verilerin yalnızca yaklaşık 1000 CPU saatte işlenebileceğini gösteriyor, bu yüzden çok kolaydır. Bu teknik gelişme oranında, genom endüstrisinin yakında birkaç saniye içinde binlerce gigabayt işleyeceği açıktır.

Ancak, veri yönetimi ve depolama teknikleri, bu nedenle, çok büyük bir değerli veri kaybının beklenebileceği kadar hızlı bir şekilde gelişmemektedir. Bu, insan genomisinde kaydedilen ilerlemeleri ciddi şekilde engelleyeceğinden, gerçekten istenmeyen bir durumdur. Bu nedenle, kolayca güncellenebilecek verimli bir veri yönetimi tekniğine olan ihtiyaç çok yüksektir. Bu, özellikle yakın gelecekte, genom haritalamanın güçlü bilgisayarlı büyük laboratuarlardan küçük hastanelere ve laboratuarlara taşınacağı durumlarda etkili olabilir.


Çözümde Beklenenler?

Yeni genomik sıralama tekniklerinin keşfedilme ve geliştirilme hızı son derece yüksektir. Bu hız tıp bilimine büyük hastalıkların yok edilmesine yönelik güçlü bir adım şeklinde çok faydalı olabilir. Bununla birlikte, bu hız da çok zor olabilir.

Zorluk, sıralama projeleri tarafından üretilen büyük miktarda veriyi yönetme biçiminde geliyor. Bu nedenle, büyük verilerin depolanması ve işlenmesine yardımcı olacak etkili bir çözüme ihtiyaç vardır. Bu çözümün de adapte olurken ucuz ve hızlı olması gerekir. Bu çözüm tarafından sağlanan analiz de kesin ve sabit olmalıdır. Öyleyse, sorunun çözümü nedir? Şüphesiz, bu Hadoop'tur. (Hadoop'un kullanımları hakkında daha fazla bilgi için, bkz. Hizmet Olarak Büyük Veri Hakkında 5 Insights (Hadoop).)

Hadoop Neden Genom Dizilimi İçin En İyi Çözüm?

Genomik endüstrisinin ihtiyacı olan, verileri etkili bir şekilde yönetmelerine, işlemelerine ve daha sonra kullanmak üzere saklamalarına yardımcı olabilecek üstün bir çözümdür. Bu çözüm, Hadoop yazılımı ile mükemmel bir uyum gibi görünüyor. Dolayısıyla, Hadoop, genomik endüstrisinin güncel veri depolama tekniklerini büyük ölçüde geliştirebilecek mükemmel bir büyük veri yönetimi yazılımı olarak düşünülebilir.

Hadoop’un gerçek zamanlı özellikleri, genom sıralayıcıların büyük miktarda veriyi aynı anda gerçek zamanlı olarak analiz etmesini ve saklamasını mümkün kılar. Bu, verilerin gelecekteki kullanımını da sağlar. Hadoop pek çok eski sistemi yenebilir, çünkü bunlardan çok daha hızlı ve daha güvenilir.

Hata Yok, Stres Yok - Hayatınızı Yok Etmeden Hayat Değiştiren Yazılım Yaratma Adım Adım Kılavuzunuz

Hiç kimse yazılım kalitesiyle ilgilenmediğinde programlama becerilerinizi geliştiremezsiniz.

Hadoop Ne Yapabilir?

Hadoop sayesinde genomik ve gen dizilimi alanında çok sayıda olasılık ve fırsat açılmıştır. Hadoop, daha hızlı sıralamanın mümkün olması nedeniyle paralel hesaplama seçenekleri sunar. Ayrıca, Hadoop'un MapReduce işlevini kullanarak çok sayıda gen çok kolay şekilde eşlenebilir. Bu nedenle, Hadoop ile sıralama gerçekten “yeni nesil” olacak ve daha az karmaşık olacak.

Hadoop için fırsatlar

Hadoop'un genom endüstrisinde pek çok fırsatı var, ancak en iyisi Lynda Chin’in Genes & Development dergisindeki “Kanser genomik verilerini anlama” başlıklı makalesinden türetildi. Bu makalede modern genomiklerin nasıl yeni kapılar açtığını tartışıyor ve bu da kanser hakkında genomik bilginin keşfi gibi birçok olumlu sonucu doğurdu. Bu nedenle kanserin tedavisini keşfetmeye daha yakınız. Bununla birlikte, bu alanda daha iyi araştırma yapabilmek için biraz daha dikkat ve güçlü bir veri yönetimi uygulaması gerektirmektedir. Bu, Hadoop'un hızını, gücünü ve doğruluğunu kanıtlaması için en iyi fırsat olabilir.

Crossbow: Yeni Nesil Veri Yönetim Platformu

Genom yeniden diziliminin analizi için kullanılan bir yazılım hattı olan tatar yayı, en iyi çözümlerden biridir. Bu, Bowtie adı verilen seriyi hizalamak için hızlı bir algoritma ve sıralı verileri karşılaştıran ve inceleyen, yani SoapSNP adlı bir genotip olan güçlü bir algoritma arasında Hadoop içinde entegrasyonun sonucuydu. Apache Hadoop üzerine inşa edilmiştir ve MapReduce çerçevesinin uygulanmasına dayanmaktadır. Crossbow taşınabilir, ölçeklenebilir ve aynı zamanda bir bulut bilişim aracı olarak da uygundur.

Bu güçlü entegrasyonla, tam bir genom sadece bir günde 10 düğüme sahip yerel bir kümede incelenebilir. 40 düğümlü bir küme ile işlem daha da hızlıdır ve toplamda 100 dolardan düşük bir maliyetle sadece üç saatte tamamlanır! Crossbow'un doğruluğunu test etmek için yapılan bir çalışma, her bir genomu yüzde 99 doğrulukla karşılaştırabildiğini gösterdi. Crossbow'un bir başka faydalı özelliği de bulutun üzerinde çalışmasıdır. Böylece, Crossbow, hastaneler gibi, gelecekteki binlerce sıralama merkezinin, güçlü, pahalı bilgisayarlara ve teknolojilere ihtiyaç duymadan, büyük miktarlarda genom verisini sıralamasını sağlayacaktır.

Diğer Hadoop Tabanlı Genomik Yazılım

Birçok şirket Hadoop'un genom dünyasını değiştirmedeki gücünü biliyor. Hadoop'u, gelişmiş genom dizilimi potansiyeline uyacak şekilde değiştirdiler. Bazı ünlü Hadoop tabanlı genom sekanslama çözümleri örnekleri aşağıda verilmiştir:

  • Hadoop-BAM: Genotipleme gibi genomik ile ilgili çeşitli aktiviteler için Hadoop'un MapReduce işlevini kullanan güçlü bir veri yönetimi aracıdır. Bu, İkili Hizalama / Harita biçiminde çalışır.
  • Cloudburst: Bu Hadoop tabanlı çözüm 2009 yılında oluşturuldu. Genom dizilerinin karşılaştırılmasında ve bireysel genlerin haritalanmasında son derece etkilidir. Bu, aynı zamanda bu amaç için tasarlanan ilk Hadoop tabanlı uygulamalardan biridir.

Sonuç

Büyük verilerle genom endüstrisi arasındaki entegrasyonun modern zamanlarda nimet olduğunu kanıtlıyor. Bu platformlar, kanser gibi çeşitli hastalıkların tedavilerinin keşfedilmesinde etkilidir. Genom haritalaması ile bulunan veriler, bu tür hastalıkların önleyici bilgilerinin formülasyonu için kullanılabilir. Büyük verilerin ortaya çıkışı, genomik dünyasında bir dönüm noktası olarak görülebilir ve eğer bilgi akıllıca kullanılıyorsa, muhtemelen daha geniş bir sağlık alanında da kullanılabilir. Bu alanın ilerlemesinin tek yolu, Hadoop gibi uygun veri yönetimi araçlarının kullanılmasıdır.