Veri Katalogları ve Makine Öğrenim Pazarının Olgunlaşması

İçerik

Infonomics Emperative
Hata Yok, Stres Yok - Hayatınızı Yok Etmeden Hayat Değiştiren Yazılım Yaratma Adım Adım Kılavuzunuz
İşletmeler İçin Veri Katalogları Ne Yapabilir?
Makine Öğrenmesine Ekleme
Nasıl seçilir

Kaynak: Nmedia / Dreamstime.com

Paket servisi:

MLDC pazarı büyüyor ve makine öğrenimi ile büyük verileri etkin biçimde kullanmak isteyen işletmeler, alandaki en önemli isimlerden ve bireysel sıralamalarından haberdar olmalıdırlar.

Bu büyük verilerin çağı. Bilgilere bürünüyoruz ve işletmeler bu değeri yönetmek ve elde etmek için zorluyor.

Günümüzde büyük veri akışı sadece hacim, çeşitlilik ve hız değil aynı zamanda karmaşıklığı da gerektirmektedir. SAS tarafından Büyük Veri Geçmişinde ve Mevcut Hususlar'da tanımlandığı gibi, "birden fazla kaynaktan gelen akışların bir faktörüdür; bu, sistemler arasında veri bağlantısını, eşleştirmeyi, temizlemeyi ve dönüştürmeyi zorlaştırır." (Büyük veriler hakkında daha fazla bilgi edinmek ister misiniz? Check out (Big) Datas Big Future.)

Değerli içgörü bulmak, basitçe mümkün olduğunca fazla veri toplamak değil, doğru verileri bulmaktır. Manuel işlemlerle her şey üzerinde çalışmak imkansız. Bu nedenle gittikçe daha fazla işletmenin "verilere erişimi demokratikleştirmek, kabile veri bilgilerinin bilgiyi iyileştirmesini sağlamak, veri politikalarını uygulamak ve işletme değerine ilişkin tüm verileri hızla etkinleştirmek için veri kataloglarına yönelmesi" nedeni budur.

Veri kataloglarının (bazen bilgi katalogları olarak da bilinir) resimde girdiği yer burasıdır. Burada tanımlandığı gibi, "kullanıcıların gerekli veri kaynaklarını keşfetmelerini ve araştırılan veri kaynaklarını anlamalarını ve aynı zamanda kuruluşlara mevcut yatırımlarından daha fazla değer elde etmelerini sağlar." Bunu yapma yollarından biri, kullanabilecekleri veya katkıda bulunabilecek farklı kullanıcı türleri arasında verilere daha fazla erişim sağlamaktır.

Infonomics Emperative

2017 sonunda veri kataloglarına olan talebin çarpıcı şekilde arttığına dikkat çeken Gartner, onlara "yeni siyah" adını verdi. Veri varlıklarını gittikçe daha fazla dağıtıp düzenleyen ve bilgi tedarik zincirlerini haritalayan, envanter ve sınıflandırma yapmak için hızlı ve ekonomik bir çözüm olarak kabul edildiler. Bunun gerekliliği, diğer ticari varlıkları yönetmek için olduğu kadar bilgiyi izlemeye aynı titizliği uygulama çağrısında bulunan “infonomics” in yükselmesi nedeniyle ortaya çıkmıştır. (Tedarik zincirleri hakkında daha fazla bilgi için, bkz. Makine Öğrenmesi Tedarik Zinciri Verimliliğini Nasıl Arttırabilir.)

Gartners, Forrester Wave ™: Makine Öğrenimi Veri Katalogları, Q2 2018 ile jibları alıyor. Ankete katılanların yarısından fazlası, veri kataloğu uygulamalarını geliştirmeyi planladıklarını söyledi. Muhtemelen, her birinin örgütlerinde en az yedi veri gölünün olması gerçeği ile büyük ölçüde motive edildiler. Gartner'ın veri kataloglarını açıkladığı gibi, veri katalogları, tipik olarak bir veri gölünde sınıflandırılmamış bir biçimde bırakılan “verilerin koni, anlamı ve değerini” çıkarmak için özellikle faydalıdır.

Forrester, veri ve analitik karar vericilerin üçte birinden fazlasının 2017 yılında yalnızca yüzde 10 ila 14 arasında rapor edilen bir miktar olan 2017'de 1.000 TB veya daha fazla veri ile uğraştığını bildirmiştir. Bu ölçekte veri yönetimi, büyüyen bir zorluk veya özellikle iki zorluktur:

“1) mevcut iş süreçlerini analiz etmek ve verileri uygulamak ve verileri uygulamak için veri kaynağını birleştirmek ve 2) büyüdükçe verileri kaynaklamak, toplamak, yönetmek ve yönetmek.”

Hata Yok, Stres Yok - Hayatınızı Yok Etmeden Hayat Değiştiren Yazılım Yaratma Adım Adım Kılavuzunuz

Hiç kimse yazılım kalitesiyle ilgilenmediğinde programlama becerilerinizi geliştiremezsiniz.

İşletmeler İçin Veri Katalogları Ne Yapabilir?

Gartner, veri kataloglarının bir kuruluşların bilgi ve verimlilik akışını iyileştirebileceği özel yolları tanımlar:

Organizasyon için mevcut olan güncel bilgi varlık envanterini harmanlama ve iletme.
Örgüt verilerinin anlamsal yorumunu ve anlamını tanımlayan ortak terimler sözlüğü oluşturmak, böylece tanımsal tutarsızlıklara arabuluculuk yapmak ve bunları çözmek için araçlar sunar.
İş dünyası ve BT çalışanlarının verileri yorumlaması, belgelenmesi ve paylaşması için dinamik ve çevik bir işbirliği ortamı sağlamak.
Verimlilik ve etki analizi ile veri kullanımı şeffaflığının sağlanması.
Bilgi yönetişim süreçlerini desteklemek için veri izleme, denetleme ve izleme.
Veri kullanımı ve yeniden kullanımı, sorgu optimizasyonu ve veri sertifikasyonunun dahili analizini geliştirmek için meta verileri yakalamak.
Hangi verilerin var olduğunu, nereden geldiğini, hangi avantajların kullanıldığını, neden gerekli olduğunu, süreçler ve sistemler arasında nasıl aktığını, bunun için sorumlu olduğunu, ne anlama geldiğini yakalayarak, ileterek ve analiz ederek iş kullanımı içindeki bilgileri düzenlemek. ve hangi değeri var.

Verileri uygun bir şekilde tanımlamak ve organizasyondaki kilit kişiler için erişilebilir kılmak Gartner raporunda, "sadece dijital iş sonuçları için veri varlıklarından para kazanma yolunu bulmak" için değil, sektörün de olsa yönetmeliklere uymak için olduğunu söylüyor. Sağlık Sigortası Taşınabilirliği ve Hesap Verebilirlik Yasası (HIPAA) veya Genel Veri Koruma Yönetmeliği (GDPR) gibi daha genel nitelikte olanlara özgüdür.

Makine Öğrenmesine Ekleme

Ama hiçbir şey sakıncaları olmadan. Veri katalogları için, sorun, uygulanması gereken tüm meta verilerle manuel olarak oluşturulmalarını gerektiren yavaş ve sıkıcı süreç olmuştur. Makine öğrenim bileşeninin girdiği yer burasıdır.

Forrester'ın değerlendirdiği veri kataloglarına, MLDC'ler denir, çünkü AI'nın bileşenlerinden biri olan makine öğrenmesinin gücünden yararlanırlar. Bir Podium Data blogunun açıkladığı gibi, bu, "meta verinin kalıcı bir deposunu oluşturmayı ve ardından temel veri varlıkları etrafındaki potansiyel olarak yararlı bilgileri ortaya çıkarmak ve ortaya çıkarmak için ML / AI uygulamasını mümkün kılar."

Nasıl seçilir

Kuruluşların hangisinin seçilmesi gerektiğini değerlendirmesine yardımcı olmak için, Forrester ilk 12 MLDC'ye 29 değerlendirme puanı uyguladı. Bu pazardaki liderleri IBM, Relito, Unifi Yazılımı, Alation ve Collibra olarak tanımladı. Buldukları güçlü oyuncular Informatica, Oracle, Waterline Data, Infogix, Cambridge Semantics ve Cloudera. Hortonworks, “rakip” safhasında tek başına durur.

Ancak, kişi yalnızca genel sıralamaya girmemelidir. Rapor, her birinin kendine özgü güçlü ve zayıf yönlerini parçalamaktadır. Buna göre, araştırma ve geliştirme gibi belirli bir özellik bir organizasyon için çok önemliyse, Hortonworks'ü bu yönden IBM ve Colilbra'ya eşit olarak değerlendirebilir, çünkü bu üç kişi o kalite için beşinci en yüksek puanı alır; Alation ve Coloudera'dan iki puan, Cambridge Semantics'ten dört puan daha iyi.

Buna göre, Forrester raporu en üst sıradaki şirketin en iyi seçim olduğunu varsaymamak için rehberlik için raporunu kullananlara tavsiye eder. Özel gereksinimlerini karşılayanı bulmak için değerlendirmenin dökümüne çok dikkat etmelidirler.