Verileriniz Ne Kadar Yapılandırılmıştır? Yapısal, Yapılandırılmamış ve Yarı Yapısal Verilerin İncelenmesi

Yazar: Roger Morrison
Yaratılış Tarihi: 25 Eylül 2021
Güncelleme Tarihi: 21 Haziran 2024
Anonim
İşletme Yönetimi 7: Süreçlerin ve Veri Akış Şemalarının Çizimleri
Video: İşletme Yönetimi 7: Süreçlerin ve Veri Akış Şemalarının Çizimleri

İçerik



Kaynak: monsitj / iStockphoto

Paket servisi:

Yapılandırılmış, yapılandırılmamış ve yarı yapılandırılmış veriler hakkında bilgi edinin.

Tarihsel olarak, veri analistleri yalnızca bir veri türündeki bilginin şifresini çözme ve çıkarma yeteneğine sahipti: yapılandırılmış veri. Bu tür veriler net desenleri nedeniyle kolayca aranabilirdi, ancak mevcut toplam verilerin küçük bir yüzdesini temsil ediyordu.

Yapılandırılmamış veriler arasında video, ses, ler ve sosyal medyadan ve mobil cihazlardan gelen veriler de var. Eldeki en büyük ham bilgi birikimiydi, ancak bu kaynağa güvenilir bir şekilde dokunamıyordu.

Bununla birlikte, depolamada kullanılabilirliğin artması ve üstün işleme yeteneklerinin yapılandırılmamış veri analitiklerini doğurmasıyla (yeni ve dolayısıyla olgunlaşmamış bir teknoloji türü) doğduğu için işler değişti. Daha iyi iş zekası bu fırsattan tam anlamıyla yararlanıyor ve bu görünürde bitmeyen altın madenine erişmek için yapılandırılmış ve yapılandırılmamış veri analitiklerini birleştirmek için önemli yatırımlar yapılıyor.


Farklılıklarını ve geleceğin tüm veri analistleri için nelere sahip olduğunu anlamak için bu iki veri formatına göz atalım.

Yapılandırılmış Veriler Nedir?

Yapılandırılmış veriler, ilişkisel veritabanları (RDB'ler) olarak bilinen satır veritabanı yapılarında kolayca depolanabilen, insan veya makine tarafından üretilen ve oldukça düzenli bir bilgidir. Bir RDB yapısında daha sonra analiz edilmek üzere kolayca yakalanabilen, saklanabilen ve organize edilebilen bir formatta bulunan herhangi bir şeydir. (Veritabanları hakkında daha fazla bilgi edinmek için Veritabanlarına Giriş bölümümüzü inceleyin.)

Örnekler arasında ZIP kodları, telefon numaraları ve yaş veya cinsiyet gibi kullanıcı demografisi sayılabilir. Bu veritabanlarında bulunan veriler, Excel tablolarındaki Structured Query Language (SQL) veya VLOOKUP işlevleri ile sorgulanabilir. Ayrıca, indeksleri kullanarak çeşitli alanlarda bulunan verileri veya sayısal ve alfabetik verilerini hızlıca aramak için algoritmalar da yapılabilir. Bununla birlikte, tüm veriler kesinlikle alan türü ve adı olarak tanımlanır ve bu nedenle saklanma, sorgulama ve analiz etme yeteneği bir dereceye kadar sınırlandırılır.


Yapısal verileri kullanan tipik uygulamalar arasında hastane yönetimi yazılımı, müşteri ilişkileri yönetimi (CRM) uygulamaları ve havayolu rezervasyon sistemleri bulunur. Düzenli organizasyonu ve kolay erişilebilirliği nedeniyle, yapılandırılmış veriler büyük hacimli bilgilerle çalışırken yararlı ve verimlidir. Ancak insanlık tarafından her gün üretilen bitmeyen veri miktarında gizlenmiş kara petrol için sondaj yaparken, yapılandırılmış veri aramak, yüzeyi çizmekten başka bir şey değildir.

Yapılandırılmamış Veri Nedir?

Bir kuruluşta bulunan verilerin büyük çoğunluğu yapılandırılmamıştır ve bazıları mevcut verilerin toplamının yüzde 80'ine kadar olduğunu tahmin etmektedir. Tanım olarak yapılandırılmamış veriler, tanımlanabilir bir iç yapıya sahip olmayan her şeydir. Ancak, bu kategoriye giren bazı veri türleri var mı Belli belirsiz bir iç yapı biçimi, ancak bir veritabanına veya elektronik tabloya uymuyor.

Hata Yok, Stres Yok - Hayatınızı Yok Etmeden Hayat Değiştiren Yazılım Yaratma Adım Adım Kılavuzunuz


Hiç kimse yazılım kalitesiyle ilgilenmediğinde programlama becerilerinizi geliştiremezsiniz.

İş verilerinin çoğu, müşteri hizmetleri etkileşimlerinden, dosyalardan, web kayıtlarından, videolardan ve diğer multimedya içeriklerinden, satış otomasyonundan, sosyal medya yayınlarından farklı olarak yapılandırılmamıştır. Madencilik, örgütlenme ve analiz edilme durumunda bu verilerin ne kadar değerli olabileceğini açıklamaya gerek yoktur.

En çok yapılandırılmamış veriler insanlar tarafından üretilir ve bu nedenle diğer insanlar tarafından anlaşılmalıdır. Bu, temiz bilgisayar zekasının bu tür bilgileri anlamadığı anlamına gelir çünkü makine diline ve yapısal veritabanlarına doğrusallıktan çok uzaktır.

Arasında Düşmek: Yarı Yapısal Veri

Yarı yapılandırılmış veri, tüm turtanın çok daha küçük bir parçasını temsil eden üçüncü bir veri türüdür (yüzde 5-10). Her iki dünya arasında kelimenin tam anlamıyla yakalanan yarı yapılandırılmış veriler, ayrı elemanları tanımlayan iç anlamsal etiketler ve işaretler içerir, ancak ilişkisel bir veritabanına sığması için gereken yapıdan yoksundur.

Örneğin, tarih, dosya boyutu veya zamana göre kategorilere ayrılabildiklerinden s yapılandırılmış veri gibi görünebilir. Ancak, en değerli bilgi, nispeten basit etiketlerinden ziyade, içlerinde bulunan oldukları için değildir. İnsanlar bir makinenin onları tam anlamıyla anlamalarını sağlamak için bu kadar katı kalıplarla konuşmadığından, içerik ve konu ile gerçekten düzenlenemezler. Diğer yarı yapılandırılmış veri örnekleri arasında NoSQL veritabanları, açık standart JSON ve biçimlendirme dili XML bulunur.

Yarı yapılandırılmış veriler genellikle meta veri analizi kullanılarak analiz için sorgulanır ve kataloglanır. Örneğin, bir X-ışını taraması, görüntüyü oluşturan çok sayıda pikselden oluşur; bu, doğası gereği yapılandırılamayan verilerdir. Ancak, tarama dosyası yine de açıklamalar ve kullanıcı kimliği gibi bilgiler sağlayan bir meta veri bölümü içerecektir.

Yapılandırılmamış Veriler Yapılandırılmış Verilere Dönüştürülebilir mi?

Her veri analizcisinin karşı karşıya kalması gereken temel zorluk, eldeki bilgiyi düzenli ve düzenli bir şekilde düzenlemek, böylece erişilmesi ve anlaşılmasıdır. Veri madenciliği araçları genellikle, tanımı gereği, insan diline benzer olan bilgileri yalnızca başka bir insanın toplayabileceği ve kategorize edebileceği şekilde ayrıştırmak için donatılmaz.

Bununla birlikte, çok fazla yapılandırılmamış veri hacmi, onu son derece zahmetli ve pahalıdır. Örneğin, web tabanlı bir arama motorundan gelen bilgi havuzu o kadar büyük ki, çoğu eleman sadece en temel olanları çıkarmak için iş ve kaynaklar açısından büyük bir yatırım gerektiriyor. En verimli veri madenciliği teknikleri bile, hala web üzerinde bulunan ve hatta daha da kötüsü derin web içinde bulunan önemli miktarda bilgiyi kaçırmaktadır.

Ancak teknikler var. Ve inanılmaz bir hızla geliştiriliyorlar. Örneğin, meta veriler yapılandırılmış ve yapılandırılmamış verileri birbirine bağlamak için kullanılabilir. Toplanan bilgiler, sadece ilgili verileri analiz etmek için hem kullanıcılar hem de algoritmalar tarafından filtrelenebilir ve indekslenebilir. Diğer çözümler arasında, karmaşık olmayan verilerin adım adım teknik olmayan kullanıcılar tarafından adım adım organize edildiği bir süreç olan "veri aramayı" içerir. (Verileri işleyen sıradan kullanıcılar hakkında daha fazla bilgi için, bkz. Self Servis Analitik'te Büyük Verilerin Nasıl Yardımcı Olabileceği.)

Bir noktada, bu büyük oranda örgütlenmemiş miktardaki bilgiyi daha organize ve yeniden yapılandırılmış bir formata verimli bir şekilde dönüştürebileceğiz. Belki bugün değil, belki yarın değil, ama yakında insanlığın gördüğü en büyük kasada baskın yapabileceğiz: büyük veri.