Büyük verilerde hiç çok fazla veri olabilir mi?

Yazar: Laura McKinney
Yaratılış Tarihi: 4 Nisan 2021
Güncelleme Tarihi: 26 Haziran 2024
Anonim
Büyük verilerde hiç çok fazla veri olabilir mi? - Teknoloji
Büyük verilerde hiç çok fazla veri olabilir mi? - Teknoloji

İçerik

S:

Büyük verilerde hiç çok fazla veri olabilir mi?


A:

Sorunun cevabı, yankılanan bir EVET. Büyük bir veri projesinde kesinlikle çok fazla veri olabilir.

Bunun gerçekleşmesinin sayısız yolu ve profesyonellerin doğru sonuçları elde etmek için verileri herhangi bir şekilde sınırlandırması ve iyileştirmesi gerektiğinin çeşitli nedenleri vardır. (Büyük Veri Hakkında 10 Büyük Efsane Oku.)

Genel olarak, uzmanlar bir modelde "sinyal" i "gürültü" den ayırt etme hakkında konuşurlar. Başka bir deyişle, büyük bir veri denizinde, ilgili içgörü verilerinin hedeflenmesi zorlaşır. Bazı durumlarda, samanlıkta iğne arıyorsun.

Örneğin, bir şirketin bir müşteri tabanı segmentinde belirli bilgiler ve belirli bir zaman diliminde satın alımlarını belirlemek için büyük veriler kullanmaya çalıştığını varsayalım. (Oku Büyük veri ne yapar?)

Çok fazla miktarda veri varlığı almak, alakalı olmayan rastgele verilerin alınmasına neden olabilir veya verileri bir yönde veya başka bir yönde büken bir önyargı bile yaratabilir.


Ayrıca, bilgisayar sistemlerinin daha büyük ve daha büyük veri kümeleriyle güreşmesi gerektiğinden, süreci önemli ölçüde yavaşlatır.

Pek çok farklı türde projede, veri mühendislerinin verileri kısıtlı ve belirli veri setlerine göre iyileştirmesi çok önemlidir - yukarıdaki durumda, bu sadece incelenen müşteri segmentine ait veriler, yalnızca o zamana ait veriler olacaktır. çalışılmakta olan çerçeve ve olayları karıştırmak veya sistemleri yavaşlatabilecek ek tanımlayıcıları veya arka plan bilgisini ortadan kaldıran bir yaklaşım. (ReadJob Rolü: Veri Mühendisi.)

Daha fazlası için, bunun makine öğreniminin sınırında nasıl çalıştığına bakalım. (Makine Öğrenimi 101'i okuyun.)

Makine öğrenim uzmanları, "karmaşık donanım" denilen bir şey hakkında konuşur, burada aşırı karmaşık bir model, makine öğrenim programı yeni üretim verilerinde serbest bırakıldığında daha az etkili sonuçlara yol açar.


Aşırı yükleme, karmaşık bir veri noktası kümesi başlangıçtaki bir eğitim seti ile çok iyi eşleştiğinde ve programın kolayca yeni verilere uyum sağlamasına izin vermediğinde gerçekleşir.

Şimdi teknik olarak, fazla donanım, çok fazla veri örneğinin varlığından değil, çok fazla veri noktasının eşleşmesinden kaynaklanmaktadır. Ancak, çok fazla veriye sahip olmanın bu tür bir soruna da katkıda bulunan bir faktör olabileceğini iddia edebilirsiniz. Boyutluluk laneti ile uğraşmak, profesyonellerin BT sistemlerini ne yediklerini tespit etmeye çalıştıkları gibi daha önceki büyük veri projelerinde yapılan tekniklerin bir kısmını da içermektedir.

Sonuç olarak, büyük verilerin şirketler için son derece yararlı olabileceği ya da büyük bir sorun haline gelebileceği yönündedir. Bunun bir yönü, şirketin oyunda doğru veriye sahip olup olmadığıdır. Uzmanlar, tüm veri varlıklarını basitçe bir hazneye atmanın uygun olmadığını ve yeni bulutsal ve karmaşık veri sistemlerinde, daha doğru ve daha doğru olması için verileri kontrol etme ve yönetme çabasını harcadıklarını biliyorlar. veri varlıklarının verimli kullanımı.