Veri Kalitesi Nedir ? Neden Önemlidir?

Veri Kalitesi Nedir ? Neden Önemlidir?

Makine Öğrenmesi öğrenmek için ilk yol Veri Ön İşleme konusunu öğrenmeniz lazım. İlk önce verileri toplamamız lazım. Veri Nasıl Toplanır hakkında bir yazı yazacam. Verileri topladıktan sonra, bu verileri topladıktan sonra  bize ne kadar kaliteli geldiği çok önemlidir. Bu yazıda Verinin Kalitesinin ne olduğu ve neden önemli olduğunda bahsedeceğiz. Keyifli Okumalar...

 

Veri Kalitesi Metrikleri ile ilgili görsel sonucu

 

Veri Kalitesi Nedir ? 

 

" Veri Kalitesi, “İlgili birim veya departmanların, iş ihtiyaçları doğrultusunda, kurum içerisinde bulunan veriler üzerinde yapılan analizler ve bu analizler sonrası tanımlanan farklı metrik ve boyutlar yardımıyla gerçekleştirilen süreçler bütünü” olarak adlandırabiliriz." 

 

Tanım biraz karışık olabilir. Kısaca biz işimize yarayan en temiz bir kaliteli veri istiyoruz. Bunun için bazı süreçlerden geçmelidir. Şimdi onlardan bahsedelim.

Projenin Amacı ( İş İhtiyaçları) :

 

Elimizdeki verilere birkaç soru sormamız lazım, fakat öncesinden bir konuyu anlatmak istiyorum. Veri Ön İşleme konusunun bir parçası olan Veir Kalitesi konusu aslında BT üzerine çalişan kişileirn yaptığı bir iştir. Fakat biz o kadar ayrıntıya girmiyoruz. Veri Bilimci olarak anlattıklarım yeterli olacaktır. Önemli olan uygulama yaparak kendinizi geliştirmenizdir. Bunun içinde yakın zamanda Veri Ön İşleme Uygulamaları adlı yeni bir seri oluşturacağım.

 

İlk önce veri kaltiesi konusunda ilgili kararalar alınması lazım. Projenin yapılış amacı veya bizim ihtiyaçlarımızın tam olarak ne olduğu hakkında kesin bir şekilde belli olmalıdır. Bu veriler bizim ihtiyaçlarımızı karşılıyor mu  gibi  sorular sormamız lazım.

Analiz : 

 

Projenin amacı doğru bir şekilde anlaşıldıktan sonra, bu veriler üzerinde bir analiz çalişması yapacağız. Pekçok analiz yöntemi mevcuttur, biz  alanımızla ilgili olan yöntemi kullanıyoruz. Yani istatistik kullanarak veri üzerindeki problemleri tespit ediyoruz.

 

Veri Kalite Kontrol :

Kesinlik (Accuracy) : Doğru ve Yanlış veriler net bir şekilde ayrılmış mı ? Belirsiz veriler var mı ? Örn: Teslim edilmiş bir ürünü , teslim edilmemiş şeklinde kaydedilmiş ? 

 

Tamamlık (Completeness) : Eksik verilerin olup olmaması. Örn: Müşterilerin %30 'nun yaşlarının eksik olması. 

 

Tutarlılık (Consistency) : Verilerin bir kısmının güncel olmaması,farklı formatlarda yazılması, verilerin birbiriyle çakışması. Örn: Farklı para birimlerinin aynı anda kullanılması

 

Güncellik (Timeliness) :  Zaman Tarihçesine uygun veriler mı ? Örn : Müşterinin adresinni değişmiş olması.

 

Yorumlanabilirlik (Interpretability): Verinin ne kadar anlamlı olup olmadığı. Örn: Müşteriye sunulan bilgilerin karmaşık olması.

 

Tekillik : Aynı müşteriden birden fazla olması 

 

Not : "  Veri Kalitesi her kurumun problemidir ve Kalitesiz Veri Para Kaybıdır. "

 

Firmalar için Veri Kalitesi Neden Önemlidir ?

 

  • Standartlara Uygunsuzluk

 

  • Müşteri Menmnuyeti

 

  • Zaman Kaybı 

 

  • Yanlış Segmentasyon

 

  • Sisteme olan Güvenin Sarsılması

 

  • Gelirlerin Azalması

 

  • Ürünlerin verimi/maliyetin azalması

 

  • Tekil Müşteri Analizin olmaması

 

Gibi sorunlar olmasını istemeyen her şirket Veri Kalitesine önem verecektir. Bizler Veri Kalite alanında çalişmasakta , Veri Ön İşleme bizim işimizin %90 'lık kısmını oluşturmaktadır. Veri Temizliğine önem verin.

 

Okuduğunuz için teşekkür ederim.

 

Faydalandığım Kaynaklar :

 


Tıkla