Veri Temizleme ( Data Cleaning) Nedir?

Veri Temizleme ( Data Cleaning) Nedir?

Veri Ön İşleme konularından biri olan Veri Temizleme ( Data Cleaning)  konusunu işleyeceğiz.  Makina Öğrenmesi için ilk önce Veri Ön İşleme konusunu öğrenmemiz gerektiği için Veri Ön İşleme adlı bir seri oluşturdum. Detaylı bir şekilde anlatıyorum. Bu seriyi sırayla okumak isterseniz alt kısımdaki bağlatıdan ulaşabilirsiiniz. ( veya kategori kısmından veri ön işleme hakkındaki yazılara bakabilirsiniz.)

 

 

 

Veri Temizleme ( Data Cleaning) :

 

Gerçek hayattaki veriler kirlidir. Çok sayıda makine, insan veya bilgisayar hataları, iletim bozulmaları yaşanabilir. Bu bozulmaları önlemek daha kaliteli veriler ile çalişmak için , veri temizleme işlemlerini yapmak zorunadayız. Yoksa elimizdeki veriler ile yanlış sonuçlar elde edebiliriz, bu da bize pahalıya patlayacaktır. Veri Kalitesi adlı yazımda neden bunu yapmak zorunda olduğumuzu anlattım. Detaylı okumak isteyenler için alt kısma link bırakıyorum.

 

 

Veri Temizleme konusunu toplam 4 madde de anlatacağım. Bunların çözüm yöntemleri için ayrı ayrı bir blog yayınlayacağım. Yayınladıkça bu blog yazısını güncelleyceğim. Zaten bu yazının amacı yöntemlerimden ziyade ne olduklarını öğrenmek.

 

Eksik Veriler ( İncomplete) :

 

Verilerimizin bazı özelliklerini özelliklerinin eksik olması( Missing Data ) durumudur. Bunlara örnek olarak şunları verebiliriz : 

 

  • meslek = "  "

 

  • yas =  "  "

 

  • maas = "  "

 

Bu şekildeki veriler eksik verilerdir. Eksik veriler ve Çözüm Yöntemleri için alt kısımdaki linke tıklayarak okuyabilirsiniz.

 

 

Gürültülü Veriler ( Noisy ) :

 

Verilerimizin hatali ve/veya aykırı olması durumudur.  Bunlara örnek olarak şunları verebiliriz :

 

  • maas = -10

 

  • yas = -100

 

  • sıanv_puani = -24

 

Bunlar ve benzeri durumlar gürültülü verilerdir. Yani aykırı durum diyebiliriz. Gürültülü veriler ve Çözüm Yöntemleri için alt kısımdaki bağlantıya tıklayınız : ( daha yazılmadı)

 

  • Gürültülü Veriler ve Çözüm Yöntemleri

 

Tutarsız Veri ( Inconsistent) :

 

Verilerimize karşılık gelen değerlerin uğuşmamazlığına tutarsız veriler diyoruz.  Bunlara örnek olarak şunları verebiliriz :

 

  • yas = 30 , doğum_tarihi= " 02.02.2000 "

 

  • not_ort = " ba "

 

Bu tarz durumlar ise tutarsız verilerdir. Karşılık gelen değerlerin uyuşmamazlığıdır. Yaşı 30 olan birinin 2000 tarihinde doğması mümkün değildir. Tutarsız Veri ve Çözüm Yöntemleri için  alt kısımdaki bağlantıya tıklayın. ( daha yazılmadı )

 

  • Tutarsız Veri ve Çözüm Yöntemleri

 

Kasıtlı Problemler ( Intenional ) :

 

Bu problemler genelde veri kümelerini hazırlayan programcının hatalarıdır. Bunlara örnek olarak şunları verebiliriz :

 

  • Doğum Tarihi girilmeyen herkese 20 şubat olarak yazılması

 

  • Verileri yazarken, yanlışlıkla yapılan hatalar

 

Gibi hatalar Kasıtlı Problemler sınıfına girmektedir.

 

Bu bölümde Veri Temizleme ( Data Cleaning) kavramından ve karşımıza çıkabilecek hataların neler olduğundan bahsettik. İlerleyen zamanlar da bu hataların , nasıl çözeceğimizden bahsedeceğiz. Okuduğunuz için teşekkür ederim.