Veri kontrolü ve veri temizleme işlemi bozuk veya yanlış bilgi veya kayıtları algılama ve düzeltme işlemidir [1]. Temel olarak verilerin eksik, yanlış veya ilgisiz kısımlarının belirlenmesi, ardından bu kısımların değiştirilmesi veya silinmesi işlemine dayanır. En sık kullanılan veri temizleme türleri aşağıda detaylı olarak sıralanmaktadır [2]:

  • Bölme (split): Verinin yer aldığı dosyada verilerin tekrarlayan özelliklerine göre bölme işleminin yapılmasıdır. Bölme işlemi herhangi bir karakter kullanılarak yapılabildiği gibi (nokta, virgül, noktalı virgül gibi) karakter sayısı üzerinden de gerçekleştirilebilmektedir.
  • Kesme (cut): Bir örüntü oluşturan ve tekrarlayan verinin veri setinden çıkarılmasıdır.
  • Çıkarma (extract): Belirtilen bir örüntüye dayanarak hücre bölümlerinin çıkarılması ve yeni bir sütuna yerleştirilmesidir.
  • Düzenleme (edit): Belirli bir hücredeki değerlerin düzenlenmesidir.
  • Doldurma (fill): Bitişik verilerin belirli bir kural çerçevesinde kopyalanarak çoğaltılmasıdır.
  • Silme (delete): Gereksiz verinin silinmesi ve veri setinden çıkarılmasıdır.
  • Birleştirme (merge): Farklı hücrelerde tutulan bilgilerin belirli bir amaç çerçevesinde birleştirilmesidir. Bölme işleminin tersidir.
  • Taşıma (move): İhtiyaç doğrultusunda satırların sütun adlarına taşınması işlemidir.
  • Dönüştürme (convert): Sütunların satırlara veya satırların sütunlara dönüştürülmesidir.
  • İşlemi tersine çevirme (transpose): Değerlerin özel kurallarla aktarılması işlemidir.
  • Kaydırma (shift): İhtiyaç halinde hücrelerin gerek duyulan yöne kaydırılmasıdır.
  • Kümeleme (cluster): Benzer özellikler taşıyan hücrelerin bir araya getirilmesi işlemidir.
  • Sütun oluşturma (create column): İnternetten elde edilen bilgilerden oluşturulmuş bir sütun yaratma işlemidir.

Yapılan analiz türlerine bağlı olarak verilerin temizlenmesi için çeşitli yazılımlar kullanılabilir. En sık kullanılan yazılımlar aşağıda sunulmaktadır [1345]:

  • OpenRefine: Boş hücrelerin temizlenmesi ve benzerliklere dayanan kümeler yaratılması amacıyla en sık kullanılan veri temizleme aracıdır. Veri alanlarının standart hale getirilmesinde sıklıkla kullanılır.
  • R dataMaid Package: Temizlenmemiş verileri değişken bazında değerlendirmek ve veri problemlerini tanımlamak için kullanılan bir R paketidir.
  • R Validate Package: Veri bütünlüğünün değerlendirilmesi amacıyla kullanılan bir R paketidir.
  • Tabula: Veri içeren PDF dosyalarından verileri ayıklayıp elektronik tablo biçimine dönüştürebilen bir yazılımdır.
  • Python ve R gibi yazılımların istatistik paketleri de veri temizleme süreçlerinde kolaylıkla kullanılabilirler.

Kaynakça

[1] LibGuides Vrije Universiteit Amsterdam. (2018). Data cleaning. Erişim adresi: http://libguides.vu.nl/researchdata/data-cleaning

[2] Research Guides Auraria Library. (2019). Data management: data cleaning. Erişim adresi: https://guides.auraria.edu/datamanagement/datacleaning

[3] NYU Libraries. (2019). Data management planning: Data cleaning. Erişim adresi: https://guides.nyu.edu/data_management/data-cleaning

[4] OpenRefine. Erişim adresi: https://github.com/OpenRefine/OpenRefine/wiki/Recipes

[5] Drexel University Libraries. (2019). Research data management resources. Erişim adresi: https://libguides.library.drexel.edu/c.php?g=890962&p=6406419

En son değiştirme: Perşembe, 21 Ekim 2021, 12:48 PM