Veri kontrolü ve veri temizleme
Veri kontrolü ve veri temizleme işlemi bozuk veya yanlış bilgi veya kayıtları algılama ve düzeltme işlemidir [1]. Temel olarak verilerin eksik, yanlış veya ilgisiz kısımlarının belirlenmesi, ardından bu kısımların değiştirilmesi veya silinmesi işlemine dayanır. En sık kullanılan veri temizleme türleri aşağıda detaylı olarak sıralanmaktadır [2]:
- Bölme (split): Verinin yer aldığı dosyada verilerin tekrarlayan özelliklerine göre bölme işleminin yapılmasıdır. Bölme işlemi herhangi bir karakter kullanılarak yapılabildiği gibi (nokta, virgül, noktalı virgül gibi) karakter sayısı üzerinden de gerçekleştirilebilmektedir.
- Kesme (cut): Bir örüntü oluşturan ve tekrarlayan verinin veri setinden çıkarılmasıdır.
- Çıkarma (extract): Belirtilen bir örüntüye dayanarak hücre bölümlerinin çıkarılması ve yeni bir sütuna yerleştirilmesidir.
- Düzenleme (edit): Belirli bir hücredeki değerlerin düzenlenmesidir.
- Doldurma (fill): Bitişik verilerin belirli bir kural çerçevesinde kopyalanarak çoğaltılmasıdır.
- Silme (delete): Gereksiz verinin silinmesi ve veri setinden çıkarılmasıdır.
- Birleştirme (merge): Farklı hücrelerde tutulan bilgilerin belirli bir amaç çerçevesinde birleştirilmesidir. Bölme işleminin tersidir.
- Taşıma (move): İhtiyaç doğrultusunda satırların sütun adlarına taşınması işlemidir.
- Dönüştürme (convert): Sütunların satırlara veya satırların sütunlara dönüştürülmesidir.
- İşlemi tersine çevirme (transpose): Değerlerin özel kurallarla aktarılması işlemidir.
- Kaydırma (shift): İhtiyaç halinde hücrelerin gerek duyulan yöne kaydırılmasıdır.
- Kümeleme (cluster): Benzer özellikler taşıyan hücrelerin bir araya getirilmesi işlemidir.
- Sütun oluşturma (create column): İnternetten elde edilen bilgilerden oluşturulmuş bir sütun yaratma işlemidir.
Yapılan analiz türlerine bağlı olarak verilerin temizlenmesi için çeşitli yazılımlar kullanılabilir. En sık kullanılan yazılımlar aşağıda sunulmaktadır [1, 3, 4, 5]:
- OpenRefine: Boş hücrelerin temizlenmesi ve benzerliklere dayanan kümeler yaratılması amacıyla en sık kullanılan veri temizleme aracıdır. Veri alanlarının standart hale getirilmesinde sıklıkla kullanılır.
- R dataMaid Package: Temizlenmemiş verileri değişken bazında değerlendirmek ve veri problemlerini tanımlamak için kullanılan bir R paketidir.
- R Validate Package: Veri bütünlüğünün değerlendirilmesi amacıyla kullanılan bir R paketidir.
- Tabula: Veri içeren PDF dosyalarından verileri ayıklayıp elektronik tablo biçimine dönüştürebilen bir yazılımdır.
- Python ve R gibi yazılımların istatistik paketleri de veri temizleme süreçlerinde kolaylıkla kullanılabilirler.
Kaynakça
[1] LibGuides Vrije Universiteit Amsterdam. (2018). Data cleaning. Erişim adresi: http://libguides.vu.nl/researchdata/data-cleaning
[2] Research Guides Auraria Library. (2019). Data management: data cleaning. Erişim adresi: https://guides.auraria.edu/datamanagement/datacleaning
[3] NYU Libraries. (2019). Data management planning: Data cleaning. Erişim adresi: https://guides.nyu.edu/data_management/data-cleaning
[4] OpenRefine. Erişim adresi: https://github.com/OpenRefine/OpenRefine/wiki/Recipes
[5] Drexel University Libraries. (2019). Research data management resources. Erişim adresi: https://libguides.library.drexel.edu/c.php?g=890962&p=6406419