Veri kodlama
Araştırma verilerinin üretilmesi ya da farklı platformlardan elde edilmesinden sonraki aşama bu verilerin düzenlenmesidir. Çünkü düzenlenmemiş ve tanımlanmamış verilerin ilerleyen zamanlarda bulunabilmesi, erişilebilmesi, birlikte çalışabilmesi ve tekrar kullanılabilmesi mümkün değildir. Bu bağlamda bu bölümde sahip olunan araştırma verilerinin düzenlenmesi için gerekli bilgiler sunulmaktadır.
Verilerin kodlanması ve düzenlenmesi süreçlerinde en önemli aşama verilerin elde edilmesidir. Hangi verilerin araştırma verisi olarak kabul edilip edilemeyeceği konusunda çeşitli tartışmalar bulunmaktadır. Örneğin, bir proje üzerinden bakıldığında aşağıda sıralanan tüm unsurlara ait verilerin birer araştırma verisi olduğunu, proje süresince ve proje tamamlandıktan sonra da yönetilmesi gerektiğini söylemek mümkündür [1]:
- Yazışmalar (elektronik postalar ve kağıt bazlı yazışmaların tamamı)
- Proje dosyaları
- Hibe başvuruları
- Etik uygulamalar
- Teknik raporlar
- Teknik ekler
- Araştırma raporları
- Yayınlar
- Ana listeler
- İmzalı izin formları
- Blog, Wiki, Tweet vb. sosyal medya iletişimleri
- …
Araştırma verilerinin elde edilmesi sürecinde en doğru verinin, en doğru yöntemle ve en doğru formatla sağlanması hayati önem taşımaktadır. En uygun formatın bulunması çoğu zaman zor olsa da açık kaynak kodlu, gelişmeye açık ve sürdürülebilir formatların seçilmesi araştırma verilerinin uzun süreli kullanılmasını sağlayabilecektir. Araştırmaya uygun veri formatı seçilirken:
- Kişiye özel olmayan,
- Şifresiz,
- Sıkıştırılmamış,
- En az bir araştırma topluluğu tarafından ortak kullanımda olan,
- Açık ve belgelenmiş bir standarda bağlı,
- Farklı platformlar ve uygulamalar arasında birlikte çalışabilir,
- Telif veya fikri mülkiyet kısıtlamaları olmayan,
- Açık standartlar organizasyonu tarafından geliştirilen formatların tercih edilmesi verinin sürdürülebilirliğinin sağlanması açısından önem arz etmektedir [2, 3].
Veri türlerinin özelliklerine göre kullanılabilecek en uygun veri formatlarını şu şekilde sıralamak mümkündür [3]:
- Sıkıştırılmış dosyalar: TAR, GZIP, ZIP
- Veri tabanları: XML, CSV
- Mekansal/coğrafik veriler: SHP, DBF, GeoTIFF, NetCDF
- Hareketli görüntüler: MOV, MPEG, AVI, MXF
- Sesler: WAVE, AIFF, MP3, Mxf
- İstatistikler: ASCII, DTA, POR, SAS, SAV
- Hareketsiz görseller: TIFF, JPEG 2000, PNG, GIF, BMP
- Tablo verileri: CSV
- Metin verileri: XML, HTML, ASCII, UTF – 8
- Web arşivi: WARC
Veriye en uygun formatın seçilmesinin ardından veri toplama işlemi yapılmalıdır. Çünkü her bir veri formatının gereklilikleri birbirinden farklı olacağından olası format değişiklikleri tüm verinin yeniden toplanması gerekliliğini doğurabilir. Bu gibi sorunların yaşanmaması açısından planlamanın en başından doğru ve etkili şekilde yapılması önem arz etmektedir.
Verinin toplanmasının ardından yapılacak işlem ise verilerin kontrol edilmesi, kodlanması ve düzenlenmesidir. Bu bağlamda aşağıdaki işlemlerin titizlikle yürütülmesi önem taşımaktadır:
a) Dosyaların isimlendirilmesi ve dosya hiyerarşisi: Projelerin başlangıcında klasör ve dosya hiyerarşisinin adlandırma kuralları planlanmalıdır. Bu aşamada sizin veya başkalarının ilerleyen tarihlerde bu dosyaları nasıl arayacağını tahmin etmek önemlidir. Bu bağlamda türüne, konumuna veya içerdiği bilgilere göre sınıflamalar yapılarak dosyaların erişilebilirliği sağlanmalıdır [4].
Bu noktada proje ile uyumlu klasör hiyerarşisi yaratmak önemlidir ([Proje adı/kodu] > [Deney adı/kodu] > [Dosyanın türü/aracı] gibi). Hiyerarşide projenin tüm yönlerinin göz önünde bulundurulması ve bir sınıflandırma şeması yapılması gereklidir. Burada tarihler, dosya türleri, proje/deney kodları sınıflandırma unsuru olarak kullanılabilir. Klasör hiyerarşisinde;
- projeye göre,
- araştırmacıya göre,
- tarihe göre,
- araştırma belge numarasına göre,
- deney tipine veya araştırma aracına göre,
- veri tipine göre,
- veya yukarıdaki seçeneklerin kombinasyonlarına göre bir sınıflandırma yapmak mümkündür [5]
Öte yandan sınıflamada standart bir yapı kullanılması ve bu standart yapının açıklanması önemlidir. Kullanılan tarih formatları, rakamlar için kullanılan ayraçlar gibi unsurların tüm veri setinde standart olarak kullanılması veri problemlerini en aza indirebilecektir. Dosya isimlendirmesinde önemli bir diğer unsur ise zaman damgasıdır. Verinin toplandığı zamana ilişkin verilerin dosyalarda belirtilmesi revizyon takibi ve yeni dosyaların ayırt edilmesi gibi konularda yarar sağlayacaktır.
b) Sürüm (versiyon) kontrolü: Sürüm kontrolü aranan dosyanın uygun sürümüne erişmeye yardımcı olacaktır. Bu amaçla tüm dosyaların bir arada tutulması ve sürüm bilgilerinin her bir dosyaya iliştirilmesi şarttır. Bu sayede tüm sürümler arasındaki farkların izlenmesi ve gerek duyulan sürümün kullanılması kolaylaşacaktır [6]. Veri sayısı az olduğunda sürüm yönetimi kısmen kolay olsa da veri veya dosya sayısı arttığında bu süreç zorlaşacağından kontrolün otomatize şekilde yapılması önemlidir.
c) Verilerin kontrolü ve temizlenmesi: Bu konu ile ilgili detaylı bilgi Veri kontrolü ve veri temizleme bölümünde aktarılmaktadır.
d) Verilerin anonimleştirilmesi: Araştırma verilerinin yönetimi süreçlerinin en önemli unsurlarından biri verilerin anonimleştirilmesi konusudur. Bu konu ile ilgili detaylı bilgiler Anonimleştirme bölümünde aktarılmaktadır.
e) Verinin tanımlanması: Verilerin erişilebilir olmasını sağlayan unsurlar onları tanımlayan üst verileridir. Üst veri hakkında detaylı bilgiler Veri tanımlama bölümünde aktarılmaktadır.
İyi düzenlenmiş ve kodlanmış veriler verinin sürdürülebilirliğinin garantisidir. Bu sebeple düzenleme süreçlerinin iyi yönetilmesi ve işletilmesi önemlidir. İyi düzenlenmemiş veriler üzerine yapılmış aşağıda sunulan video konunun öneminin anlaşılması açısından izlenmelidir.
Kaynakça
[1] Mantra Research Data Management Training. (2018). Research data explained: Research data formats. Erişim adresi: https://mantra.edina.ac.uk/researchdataexplained/
[2] M Library Research Guides. (2019). File format best practices. Erişim adresi: https://guides.lib.umich.edu/c.php?g=283277&p=1888478
[3] Stanford Libraries. Best practices for file formats. Erişim adresi: https://library.stanford.edu/research/data-management-services/data-best-practices/best-practices-file-formats
[4] MIT Libraries. File naming and folder hierarchy. Erişim adresi: https://libraries.mit.edu/data-management/store/organize/
[5] Briney, K. (2015). Data management for researchers: Organize, maintain and share your data for research success. Exeter: Pelgaic Publishing.
[6] MIT Libraries. Version control tools and techniques. Erişim adresi: https://www.dropbox.com/s/nfopvc8y7bmmx0v/Handout_versionControl.pdf?dl=0
[7] NYU Health Sciences Library. (2012, 19 Aralık). Data sharing and management snafu in 3 short acts [YouTube Videosu].