Veriyi en uygun biçime getirme
Araştırma verisi için seçilebilecek en uygun formatlar Eğitim Portalının Araştırma verisi üretme bölümünde detaylı olarak aktarılmıştır. Bu kısımda ise araştırma verisini analiz, kullanım ve saklama/koruma uygulamaları için en uygun hale getirmek konusunda bilgi verilmektedir.
Dijital verilerin etkin yönetimi aşağıdaki unsurları içerir [1]:
- Kolay analiz için verileri biçimlendirme,
- Bütünlük için kalite kontrolü,
- Tanımlama için dosya organizasyonu ve adlandırma kuralları,
- Değişiklikleri izlemek için dokümantasyon ve sürüm kontrolü,
- Güvenlik ve iş birliği için depolama ve erişim konumlarını yönetme,
- Süreklilik için yedekleme prosedürleri,
- Veri paylaşım ve yeniden kullanma politikaları,
- Gelecekte erişilebilirlik için arşivleme ve koruma.
Yukarıdaki listeden de görüldüğü gibi “doğru veri yönetimi”nin pek çok unsuru verinin oluşturulması, biçimlendirilmesi ve düzenlenmesi üzerine inşa edilmiştir. Veriye en uygun biçimin seçimi sürecinde dikkat edilmesi gereken hususlar Veri kodlama bölümünde şu şekilde aktarılmıştır:
- Kişiye özel olmayan,
- Şifresiz,
- Sıkıştırılmamış,
- En az bir araştırma topluluğu tarafından ortak kullanımda olan,
- Açık ve belgelenmiş bir standarda bağlı,
- Farklı platformlar ve uygulamalar arasında birlikte çalışabilir,
- Telif veya fikri mülkiyet kısıtlamaları olmayan,
- Açık standartlar organizasyonu tarafından geliştirilen veri formatları seçilmelidir [2, 3].
Öte yandan yalnızca veri formatının doğru seçilmesi yeterli değildir. Bu seçim işlemi yalnızca veri yönetiminin bir kısmını oluşturmaktadır. Veri oluşturma, veri işleme ve uzun süreli koruma için farklı dosya biçimlerinin bulunduğu gerçeğinden hareketle veri formatlarının seçimi veri yönetimi planında mutlaka bulunması gereken bir unsurdur.
Verilerin biçimlendirilmesi veri toplama, işleme ve analiz etmek için kullanılan teknolojilere bağlıdır. Veri için seçilen formatı etkileyen unsurlar:
- Kullanılacak donanım ve bunlarla uyumlu yazılımlar,
- Personel uzmanlığı,
- Disipline özgü standartlar ve uygulamalar olarak listelenebilir [4]. Bu unsurlar dikkate alınarak veri dosyası biçimine karar verildiğinde veri yönetiminde başarılı olmak mümkün hale gelebilecektir.
Bir dijital dosya formatı, bilgisayar dosyası içindeki bilgilerin bir uygulama tarafından tanınabilmesi için kodlama anlamına gelir [5]. Dosya biçimleri dosya adı uzantısı olarak gösterilir ve genellikle üç harf ile tanımlanır. Farklı konularda oluşturulmuş araştırma verileri için seçilebilecek formatlar Araştırma verisi tanımı ve türleri bölümü ile ve Araştırma verisi üretme bölümlerinde detaylı olarak aktarılmıştır. Formatlarla ilgili detaylı bilgi için ilgili sayfalar ziyaret edilebilir.
Veri analizi tamamlandığında veriler uzun süreli depolama için hazırlanabilir. Dijital veriler erişim ve yorumlama için yazılıma bağlıdır. Donanım ve yazılımların eskiyebileceğinden hareketle uzun süreli erişimi sağlayabilmek için verilerin orijinal formattan korunmaya uygun formatlara dönüştürülmesi gerekebilir [4].
Veriyi dönüştürme
Verinin en uygun formata dönüştürülmesi işleminin veri bütünlüğünün sağlanması için verilere aşina olan araştırmacılar tarafından yapılması önemlidir. Bu noktada unutulmaması gereken en önemli husus verilerin bir formattan diğerine dışa aktarım özelliği ya da dönüştürme yazılımı kullanılarak aktarıldığında verilerde belirli değişiklikler olabileceğinin bilincinde olmaktır. Karşılaşılabilecek değişikliklere örnekler aşağıda sıralanmaktadır [6]:
- İstatistiksel paketlerde, elektronik tablolarda veya veri tabanlarında tutulan verilerde yer alan bazı veriler veya değer tanımları, ondalık sayılar, formüller veya değişken etiketleri dönüştürme esnasında kaybolabilir.
- Metinsel verilerde vurgulama, koyu metinler, dipnotlar veya üst bilgi/alt bilgi düzenlemeleri yok olabilir. Bu sebeple dönüştürme sonrasında tüm verilerin mutlaka kontrol edilmesi gerekir.
Dosya yapısı
Hassas dosya adları ve iyi organize edilmiş klasör isimleri veri dosyalarını bulmayı ve izlemeyi kolaylaştırır. Bu sebeple projede çalışan araştırmacılar tarafından araştırma süresince üretilen verilerin saklanacağı klasörlerde kullanılacak dosya yapısının iyi planlanması gerekir. Dosya hiyerarşisi konusuna Eğitim Portalının Veri kodlama bölümünde de yer verilmiştir. Detaylı bilgi için ilgili sayfa da ziyaret edilebilir.
Dosya yapılarını örneklemek amacıyla Birleşik Krallık Veri Hizmetleri Şekil 1’de gösterilen örneği sunmaktadır [7].
Örnekte veri de dokümantasyon dosyaları iki farklı klasörde tutulmaktadır. Veri dosyaları ayrıca veri türüne göre ve daha sonra araştırma faaliyetlerine göre düzenlenmiştir. Dokümantasyon dosyaları ise dokümantasyon dosyası türüne ve araştırma faaliyetlerine göre sınıflanmıştır. Klasör yapısının en fazla üç ya da dört kademede tutulması ve her kademede en fazla 10 ögeye sahip olmak verilerin daha kolay yönetilmesini sağlayacaktır.
Dosya isimlendirmeleri
İyi organize edilmiş ve tutarlı bir dosya adlandırma sistemi kullanılıyorsa veri dosyaları daha kolay izlenecek ve dosyaların bulunması kolaylaşacaktır. Uygun dosya adları dosyaların benzersiz şekilde tanımlanmasını sağladığı için önemlidir. Ayrıca bu şekilde tanımlanan dosya adları içerik hakkında da bilgi verebilir. bu sebeple araştırmanın henüz başında dosya isimlendirmesi için kurallar belirlenmeli ve projenin sonuna kadar bu kurallar esnetilmeden uygulanmalıdır [8].
Doğru bir dosya isimlendirmesi aşağıdaki unsurlara dikkat edilmelidir [7, 8]:
- Kelime bilgisi, noktalama işaretleri, tarih formatı, sayı formatı, kısaltmalar ve dosya adının ögelerinin sıralanması için yönergeler hazırlanmalıdır.
- Sürümleri denetleyerek eski dosyalar üzerinde çalışmaktan ya da yanlışlıkla silinmiş içeriği son sürümde kullanmaktan kaçınılmalıdır.
- Dosya adları küçük veya büyük revizyonları belirtmek için sürüm numaralandırmasını içermelidir.
- Dosya isimlendirmesi tüm veri havuzunda uygulanan tek bir standartta ve tutarlı olarak hazırlanmalıdır.
- Klasörler hiyerarşik olarak yapılandırılmalı, belirli konudaki dosyaları bir arada gruplanmalı ve uygun şekilde isimlendirilmelidir.
- Üzerinde çalışılmaya devam edilen dosyalar ile işleri tamamlanmış dosyaların birbirinden ayrı tutulabilmesi için “arşiv” klasörü yaratılmalıdır.
Dosya isimleri için Birleşik Krallık Veri Hizmetlerinin önerdiği temel prensipler ise aşağıda sıralandığı gibidir [7]:
- Anlamlı fakat kısa isimler bulun,
- Dosya türlerini sınıflandırmak için dosya adlarını kullanın,
- Boşluk, nokta veya özel karakterler kullanmaktan kaçının,
- Bir dosya adındaki elemanları ayırmak için kısa çizgi (-) veya alt çizgi (_) kullanın,
- Çok uzun dosya adlarından kaçının,
- Uygulamaya özel dosya formatı kodları için 3 harfli dosya uzantılarını saklayın (Örneğin, .doc, .xls, .txt)
- Uygun olduğunda sürüm bilgisini de dosya adında tutun,
- Bazı temel bilgiler (dosyanın oluşturulduğu tarih veya dosya türü gibi) bilgisayarlar tarafından otomatik şekilde oluşturuluyor olabilir ancak bu yöntem güvenilir olmayabilir. Bu sebeple bu tür bilgilere mutlaka dosya adında da yer verin.
Son olarak versionson___.xls ya da ilkdraft.doc gibi kullanışsız dosya adları kullanmaktansa projede çalışan herkesçe anlaşılabilecek bir yapının tercihi ilgili verinin uzun yıllar anlaşılır şekilde depolanmasını ve erişilmesini sağlayacaktır. Bu sebeple verinin en uygun biçimine getirilmesi sürecinde en önemli süreçlerden biri dosya isimlendirmeleri konusudur. Bu konuya titizlikle yaklaşılması gereklidir.
Kaynakça
[1] Texas A&M University Libraries: LibGuides. (2019). What is research data management? Erişim adresi: https://tamu.libguides.com/research-data-management
[2] M Library Research Guides. (2019). File format best practices. Erişim adresi: https://guides.lib.umich.edu/datamanagement/organize
[3] Stanford Libraries. Best practices for file formats. Erişim adresi: https://library.stanford.edu/research/data-management-services/data-best-practices/best-practices-file-formats
[4] The University of Sheffield. (2019). Organising your data. Erişim adresi: https://www.sheffield.ac.uk/library/rdm/organising
[5] The University of British Columbia. (2019). Format. Erişim adresi: https://researchdata.library.ubc.ca/plan/format-your-data
[6] UK Data Service. File formats and software. Erişim adresi: https://www.ukdataservice.ac.uk/manage-data/format/file-formats
[7] UK Data Service. Organising data. Erişim adresi: https://www.ukdataservice.ac.uk/manage-data/format/organising.aspx
[8] The University of Sheffield. (2019). Naming and organising files and folders. Erişim adresi: https://www.sheffield.ac.uk/library/rdm/organising#tab01