Araştırma verisi

Araştırma verisi için üzerinde fikir birliğine varılmış bir tanım bulunmamaktadır. Alana, disipline, yapılan araştırma ve çalışmalara bağlı olarak araştırma verisi farklı şekillerde tanımlanabilmektedir. Araştırma verisi yeni bir kavram olmamakla birlikte, 2000'li yılların başında akademik literatürde özellikle veri yönetimi ve veri yönetim politikaları bağlamında gündeme gelmiş ve kavramsal olarak tanımlanması ihtiyacı doğmuştur. 

Araştırma verisi, Açık araştırma verisi ve Açık veri sıklıkla birlikte anılıyor olmasına rağmen aynı anlama gelmemektedir. 

Araştırma verisi, yapılan bilimsel araştırmalarda kullanılan, genellikle dijital formatta olan ve orijinal araştırma sonuçlarına ulaşmayı sağlayan verilerdir [1]. Araştırma verileri ile ilgili çok sayıda tanımlama yapılmıştır. Bu tanımlamaların büyük kısmında, "araştırma bulgularının doğrulanmasını sağlayan veriler" vurgusu dikkat çekmektedir. Örnek olarak, UKRI Engineering and Physical Sciences Research Council'ın araştırma verisi tanımı verilebilir [2].

Açık araştırma verisi, bilimsel araştırma sonuçlarını destekleyen araştırma verilerine erişimde herhangi bir kısıtlama olmaması ve bu verilere herkes tarafından erişilebilmesini ifade eder [3, 4].

Açık veri, içerisine açık araştırma verilerini de alan ancak yalnızca bununla sınırlı olmayan, örneğin açık devlet verilerini de içeren şemsiye bir kavramdır [5].

Araştırma verisi tanımında olduğu gibi, araştırma verisi kapsamında nelerin olup nelerin olmadığı konusunda da farklı görüşler hakimdir. OECD tarafından yapılan tanımlamaya göre [6], laboratuvar defterleri, ilk analizler, makale taslakları, araştırma planları, hakem değerlendirmeleri, meslektaşlarla kişisel yazışmalar veya fiziksel nesneler (örneğin, laboratuvar numuneleri, bakteri suşları, fare gibi test hayvanları) bu tanımın dışında tutulmaktadır. Daha yaygın kullanımda araştırma verisinin daha kapsayıcı olduğu ve aşağıdakileri içerdiği anlaşılmaktadır [7]. 

  • Elektronik metin belgeleri, elektronik tablolar
  • Laboratuvar defterleri, saha defterleri ve günlükleri
  • Anketler, transkripsiyonlar ve kod defterleri
  • Ses bantları ve video kasetleri
  • Fotoğraflar ve filmler
  • Muayene sonuçları, numuneler, örnekler
  • Sanat eserleri
  • Slaytlar
  • Veri tabanı şemaları, veri tabanı içerikleri
  • Modeller
  • Algoritmalar ve komut dosyaları
  • İş akışları, standart işletim prosedürleri ve protokolleri
  • Deneysel sonuçlar
  • Üst veriler
  • Literatür inceleme kayıtları, e-posta arşivleri gibi diğer veri dosyaları

Araştırma verisi türleri

Farklı araştırmalar için çok farklı çeşilerde veriler kullanılmaktadır. Araştırma verilerini kaynağı, biçimi, durağanlık yapısı ve hacmine göre sınıflamak mümkündür [7, 8, 9]

Araştırma verilerinin kaynağı

Veriler çok farklı kaynaklardan geliyor olabilir. Kaynaklarına göre dört temel veri grubu gözlem verisi, deneysel veri, simülasyon verisi ve türetilmiş/derlenmiş veridir.

1. Gözlem verisi: Gerçek zamanlı olarak toplanan verilerdir. En bilinen örneği, anketler aracılığıla toplanan verilerdir. Sensörler tarafından toplanan veriler, görüntü verileri de gözlem verilerinin diğer örnekleridir. Gerçek zamanlı toplanması sebebiyle aynı verinin yeniden aynı formda üretilmesi genellikle mümkün değildir. Bu yönüyle korunması büyük önem taşımaktadır.

2. Deneysel veri: Kontrollü bir ortamda ve genellikle laboratuvar ortamında toplanan verilerdir. Gen dizilim verileri ve manyetik alan okumaları deneysel verilere örnek olarak verilebilir. Yeniden üretimi çoğunlukla mümkün olmakla birlikte, bunun maliyeti oldukça fazla olabilmektedir.

3. Simülasyon verisi: Mevcut test modellerine dayalı olarak makina tarafından üretilen verilerdir. Girdilerin ve modellerin korunması yeniden üretimini mümkün kılmaktadır. Üst veri, simülasyon verisi için oldukça önemlidir. Simülasyon verisi örnekleri ekonomik veriler ve iklim verileridir. 

4. Türetilmiş/derlenmiş veri: Mevcut veri setlerinden türetilmiş, yeniden üretilmesi mümkün ancak maliyetli olan verilerdir. Metin ve veri madenleme teknikleri ile türetilen veriler ile veri tabanlarından elde edilen veriler bu kapsamdadır. Ayrıca, 3D modeller de türetilmiş veriye örnektir.

Verinin biçimi

Veriler birçok farklı şekilde olabilir. bunlardan bazıları şunlardır:

  • Metin verisi: alan ya da laboratuvar notları, anket yanıtları (Word, PDF, RTF, XML)
  • Numerik veri: tablolar, sayılar, ölçümler (SPSS, Stata, Excel)
  • Görsel-işitsel veri: görüntüler, ses kayıtları, videolar (jpeg, tiff, mpeg)
  • Disipline özel veri: Astronomide FITS, kimyada CIF
  • Cihaza özel veri: Ekipman çıktıları
  • Modeller: 3D modeller ya da istatistiksel modeller
  • Yazılımlar: Java, C

Verinin durağanlık anlamındaki yapısı

Veri değişmez olabileceği gibi araştırma esnasında değişmesi de mümkündür. Bu değişim, verinin artması ya da düzeltilmesi şeklinde olabilir. Verinin durağanlık yapısını doğru belirlemek, veri organizasyonu ve veri sürümlerinin oluşturulması ile ilgili kararı da etkileyeceğinden veri yönetiminin planlaması açısından oldukça önemlidir.

  • Sabit veri: toplandıktan sonra hiç değişmez 
  • Gelişen/büyüyen veri: yeni veri eklenebilir, ancak önceki veri hiç değişmez ya da silinmez
  • Düzeltilebilir veri: yeni veri eklenebilir, önceki veri değişebilir ya da silinebilir.

Verinin hacmi

Çalışmada kullanılacak/elde edilecek verinin hacmini tahmin edebilmek, veri yönetimi açısından kritik önem taşır. Örneğin, görüntü verisi, oldukça fazla depolama alanı gerektirir.  Bu nedenle, tüm görüntülerin depolanıp depolanmayacağı, depolanacak görüntülerin nasıl seçileceği, görüntü verilerinin nerede depolanacağı, kurum/fon sağlayıcı arşivinin depolama için yeterli olup olmadığına yönelik planlamanın zamanında yapılması gerekir. 

Kaynakça

[1] The University of Edinburgh. (2020). Information services - Research data service, Our definitions - Research data. Erişim adresi: https://www.ed.ac.uk/information-services/research-support/research-data-service/after/data-repository/definitions

[2] UKRI Engineering and Physical Sciences Research Council. (2021). ESRC policy framework on research data, Scope and benefits. Erişim adresi: https://epsrc.ukri.org/about/standards/researchdata/scope/

[3] European Commission. (2021). Facts and figures for open research data, What is open research data? Erişim adresi: https://ec.europa.eu/info/research-and-innovation/strategy/strategy-2020-2024/our-digital-future/open-science/open-science-monitor/facts-and-figures-open-research-data_en

[4] Open Science Training Handbook. (2018). Open research data and materials. Erişim adresi: https://github.com/Open-Science-Training-Handbook/Open-Science-Training-Handbook_EN/blob/master/02OpenScienceBasics/02OpenResearchDataAndMaterials.md

[5] Open Data Handbook, What is open data? Erişim adresi: https://opendatahandbook.org/guide/en/what-is-open-data/

[6] OECD. (2020). Enhanced access to publicly funded data for science, technology, and innovation. Erişim adresi: https://www.oecd.org/sti/enhanced-access-to-publicly-funded-data-for-science-technology-and-innovation-947717bc-en.htm

[7] CESSDA Training. (2020). Data management expert guide, 1. Plan, Research data. Erişim adresi: https://www.cessda.eu/Training/Training-Resources/Library/Data-Management-Expert-Guide/1.-Plan/Research-data

[8] University of Leicester. (2019). Research data - Definitions. Erişim adresi: https://www2.le.ac.uk/services/research-data/old-2019-12-11/documents/UoL_ReserchDataDefinitions_20120904.pdf

[9] DMPTool. Data Management General Guidance, Types of Data. Erişim adresi: https://dmptool.org/general_guidance#types-of-data

Last modified: Monday, 17 October 2022, 5:42 AM