Mevcut verilerin saptanması

Veri yönetiminde rehber olarak kullanılan veri yaşam döngüsüne Veri yönetiminin planlanması başlığı altında değinilmiş ve farklı veri yaşam döngülerinden bahsedilmiştir. Veri yaşam döngülerinde genellikle ilk ya da ikinci adım verinin toplanması olmaktadır. Genellikle planlama aşamasından sonra ve veri işleme aşaması öncesinde gerçekleşen bu adımdher zaman sıfırdan veri toplanması gerekmemektedir. Çalışmanın amacı doğrultusunda kullanılması gereken veriler daha önce başka bir araştırmacı ya da kurum tarafından toplanmış ve diğer araştırmacılarının kullanımı için paylaşıma açılmış olabilir (bkz. Veri paylaşım izinlerinin planlanması). Böyle bir durumda, veriyi tekrar toplamak için zaman ve kaynak ayırmaya gerek kalmamaktadır.

Mevcut verilerin araştırılması için üniversitelerin ya da fon sağlayıcıların kurumsal arşivleri, veri arşivleri, konu arşivleri ya da genel kullanımlı arşivler taranabilir. Burada en önemli noktalardan biri söz konusu arşivlerde depolanmış/paylaşıma açılmış bu verilerin iyi bir şekilde yönetilmiş, diğer araştırmacılar tarafından kolayca keşfedilmesine olanak verecek şekilde tanımlanmış olmasıdır (bkz. Verinin tanımlanması). Verilerin depolanmak istendiği arşivlerin belli sertifikalara [123] sahip olması bu arşivlerin depolama, erişim, koruma gibi konularda daha güvenilir olduğunun bir göstergesidir. Arşivlerle ilgili değerlendirmeleri yapan ve belirtilen sertifikalar için başvurulan kuruluşlara CoreTrustSeal [1], Trusted Repositories Audit and Certification [2] ve DRAMBORA [3] örnek olarak verilebilir.

Kurumsal arşivler üniversitelerin, araştırma merkezlerinin ya da fon sağlayıcı kurumların kendi bünyelerinde ve kendi fon destekleriyle yapılan çalışmalar esnasında üretilen verilerin (ve diğer tüm yayınların) depolanması amacıyla oluşturulan arşivlerdir. Bu arşivler sadece verilerin depolandığı veri arşivleri değil, veriler dahil tüm kurum yayınlarının depolandığı arşivlerdir. Üniversite kurumsal arşivine örnek olarak, Cambridge Üniversitesi Kurumsal Arşivi Apollo’da yayın türüne göre tarama yapıldığında (21 Ekim 2021) 3626 adet veri setinin yer aldığı görülmektedir [4]. Araştırma verilerinin de yer alacağı TÜBİTAK Kurumsal Arşivi Aperta ise fon sağlayıcı kurum arşivine örnek olarak verilebilir [5].


Şekil 1. TÜBİTAK Kurumsal Arşivi “Aperta”nın ana sayfası [5]

Kurumsal arşivlerin en geniş listesine ROAR (Registry of Open Access Repositories) [6] ve OpenDOAR (Directory of Open Access Repositories) [7] üzerinden erişilebilir. ROAR’da ayrıca araştırma verisi arşivleri taranabilmektedir.


Şekil 2. Açık Erişim Arşivleri Rehberi OpenDOAR ana sayfası [7]

Kurumsal arşivlerin yanı sıra yalnızca kurum verilerinin depolanacağı veri arşivlerini oluşturmuş ülkeler, üniversiteler, araştırma merkezleri ya da fon sağlayıcılar da vardır. Ülke veri arşivine en iyi örnek UK Data Archive‘dır [8]. NERC (Natural Environment Research Center) [9] konularına göre çevresel verilerin tutulduğu farklı veri arşivlerini bünyesinde barındırmaktadır [10]. data.europe.eu ise Avrupa Birliği kurum ve kuruluşları tarafından yayınlanan tüm açık verilere erişim sağlamaktadır [11]. Zenodo [12], DRYAD [13], Figshare [14] üzerinde veriler ve verilerin ilişkili olduğu yayınlara ek olarak daha geniş yelpazede depolama yapılabildiği için genel kullanımlı arşivler olarak anılmaktadır [15]. Veri arşivlerinin toplu listesini sunan re3data.org (Registry of Research Data Repositories) [16] üzerinde 23 Ekim 2021 tarihi itibariyle 2752 veri arşivi yer almakta; konulara, veri türlerine ve ülkelere göre filtreleme yapılabilmektedir.

Tüm kurum yayınlarını toplamayı hedefleyen kurumsal arşivler olduğu gibi belli bir konu ya da disipline özel olarak oluşturulmuş ve yalnızca o konulardaki yayınların yer aldığı konu arşivlerinde de (örneğin, arXiv [17], RePEc [18], SSRN [19]) söz konusu alana özel veriler yer alabilmektedir. Konu arşivlerine OpenDOAR [7] ve ROAR [6] üzerinden erişilebileceği gibi Open Access Directory de [20] bir kısmı Şekil 3’te gösterildiği gibi alan bazlı konu arşivleri listesi sunmaktadır.

Önemli not: Research Gate ya da Academia.edu gibi mevcut içeriğe erişim için kayıt olmayı gerektiren ortamlar yukarıda bahsedilen arşivler kapsamında yer almamaktadır [21].


Şekil 3. OAD (Open Access Directory) Alanlara Göre Konu Arşivleri Rehberi [20]

Bahsedilen tüm bu arşivlerde paylaşılan veriler, paylaşım özellikleri dikkate alınarak kullanılabilir. Bu anlamda, ilk dikkat edilmesi gerekeveri için tanımlanmış olan lisanstır. Verinin yeniden kullanımı tanımlanan paylaşım lisansının özellikleri dikkate alınarak yapılmalıdır. Aksi takdirde, veriyi paylaşan kişi veri üzerinde hak iddia edebilir ya da yasal süreç başlatabilir. Verilerin lisanslanması amacıyla yaygın olarak tercih edilen lisanslar ve bu lisansların özellikleri Entelektüel mülkiyet hakları başlığı altında anlatılmaktadır. Lisansın yanı sıra veriyi paylaşan kişi veriye erişimi daha farklı şekillerde de kısıtlayıp, verinin kullanımını kontrol altına almak isteyebilir. Örneğin, veriyi kullanmak isteyenlerden yazılı bir açıklama ile bu veriye neden ihtiyaç duydukları ve ne amaçla kullanacakları istenebilir. Veriler kullanılarak yapılacak yayınlar görülmek istenebilir. Ayrıca, yalnızca üst veriler yayınlanarak, verilerin tümüne erişim için e-posta yoluyla bağlantı kurulması istenebilir [22]. Zenodo üzerinden 28 Şubat 2019 tarihinde paylaşılmış bir veri setinin üçüncü sürümü örnek olarak Şekil 4’te gösterilmiştir [23].


Şekil 4. Zenodo üzerinden paylaşılmış bir veri seti örneği [23]

Zenodo üzerinden paylaşılan bu veri setinin öncelikle yayınlanan bir makalede kullanılan veriler olduğu bilgisi paylaşılmaktadır. Üç ana dosya halinde sunulan veriler büyük oranda biyoinformatik ve biyokimya alanında kullanılan fasta formatındadır [24]. Her bir ana ve alt veri dosyasının büyüklüğü de görülmektedir. Sağ kısımda verinin yayın tarihi, doi numarası, nerede yayınlandığı, ilgili olduğu diğer veri (örn. verinin önceki sürümleri) ya da yayın dosyalarına ait doi numaraları, tanımlandıysa anahtar sözcükler, lisans türü, versiyon bilgisi ile paylaşım ve atıf yapma bilgileri yer almaktadır. 

Kaynakça

[1] CoreTrustSeal. (2019). Erişim adresi: https://www.coretrustseal.org/

[2] OCLC, CRL. (2007). Trustworthy Repositories Audit & Certification: Criteria and chacklist. Erişim adresi: http://www.crl.edu/sites/default/files/d6/attachments/pages/trac_0.pdf

[3] DRAMBORA. (2015). Erişim adresi: https://www.repositoryaudit.eu/

[4] Apollo, University of Cambridge Respository. [2021, 21 Ekim]. Erişim adresi: https://www.repository.cam.ac.uk/

[5] Aperta, TÜBİTAK Kurumsal Arşivi. (2018). Erişim adresi: http://aperta.mantam.com.tr/

[6] Registry of Opren Access Repositories. (2019). Erişim adresi: http://roar.eprints.org/

[7] OpenDOAR. (2019). Erişim adresi: http://v2.sherpa.ac.uk/opendoar/

[8] UK Data Archive. (2019). Erişim adresi: http://data-archive.ac.uk/

[9] UKRI National Environmental Research Council. (2021). Erişim adresi: https://nerc.ukri.org/

[10] UKRI National Environmental Research Council. (2021). Environmental data service (EDS). Erişim adresi: https://nerc.ukri.org/research/sites/environmental-data-service-eds/

[11] data.europe.eu. (2021). Erişim adresi: https://data.europa.eu/en

[12] Zenodo. (2019). Erişim adresi: https://www.zenodo.org/

[13] DRYAD. (2019). Erişim adresi: http://datadryad.org/

[14] figshare. (2019). Erişim adresi: https://figshare.com/

[15] OpenAIRE. (2018). What are repositories? Erişim adresi: https://www.openaire.eu/where-can-i-read-more-about-fp7

[16] Registry of Research Data Repositories. (2019). Erişim adresi: https://www.re3data.org/

[17] arXiv.org. (2019). Erişim adresi: https://arxiv.org/

[18] RePEc. (2019). Erişim adresi: http://repec.org/

[19] SSRN. (2019). Erişim adresi: https://www.ssrn.com/index.cfm/en/

[20] OAD. (2018). Disciplinary repositories. Erişim adresi: http://oad.simmons.edu/oadwiki/Disciplinary_repositories

[21] European Council. (2017). Guidelines on implementation of open access to scientific publications and research data (Sürüm 1.1). Erişim adresi: http://ec.europa.eu/research/participants/data/ref/h2020/other/hi/oa-pilot/h2020-hi-erc-oa-guide_en.pdf

[22] University of Nottingham. (2019). Research data management, Sharing data. Erişim adresi: https://www.nottingham.ac.uk/fabs/rgs/research-data-management/data-sharing-and-archiving/sharing-data.aspx

[23] Jaakkonen, A. (2019). Longitudinal study on Shiga Toxin–producing Escherichia coli and Campylobacter jejuni on Finnish dairy farms and in raw Milk (Sürüm 3.0) [Veri seti]. Applied and Environmental Microbiology. https://doi.org/10.5281/zenodo.2579947

[24] FASTA format. (2019). Wikipedia. Erişim adresi: https://en.wikipedia.org/wiki/FASTA_format

Last modified: Saturday, 23 October 2021, 10:17 PM