Tekrarlanabilirlik nedir?
Türkçede replicable ve reproducible terimlerinin karşılıkları için "tekrarlanabilir" sözcüğü kullanılmaktadır. Bunun yanında genellenebilirlik (generalizability) veya sağlamlık (robustness) gibi kavramlar da tekrarlanabilirlik ile ilgili konularda sıklıkla kullanılmaktadır. Tekrarlanabilirlikle ilgili çeşitli kavramları açıklamak gerekirse [1, 2, 3, 4, 5]:
Reproducibility , yani yeniden üretilebilirlik anlamında kullanılan tekrarlanabilirlik:
- "Bir araştırmacının, orijinal araştırmacı tarafından kullanılanlarla aynı materyalleri kullanarak önceki bir çalışmanın sonuçların çoğaltma yeteneği" olarak tanımlanabilir.
- Bir çalışmada kullanılan aynı girdi verileri ile aynı hesaplama adımları, yöntemleri, kodları ve analiz koşullarıyla tutarlı sonuçlara ulaşmaktır.
- "Hesaplamalı tekrarlanabilirlik" olarak da anılır.
- Örneğin, İkinci bir araştırmacı, aynı analiz dosyalarını oluşturmak için aynı ham verileri kullanabilir ve aynı sonuçları elde etmek amacıyla aynı istatistiksel testleri uygulayabilir. Veri işleme süreçlerinde, istatistiksel yöntemlerin uygulanmasında veya orijinal analizlerdeki hatalar dolayısıyla farklılıklar olabilir. ancak yeniden üretilebilirlik anlamında kullanılan tekrarlanabilirlik bir bulgunun inandırıcı ve bilgilendirici olabilmesi için gerekli asgari koşuldur."
Replicability anlamında kullanılan tekrarlanabilirlik:
- Her biri kendi verilerini elde etmiş olan ve aynı bilimsel soruları yanıtlamayı amaçlayan çalışmalarda tutarlı sonuçlar elde etmektir.
- İncelenen sistemin doğasında var olan belirsizlik düzeyi göz önüne alındığında, tutarlı sonuçlar elde ettikleri takdirde, iki çalışmanın tekrarlanabilir olduğu söylenebilir.
- Yani tekrarlanabilirlik, bir araştırmacının yeni veriler topladığı ancak önceki bir çalışma ile aynı prosedürleri takip ettiği süreçte sonuçları çoğaltma becerisini ifade eder.
- İkinci araştırmayı yürüten araştırmacı aynı araştırmacı ise süreçlere aşinalığından dolayı tekrarlanabilir sonuçlara ulaşmak daha olasıdır.
- İkinci araştırmayı yürüten araştırmacı farklı bir konumda farklı bir araştırmacı ise;
- İlk çalışmayı doğrudan gözlemlemediği,
- İlk çalışmadaki metinsel açıklama ile sınırlı olduğu,
- Kritik detaylara hakim olmadığı veya
- Süreçlerin kopyalanması aşamasındaki başarısızlıklar sebebi ile tekrarlanabilir sonuçlara ulaşmak daha zordur.
Genellenebilirlik (generalizability):
- Bir çalışmanın sonuçlarının orijinalinden farklı olan diğer bağlamlarda veya popülasyonlarda geçerli olup olmadığını ifade eder.
- Örneğin;
- Üniversite öğrencilerine dayalı bulgular yetişkin nüfus için geçerli mi?
- Bir tür ikna edici mesaj kullanan bir deney, araştırmacı başka türden ikna edici mesajlar denediğinde işe yarar mı?
Titizlik (rigor):
- Tarafsız ve iyi kontrol edilen deneysel tasarım, metodoloji, analiz, yorumlama ve sonuçların raporlanmasını sağlamak için bilimsel yöntemin katı bir şekilde uygulanması.
Sağlamlık (robustness):
- Her yöntemin kendine has güçlü ve zayıf yönleri vardır. Bu nedenle, bir araştırma sorusunu çoklu ve tüm yönleriyle ele almak önemlidir. Bu strateji, tekil zayıflıkların üstesinden gelmek için farklı yöntemlerin güçlü yönlerini birleştirir.
- Sağlamlık, bulguların güvenilirliğini test etmek için aynı verilere farklı bir analiz stratejisi kullanarak test etmektir.
- Bazı kanıtlar analizdeki makul varyasyonlar karşısında sağlamdır ancak bazı kanıtlar ise kırılgandır. Yani bulgunun desteklenmesi, hangi gözlemin hariç tutulduğu ve hangi ortak değişkenlerin dahil edildiği gibi belirli kararlara bağlıdır. Kırılgan bir bulgu mutlaka yanlış değildir, ancak kırılganlık tekrarlanabilirlik ve genellenebilirlik için büyük bir risk faktörüdür. Ayrıca kırılgan bir bulgu güvenilirliği azaltan p-hack veya uydurma ile ilgili endişeleri artırabilir.
Tablo 1. Bir sonucun geçerliliğini tanımlamak için kullanılabilecek kavramlar matrisi [3, 4]
Deney sistemi | ||
---|---|---|
Yöntemler | Aynı deney sistemi | Farklı deney sistemi |
Aynı yöntem | Reproducibility | Replicability |
Farklı yöntem | Robustness | Generalizability |
Tablodakine benzer şekilde Association for Computing Machinery [6] de repeatability, reproducibility ve replicability kavramları arasındaki farkı şöyle özetlemiştir:
- Repeatability (Aynı takım, aynı deney seti): Ölçüm, aynı ekip tarafından aynı ölçüm prosedürü, aynı ölçüm sistemi, aynı çalışma koşulları altında, aynı yerde, birden fazla denemede belirtilen hassasiyetle elde edilebilir. Hesaplamalı deneyler için bu bir araştırmacının kendi hesaplamasını güvenilir bir şekilde tekrarlayabileceği anlamına gelir.
- Reproducibility (Farklı takım, aynı deney seti): Ölçüm, farklı bir ekip tarafından, aynı ölçüm prosedürü, aynı ölçüm sistemi, aynı çalışma koşulları altında, aynı veya farklı bir yerde birden fazla denemede kullanılarak belirtilen hassasiyetle elde edilebilir. Hesaplamalı deneyler için bu, bağımsız bir grubun bir araştırmacının eserlerini kullanarak aynı sonucu elde edebileceği anlamına gelir.
- Replicability (Farklı takım, farklı deney seti): Ölçüm, farklı bir ekip, farklı bir ölçüm sistemi, farklı bir lokasyonda birden fazla deneme ile belirtilen hassasiyetle elde edilebilir. Hesaplamalı deneyler için bu, bağımsız bir grubun tamamen bağımsız olarak geliştirdiği yapay nesneleri kullanarak da aynı sonuca ulaşabileceği anlamına gelir.
Kaynakça
[1] Bollen, K. (2015). Reproducibility, replicabiliry and generalization in the social, behavioral and economic sciences. Report of the Subcommittee on Replicability in Science of the SBE Advisory Committee to the National Science Foundation. Erişim adresi: https://www.nsf.gov/sbe/SBE_Spring_2015_AC_Meeting_Presentations/Bollen_Report_on_Replicability_SubcommitteeMay_2015.pdf
[2] National Academies of Sciences, Engineering, and Medicine; Policy and Global Affairs; Committee on Science, Engineering, Medicine, and Public Policy; Board on Research Data and Information; Division on Engineering and Physical Sciences; Committee on Applied and Theoretical Statistics; Board on Mathematical Sciences and Analytics; Division on Earth and Life Studies; Nuclear and Radiation Studies Board; Division of Behavioral and Social Sciences and Education; Committee on National Statistics; Board on Behavioral, Cognitive, and Sensory Sciences; Committee on Reproducibility and Replicability in Science. (2019). Reproducibility and Replicability in Science. Washington (DC): National Academies Press (US). Erişim adresi: https://www.ncbi.nlm.nih.gov/books/NBK547531/
[3] Schloss, P.D. (2018). Identifying and Overcoming Threats to Reproducibility, Replicability, Robustness, and Generalizability in Microbiome Research. ASM Journals, 9(3). Doi: https://doi.org/10.1128/mBio.00525-18
[4] Whitaker K. (2017). Publishing a reproducible paper. figshare. Erişim adresi: https://figshare.com/articles/presentation/Publishing_a_reproducible_paper/5440621
[5] Nosek, B. A., Hardwicke, T. E., Moshontz, H., Allard, A., Corker, K. S., Dreber, A., Fidler, F., Hilgard, J., Kline Struhl, M., Nuijten, M. B., Rohrer, J. M., Romero, F., Scheel, A. M., Scherer, L. D., Schönbrodt, F. D., & Vazire, S. (2022). Replicability, Robustness, and Reproducibility in Psychological Science. Annual Review of Psychology, 73(1), 719–748. https://doi.org/10.1146/annurev-psych-020821-114157
[6] ACM. (2020). Artifact review and badging - Version 1.1. Erişim adresi: https://www.acm.org/publications/policies/artifact-review-and-badging-current