Tekrarlanabilir Araştırma ve Veri Analizi

4. Tekrarlanabilir Araştırma ve Veri Analizi

Nedir?

Tekrarlanabilirlik (reproducibility), araştırma verileri ve kodlarının, başkalarının bilimsel çıktılarda iddia edilen sonuçlara ulaşabilmesini sağlayacak şekilde erişime açılması anlamına gelir. Benzer sonuçlara ulaşmak içim bilimsel bir metodolojiyi tekrarlama eylemi olan "replicability" kavramı ile yakından ilgilidir. Bu kavramlar ampirik araştırmanın temel unsurlarıdır. (Çevirenin notu: Her iki kavram da Türkçe'ye "tekrarlanabilirlik" olarak çevrilmekle birlikte, "reproducibility" aynı verileri kullanarak aynı sonuçlara ulaşma, "replicability" ise farklı verilerle aynı araştırma sorularına aynı doğrultuda yanıt verme olarak tanımlanmaktadır. Metinde "tekrarlanabilirlik", aksi belirtilmedikçe "reproducibility" kelimesinin karşılığı olacak şekilde kullanılmıştır.)

Tekrarlanabilirliği iyileştirmek, bilimsel çıktılarda artan titizlik ve kaliteye ve dolayısıyla da bilime daha fazla güvenilmesine sebep olur. Bir projenin başlangıcından ve verilerin toplanmasından sonuçların yorumlanması ve raporlanmasına kadar araştırma iş akışlarını açma konusunda artan bir ihtiyaç ve isteklilik olmuştur. Bu gelişmeler, yüksek bütünlük standartlarını korurken ortak çalışanlar tarafından benimsenebilecek entegre araştırma iş akışlarının tasarlanması da dahil olmak üzere kendine has zorluklarla birlikte gelmiştir.

Tekrarlanabilirlik kavramı bilimin yapı taşı olan bilimsel yöntemde ve özellikle aşağıdaki beş adımda doğrudan uygulanmaktadır:

  1. Bir hipotezin formüle edilmesi

  2. Çalışmanın tasarlanması

  3. Çalışmanın gerçekleştirilmesi ve veri toplanması

  4. Verilerin analiz edilmesi

  5. Çalışmanın raporlanması

Çalışmanın şeffaf ve tekrarlanabilir (reproducible) olması için bu adımların her biri net ve açık dokümantasyon sağlanarak açık bir şekilde raporlanmalıdır.

Gerekçe

Kapsayıcı (overarching) faktörler tekrarlanamazlığın nedenlerine daha fazla katkıda bulunabilir, fakat aynı zamanda bu nedenlerin adreslenmesi için belli önlemlerin uygulanmasını da yönlendirebilir. Araştırmanın yapıldığı kültür ve çevre, önemli bir ‘yukarıdan aşağıya (top-down)’ kapsayıcı faktördür. ‘Aşağıdan yukarıya’ bir bakış açısıyla, araştırmacılar için sürekli eğitim ve öğretim, farkındalığı artırabilir ve iyi uygulamaları yaygınlaştırabilir.

Tekrarlanabilirliğe katkıda bulunan faktörlerin tamamını anlamak önemli olmakla birlikte, bu faktörleri mevcut bir araştırma programına hemen adapte edilebilecek ve tekrarlanabilirliğini hemen iyileştirebilecek adımlara bölmek de zor olabilir. Atılması gereken ilk adımlardan biri, mevcut durumu değerlendirmek ve tekrarlanabilirliği daha da artırmak için adımlar atıldıkça iyileştirmeyi izlemektir. Araştırmaların tekrarlanabilirliği ile ilgili bazı yaygın sorunlar aşağıdaki şekilde gösterilmektedir.

Kaynak: Sempozyum raporu, Ekim 2015. Reproducibility and reliability of biomedical research: improving research practice. PDF, Türkçe çeviri: Güleda Doğan

Goodman, Fanelli ve Ioannidis (2016) epidemiyoloji, hesaplamalı biyoloji, ekonomi ve klinik deneylerde tekrarlanabilirliğin çoğunlukla aşağıdaki gibi tanımlandığını belirtmişlerdir:

"bir araştırmacının orijinal araştırmacı tarafından kullanılan materyallerin aynısını kullanarak önceki bir çalışmanın sonuçlarını tekrarlama becerisi. Yani, ikinci bir araştırmacı, aynı analiz dosyalarını oluşturmak için aynı ham verileri kullanabilir ve aynı sonuçları elde etmek amacıyla aynı istatistiksel analizleri uygulayabilir."

Bu, "replicability" karşılığı olan tekrarlanabilirlikten farklıdır: "replicability karşılığı olan tekrarlanabilirlik, bir araştırmacının aynı prosedürleri takip ederek ancak yeni veri toplayarak önceki bir çalışmanın sonuçlarını tekrarlama becerisini ifade eder." Bunu düşünmenin daha basit bir yolu, "reproducibility" karşılığı olan tekrarlanabilirliğin yöntem odaklı, "replicability" karşılığı olan tekrarlanabilirliği ise sonuç odaklı olması olabilir.

Tekrarlanabilirlik birkaç farklı düzeyde değerlendirilebilir: bireysel bir proje (örneğin, bir yayın, bir deney, bir yöntem ya da bir veri seti), bireysel bir araştırmacı, bir laboratuvar ya da araştırma grubu, bir kurum ya da hatta bir araştırma alanı düzeyinde. Bu farklı düzeyler için biraz farklı türde kriterler ve değerlendirme noktaları geçerli olabilir. Örneğin bir kurum, tekrarlanabilir araştırma yürüten araştırmacıları ödüllendiren politikalar oluşturuyorsa, tekrarlanabilirlik uygulamalarını destekler. Diğer taraftan, bir araştırma alanı veri havuzları ya da ortak veri paylaşım standartları gibi tekrarlanabilir araştırma pratiklerini destekleyen ve bunlara olanak veren topluluk tarafından sürdürülen kaynaklar geliştiriyorsa, o araştırma alanının yüksek tekrarlanabilirlik düzeyinin olduğu düşünülebilir.

Öğrenme çıktıları

Burada ele alınması gereken üç ana hedef vardır:

  1. Tekrarlanabilir araştırma yapmanın önemli etkilerini anlamak.

  2. Tekrarlanabilir araştırmanın (iş akışı tasarımı, veri yönetimi ve dinamik raporlamayı içeren) genel düzenini/planını anlamak.

  3. Tekrarlanabilirlik sürecindeki bireysel adımların yanısıra kullanılabilecek kaynakların farkında olmak.

Temel unsurlar

Bilgi

Aşağıda tekrarlanabilirliğin temel noktalarını gösteren bir liste yer almaktadır:

  • ‘Tekrarlanabilirlik krizi’ ve tekrarlanabilirliğin meta analizi nedir?

  • Araştırmada tekrarlanabilirlik, bütünlük ve etik ilkeleri.

  • İşbirliğine dayalı ve tekrarlanabilirliğe olanak veren bilgisayar ortamları nelerdir?

  • Araştırmalarda tekrarlanabilirliği etkileyen faktörler.

  • Veri analiz dokümantasyonu ve açık araştırma iş akışları.

  • Tekrarlanabilir analiz ortamları (sanallaştırma).

  • "Araştırmacıların Özgürlük Düzeylerine" hitap etmek (Wicherts ve diğerleri 2016).

Beceriler

Tekrarlanabilirliği sağlamak için gerekli bilgi ve becerileri belirlerken akılda tutulması gereken birkaç pratik ipucu vardır. Tekrarlanabilirlikle ilgili en iyi uygulamalar daha genel olarak Açık Bilimden ödünç alınmıştır. Ancak bunların entegrasyonu, araştırmalarını paylaşmayı seçseler de seçmeseler de bireysel olarak araştırmacılara fayda sağlar. Tekrarlanabilirlikle ilgili en iyi uygulamaların entegre edilmesinin bireysel olarak araştırmacıya fayda sağlamasının nedeni, araştırmanın planlanması, organizasyonu ve dokümantasyonunu iyileştirmesidir. Aşağıda, bu el kitabında yer alan uygulamalara göndermelerle tekrarlanabilirliğin bir araştırma iş akışına uygulanması ile ilgili bir örnek ana hatlarıyla gösterilmektedir.

1. Başlamadan önce tekrarlanabilirlik için plan yapın

Bir çalışma planı ya da protokolü oluşturun.

Çalışmanın başında, önerilen çalışma tasarımı ve metodlarını içeren bir çalışma planı ya da protokolü yazarak dokümantasyona başlayın. Mevcut ise Equator Network üzerinden bir raporlama kılavuzu kullanın. Sürüm kontrolünü kullanarak çalışma planınız ya da protokolünüzdeki değişiklikleri izleyin (Sürüm Kontrolü başlığına bakın). Gereken gücü (power) ve örneklem büyüklüğünü hesaplayın ve düşük güçlü çalışmalar tekrarlanamama eğiliminde olduğunda bu hesaplamayı raporlayın.

Tekrarlanabilir araçları ya da materyalleri seçin.

CiteAb gibi bir antikor arama motoru kullanarak çalışan antikorları seçin. Uluslararası Hücre Hattı Kimlik Doğrulama Komitesi - International Cell Line Authentication Committee tarafından kimliği doğrulanmış olanları seçerek yanlış tanımlanmış hücre hatları yoluyla tekrarlanamazlıktan kaçının. Her mümkün olduğunda, araştırmanızın mülkiyetini elinizde bulundurduğunuz ve araştırmanızı yeniden kullanım için platform dışına taşıyabileceğiniz yazılım ve donanım araçlarını seçin (bkz. Açık Araştırma Yazılımı ve Açık Kaynak).

Tekrarlanabilir bir proje oluşturun.

Tüm araştırma dosyaları için çevrimiçi bir platform, merkezi bir havuz ya da klasör kullanarak proje yönetiminizi merkezileştirin ve organize edin. Github'ı proje dosyalarını birarada tutacak ya da Benchling, Labguru veya SciNote gibi elektronik bir laboratuvar not defteri kullanarak herşeyi yönetecek bir yer olarak kullanabilirsiniz. Ham verilerinizi salt okunur yapın ve işlenmiş verilerden ayrı tutun (Veri Yönetimi başlığına bakın).

Araştırma dosyalarınızı kaydederken ya da yedeklerken, yeniden kullanıma izin veren formatlar ve bilgilendirici dosya adları seçin. Dosya adları hem makina hem de insan tarafından okunabilir olmalıdır (Veri Yönetimi başlığına bakın). Analizlerinizde ve yazılım kodunuzda göreceli yolları (relative paths) kullanın. Özel dosya formatlarından kaçının ve açık dosya formatlarını kullanın (bkz. Bölüm 2.6: Açık Lisanslama ve Doya Formatları).

2. Kayıt tutun

Kayıt

Negatif sonuçların şeffaflığını artırmak ve yayın yanlılığına karşı koymak için çalışma tasarımı ve analizi ile ilgili önemli bilgileri önceden kaydedin. İlk kaydınızı yapmak için size yardımcı olacak ücretsiz araçlar arasında AsPredicted, Open Science Framework ve Registered Reports yer almaktadır. Klinik araştırmalarda Clinicaltrials.gov kullanılmalıdır.

Sürüm kontrolü

Sürüm kontrolünü kullanarak, dosyalarınızdaki ve özellikle analiz kodlarınızdaki değişiklikleri takip edin (bkz. Açık Araştırma Yazılımı ve Açık Kaynak).

Dokümantasyon

Elle yapılan herşeyi bir BENİOKU dosyası içerisinde dokümante edin. Verinizle ilgili önemli bilgileri vermek için (kod kitabı (codebook) olarak da bilinen) bir veri dosyası oluşturun. Kolay bir giriş için Karl Broman’nın Verinin Organizayonu modülünü kullanın ve Veri Yönetimine bakın.

Kolay anlaşılır (literate) programlama

Kodlarınızı anlatı ve dokümantasyonunuzla entegre etmek için Jupyter Notebooks, KnitR, Sweave ya da kolay anlaşılır (literate) programlama ile ilgili diğer yaklaşımları kullanmayı düşünün.

3. Araştırmanızı paylaşın ve lisanslayın

Veri

Ek dosyalardan kaçının, kabul edilebilir serbestlik sunan bir lisansa karar verin ve verilerinizi bir havuz kullanarak paylaşın. Açık Araştırma Verileri ve Materyaller bölümünde ana hatlarıyla belirtilen en iyi uygulama örneklerine uyun.

Materyaller

Materyallerinizi tekrar kullanılabilecek şekilde paylaşın. Reaktifleri/ayıraçları (reagents), diğer araştırmacıların kolaylıkla erişebilmesi için Addgene, The Bloomington Drosophila Stock Center ve ATCC gibi havuzlarda depolayın. Daha fazla bilgi için Açık Araştırma Verisi ve Materyaller bölümünün Açık Materyaller başlıklı alt bölümünü gözden geçirin.

Yazılım, not defterleri ve konteynerler

Nasıl (yeniden) kullanılabileceği ile ilgili bilgi vermek için kodunuzu lisanslayın. Not defterlerini, tüm not defterinin paylaşılan kaynaklarda herkes tarafından görüntülenmesine ve düzenlenmesine izin veren mybinder gibi hizmetlerle paylaşın. Konteynerleri ya da not defterlerini Rocker ya da Code Ocean gibi hizmetlerle paylaşın. Açık Araştırma Verileri ve Materyaller bölümünde ana hatlarıyla belirtilen en iyi uygulama örneklerine uyun.

4. Araştırmanızı şeffaf bir biçimde raporlayın

Yöntem ve müdahalelerinizi açık, şeffaf ve tekrarlanabilirliğe (replication) izin verecek şekilde raporlayın ve yayınlayın. Equator Network yönergeleri, Protocols.io gibi araçlar ya da Registered Reports platformunda olduğu gibi işlem adımları tekrarlanabilirliği rapor etmeniz konusunda yardımcı olabilir. Sonuçları, niteliği ve gidişatı nasıl olursa olsun, çalışmayı bitirdikten sonraki bir yıl içinde kayıt için herkese açık ( ClinicalTrials.gov ya da SocialScienceRegistry benzeri) genel bir platforma göndermeyi unutmayın.

Sorular, engeller, yaygın yanlış anlamalar

S: "Herşey yayının içinde mevcut; isteyen herkes çalışmayı bu bilgileri kullanarak tekrarlayabilir!"

C: Bu en yaygın yanılgılardan biridir. Nihai sonuca ulaşabilmek için kullanılan yöntem ve iş akışları ile ilgili son derece ayrıntılı açıklama yapılmış olması bile çoğu durumda çalışmayı tekrarlamak için yeterli olmayacaktır. Bunun farklı hesaplama ortamları, yazılım sürümleri arasındaki farklılıklar, açıkça belirtilmeyen örtük yanlılıklar vb. gibi çeşitli nedenleri olabilir.

S: "Tekrarlanabilir iş akışlarını öğrenecek ve oluşturacak zamanım yok."

C: Birleştirilebilen ve tüm bir iş akışının oluşturulmasını kolaylaştıran önemli sayıda ücretsiz çevrimiçi servise ek olarak, bunları bir araya getirmek için zaman ve çaba harcamak hem nihai sonuçların bilimsel geçerliliğini artıracak hem de ileriki çalışmalarda yeniden kullanma ve genişletme için gereken zamanı en aza indirecektir.

S: "Tekrarlanabilirlik terminolojisi zor."

C: "Reproducibility" ve "replicability" terimlerine karşılık gelen tekrarlanabilirlik terminolojisi üzerine bir tartışma için bkz. Barba (2018).

Öğrenme çıktıları

  1. Tekrarlanabilir araştırmanın gerekliliğini ve gerekçesini anlamak.

  2. Örnek bir çalışma bağlamında tekrarlanabilir bir iş akışı oluşturabilmek.

  3. Tekrarlanabilir araştırmaları destekleyebilecek araçları bilmek.

Ek okuma listesi

  • Button ve diğerleri (2013). Power failure: why small sample size undermines the reliability of neuroscience. doi.org/10.1038/nrn3475

  • Karl Broman (t.y.). Data Organization. Choose good names for things. kbroman.org

Last updated