21 Ocak 2015 Çarşamba

Nedensellik ve Korelasyon

RT-PCR üzerine bir yazı hazırlamaya başladım bu sıralar, ancak arada dikkatimi çeken ve bahsetmek istediğim bir şey var: istatistiksel yaklaşımın kötüye kullanımı. Bu yazıyı yazmama sebep olan durum da şu: yakın zamanda TÜBİTAK Başarı Öyküleri adlı bir kitapçık hazırladı ve burada yer alan projelerden biri çok açık bir şekilde istatistiksel bir yaklaşımın kötüye kullanımının açık bir örneğiydi. Projeye ilişkin detayları yazmayacağım, ancak dikkatli bir gözün bahsettiğim projeyi hemen farkedeceğini düşünüyorum. Böyle bir projenin başarı öyküsü listesine girmesi ise başka bir hikaye!

Örneğin bir deney düzeneği kuruyorsunuz ve bir genin ifadesinin kontrol grubuna göre deney grubunda nasıl değiştiğini anlamaya çalışıyorsunuz. Diyelim ki elinizde hem ilaç uygulanmış (deney grubu), hem de ilaç uygulanmamış (kontrol grubu) örnekler var. Eğer ilgilendiğiniz genin ifadesinde bir değişme varsa, bunun ilaçtan kaynaklandığını söyleyebilirsiniz, ancak tek bir şartla: deney grubuna, kontrol grubundan farklı olarak sadece ilaç uygulaması gerçekleştirirseniz. Eğer bu bir fareye ilaç enjekte etmekse, kontrol grubuna da birebir aynı şekilde enjeksiyon yapmak zorundasınız, içinde sadece serum fizyolojik gibi etkisiz bir sıvı olmak kaydıyla. Aksi takdirde ilacın mı, yoksa enjeksiyon sürecinin mi etkili olduğunu ayırdedemezsiniz. 

Tahmin edeceğiniz üzere, deney düzeneğini yanlış kurduğunuz andan itibaren sonuçları da yanlış yorumlamaya başlıyorsunuz. Aklımıza gelebilecek soru şu: peki bu yanlış yaklaşımlar bir yere takılmıyor mu? Özellikle bazı tipik hatalar için maalesef çoğu zaman hayır. Bu yazıyı yazmama vesile olan projede tam da bu vardı.

İki durum arasındaki ilişkiyi ölçmek için kullandığımız istatistiksel yaklaşımlardan biri korelasyondur. Örneğin, insanların boylarıyla kiloları arasında bir ilişkinin olup olmadığını bu yöntemle ölçebiliriz. Korelasyon bize iki şey verir: ilki, boy ile kilo arasındaki ilişkinin yönünü, yani doğru veya ters orantılı olup omadığını; ikinci olarak da böyle bir ilişki varsa bunun ne derece kuvvetli olduğunu. Bu durumu bir grafikle de görüntüleyebiliriz; bu durumda iki boyutlu bir düzleme her bir birey için bir nokta koyup, bu noktanın x eksenine denk gelen değerini kilo, y eksenine denk gelen değerini ise boy uzunluğuyla ilişkilendirebiliriz. Çok farklı dağılımlarda korelasyon değerinin nasıl değiştiğini anlamak adına Wikipedia'dan aldığım aşağıdaki grafik çok daha açıklayıcı olacaktır:


Korelasyon değeri 1 ile -1 arasında değişir; iki değişken beraber artıp beraber azalıyorsa bu değer 1'e yakındır, tamamen zıt hareket ediyorlarsa bu değer -1'e yakındır, eğer aralarında beraber artma/azalma ilişkisi yoksa da bu değerin 0 civarında olduğunu gözlemleriz.

Ancak burada iki değişken arasında bir ilişki bulmak, bunlardan birinin bir diğerine sebep olduğunu açık bir şekilde göstermez. Havuza giren insan sayısıyla dondurma satışları arasında bir ilişki vardır, ancak insanlar dondurma yediği için havuza girmez, veya havuza girdiği için dondurma yemez. Dondurma satışı ve havuza girme oranındaki değişiklikler hava sıcaklığının bir sonucudur. 

Yazımı ilginç bir örnekle bitirmek istiyorum. Bazen korelasyon değeri çok yüksek de çıkabilir, ancak bu durumda sonuçları tamamen yanlış yorumlayıp olmayan şeyleri varmış gibi gösterebiliriz. Bu tarz yanlış yorumlamaları gözümüzün içine sokan çok güzel bir web uygulaması var, oradan bir örnekle devam edeceğim. Aşağıdaki grafikte, Apple'ın borsa değeriyle, ABD'deki kimya mühendisliği doktorası alan kişiler arasındaki ilişki gösteriliyor:Korelasyon değeri 0.999568! Bu durumda, Apple'ın değerinin artması kimya mühendisliğine olan ilgiyi arttırıyor gibi bir yaklaşım bir deli saçması olurdu herhalde :)


Sözün Özü:
Bilimsel camiada dahi bazı kritik hataların yapılması ve bunların bir de başarı öyküleri listesine alınması, lisans eğitimi sonrasında da istatistik eğitiminin yoğun bir şekilde devam etmesi gerektiğini gösteriyor.Proje:
5 arkadaşınıza ait boy ve kilo değerlerini bir Excel belgesine kaydedin ve Excel'deki korelasyon fonksiyonuyla aradaki korelasyonun ne denli kuvvetli olduğunu gözlemleyin.

Meraklısına:
İstatistiğin yalanla birlikte çokça alınmasının sebebi, istatistik okur-yazarlığının dünya genelinde de çok düşük olması. İstatistikle nasıl yalan söylenileceğine dair birçok kitap ve web sitesi var :)