5 Şubat 2014 Çarşamba

Regresyon Analizi

“Minority Report” filmini seyredenler hatırlarsa; kurguda işlenen konu üç insanın geleceği görebilme yetenekleriyle ilgiliydi. Bu yetenekler kullanılarak suçların daha işlenmeden öngörülebiliyor ve polisler tarafından daha olay gerçekleşmeden engellenebiliyordu. Daha günümüze yakın benzer bir örnek Amerikan yapımı bir dizi olan “Person of Interest”. Kurgu yine benzer olmakla birlikte doğa üstü yeteneklerden farklı olarak dayanağı olan “veri” kullanılıyor. Son teknoloji bir bilgisayar ve suçluları bulacak bir algoritma kullanılarak hukuk dışı müdahaleler bulunularak suçların daha işlenmeden engellenmesi kurgusu etrafında dönen bir dizi. Bu tarz bir geleceğin çok uzakta olmadığına eminim. Etik açısından da ayrıyetten çok tartışılacak bir konu.

Günümüzde  şuan bu teknolojiye sahip değiliz. Fakat farklı alanlarda buna benzer büyük boyutlu veriler toplanarak gerek pazar araştırmalarında gerek biyoloji, tıp alanında göreceli büyük boyutlu verilerdan yararlanılarak ve bir kaç regresyon tekniği uygulanarak hali hazırda bir azınlık raporu yazmak mümkün.

Regresyon analizi, araştırmak istediğimiz bağımlı değişkenin yada değişkenlerin üzerinde bağımsız değişkenlerin etkisi olup olmadığını ve aralarındaki ilişkiyi araştıran bir yöntemdir. Veriden öğrenerek stokastik bir model kurulur. Verinin yapısına göre regresyon yöntemleride değişmektedir. Araştırılacak bağımlı değişken kategorikte olabilir, aralıklı sayılardanda oluşabilir. Kanser ve kanser değil (0=kanser  ve 1=kanser değil) kategorik bir değişkendir. Mikrodizi çipinde üretilen aralıklı (154,5; 151,1;..) bir değişken gibi de olabilir.

Regresyon analizi yapılmasının amacı iki önemli soruyu cevaplamak içindir. Birincisi değişkenlerim asıl araştırmak istediğim değişkenimi veya değişkenlerimi yada var olan durumu açıklayacak düzeyde bir model kurabiliyor muyum? Eğer kurabiliyorsam doğru araştırma üzerindeyim demektir. İkincisi ise, elimde ki yeterli bilgiyi(veriyi) kullanarak bir sonraki gözlemin ne durumda olacağını tahmin edebilir miyim sorusudur? Bu son sorunun cevabı zaman zaman çözülmesi imkansız hale gelebiliyor. Çözülememesinin bir kaç nedeni olabilir. Veriyi açıklayacak yeterli değişken elde edilememiş olabilir. Yanlış değişkenler seçilmiş olabilir. Veri elde edilirken yapılmış hatalar olabilir. Regresyon yöntemlerinin algoritmasına bağlı olarak bazı varsayımlarının sağlanamamasından kaynaklanıyor olabilir yada kontrol altında tutulamayan olağanüstü (dış faktörler) durumlar olabilir. Kur, hisse senedi gibi şeylerin tahminin  büyük oranda sapmasının sebebi bu diyebiliriz.

Regresyon problemlerinde kullanılan bir çok algoritma vardır. Regresyon yöntemlerini birbirinden ayıran noktalardan biriside burasıdır. Bunlardan en bilinir ve yaygın olanı en küçük kareler (EKK) olarak bilinen  yöntemdir. Gerçek duruma en yakın fonksiyon eğrisi oluşturmamızı sağlar. Gözlemlerin rastgeleliğinden kaynaklanan hatayı küçülterek uygun denklem katsayılarını ve uygun eğriyi çizmemizi sağlar. Bu işleme optimizasyon da denebilir. Aşağıda ki grafik üzerinde 3 farklı model görebiliriz. Kırmızı olan doğrusal regresyon modeliyle çizilmiş bir grafiktir. Siyah olan polinomik ve mavi olan ise kübik bir regreson eğrisidir. Hangi modelin veriyi daha iyi açıkladığını anlamak için birkaç kritere bakılarak karar verilebilir.




Model kurulmadan önce de mutlaka keşfedici veri analizi yaparak varsayım hatalarını giderildikten sonra model kurulması daha doğru bir adım olacaktır. İstatistiksel olarak anlamlı bir regresyon modeli kurulup kurulmadığı t-testi, anova gibi hipotez testleri ile hızlıca test edilebilir. Fakat anlamlı bir model kurulsa bile analizi bitiremeyiz. Çoklu bağlantı, artıkların(hataların) etkileri, tahmini değerlerin en düşük ve en yüksek aralıkları, modelde ki katsayıların etkileri incelenmesi kesinlikle gerekmektedir. Son analiz aşamasında ekstrem bir durum bulunursa bu etkilerin giderilmesi için farklı yöntemler kullanılması gerekmektedir. Gerekirse model değiştirilebilir yada parametrik olmayan yöntemler seçilerek tekrar regresyon modeli kurulmaya çalışılabilir. Çoğu çalışmalar maalesef model kurulduktan sonra bitiriliyor ve model sonrası analiz yapılmadan yorum yapılmaya çalışılıyor.

Sözün Özü:

Regresyon yöntemleri biyoinformatikte popüler önemini korumaya devam edecek ve ilerde daha da önemli hale gelecektir. Özellikle tıp alanında uygulanma çalışmalarında karar vermede çok büyük rol oynayacaktır. Doğru regresyon yönteminin seçilmesi ve model sonrası analizin yapılması araştırma açısından çok önemlidir.