“Minority Report” filmini seyredenler hatırlarsa; kurguda işlenen konu üç insanın geleceği görebilme yetenekleriyle
ilgiliydi. Bu yetenekler kullanılarak suçların daha işlenmeden öngörülebiliyor
ve polisler tarafından daha olay gerçekleşmeden engellenebiliyordu. Daha
günümüze yakın benzer bir örnek Amerikan yapımı bir dizi olan “Person of
Interest”. Kurgu yine benzer olmakla birlikte doğa üstü yeteneklerden farklı
olarak dayanağı olan “veri” kullanılıyor. Son teknoloji bir bilgisayar ve
suçluları bulacak bir algoritma kullanılarak hukuk dışı müdahaleler bulunularak
suçların daha işlenmeden engellenmesi kurgusu etrafında dönen bir dizi. Bu tarz
bir geleceğin çok uzakta olmadığına eminim. Etik açısından da ayrıyetten çok
tartışılacak bir konu.
Günümüzde şuan bu teknolojiye sahip değiliz. Fakat
farklı alanlarda buna benzer büyük boyutlu veriler toplanarak gerek pazar
araştırmalarında gerek biyoloji, tıp alanında göreceli büyük boyutlu verilerdan
yararlanılarak ve bir kaç regresyon tekniği uygulanarak hali hazırda bir
azınlık raporu yazmak mümkün.
Regresyon analizi,
araştırmak istediğimiz bağımlı değişkenin yada değişkenlerin üzerinde bağımsız
değişkenlerin etkisi olup olmadığını ve aralarındaki ilişkiyi araştıran bir
yöntemdir. Veriden öğrenerek stokastik bir model kurulur. Verinin yapısına göre
regresyon yöntemleride değişmektedir. Araştırılacak bağımlı değişken
kategorikte olabilir, aralıklı sayılardanda oluşabilir. Kanser ve kanser değil
(0=kanser ve 1=kanser değil) kategorik
bir değişkendir. Mikrodizi çipinde üretilen aralıklı (154,5; 151,1;..) bir
değişken gibi de olabilir.
Regresyon analizi yapılmasının
amacı iki önemli soruyu cevaplamak içindir. Birincisi değişkenlerim asıl araştırmak istediğim değişkenimi veya değişkenlerimi yada
var olan durumu açıklayacak düzeyde bir model kurabiliyor muyum? Eğer kurabiliyorsam
doğru araştırma üzerindeyim demektir. İkincisi ise, elimde ki yeterli bilgiyi(veriyi)
kullanarak bir sonraki gözlemin ne durumda olacağını tahmin edebilir miyim
sorusudur? Bu son sorunun cevabı zaman zaman çözülmesi imkansız hale
gelebiliyor. Çözülememesinin bir kaç nedeni olabilir. Veriyi açıklayacak
yeterli değişken elde edilememiş olabilir. Yanlış değişkenler seçilmiş
olabilir. Veri elde edilirken yapılmış hatalar olabilir. Regresyon
yöntemlerinin algoritmasına bağlı olarak bazı varsayımlarının sağlanamamasından
kaynaklanıyor olabilir yada kontrol altında tutulamayan olağanüstü (dış
faktörler) durumlar olabilir. Kur, hisse senedi gibi şeylerin tahminin büyük oranda sapmasının sebebi bu diyebiliriz.
Regresyon
problemlerinde kullanılan bir çok algoritma vardır. Regresyon yöntemlerini
birbirinden ayıran noktalardan biriside burasıdır. Bunlardan en bilinir ve
yaygın olanı en küçük kareler (EKK) olarak bilinen yöntemdir. Gerçek duruma en yakın fonksiyon
eğrisi oluşturmamızı sağlar. Gözlemlerin rastgeleliğinden kaynaklanan hatayı
küçülterek uygun denklem katsayılarını ve uygun eğriyi çizmemizi sağlar. Bu
işleme optimizasyon da denebilir. Aşağıda ki grafik üzerinde 3 farklı model
görebiliriz. Kırmızı olan doğrusal regresyon modeliyle çizilmiş bir grafiktir.
Siyah olan polinomik ve mavi olan ise kübik bir regreson eğrisidir. Hangi modelin
veriyi daha iyi açıkladığını anlamak için birkaç kritere bakılarak karar
verilebilir.
Model kurulmadan
önce de mutlaka keşfedici veri analizi yaparak varsayım hatalarını giderildikten
sonra model kurulması daha doğru bir adım olacaktır. İstatistiksel olarak anlamlı
bir regresyon modeli kurulup kurulmadığı t-testi, anova gibi hipotez testleri ile
hızlıca test edilebilir. Fakat anlamlı bir model kurulsa bile analizi
bitiremeyiz. Çoklu bağlantı, artıkların(hataların) etkileri, tahmini değerlerin
en düşük ve en yüksek aralıkları, modelde ki katsayıların etkileri incelenmesi
kesinlikle gerekmektedir. Son analiz aşamasında ekstrem bir durum bulunursa bu
etkilerin giderilmesi için farklı yöntemler kullanılması gerekmektedir.
Gerekirse model değiştirilebilir yada parametrik olmayan yöntemler seçilerek
tekrar regresyon modeli kurulmaya çalışılabilir. Çoğu çalışmalar maalesef model
kurulduktan sonra bitiriliyor ve model sonrası analiz yapılmadan yorum yapılmaya çalışılıyor.
Sözün Özü:
Regresyon yöntemleri biyoinformatikte popüler önemini korumaya devam edecek ve ilerde daha da önemli hale gelecektir. Özellikle tıp alanında uygulanma çalışmalarında karar vermede çok büyük rol oynayacaktır. Doğru regresyon yönteminin seçilmesi ve model sonrası analizin yapılması araştırma açısından çok önemlidir.
Sözün Özü:
Regresyon yöntemleri biyoinformatikte popüler önemini korumaya devam edecek ve ilerde daha da önemli hale gelecektir. Özellikle tıp alanında uygulanma çalışmalarında karar vermede çok büyük rol oynayacaktır. Doğru regresyon yönteminin seçilmesi ve model sonrası analizin yapılması araştırma açısından çok önemlidir.