28 Haziran 2013 Cuma

ANOVA (Analysis of Variance)

Uzun bir aradan sonra tekrar merhaba. Bugün ki yazımda t-testinin genelleştirilmiş hali olan F-testi ANOVA’dan bahsetmek istiyorum. ANOVA ikiden fazla grup ortalamalarının karşılaştırılmasında kullanılan parametrik bir yöntemdir. T-testi F-testinin özel durumu olarak düşünebiliriz. T-testinde sadece iki grup karşılaştırılması yapılmaktadır. Parametrik yöntem olması gereği bazı varsayımlar gerektirmektedir. En önemli varsayımı grupların varyanslarının eşit olduğu varsayımıdır. Bu varsayım bozulduğunda sonuçların önemli derecede etkileneceği literatürde geçmektedir. Diğer varsayımlar ise, normal dağılım şartı ve gözlemlerin birbirinden bağımsız olmasıdır. Normallik şartı göz ardı edilebilmesine rağmen varyansların homojenliği varsayımı katı bir koşuldur.


Aşağıdaki tabloda örnek bir veri yapısını görebiliriz.
Araştırmacı 3 farklı hastalık grubundaki hastaların albümin değerlerini ölçmüş ve aşağıdaki gibi bulmuş. Albümin değerlerin hastalık gruplarına göre değişip değişmediğini öğrenmek istiyor. (Kaynak: Uygulamalı Çok Değişkenli İstatistiksel Yöntemler-Reha Alpar, Not: Örnek olması sebebiyle verinin sadece bir kısmını aldım.)

Kronik Hepatit
Siroz
Malignite
5
3
0,8
5,1
4,3
1,3
4,5
3,4
2,2
4,7
1,8
2,7
2,8
2,2
1,9
5,3
2,7
1,4
4,7
2,5
2,6
4,5
3,1
1
3,6
2,8
1,5
3,8
1,5
0,7

Albümin değerini tek yönlü ANOVA ile gruplara göre değişiklik gösterip göstermediğini inceleyebiliyoruz.  Bu tarz verip tipini t-testi ile karşılaştırıldığını şahit oldum. Maalesef hatalı bir analiz yöntemidir. Sebebi de I.tip hata dediğimiz hatayı büyütmesidir.
ANOVA ile tek bir hipotez kurarak %5 yanılma payıyla(%95 güven düzeyinde çalıştığımızı düşünürsek) çalışırken. T-testi ile ikili grup karşılaştırması yaptığımız için ;

Kronik Hepatit- Siroz
Kronik Hepatit-Malignite
Siroz-Malignite

Olmak üzere 3 farklı hipotez kuruyoruz.
Bu da güven düzeyini düşürmektedir. Kısa bir hesapla; (0,95)3 = 0,86 olur.
Buradan yanılma payıda 1-0,86=0,14 olmuş olur. T-testi ile yaptığımız karşılaştırmada üç farklı hipotez kurduğumuz için ANOVA ile test ettiğimizde yanılma payı %5 iken t-testi ile %14’lere kadar çıkmaktadır. Daha fazla değişken olduğunu düşünürsek hata payı iyice artacaktır. Bu nedenle de bu sonuçlara göre yorum yapmak tabi ki yanlış olacaktır.

Üç ve üçten fazla grup karşılaştırılması yapılacağı zaman ANOVA yapılması doğru olur. Bu kullandığımız veri tek yönlü-ANOVA’ya uygun örnektir. İki yönlü ANOVA da sıklıkla karşılaşılan bir analizdir. Hastalık gruplarına ait örneğimize bir de cinsiyet değişkeni eklendiğini düşünürsek; verimiz aşağıda ki hale gelmektedir. Hastalık ve Cinsiyet faktörleri aynı anda incelenmek istendiğinde ve ortak etkileşimlerinin sonuçlar üzerinde anlamlı istatistiksel farklılık yaratıp yaratmadığını incelememizi  sağlar.


Kronik Hepatit
Siroz
Malignite
Cinsiyet
5
3
0,8
E
5,1
4,3
1,3
K
4,5
3,4
2,2
K
4,7
1,8
2,7
E
2,8
2,2
1,9
E
5,3
2,7
1,4
E
4,7
2,5
2,6
K
4,5
3,1
1
E
3,6
2,8
1,5
K
3,8
1,5
0,7
K

Kurulan hipotezler ise şöyledir;
Tek yönlü ANOVA:
H0: Hastalık gruplarına göre Albümin değerleri farklılık göstermemektedir.
H1: Hastalık gruplarına göre Albümin değerleri arasında en az biri farklıdır.

Çift yönlü ANOVA:

Üç farklı hipotez kurulur.

H0: Hastalık gruplarına göre Albümin değerleri farklılık göstermemektedir.
H1: Hastalık gruplarına göre Albümin değerleri arasında en az biri farklıdır.

H0: Cinsiyete  göre Albümin değerleri farklılık göstermemektedir.
H1: Cinsiyete göre Albümin değerleri arasında en az biri farklıdır.

H0: Hastalık grupları ve cinsiyetin ortak etkileşimine göre Albümin değerleri farklılık göstermemektedir.
H1: Hastalık grupları ve cinsiyetin ortak etkileşimine göre Albümin değerleri arasında en az biri farklıdır.

Çift yönlü ANOVA ile her bir gruptaki değişkenlerin kendi içinde anlamlılıklarını inceleyebildiğimiz gibi ortak etkileşimini de inceleyebiliyoruz.

Eğer karar aşamasında, Tek yönlü ANOVA için düşünürsek, P-değeri red bölgesine düşerse hastalık grupları arasında en az birinin fark yarattığını söyleyebiliriz. Fakat farkı hangi grubun yarattığını öğrenmek istediğimizde ise post-hoc testlerine başvurmamız gerekir. Tukey HSD testi en çok bilinen ve kullanılan test olmasına rağmen verinin yapısına göre diğer post-hoc testlerine de başvurmak gerekebilir. Çünkü kendi aralarında avantajları ve dezavantajları vardır.

Sözün Özü:

Üç ve daha fazla grup karşılaştırmalarında t-testi yerine F-testini kullanmak analizlerin doğruluğu için gereklidir. Farklı olan grubu bulmak için ise verinin yapısına göre post-hoc testleri kullanmak gerekir.