23 Aralık 2014 Salı

Veri Analizi ve Görüntüleme - 3

Verinin nasıl analiz edildiğini ve görüntülemenin nasıl yapıldığını anlayabilmek, satın aldığınız bir ürünün içindekiler kısmını okuyabilmeye benzer. Yemekten büyük zevk aldığım bir çikolatalı gofreti ele alalım: çok büyük ihtimalle hayatımın hiçbir döneminde kendi başıma bir çikolatalı gofret yapamayacağım; ancak içindekileri okuduğumda bana nelerin sunulduğunu ve bünyeme nelerin dahil olmasına izin verdiğimi anlayabiliyorum. Böylece örneğin mısırdan elde edilmiş bir glikoz şurubu ibaresi gördüğümde, eninde sonunda bir GDO'lu ürüne maruz kaldığımı farkedebiliyorum (GDO'ya ilişkin tartışmalarda bir taraf tutmuyorum, akışına bırakan bir tavır izliyorum). Aynı zamanda, bir çikolatalı gofret yediğimde vücuduma giren karbonhidrat ve yağ oranını da tespit edebiliyorum. Gerçi diyebilirsiniz ki, madem bu kadar dert ediyorsun karbonhidrat ve yağı, neden çikolatalı gofret yiyorsun:) İnsan mantıklı değil duygusal bir yaratık maalesef :)

Herhangi bir grafiğe baktığımızda da birşeyler yemeye benzer bir durum oluşur: nasıl ki vücudumuz yediğimiz şeylerle inşa edilir ve yenilenir, beynimiz de elde ettiğimiz verilerle tekrar şekillenir. Düşüncelerimizi, inançlarımızı, ve hatta o bilginin kategorisine karşı mevcut direncimizi her yeni bilgiyle güncelleriz. Bu konuya ilişkin detaylar için bir sosyal psikoloji kitabının içindekiler kısmına göz atabilirsiniz. Özetle, öğrenme büyük oranda mantıklı değil, duygusal bir süreçtir, ve işin içine duygu girdiği andan itibaren maruz kaldığınız şeyin etkisi de o denli büyük olur.

Tam da bu nedenle, veri analizi ve görselleştirme konusunda ne kadar bilinçli olursanız, maruz bırakıldığınız bilgiye karşı farkındalığınız da o denli yüksek olur. Hemen bir örnek vereyim: üç yıl önce kışlık lastik almak üzere araştırma yapmaya başladım. Birkaç gün boyunca forumlarda ve teknik kıyaslamaların yer aldığı web sitelerinde bol bol gezindikten sonra lastik markasına ve modeline karar verdim. Ancak bu süreçte muadil lastik markalarının performanslarında aşırı bir farklılığın olmadığı kanısına vardım. Lastik almaya gittiğimde yine de adettendir diyerek ürünü kıyaslamalarını istedim, ve bana şuna benzer bir grafik gösterdiler:



Burada iki farklı lastik markasının karlı yolda fren mesafesini görüyorsunuz. Beyninizin normal şartlarda yapacağı ilk şey, sütunların yüksekliğini kıyaslamak. Böyle bakınca, iyi markanın kötü markaya kıyasla çok daha kısa bir mesafede durabildiğini düşünebilirsiniz. Neden sonra, sol taraftaki sayıları farkettim. İki markanın fren mesafeleri arasında sadece bir metre fark var, ve bu fark toplam durma mesafesiyle kıyaslayınca sadece %1 seviyesinde ! Bu grafik şöyle olmalıydı:


Olması gereken şey, farklılığı yanıltmadan göstermek. Bazen bir metre daha erken durmak bile hayat kurtarabilir, ancak bu durumda vurgulanması gereken şey budur. 

Gelelim bu kıyaslamanın doğruluğuna. Burada dikkatinizi çekmek istediğim ilk konu, karlı yüzeylerin hiç bir zaman homojen olmadığı. Yeni yağan karın üzerinde yürümekle, üzerinde yürünmüş karın üzerinde yürümek farklıdır. Hava sıcaklığı, nem, frene basıldığı andaki yüzey, sürücünün ağırlığı, hatta karşılaştırma için seçilen lastiklerin üretim tarihleri gibi birçok faktör biraraya geldiğinde işler karışmaya başlar. Eğer gerçekten de iki lastik arasında büyük bir farklılık varsa bunu bir şekilde görebiliriz; ancak farklılık bu durumda olduğu gibi sadece %1 seviyesinde ise, bu durum tamamen şans eseri olabilir. Burada dikkatinizi çekmek istediğim iki şey var; bunların ilki deney tasarımı. Öyle bir deney tasarlamalıyız ki, yukarıda bahsettiğim faktörleri mümkün olduğunca birbirine denk tutmalıyız. Gerçek dünyada eşitlemek mümkün değildir, bu nedenle yapılması gereken şey yapılabilecek denkliğin en iyisini sistematik bir şekilde tutturmak. Her denemede bu faktörler değişecektir, bu nedenle bu denemeleri birkaç kez tekrarlamalı ve elde ettiğimiz sonuçların belirli bir olgunluğa ulaşmasını beklemeliyiz.

Olgunluk kelimesi kulağa biraz garip gelebilir. Aslında bu durumu yaklaşık olarak şu deyimle ifade ederiz günlük hayatta: her şey olacağına varır. İstatistiğin felsefi kısmı hakkında uzun süreler fikir yürütmüş olsam da, burada haddimi bilerek işin bu kısmını daha uzman kişilerden dinlemenizi öneriyorum. Özetle, yeterince deneme yaparsanız elde ettiğiniz sonuçların belirli değerler aralığında yoğunlaştığını görmeye başlarsınız. O zaman karşınıza yeni bir problem çıkar: bu kadar çok veri elde etmişken, hangisini alacaksınız? Bu kısımda dikkatinizi çekmek istediğim ikinci şeyse istatistiksel kıyaslama için uygun yöntemin seçilmesi. Mesela, uzun fren mesafesine sahip lastikle 3 denemenin yapıldığını varsayalım ve sonuçlar şöyle olsun: 100 metre, 101 metre, ve 99 metre. Bu üç değerin ortalaması 100 metre. Daha kısa fren mesafesine sahip lastikle yapılan 3 denemede elde edilen sonuçlar ise şu şekilde olsun: 90 metre, 99 metre, ve 108 metre. Bu üç değerin ortalaması 99 metre, ve bu ortalama parametresine bakarsak bu lastikle daha kısa mesafede durduğumuzu düşünebiliriz. Ancak burada şöyle bir problem var: bu ikinci lastiği kullandığınızda neyle karşılaşacağınızı aslında çoğu zaman bilemiyorsunuz. Yani bu lastikle fren yapmak hiç güvenilir değil; her seferinde karşınıza bir sürprizle gelebilir.

Şimdi yukarıdaki metne tekrar bir göz atın, ancak bu sefer iki lastik markası yerine, iki farklı genden bahsettiğimi düşünün. Fren mesafesi yerine de gen ifadesini koyun. Yazıyı daha fazla uzatmamak adına gerisini sizin hayal gücünüze bırakıyorum.

Analiz yaklaşımlarını bilmek, hangi analizin -kaba hatlarıyla bile olsa- hangi özellikleri ortaya çıkarıp hangilerini gizlediğinin farkında olmak, ve bu sonuçların görüntülenmesi sırasında hangi yöntemin neyi gizleyip neyi ön plana çıkardığını bilmek hayati önem taşıyor. Böylece zihnimize aldığımız bilgilerin ne kadarının doğru ve ne kadarının yanıltıcı olduğunu farkederek buna göre zihnimizde hazmedebiliriz.


Sözün Özü:
Satın aldığınız bir gıda maddesinin içindekilerini okuyabilmek nasıl ki beden sağlığınız için kıymetliyse, maruz kaldığınız bir bilginin nasıl oluşturulduğu ve sunulduğuna ilişkin detayları farkedebilmek de sağlıklı bir zihinsel süreç için kıymetlidir.



Proje:
GenKök'te geçen yaz gerçekleştirdiğimiz çalışmaların bir kısmını farklı görüntüleme yöntemleri üzerine ayırmıştık. Rastgele 6 değer alıp bunları 3'erli iki gruba ayırın. Farklı yaklaşımlar ve grafik türler seçerek bu iki grup arasında her seferinde farklı bir özelliği (ortalama, standart sapma vb. ) farklı grafik türleriyle (çubuk, pasta vb.) ön plana çıkarın veya gizlemeye çalışın. 

Meraklısına:
Yukarıda bahsettiğim çalışmaların detayına ve gerçekleştirdiğimiz diğer aktivitelere blog sayfamızdan ulaşabilirsiniz.