21 Haziran 2013 Cuma

Veri Analizinde Uygulanan Adımlar - 4 (Analiz Hedeflerinin Belirlenmesi)

Geçen yazımda sorulan sorunun ne kadar önemli olduğundan bahsetmiş ve örneklerle konuyu açıklamaya çalışmıştım. Sorduğumuz soru, açık denizde yol alırken izlediğimiz rota gibidir; ne kadar iyi sorulmuşsa izlediğimiz yolda o denli sabit ve odaklı kalabiliriz.

Burada kısıt ekonomisi denilen kavrama girmek istiyorum, gözünüzü korkutmasın gayet anlaşılır bir konu. Örneğin, bir laboratuvar çalışması yürütüyorsunuz ve belirli bir bütçeniz var. İşte bu bütçe, sizin kısıtınız, yani sınırlarınız. Sınırlarınız olduğu sürece, bazı deneyleri diğerlerine tercih ederek veriminizi arttırmak istersiniz (veya ideal olan budur). Yani, sorduğunuz soru her ne kadar sizi belirli bir rotada odaklanmış bir şekilde tutacaksa da, o rota üzerinde hangi adalara uğramanız gerektiği veya karadan en fazla ne kadar uzak kalabileceğiniz sizin hareketinizi sınırlayan temel faktörlerdir. Her ne kadar sanki ölmeyecekmiş gibi yaşasak da, en basitinden ömrümüz bizim en temel kısıtlayıcı etkenimizdir ve tam da bu nedenle hayatımızı verimli geçirebilmek adına bazı fırsatları diğer bazılarına tercih ederiz. Bu duruma kapsam adını verebiliriz.

Yani kapsam, analiz sürecinde, sorduğumuz soruyu cevaplarken hangi analizleri diğerlerine tercih edeceğimiz ve nerede duracağımızın ifadesidir. Sınırsız bütçe yoktur, sınırsız insan kaynağı yoktur, sınırsız sarf malzemesi yoktur, sınırsız bilgisayar gücü yoktur. 
Dönelim veri analizine. Sorduğumuz soruyu cevaplamak adına, hangi analiz yöntemlerini diğerlerine üstün tutacağız, sorduğumuz sorunun ne kadar peşinde koşacağız, bu iki sorunun cevabını neye göre vereceğiz? Yeni bir kavram daha: fırsat maliyeti. Seçim yapmanın bilimsel yolu.

Fırsat maliyeti der ki, birden fazla seçenek arasında seçim yaparken sana bu seçeneklerin sadece kazandırdıklarını değil, seçmediklerinin de sana kaybettirdiklerine bak. Örneğin, iş görüşmesine giderken maliyeti düşürmek adına varolan kot ve tişörtünü giyerek gidebilirsin ancak bu seçim sana işi kaybettirebilir. Öte yandan, gerekirse biraz borç alıp yeni bir takım elbiseyle gitmek senin işe alınma şansını arttırabilir ve ilk maaşının ufak bir kısmıyla borcunu ödeyebilirsin. Veri analizinde de aynı yaklaşım geçerli: bir yöntemi basit olduğu için uyguladığınızda anlamlı bir sonuç elde edemeyebilir ve zaman da kaybedebilirsiniz. Daha kapsamlı bir analize harcayacağınız zaman ise sonunda anlamlı sonuçlar ve birkaç çarpıcı makale figürü kazandırabilir.

Önceki yazıda sorduğumuz iki soru üzerinden gidelim ve muhtemel analiz kapsamları üzerine biraz yorum yapalım:
Son bir yıllık dönemde en fazla değişen ilk on hisse senedi, sonraki on hisse senedine göre ne kadar değişmiş? 
Burada her iki grupta yer alan hisse senetlerini saptadıktan sonra grup ortalamalarını kıyaslayabiliriz, her bir grubun en çok değişkenlik gösteren hisselerinin ortalamasını kıyaslayabiliriz, her bir grubu kendi içerisinde değerleri açısından sıralayarak [sort] bu iki listenin her bir elemanının ortalama değerlerini kıyaslayabiliriz, bu yaklaşımları sapma değerleri için hesaplayabiliriz veya bu grupların kendi içlerindeki korelasyon değerlerini kıyaslayarak bu değer üzerinden analizimizi sürdürebiliriz, vb.. Özetle, seçenek çok, ancak hedef/kapsam belli olmadığı sürece analizlerin de sonu yok. 

Bir etken maddenin literatürde de belirtilen 4 farklı dozu, üzerinde çalıştığımız model organizma üzerinde gen ifadesi açısından nasıl bir etkiye sahip?
Nereden başlasam bilemiyorum :) anlatımı anlamlı olarak değişen genleri tespit ederek bu gen listesi üzerinden bir kümelenme [clustering] çalışması gerçekleştirebilir, zenginleştirme analizleri [enrichment analysis] uygulayabilir, yolak [pathway] analizlerinin altından girip üstünden çıkabilir, ağ analizlerini genomik ve proteomik yaklaşımlarla gerçekleştirebilir, açık biyolojik veritabanlarındaki verilerin analizleriyle mevcut analizi karşılaştırabilir vb. dünyanın analizini yapabilirsiniz. Kapsam belirliyse, bazen 3 veya 4 analizle dahi bir makale yayınlayabilirsiniz (analizini yaptığımız taze bir çalışmada bu aşamaya geldik). Kapsam belirli değilse bazen onlarca analiz yöntemi uygulayıp da bir sonuca varamadığınız için onca emek verdiğiniz deneysel çalışmaların çıktılarını bir kenara kaldırmak zorunda kalabilirsiniz.

Hangi analiz ve ne kadar analiz, iki anahtar soru kalıbı bizim için. Bunların cevabını da hedef ve/veya kapsamı belirlediğimiz sürece verebiliriz, aksi takdirde işimiz şansa kalır.


Sözün Özü:
Veri analizine başlarken sorulan soru rotayı, analiz hedefleri ise bu rotada ne kadar ve hangi şekilde gidileceğini ifade eder. İyi belirlenmiş bir kapsam anlamlı bir sonuca götürebilecekken, sınırları muğlak bir kapsam ise tatmin edici sonuçlar içermeyen bir dizi analiz çabasına sebep olabilir.



Proje:
Üzerinde çalıştığınız bilimsel veya finansal bir soru varsa, bunun kapsamını belirlemek üzerine bir fırsat maliyeti analizi uygulayın. Kapsamı belirleyebilecek her bir faktörün /analizin varlığında ve yokluğunda sonuçlar üzerinde nasıl bir etki göstereceğini 5 üzerinden ayrı ayrı puanlayın ve bu puanların toplamına bakarak kapsamı belirleyin.

Meraklısına:
Kısıt ekonomisi çok ilginç bir kavram ve özellikle son dönemde bu kavram üzerine geliştirilmiş çığır açıcı teoriler mevcut. Uzun Kuyruk [The Long Tail] bunlardan biri, aynı adlı kitap Türkçe'ye de çevrildi, bir göz atmanızı öneririm.