28 Haziran 2013 Cuma

Veri Analizinde Uygulanan Adımlar - 5 (İdeal Verilerin Belirlenmesi)

Bir veri analizi çalışmasının en zor aşamalarından birinin sorunun doğru sorulması olduğu söylenebilir. Eğer sorular doğru sorulmuş ve cevaplar da uygun bir şekilde verilmişse, hangi yolda ve hangi sınırlar içerisinde ilerleyeceğimiz bellidir. Bu, bizim analizimizin her aşamasında yararlanacağımız bir referans veya kılavuzdur.

Bir sonraki aşama, bu sorunun cevaplanmasında hangi verilerin kullanılacağı veya kullanılabileceğidir. Genelde ülkemizde iki temel yanlış algılama var: 1) ben bir deney yapayım veya veri toplayayım, sonrasında bu veriden ne çıkarsa onunla ilerleriz. Ya da: 2) elimdeki veri sorduğum soruya uygun değil ancak verinin sağıyla soluyla oynayarak aslında ortaya çıkması mümkün olmayacak bir sonuca bir şekilde varmaya çalışayım. Bu iki yaklaşım da çok tehlikelidir ve en iyi ihtimalle bir sonuca varamazsınız, en kötü ihtimalle ise tamamen yanlış ve aldatıcı bir sonuç elde edersiniz. Olması gereken şudur: soru önce gelir, veri sonra.

Bu durumu, örnek iki sorumuz üzerinden giderek açıklamaya çalışalım. Finansal örnekler size uzak geliyorsa, her bir hisse senedini bir gen gibi ve hisse değerlerini mRNA ifade değeri [expression value] olarak düşünün. Genetik size uzaksa, her bir geni bir hisse senedi olarak farzedin. Her iki örneğin de açıklamalarına mutlaka göz atmanızı öneririm: bir sonraki analiz sorunuzun ne olacağı hiç belli olmaz. İlk sorumuz şuydu:

Son bir yıllık dönemde en fazla değişen ilk on hisse senedi, sonraki on hisse senedine göre ne kadar değişmiş?
Önceki yazıda bu sorunun muğlak olduğundan ve tam bir kapsam belirtmediğinden, yani birbiriyle alakalı olmayan çok farklı yöntemlerle de cevaplanılabileceğinden bahsetmiştik. Yine de bu belirsizliği göz önünde bulundurarak nasıl bir veri kümesine ihtiyacımız olacağını belirleyelim. 

Boş bir veri kümesi :)
İdeal veri kümesinin, her bir hisse senedine ait verileri içermesi gerekiyor, yani hisse senetlerinin ikişerli veya onarlı olarak gruplandırılıp grupların verilerinin sunulması bizim için yeterli olmayacaktır. Örneğin, BIST (Borsa İstanbul, IMKB idi eskiden) 100 değeri, seçilen yüz hisse senedinin durumunu yansıtan tek bir değerdir ancak bu veriden her bir hisse senedinin değerine tersten giderek ulaşamayız. Bu durum size gayet açık görünebilir ancak gerçek hayattaki birçok veri genellikle bir grup verinin ortalaması veya standart sapması şeklinde sunulur. TÜİK (Türkiye İstatistik Kurumu) verilerini düşünün: ülkemizde geçen yıl toplam aile harcamasının yüzde kaçının sağlık harcaması olduğu bilgisine erişebilirsiniz (%2 civarında), ancak bu harcama yüzdesinin sosyoekonomik seviyelere (veya her bir semte) göre ne kadar değiştiğini bu veriden elde edemezsiniz.

İdeal veri kümesinin sahip olması gereken diğer özellik, tanımlanan süre -bizim sorumuzda bir yıl- boyunca en yüksek çözünürlüklü verinin elde edilmesi. Yani, eğer hisse senetleri günlük değişiyorsa, günlük bilgiden bahsediyoruz. Anlık değişiyorsa, en azından belirli zaman aralıkları için bu verilerin sunulması, saatlik verilerin ortalaması gibi. Gerçek zamanlı ve her an değişebilen verilerde anlık veriye ulaşım çeşitli nedenlerden ötürü çok zordur, ancak en azından kabul edilebilir bir zaman dilimini baz almak önemlidir. Her günün sonunda borsa haberlerinin özeti yer alıyorsa, o zaman günlük veriyle de idare edebiliriz, en azından elimizdeki soru için. Bu verinin aynı zamanda eksik olmaması lazım: örneğin, bir haftalık verinin yanlışlıkla kaydedilmemesi büyük bir probleme dönüşebilir. Daha zor bir durum ise, bazı hisse senetlerinin yılın ortasında borsaya girmesi veya borsadan ayrılmasıdır. Bazen de iki şirket bu bir yıllık zaman dilimi içerisinde birleşir ve yeni bir isimle borsaya dahil olurlar, o zaman işler tümden karışır. İdeal bir veri setinde bu tür sorunların olmaması gerekir; bu tür problemlerde verilerin nasıl hizaya sokulacağından veri temizleme başlıklı yazıda bahsediyor olacağım.

İdeal veri kümesinde olması gereken bir diğer özellik ise, meta verilerin bulunmasıdır. Yani, her ne kadar hisse senetlerinin isimleri elimizde olsa da, bunların hangi sektörlerdeki şirketlerde faaliyet gösterdikleri, kaç yıldır piyasada oldukları, pazar büyüklükleri vb. bilgiler ileri seviye analizlerde grupların ortak özelliklerinin ortaya çıkarılması noktasında büyük önem taşır. Belki sorumuzda bahsettiğimiz ilk on hisse senedinin sekizi (sadece tahminde bulunuyorum, gerçekte nasıl bir durum olduğunu ilerideki yazılarda göreceğiz), krizlerden büyük oranda etkilenen inşaat sektöründe faaliyet gösteren şirketlere ait hisseler olabilir ve bu bize, bu sektördeki hisse senetlerinin ilk ona girmese dahi büyük risk-büyük getiri potansiyeli olduğunu gösterebilir.

Daha birçok önemli özellik sayılabilse de, ideal veri kümesinin bahsedeceğimiz son önemli özelliği, verilerin kaynağıdır. Elinizde çok fazla ve beklentilerinize uygun veri olabilir ancak hisse senedi değerlerini kaynağından değil de, bir arkadaşınızın sakladığı bir Excel dosyasından alırsanız, biraz endişe etmeniz gerekebilir. Ondalık sayıların bazı ülkelerde nokta, bazılarında ise virgülle gösterildiğini biliyor musunuz? Eğer arkadaşınızın bilgisayarındaki ayarlarla sizinkiler farklıysa ve bunun da farkında değilseniz, geçmiş olsun. Bir diğer güvenilirlik sorunu ise, orjinal verilerin manipüle edilebileceği durumudur. O veya bu nedenle, aracı bir kaynak verilerin bir kısmını isteyerek veya istemeyerek değiştirmiş olabilir, ve bu durumun farkına varmanız çok daha zordur. Bu nedenle, verinin kaynağının güvenilirliğinin çok iyi bir şekilde belirlenmesi hayati önem taşır.


Gelelim genetik sorumuza:

Bir etken maddenin literatürde de belirtilen 4 farklı dozu, üzerinde çalıştığımız model organizma üzerinde gen ifadesi açısından nasıl bir etkiye sahip?
Bu soruyu cevaplamak için kullanacağımız ideal verilerin, ilk örnekte olduğu gibi, her bir gen için ayrı ayrı elimizde olması gerekiyor. Çoğu zaman bu, satırlarda her bir genin olduğu ve sütunlarda da her bir deney veya kontrol grubunun olduğu Excel dosyaları olarak karşımıza çıkar. 

İdeal verinin sahip olması gerken diğer hayati özellik, yüksek çözünürlüklü grup bilgisi. İlk örneğimizde her bir güne ilişkin veriler bizim için gerekliyken, bu örneğimizde ise her bir grup için mümkün olduğunca çok veriye ihtiyacımız var. Mevcut soruda her bir farklı dozla yapılmış deney gruplarına ve en az bir de kontrol grubuna ilişkin verilere ihtiyacımız var. Aynı zamanda, her bir grup için de asgari [minimum] 3 örneğimizin olması lazım (örnek sayısının belirlenmesine ilişkin güç analizi [power analysis] adlı istatistiksel bir yöntem var ancak ayrı bir yazı konusu).

Gelelim meta veri konusuna. Bu örneğimizdeki ideal meta veriler, her bir gene ait fonksiyon, hücredeki konum [cellular location] ve yolak [pathway] tarzı bilgilerden oluşur. Yoğun bir şekilde çalışılmış model organizmalarda (fare [Mus musculus] gibi) bu tür meta verilere rahatlıkla ulaşılabiliyorken, daha az sıklıkla çalışılan model organizmalarda [zebra balığı [Danio rerio] gibi] elinizdeki gen listesinin neredeyse yarısı meta veri eksikliğinden ötürü ileri seviye analizlerde kullanılamaz hale gelir. 

Bahsedeceğim son özellik ise, verinin kaynağı. Kullandığınız verilerin elde edilmesinde başvurulan farklı yöntemler olabilir (mRNA ifade değerleri [expression value] için mikrodizi veya Yeni Nesil Sekanslama yöntemleri kullanılabilir) ve bazı yöntemlerden elde edilen veriler diğerlerine göre daha güvenilirdir. Ayrıca, kullandığınız veriler işlenmiş ve bir şekilde filtrelenmiş veriler olabilir; orjinal verilere ulaşamadığınız için bazı analizlerden vazgeçmek zorunda kalabilirsiniz (mikrodizi analizlerinde kullandığınız normalizasyon yöntemi, bazı istatistiksel analiz sonuçlarını doğrudan etkilemekte ve yanlış yönlendirmektedir).

Gayet uzun bir yazı oldu ancak umarım ideal verinin belirlenmesinin ne kadar önemli olduğunu yeterince vurgulayabilmiş ve örneklerle de açıklayabilmişimdir. Bir sonraki yazıda, bu ideal verilerden hangilerine erişilebileceği ve nasıl bu verilerin edinilerek saklanacağına ilişkin yaklaşımlardan bahsedeceğim.


Sözün Özü:
Analiz sorunuza doğru bir cevap bulabilmek için kullandığınız verilerin ideale mümkün olduğunca yakın olması gerekir: veriler her bir etken/eleman için ayrı ayrı tanımlanmalı, yüksek çözünürlüklü olmalı, zengin meta veriler içermeli ve verilerin kaynağı tanımlanabilir/güvenilir olmalıdır.



Proje:
Son bir aylık BİST (Borsa İstanbul) verilerine ulaşmaya çalışın, kaç kaynaktan bu verileri elde edebiliyorsunuz? Ulaşabildiğiniz en yüksek çözünürlük ne kadar (anlık / saatlik / günlük / haftalık)?

Meraklısına:
Gerçek dünyada ideal veri diye bir şey neredeyse yoktur, en iyi veriler dahi o verilerin üretildildiği sistemlerde bozulur. Bir cihazdan veya sistemden elde edilen veriler nihai yazılımla birleştiğinde çoğu zaman ondalik hassasiyeti belirli bir seviyeden sonra kaybolur.  Ayrıca, verinin kaliteli bir şekilde elde edilmesi ve saklanması için her aşamanın mükemmele yakın olması ve bu nedenle de kollektif bir toplumsal organizasyon olgunluğu gerektirir. Verinin ideale ne kadar yakın bir şekilde toplanıldığı ve muhafaza edildiği, o toplumun gelişmişliğine ilişkin kuvvetli bir göstergedir.