Biyoinformatik Üzerine: Veri Analizi ve Görüntüleme

Bu yazımda, geçen yazımda belirttiğim gibi görüntülemenin iki temel fonksiyonundan bahsedeceğim. Bunları çok kabaca analiz ve sunum amaçlı görüntüleme olarak adlandırabiliriz. Her ne kadar iki farklı kategoriden bahsediyor olsam da, aslında bu iki fonksiyonun da iç içe geçmiş olduğunu söyleyebiliriz. Bunun temel nedeni, bir döngü içerisinde birbirlerini sürekli takip ediyor olmaları. Bir örnek üzerinden çok daha rahat bir şekilde açıklayabileceğimi düşünüyorum.

Bu blogda en çok okunan yazıların hangileri olduğunu merak ediyorum diyelim. Ancak en çok okunmaya ilişkin elimde bir tarif, formül veya kriter yok. En çok okunan ilk on yazı diyebilirim mesela, ancak bu durumdaki varsayımım, tüm okunma sayılarının doğrusal bir şekilde arttığı. Gerçek dünyada böyle bir şeye çok nadir rastlanır.

Bir diğer yaklaşım belirli bir sayının üzerinde okuma sayısı olan yazıları seçmek, ancak bu sayı nedir? Bu problem p-değerinin belirlenmesinde de sıklıkla karşımıza çıkar ve her ne kadar p-değerinin üst limitini 0.05 seçsek de aslında bu değerin seçilmesinin neredeyse hiç bir matematiksel sebebi yoktur.

Peki ne yapacağız, işin içinden nasıl çıkacağız? En klasik veri analiz hatasını yaparak başladık: veriyi görüntülemedik! Eğer veriye bir göz atsaydık onun üzerinden yorum yapmamız çok daha gerçekçi olurdu. Burada bir olguyla karşılaşıyoruz: -genelde- her veri analiz problemi kendine özgü bir yaklaşım gerektirir.

Bu aşamada ilk yapacağım şey, blogdaki istatistikler sayfasına girip istatistikleri kopyalamak ve boş bir Excel dökümanına yapıştırmak. İlgisiz kısımları temizleyip sadece yazı başlıklarını ve okuma sayılarını alıyorum, ardından da büyükten küçüğe doğru sıralıyorum. Sonunda aşağıdaki gibi bir döküman oluşturuyorum:

Evet, bu listede okuma sayıları var, ama en çok okunanlar kriterini nasıl belirleyeceğim henüz netleşmiş değil. İlk yapmam gereken şey bu sayıları bir grafikle görüntülemek, bunun için Excel'in çizgi grafiğini kullanıyorum:

İşaretli kısıma kadar okunma sayıları hızlı bir şekilde azalırken, sonrasında daha düşük bir eğimle azalıyor. Aslında bu grafik tipik bir uzun kuyruk grafiği, bu nedenle eğimin birden değiştiği noktaya kadarki yazıların okunma profilinin diğerlerinden daha farklı olduğunu varsayabilir ve çok okunan yazılar listesini bu yazılardan oluşturabiliriz. Ancak bu listede gördüğümüz kısmı tam olarak nerede sonlandıracağımıza karar vermek için tekrar bir hesaplama yapalım. Peki, nasıl bir hesaplama yapmak lazım?

Burada kullandığımız temel ölçüt, okunma sayılarının hızlı düşüşünün sonlandığı noktayı tespit etmek, bu nedenle mesela listedeki birbirini takip eden iki okuma sayısı arasındaki farkı hesaplasak acaba buradan bir sonuca varabilir miyiz? Yapalım:

Görüntülemeye yine ihtiyacımız var, çünkü çok daha hızlı bir şekilde neler olduğunu gözlemleyebileceğiz. Fark değerlerini bir çizgi grafiğine dönüştürüyorum:

Fark değerleri yaklaşık olarak 30'un altına indiğinde sabitleşmeye başlıyor, yani okunma sayıları da pek değişmemeye başlıyor (ilk çizgi grafiğinde bu durumu gözlemlemiştik). O zaman bu noktayı sınır kabul edip, önceki yazıları en çok okunan yazılar kategorisine dahil edebiliriz.

Gördüğünüz gibi, gerçek veri ideal olmaktan çok uzak, bu nedenle hiçbir zaman gerçekten de doğrusal değil, en doğru görünen kısımları bile. Ayrıca her verinin kendine özgü bir analiz yaklaşımına ihtiyacı var, ve bunu belirleyebilmek için mutlaka görüntülemeden faydalanmalıyız. Aksi takdirde büyük resmi görmekte çok zorlanacağımızı rahatlıkla söyleyebiliriz. Çok okunan yazıları belirledikten sonra ise görüntülemeyi bu sefer verileri sunmak amacıyla kullanacağız:

Burada da birkaç şeye dikkat ettim. Öncelikle Excel'in standart mavi rengini kullanmak yerine, daha pastel bir mavi seçtim, yatay kılavuz çizgilerini kaldırdım, hatta ortalıkta ne kadar çizgi varsa hepsini kaldırdım. Okunma değerlerini y ekseni kılavuz çizgisi üzerinde göstermek yerine her bir sütunun üzerine yerleştirdim. Son olarak da favori fontum olan Helvetica Neue Light'ı kullanıp font büyüklüklerini arttırdım. Hem klasik Excel grafiği gibi sıradan durmuyor, hem de amacımıza hitap etmeyen ve dikkat dağıtıcı herhangi bir görsel öge içermiyor.

Sözün Özü:
Görüntülemeyi yoğun olarak hem analiz süreçlerini yönlendirmek, hem de analiz sonuçlarını sunmak amacıyla kullanırız. Sayıları grafiklere çevirmek büyük resme hızlı bir şekilde hakim olmamızı sağlar.

Proje:
Hızlı bir şekilde ulaşabileceğiniz 25 kitabın (e-kitap da olabilir) kaçar sayfadan oluştuğunu bir Excel dosyasında isimleriyle kaydedin ve benzer bir analizi bu verilerle yapmaya çalışın, bakalım ilginç bir şey ortaya çıkacak mı?

Meraklısına:
Gerçek dünya verilerinin derslerde gösterilen ideal verilerden çok daha farklı olması nedeniyle görselleştirme verideki motifleri veya trendleri keşfetmek için büyük bir önem taşıyor, bu yaklaşımdan da en çok medya sektörü infografiklerle istifade ediyor.

Biyoinformatik Üzerine

Sayfalar

13 Kasım 2014 Perşembe

Veri Analizi ve Görüntüleme - 2