11 Nisan 2013 Perşembe

Veri Analizinde Uygulanan Adımlar - 1 (Giriş)

Fatma Akın'ın gayretleri doğrultusunda bu blogun daha fazla insana ulaştığını (+%35) görmek beni heyecanlandırıyor; fakat bu beraberinde popüler yazılar yazma baskısı  da getiriyor ve bu nedenle dünden beri tıkanmış durumdayım. Bu bloğa başlarken en temel amacım, dağınık da olsa biyoinformatik alanında Türkçe kaynaklar oluşturmaya başlamaktı;  şimdiden 25 yazıyla ufak da olsa bir katkımın olduğunu düşünüyorum. Bu odakla devam ederek, belki bazen sıkıcı olsa da mümkün olduğunca bilgilendirici yazılar hazırlayarak devam etmeye karar verdim ve zihnim birden açıldı : ) Yazıların günlerini de bir standarda bağlamak istiyorum ancak şimdilik tam bir düzen tutturabilmiş değilim; yine de haftada iki yazı hazırlamak gibi bir hedefim var.

Gelelim veri analizine. +Deniz Ağırdan'ın "Biyoinformatik ve Veri Analizi" dizisinde istatistik merkezli ve detaylı bir şekilde anlattığı prensiplerden daha genel ve farklı bir bakış açısıyla bahsetmek istiyorum bu yazı dizisinde. Bu prensipleri sınıflandırırken birçok farklı kaynağı kullanmakla birlikte, genel olarak iki ayrı İngilizce kaynağın yaklaşım tarzından büyük oranda faydalanacağım. Bunların ilki, Guide to Intelligent Data Analysis, Bilkent Üniversitesi'nde bu kitabın temelinde aynı adla bir ders de veriliyor. Diğer kaynağım ise John Leek'in veri analizi dersleri. Örnekleri ise mümkün olduğunca iki soru üzerinden götürmeye çalışacağım; biri biyolojik, diğeri ise finansal olacak.

Basamakları şu şekilde sıralayarak başlayabiliriz:

1) Projenin Tanımlanması
1.a) Cevabı merak edilen sorunun belirlenmesi
1.b) Analiz hedeflerinin belirlenmesi

2) Verinin Tanımlanması
2.a) Analiz için gerekli ideal verilerin belirlenmesi
2.b) Erişilebilecek verilerin belirlenmesi ve edinilmesi
2.c) Verilerin temizlenmesi ve dönüştürülmesi

3) Keşfedici Veri Analizi
3.a) R'a giriş
3.b) Veri keşfi ve görüntülenmesi
3.c) Kümelenme analizleri

4) İstatistiksel Analizler
4.a) Grup karşılaştırmaları
4.b) Tahmin analizleri

5) Yolak ve Sistem Analizleri
5.a) Veri zenginleştirme kaynaklarının bulunması
5.b) Sistem analizi yaklaşımları

6) Sonuçların Raporlanması
6.a) Sonuçların yorumlanması
6.b) Rapor düzeni ve biçim
6.c) Raporun görüntülenmesi

Başlıkları sıralarken bile yoruldum, biraz büyük bir işe giriyorum galiba :) Amacım, eğer başarabilirsem, bir dönemlik bir derste verilebilecekleri bu blog imkan verdikçe sunabilmek. 


Sözün özü:
Veri analizi sistematik bir yaklaşımı ve birbirinden farklı birçok adımı içerir. Bu alanda ilerleyebilmek disiplinli ve sabırlı bir süreç gerektirir.



Proje:
Veri analizi üzerine yazılmış Türkçe bir kaynak bulmaya çalışın; güncel ihtiyaçlara cevap verebilen bir kaynak mevcut mu? Bulursanız lütfen paylaşın :)

Meraklısına:
Yukarıda bahsettiğim kitabın başlarında Kepler'in hikayesi yer alıyor; yaklaşımının ne denli büyük bir katma değerinin olduğunu anlayabilmek adına ilgili birkaç sayfayı okuyun derim.