30 Nisan 2013 Salı

Veri Analizinde Uygulanan Adımlar - 2 (Uzmanlığın Önemi)

Bileklerimi ciddi bir şekilde incitmişim; bu nedenle uzun bir süre klavyeden uzak kalmak zorunda kaldım. Bu süre zarfında bol bol okuma fırsatı buldum; mümkün oldukça edindiğim bilgileri sizlerle paylaşmak istiyorum. Dönelim konumuza.

Harvard Business Review'in en son (Mayıs 2013) sayısı (bir süredir bu derginin Türkçe versiyonu da yayında) Yalın Girişim [Lean Startup] kavramını kapağına taşıdı. Bu kavramın detaylarına girmeyeceğim, ancak temelinde sürekli doğru veri toplama ve sürekli doğru analiz yaklaşımı yatıyor. Peki veri toplama ve analiz süreçlerinin doğruluğuna nasıl karar vereceğiz? Tamamen sayılara güvenmeli miyiz, yoksa iç güdülerimiz mi ağır basmalı? Bu soru, veri analizini konu alan neredeyse her kitabın sorduğu ilk sorulardan biri, ve hepsinde de cevap aynı. Fakat size bu cevabı yine sayısal verilerle sunacağım.

17 Nisan 2013 Çarşamba

Türkiye'de Biyoteknoloji ve Biyoinformatik Üzerine Kurumsal Bir Çalışma

Uzun bir aradan sonra tekrar merhaba. Haftasonu talihsiz bir kaza geçirdim ve her iki bileğimi de incittim; bu nedenle kısa bir ara vermek zorunda kaldım. Bugün size, organizasyonu TTGV tarafından gerçekleştirilen Biyoteknoloji Sektörel İnovasyon Sistemi: Kavramlar, Dünyadan Örnekler ve Türkiye'de Durum ve Çıkarımlar adlı etkinlikten bahsetmek istiyorum. Yukarıdaki linke tıkladığınızda, hazırlanan kitapçık ile seminer videolarına ulaşabiliyorsunuz. Her ikisi de büyük bir özenle hazırlanarak kitapçıkta kendine yer bulan ve Selin Arslanhan Memiş tarafından kaleme alınan Biyoekonomi bölümü ile, Yrd. Doç. Dr. Yeşim Aydın Son tarafından hazırlanan Türkiye'de Biyoenformatik kısımlarına mutlaka bir göz atmanızı öneririm. Özellikle ülkemizde biyoinformatiğin mevcut durumu hakkındaki soru işaretlerinizi son bahsettiğim kısımı okuyarak büyük ölçüde giderebileceğinizi düşünüyorum.

14 Nisan 2013 Pazar

Biyoinformatik Nedir?

Normal şartlar altında, bir kitabın önsözü ironik bir şekilde, kitap bittikten sonra yazılır. Yine normal şartlar altında, aynı durum tanım cümleleri için de geçerlidir. Bir kavramı tanımlayabilmek için, o kavramın anlaşılabilmesi için gerekli olan kavramların olgunlaşması gerekir. Bu nedenle, biyoinformatik çalışmaları olarak nitelendirebileceğimiz çalışmalar 1980'li yıllarda ortaya çıkmaya başlamışsa da, gerçek manada bir disiplin olarak tanımlanıp sözlüklere girmesi için en az bir on sene geçmesi gerekmiştir; konunun yaygın bir tanınabilirlik edinebilmesi için de bunun üzerine en az bir on sene daha koymak gerekir.

Biyoinformatik kavramı, Oxford İngilizce Sözlüğü'nde (bizim TDK sözlüğümüz gibi düşünelim) yaklaşık olarak şu şekilde tanımlanmaktadır: 
Karmaşık biyolojik verilerin [complex biological data] derlenmesi [collecting] ve analiz edilmesi [analysis] bilimi.

12 Nisan 2013 Cuma

Testin Gücü (Power Test)


Güç analizi, hipotez testlerinde genellikle göz ardı edilen Beta hatası üzerinden hesaplanan bir analizdir. İstatistiksel karar aşamasında verilen kararın doğruluğunu, güvenirliğini denetlemek için kullanıldığı gibi örneklem büyüklüğünü belirlemek içinde kullanılır. Güç analizini anlamak için önce biraz hipotez testinden bahsetmek gerekiyor.

Hipotez testi (ön sav) çıkarımsal istatistik yöntemleri altında incelenir. Anakütle parametrelerini örneklem yardımıyla belirli bir güven düzeyiyle(1-α) test etmemizi sağlar. Anakütle parametrelerine değerlerine dair tam ve kesin bilgiye sahipsek zaten hipotez testleri gereksizdir. Sadece örnekleme olduğu durumlarda kullanılır. İstatistiksel hipotez testleri H0 ve alternatifi H1 şeklinde birlikte ifade edilir. H0 sıfır hipotezi yada yokluk hipotezi olarak adlandırılır. H1 ise; alternatif hipotez olarak adlandırılır. H0’ın tam tersi diyebiliriz.

11 Nisan 2013 Perşembe

Veri Analizinde Uygulanan Adımlar - 1 (Giriş)

Fatma Akın'ın gayretleri doğrultusunda bu blogun daha fazla insana ulaştığını (+%35) görmek beni heyecanlandırıyor; fakat bu beraberinde popüler yazılar yazma baskısı  da getiriyor ve bu nedenle dünden beri tıkanmış durumdayım. Bu bloğa başlarken en temel amacım, dağınık da olsa biyoinformatik alanında Türkçe kaynaklar oluşturmaya başlamaktı;  şimdiden 25 yazıyla ufak da olsa bir katkımın olduğunu düşünüyorum. Bu odakla devam ederek, belki bazen sıkıcı olsa da mümkün olduğunca bilgilendirici yazılar hazırlayarak devam etmeye karar verdim ve zihnim birden açıldı : ) Yazıların günlerini de bir standarda bağlamak istiyorum ancak şimdilik tam bir düzen tutturabilmiş değilim; yine de haftada iki yazı hazırlamak gibi bir hedefim var.

Gelelim veri analizine. +Deniz Ağırdan'ın "Biyoinformatik ve Veri Analizi" dizisinde istatistik merkezli ve detaylı bir şekilde anlattığı prensiplerden daha genel ve farklı bir bakış açısıyla bahsetmek istiyorum bu yazı dizisinde. Bu prensipleri sınıflandırırken birçok farklı kaynağı kullanmakla birlikte, genel olarak iki ayrı İngilizce kaynağın yaklaşım tarzından büyük oranda faydalanacağım. Bunların ilki, Guide to Intelligent Data Analysis, Bilkent Üniversitesi'nde bu kitabın temelinde aynı adla bir ders de veriliyor. Diğer kaynağım ise John Leek'in veri analizi dersleri. Örnekleri ise mümkün olduğunca iki soru üzerinden götürmeye çalışacağım; biri biyolojik, diğeri ise finansal olacak.

8 Nisan 2013 Pazartesi

Normalizasyon Neden Bu Kadar Önemli?

Uzun ve yorucu bir gün. Dünyamız -duyu organlarımızın çalışma tarzından ötürü- sürekli kıyaslamalarla geçiyor. Uzun, ve yorucu, sayısal olarak ifade etmesi zor ancak diğer günlere göre bir farklılığı ifade ediyor. Bunu bir yazılım vasıtasıyla ölçmeye kalksaydık ilk yapacağı iş sayısal hesaplamalara girişmekti; ama biz nasıl oluyorsa sayısal hesaplara girmeden bu tür kıyaslamaları yapabiliyoruz. Bu farklılığın nedenini açıkça ortaya koymadan insan gibi düşünen bilgisayarlar yapamayız diye düşünüyorum.

İlk cümleyi sırf örnek vermek için kurmadım, hakikaten çok yorucu geçti bugün :) Biyoinformatikle bunun ne alakası var diyorsanız, işte alaka şu: eğer kullandığınız teknoloji size mutlak [absolute] değerler değil de, göreceli [relative] değerler veriyorsa,  o zaman kıyaslamanın tuzağına düştünüz demektir. Farklı değerleri adaletli bir şekilde kıyaslayabilmek için hepsini de ortak bir paydada eşitlemelisiniz. Örneğin, iki farklı saksıda  aynı bitkinin iki farklı türü olsun (gözümün önüne domates bitkisi geldi, acıktım galiba) ve bunların hangisinin daha çabuk büyüdüğünü ölçmeye çalışın. Ancak bu saksılardan birini siz kendi evinizde sulayın, diğerini ise bir arkadaşınız kendi evinde. Bir ay sonra yanyana getirin bitkileri, biri diğerinden daha hızlı büyümüştür büyük ihtimalle. Ama bu büyümeye etki eden faktör, bitkinin türü müydü sadece? İkisi de aynı miktarda mı ışık aldı? Peki ya su, aynı miktarda mı sulandılar? Eğer bu etkenleri göz önünde bulundurmazsanız bitkilerden hangisinin daha çabuk uzadığını öğrenemezsiniz.

5 Nisan 2013 Cuma

Biyoinformatiğe Nasıl Başladım 5

CIF, özellikle Perl'de uzmanlaşma sürecimde çok önemli bir rol oynadı, bundan önceki yazımda bahsetmiştim. Bu yazıda ise biyoinformatik maceramda rol oynayan birkaç önemli deneyimimden bahsedeceğim. 

Bunlardan ilki, üniversitedeki oda arkadaşım Seyit Kuyucu'nun aldığı AutoCAD dersi. İlk defa bir çizim programının konsoldan kullanılabildiğine şahit olmuştum ve şaşkınlıktan dehşete düşmüştüm. İnsanın kafasındaki paradigmalar bir anda yerle bir oluyor ve tekrar şekilleniyor. Ödevlerini nasıl yaptığını ve muhtemel çizimler üzerine yaptığımız tartışmaları hatırlıyorum da, 3 boyutlu düşünme üzerine o zamana kadar hiç karşılaşmadığım problemlerle boğuşmak çok zevkliydi. Bu yaklaşım, özellikle proteinlerin (ve hatta histonlar etrafında organize olan DNA'nın) nasıl mekanizmalarla etkileştiğini anlayabilmek ve bu mekanizmaları hayal edebilmek için çok kıymetli diye düşünüyorum. AutoCAD'i daha sonra yüksek lisans tezimde de kullandım; yandaki figürü sayısal verilerle tamamen doğru orantılı bir şekilde hazırlayabilmek için. Sanatsal yönü biraz eksik ama böyle bir figürü açıları kontrol ederek çizdirebilmek çok kıymetli; bugün olsa SketchUp'ta 3 boyutlu bir figür hazırlardım herhalde (Google SketchUp'ı satmış bu arada).

4 Nisan 2013 Perşembe

Zeitgeist ve Biyoinformatik - 2

Dünya değişiyor. Fakat bunu farkedebilecek kadar uzun yaşamıyoruz.

Bir de ufak bir detay var; duyu organlarımız bu değişimi algılamaya uygun değil. Değişimi algılayabilmek için kullanabileceğimiz neredeyse tek vasıtamız, aklımız (veya muhakememiz). Mesela, yandaki şekle bakın; eminim buna benzer şeyleri çok daha önce de gördünüz. A ve B karelerinin rengi tamamen aynı; ama böyle bir şeyi bile çoğu zaman ayırt edemiyoruz. Sebep açık: duyularımız sürekli bir referansa ihtiyaç duyuyor ve bağlama [context] göre sinyal üretiyor. Yani, bağlamı doğru bir şekilde değiştirebilirseniz, o bağlamda algılanan şey gerçekten değişse bile sanki değişmiyor gibi görünebilir (veya duyulabilir, veya hissedilebilir). Ya da, gerçek aynı kalsa dahi bağlamı sistematik bir şekilde değiştirirseniz, sanki gerçek değişiyormuş algısını oluşturabilirsiniz. Bu nedenle dünyadaki değişimleri de kolay kolay anlayamıyoruz ve açıkçası bu değişimlere kolaylıkla uyum da sağlayamıyoruz.

Nerede o eski bayramlar sözü, tam da yukarıda bahsettiğim nedenden ötürü her dönemde yaygın bir şekilde kullanılıyor. Peki değişimi nasıl algılarız ve yönetiriz; veya diğer bir deyişle, geleceği nasıl tahmin ederiz? Bunun için önerilen bazı gelecek senaryoları var ancak şimdiye kadar gerçekçi bir tanıma denk gelmedim; özellikle singularity [tekillik] kavramı etrafında şekillenen senaryolar en hafif tanımıyla bilim kurgu gibi geliyor bana. ODTÜ'de aldığım Fütürizm dersinde de bana en ters gelen şey bu kavramdı. İnsanın zihni rahatsız edici düşüncelerle gıdıklanmaya başladığında algısı açılıyor; bu süreçte geleceği öngörmeye (veya uzgörmeye) ilişkin yöntemleri araştırırken, karşıma çok güzel bir makale çıktı.