30 Ekim 2013 Çarşamba

Biyoinformatiğe Nasıl Başladım 8

Bu blogda şimdiye kadar bahsettiğim biyoinformatiğe başlama hikayemi mümkün olduğunca kronolojik bir sırayla paylaşmaya çalıştım. Bu süreçte tam bir sıraya sokamadığım ancak yeteneklerimi geliştirdiğini düşündüğüm bazı şeyler de vardı, bu yazıda aklıma gelenleri paylaşmak istedim.

Hayatıma büyük ölçüde etki eden ve kısa vadede hayatımı olumsuz etkileyen, uzun vadede ise faydalarını gördüğüm bir özelliğim olduğunu düşünüyorum: eğer bir şeyin mantığını kavrayamazsam, ondan olabildiğince kaçıyorum. Fakat o mantığa hakim olursam da peşini bırak(a)mıyorum. Üniversiteye kadarki süreçte rahatça -ve bazen aşırıya kaçan şekillerde- sorular sorabildiğim için merak ettiğim şeylerin peşine düşebiliyor ve karmaşık kavramları dahi kolayca özümseyebiliyordum. Ancak üniversitede işler değişti: İngilizce soru sorabilecek olgunluk ve özgüvene ulaşıncaya kadar neredeyse 2 sene kaybettim ve bu nedenle araştırmaktan hoşlanabileceğim birçok konudan uzaklaşmak zorunda kaldım. Çoğu ders kitabı da genelde işin mantığını anlatmaktan ve bir sonraki aşamada sorulabilecek soruları cevaplamaktan acizdi. Hele istatistik kitabını hatırlıyorum da; dersi ancak ikinci alışımda geçebilmiştim ve ders kitabından nefret eder duruma gelmiştim. Garip gelebilir ama, serbestlik derecesi [degrees of freedom] kavramını dahi kolay ve anlaşılır bir şekilde anlatacak bir kitap bulamamıştım uzun süre (2 sene önce sonunda buldum, keşfettiğim kitap şimdi başucu kitabım).

24 Ekim 2013 Perşembe

Dizilim Hizalamada [Sequence Alignment] BLOSUM Matrislerine Etkileşimli Bir Bakış

Hazırladığım web aracından bir ekran görüntüsü
Dizilim Hizalama [Sequence Alignment] ve BLOSUM62 başlıklı yazımda bahsettiğim BLOSUM matrislerini -ve dolayısıyla aminoasitlerin tür benzerliklerine göre birbirlerinin yerine ne oranda geçebildiğini- sadece sayılarla dolu tablolara bakarak anlamanın ne kadar zor olduğundan bahsetmiştim. Oysa, bu matrisleri ağ olarak görüntülediğimizde ve aminoasitlerin gruplarına göre renklendirdiğimizde büyük resmi görmek çok daha kolay hale geliyor, bunu da yine örnek bir ağ ile göstermiştim.

Yine de, farklı BLOSUM matrislerini teker teker görüntülemek veya her bir biyokimyasal özelliğe göre aminoasitleri renklendirmek hem zahmetli bir iş, hem de bu farklı ağ görüntülerini kafamızda canlandırmak bir hayli zor. Bu sorunların üstesinden gelebilmek amacıyla bir web aracı [web tool] hazırladım. 

21 Ekim 2013 Pazartesi

İleri Düzey Uygulamalı Biyoinformatik Eğitimi (23-24 Kasım)

İleri Düzey Uygulamalı Biyoinformatik Eğitimi
*Eğitmeni olduğum bu kursa Biyoakademi üzerinden kayıt olabilirsiniz.
*Bu eğitimden daha fazla faydalanabilmek için Biyoinformatiğin Temelleri Uygulamalı Eğitimi içeriğindeki konulara hakim olmanızı öneririm.

Biyoinformatiğin Temelleri Uygulamalı Eğitimi (9-10 Kasım)

Biyoinformatiğin Temelleri Uygulamalı Eğitimi
*Eğitmeni olduğum bu kursa Biyoakademi üzerinden kayıt olabilirsiniz.
*Bu eğitimde bahsedilecek konulara hakimseniz İleri Düzey Uygulamalı Biyoinformatik Eğitimi ilginizi çekebilir.

Veri Analizinde Uygulanan Adımlar - 7 (Verilerin Temizlenmesi ve Dönüştürülmesi)

Önceki yazımda, sağlıklı verilere nasıl ulaşılabileceği ve elde edilen verilerin de nasıl saklanması gerektiği üzerine birçok noktayı sizinle paylaşmıştım. Bu yazımda ise elde ettiğimiz verilerin nasıl temizlenebileceği ve işlenebileceğine ilişkin temel yaklaşımlardan bahsedeceğim.

Veri analizine ilişkin metinlerde genelde gerektiği kadar anlatılmayan fakat bu işe girmiş istisnasız herkesin karşı karşıya kaldığı bir gerçek vardır: veri -neredeyse hiç bir zaman- temiz değildir. Yani, elimizdeki veriler gerçek verileri içerdiği gibi, analiz sürecini olumsuz olarak etkileyebilecek ve gerçek olmayan verilerle karışmış durumdadır. Bulanık bir suya benzetebilirsiniz bu durumu: olduğu gibi içmeye (analiz etmeye) kalkışırsanız, fayda yerine zarar (yanıltıcı veya eksik sonuçlar) elde edersiniz. Bazı verileri tamamen temizlemek mümkün değildir ancak elinizden geleni yapmalısınız, harcanan bu emeğe değecektir.

10 Ekim 2013 Perşembe

Dizilim Hizalama [Sequence Alignment] ve BLOSUM62

Dizilim hizalama [sequence alignment] biyoinformatiğin en temel problemlerinden biridir ve bu konu üzerine oldukça kafa yorulmuştur. Dizilim hizalamanın temel yaklaşımı, farklı DNA, RNA veya protein dizilimlerinin [sequence] birbirine en çok benzeyen bölgelerinin saptanmasıdır. Bu şekilde biyolojik bir fonksiyonu olabilecek bölgeleri tespit edilebilir veya bir deney sonucunda elde ettiğimiz DNA veya protein diziliminin hangi gen ve organizmaya ait olduğunu büyük ölçüde saptayabiliriz. Örnek bir hizalama aşağıdaki gibi olabilir:

GCACATATGGAAACC
||||||---|||||*
GCACAT---GAAACT

Yukarıda GCACATATGGAAACC dizilimi ile GCACATGAAACT diziliminin hizalanmış şeklini görüyorsunuz. Bu durumda ikinci dizilimin ortasında 3 bazlık bir bölümün silindiğini [deletion] ve sonundaki bazın da değişime uğradığını [mutation] söyleyebiliriz. Hizalama konusunu iki farklı çatı altında düşünebiliriz:

6 Ekim 2013 Pazar

Neden Normal Dağılım?

Çoğu istatistiksel çalışmada hemen hemen hep normallik şartı aranır. Hipotezlerin reddine ya da kabulüne normal dağılıma göre karar verilir. Bir çok teorik dağılım olmasına rağmen örneğin; Binom, Poisson, Beta, Gamma dağılımları vs. neden normal dağılım bu kadar çok sık kullanılıyor? Belki daha önemlisi dağılımını bilmediğimiz bir anakütlenin yada bildiğimiz hiçbir teorik dağılıma uymayan anakütlenin örnekleme araştırmasında neden ısrarla normal dağılım kullanıyoruz sorusunu sorabiliriz.


1 Ekim 2013 Salı

İstatistiksel Deney Tasarımı

Laboratuvar çalışmalarında yapılan deneyler, genellikle pahalı malzemelerle,  kalifiye insan gücü ve uzun süren bir emeğin çalışmasıdır. Bu deneylerin tekrar sayısı arttıkça doğal olarak maliyeti de artmaktadır. Üstelik kervan yolda düzülür mantığıyla yapılan çalışmalarda deneyin amacı dışında gereksiz verilerin elde edilebilmesi için harcanan çabanın eklenmesiyle birlikte maliyet iyice artmaktadır. En başta araştırmanın amacına göre kurulan bir deney tasarımı ile yapılan çalışmalarda ise bu maliyetin ağır yükünü azaltan bir kurtarıcı görevini görür. Deney tasarımı sadece maliyeti azaltmakla kalmaz, deneyin doğruluğunu da arttırır.  Özellikle maliyetinden dolayı tekrarlanma frekansı çok az olan deneylerin sonucunun doğruluğu açısından çok önemlidir. (Önceki yazılarımda örneklemin büyümesiyle çıkarım hatalarının azaldığından bahsetmiştim.)