30 Haziran 2013 Pazar

Programlama Odaklı Biyoinformatik Projesi

Bu sayfaya ilk kez geliyorsanız, Proje Bölümlerine göz atmadan önce lütfen  Proje Konusu ve Genel Bilgiler kısımlarına bir göz atın.

Proje Bölümleri:

Proje Konusu:

Bu projedeki amacımız, bir gen grubundaki DNA dizilimlerini incelemek ve ortak motifleri keşfetmek olacak. Proje süresince, DNA dizilimlerini Python programlama dilini kullanarak inceleyecek ve farklı dizilimlerde yer alan ortak kısa DNA dizilimlerini (motifleri) tespit etmeye çalışacağız. Geliştirdiğimiz kodları ve bulgularımızı proje sonunda küçük bir kitapçık haline getireceğiz.

Genetik Odaklı Biyoinformatik Projesi

Bu sayfaya ilk kez geliyorsanız, Proje Bölümlerine göz atmadan önce lütfen Proje Konusu ve Genel Bilgiler kısımlarına bir göz atın.

Proje Bölümleri:

Proje Konusu:

Bu projedeki amacımız, bazı mutasyonları Kistik Fibroz hastalığına neden olan CFTR genini keşfetmek olacak. Proje süresince bu geni ve özelliklerini çeşitli web araçları kullanarak araştıracak ve bulgularımızı proje sonunda küçük bir kitapçık haline getireceğiz.

Biyoinformatik Yaz Projeleri

Hem biraz dinlenmek, hem de ilgi alanınıza giren konularda kendinizi geliştirmek için yaz çok büyük bir fırsat, tabii ki öğrenciler için. Çalışma hayatına girdiyseniz mevsimler bir anda  farklılıklarını yitiriyor ve tatil kavramı bir mevsimden birkaç haftaya indirgeniyor.

Yaz stajı da aynı şekilde birşeyler öğrenmek için büyük bir fırsat ancak ülkemizdeki biyoinformatik odaklı şirketlerin veya kuruluşların sayısı çok az, bu nedenle de alana ilgisi olanlar her zaman istedikleri tarzda bir staj programına erişemiyorlar. Bu döngüyü kırmak adına genetik ve programlama odaklı iki farklı biyoinformatik sanal staj programı oluşturmayı düşünüyordum uzun süredir, kısmet bugüneymiş. 

Genetik odaklı projede programlama dili bilmeye gerek olmaksızın web tabanlı biyoinformatik araçlarını kullanmayı, düzenli raporlar hazırlamayı ve Excel yeteneklerini geliştirmeyi hedefleyen bir yaklaşım benimseyeceğim.

Programlama odaklı projede ise işin biraz daha bilgisayar yanını ağırlıklı tutup bir yandan programlama dili öğrenmeyi teşvik edip, diğer yandan da biyolojik bir problemi tanımlayıp çözmeye odaklanacağım.

28 Haziran 2013 Cuma

ANOVA (Analysis of Variance)

Uzun bir aradan sonra tekrar merhaba. Bugün ki yazımda t-testinin genelleştirilmiş hali olan F-testi ANOVA’dan bahsetmek istiyorum. ANOVA ikiden fazla grup ortalamalarının karşılaştırılmasında kullanılan parametrik bir yöntemdir. T-testi F-testinin özel durumu olarak düşünebiliriz. T-testinde sadece iki grup karşılaştırılması yapılmaktadır. Parametrik yöntem olması gereği bazı varsayımlar gerektirmektedir. En önemli varsayımı grupların varyanslarının eşit olduğu varsayımıdır. Bu varsayım bozulduğunda sonuçların önemli derecede etkileneceği literatürde geçmektedir. Diğer varsayımlar ise, normal dağılım şartı ve gözlemlerin birbirinden bağımsız olmasıdır. Normallik şartı göz ardı edilebilmesine rağmen varyansların homojenliği varsayımı katı bir koşuldur.

Veri Analizinde Uygulanan Adımlar - 5 (İdeal Verilerin Belirlenmesi)

Bir veri analizi çalışmasının en zor aşamalarından birinin sorunun doğru sorulması olduğu söylenebilir. Eğer sorular doğru sorulmuş ve cevaplar da uygun bir şekilde verilmişse, hangi yolda ve hangi sınırlar içerisinde ilerleyeceğimiz bellidir. Bu, bizim analizimizin her aşamasında yararlanacağımız bir referans veya kılavuzdur.

Bir sonraki aşama, bu sorunun cevaplanmasında hangi verilerin kullanılacağı veya kullanılabileceğidir. Genelde ülkemizde iki temel yanlış algılama var: 1) ben bir deney yapayım veya veri toplayayım, sonrasında bu veriden ne çıkarsa onunla ilerleriz. Ya da: 2) elimdeki veri sorduğum soruya uygun değil ancak verinin sağıyla soluyla oynayarak aslında ortaya çıkması mümkün olmayacak bir sonuca bir şekilde varmaya çalışayım. Bu iki yaklaşım da çok tehlikelidir ve en iyi ihtimalle bir sonuca varamazsınız, en kötü ihtimalle ise tamamen yanlış ve aldatıcı bir sonuç elde edersiniz. Olması gereken şudur: soru önce gelir, veri sonra.

Primer Tasarımı - 1 (PCR)

Primer tasarımı çok enterasan bir konu esasen. İşin bir boyutu, 1) genomik tekniklerin neredeyse tamamının dayandığı hibridizasyon (A-T ve G-C bazlarının karşılıklı olarak fiziksel kuvvetlerle bir arada kalması) kavramının çok iyi anlaşılmasına dayanıyor. İşin diğer yanı, 2) termodinamik denklemlerdeki parametrelerin yerli yerince belirlenmesiyle doğrudan alakalı. Bir diğer boyut ise, 3) her türlü hesaplama sonucu tasarlanan birçok alternatif primerin genomda doğru bir yere konumlandırılmasını temel alıyor. Her ne kadar karışık ve karmaşık bir süreç olsa da, artık çevrimiçi [online] araçlarla bu iş neredeyse çocuk oyuncağı. Tam olarak değil. Yine de, işinizi gayet kolaylaştıracak bir çevrimiçi aracı da bir yandan anlatarak süreci mümkün olduğunca acısız geçirmeniz için elimden geleni yapacağım.

Bu tür konularda arka planda yer alan bilgilere hakim olmak sandığınızdan çok daha hayati olabilir. Geçmişte eski bir ortağımla gerçekleştirdiğimiz ve altı haneli bütçesi olan bir Ar-Ge çalışması, eski ortağımın deneyleri ve primerleri hatalı tasarlamasından ve isimlendirmesinden ötürü büyük oranda başarısızlıkla sonuçlanmıştı. Kendisi gayet iyi bir üniversitede doktora yapmış, tez sürecinde yoğun bir şekilde primer tasarlamış ve birçok PCR deneyi yapmış olmasına rağmen, konu standart primer tasarımının dışına birazcık çıktığı anda hatalar ardarda gelmişti. Projeyi yarıda bırakıp Ankara'daki bir üniversitede Yard. Doç. kadrosu aldığında ise hatalı tasarımların, karıştırılmış primerlerin ve çalışması zaten imkansız olan deneylerin farkına varmış ve çok geç kalmıştık. Hayatım boyunca laboratuvardan hep uzak kalmaya çalışmışken, kendimi bir anda RT-PCR deneylerinin ortasında buldum. Uykusuz geceler, haftalar süren sıkıcı pipetlemeler ve stresli birkaç ay sonunda farklı bir yaklaşımla projeyi kıl payı kurtarır gibi olduk ancak projenin başında planladığımız sonuçlardan çok uzaktaydık. Harcanan proje bütçesi ve on iki aylık bir zaman dilimi bir yana, iki büyük yatırımcı şirketin güvenini kaybetmek ve gayet açık olan o kapıların tamamen kapanması, ödenen en büyük bedeldi.

21 Haziran 2013 Cuma

Veri Analizinde Uygulanan Adımlar - 4 (Analiz Hedeflerinin Belirlenmesi)

Geçen yazımda sorulan sorunun ne kadar önemli olduğundan bahsetmiş ve örneklerle konuyu açıklamaya çalışmıştım. Sorduğumuz soru, açık denizde yol alırken izlediğimiz rota gibidir; ne kadar iyi sorulmuşsa izlediğimiz yolda o denli sabit ve odaklı kalabiliriz.

Burada kısıt ekonomisi denilen kavrama girmek istiyorum, gözünüzü korkutmasın gayet anlaşılır bir konu. Örneğin, bir laboratuvar çalışması yürütüyorsunuz ve belirli bir bütçeniz var. İşte bu bütçe, sizin kısıtınız, yani sınırlarınız. Sınırlarınız olduğu sürece, bazı deneyleri diğerlerine tercih ederek veriminizi arttırmak istersiniz (veya ideal olan budur). Yani, sorduğunuz soru her ne kadar sizi belirli bir rotada odaklanmış bir şekilde tutacaksa da, o rota üzerinde hangi adalara uğramanız gerektiği veya karadan en fazla ne kadar uzak kalabileceğiniz sizin hareketinizi sınırlayan temel faktörlerdir. Her ne kadar sanki ölmeyecekmiş gibi yaşasak da, en basitinden ömrümüz bizim en temel kısıtlayıcı etkenimizdir ve tam da bu nedenle hayatımızı verimli geçirebilmek adına bazı fırsatları diğer bazılarına tercih ederiz. Bu duruma kapsam adını verebiliriz.

Yani kapsam, analiz sürecinde, sorduğumuz soruyu cevaplarken hangi analizleri diğerlerine tercih edeceğimiz ve nerede duracağımızın ifadesidir. Sınırsız bütçe yoktur, sınırsız insan kaynağı yoktur, sınırsız sarf malzemesi yoktur, sınırsız bilgisayar gücü yoktur. 

19 Haziran 2013 Çarşamba

Yeni Nesil Sekanslama Biyoinformatik Analizi ve 1111 BLAST

Çok uzun bir aradan sonra tekrar merhaba. Bu blogu hazırlamaya başlarken beni en çok tedirgin eden şeylerden biri, yarım kalmasıydı. Elbette ki her şeyin bir ömrü var, ancak yine de biyoinformatik hakkında yeterince kapsamlı bir Türkçe kaynak oluşana kadar bu blogu devam ettirmek istiyorum; en azından bu niyetle yola çıktım.

İki hafta önce, Yeni Nesil Sekanslama (YNS) biyoinformatik analizleri hakkında bir sunum yapmak üzere Erciyes Üniversitesi Genom ve Kök Hücre Merkezi'nden (GenKök) nazik bir davet aldım. İşin güzel tarafı, yine geçen ay gerçekleştirdiğim birçok analizin içinde benim için çok ilgi çekici olan bir YNS çalışmasının tamamlanmasına denk geldi bu davet.  Genel amaçlı sunumlarda teknik detaylara girmekten pek hoşlanmıyorum; fazlasıyla sıkıcı hale gelebiliyor ve her kısım herkesin ilgisini çekemeyebiliyor, özellikle dinleyiciler doktorlar ve biyologlar olduğu zaman. Ancak bu yazıda, o günkü sunumda bahsettiğim başlıkların bir kısmının arka planında yer alan detaylardan bahsedeceğim. 

Gizlilik nedeniyle çalışmanın deneysel detaylarına giremeyeceğim maalesef, ancak özetle, farklı ortamlardan alınmış örneklerde hangi tür mikroorganizmaların olduğunu tespit etmek amaçlanıyordu. 16S ve 18S bölgeleri hedeflenerek gerçekleştirilen bir Sanger sekanslama (dizilimleme) yaklaşımı ile yapılan tipik bir tür tayini araştırmasının milyonlarca DNA dizilimini içeren versiyonu olarak düşünebilirsiniz gerçekleştirilen analizi. Temel birkaç farkla.

24 Mayıs 2013 Cuma

Veri Analizinde Uygulanan Adımlar - 3 (Sorunun Belirlenmesi)

Verileri, yorumlayacak kişi veya grubun üzerinde kontrol sahibi olup olmaması açısından iki farklı çatı altında toplayabiliriz. Bunlardan ilki, yorumlanacak olan verilerin üzerinde kontrol sahibi olabildiğiniz, deneysel çalışmaları veya sahaya inmeyi gerektiren veri tipleridir ve ortaya çıkacak olan analiz sonuçları üzerinde doğrudan etkiniz vardır. İkinci tip veri ise, verinin toplanış biçimi de dahil olarak üzerinde herhangi bir etkinizin olmadığı, ya bir veritabanından ulaştığınız, ya da farklı kaynaklardan derlediğiniz verilerdir. 

Deneysel çalışmalar genellikle çok iyi tanımlanmamış sorularla başlar; çoğu zaman yüksek çıktılı [high-throughput] teknolojilerle yapılan çalışmalarda bu soruları tanımlayabilmek çok da kolay değildir. Ancak deneysel süreçlerin sonunda elde edeceğiniz veri, öncesindeki süreci nasıl planladığınızla doğrudan ilişkilidir ve çoğu çalışmanın gerçek potansiyeline ulaşmasını büyük oranda belirler. Bu nedenle bu süreçler sonucunda elde edeceğiniz veriler üzerinde teknik detaylar hariç olmak üzere çok büyük oranda etkiniz vardır. Etki çoğu zaman sorumluluk da getirir, bu nedenle iyi planlanmamış bir deney en hafif haliyle insan, cihaz ve sarf kaynaklarının israfı anlamına gelir. Peki bu aşamada nelere dikkat edebiliriz?

14 Mayıs 2013 Salı

Korelasyon Verilerinin Görüntülenmesi İçin Farklı Bir Grafik Türü

İngilizce yazdığım blogumdaki son yazıyı hazırlarken, bunun bir de biyoinformatik verilerle olan versiyonunu oluşturmalıyım diye düşündüm. Farklı gruplar, örnekler veya genler arasındaki bağlantıları ortaya koymanın en hızlı yolu bir korelasyon analizi gerçekleştirmek ancak neredeyse hiç bir zaman iş bununla bitmez. Bu analiz sonucu elde edilen verilerin görüntülenmesi en az analiz kadar önemlidir; aksi takdirde insan algısına çok da hitap etmeyen sayısal verilerle kalakalırsınız. Konumuz gen ifade ağları [gene expression networks] olduğunda genelde bir ağ grafiği mutlaka çizilmeli ve algımıza uygun bir tarzda renklendirilip şekillendirilmelidir, buna ilişkin data detaylı bilgi için Cytoscape - 1 ve Cytoscape - 2 yazılarıma göz atabilirsiniz. Bugün, biraz daha detaylı bir görüntüleme için kullanılabilecek ve görmeye çok da alışık olmadığımız bir grafik türünden bahsedeceğim.

Bir analiz yaparken bazen bazı adımları sırf yapmak zorunda olduğunuz için yaparsınız; bazen bu adım sonucu büyük bir şekilde etkilese dahi aralarda yer aldığı için neredeyse hiç hissedilmez. Normalizasyon buna çok güzel bir örnektir. Ancak konu, göz önünde olan bir analiz adımı olduğunda işin rengi çoğu zaman değişir ve tam da bu kısımda en etkin aracı seçmek zorundasınızdır; çoğu zaman da bu araç şekillerdir. İşin felsefesinden de bahsettikten sonra biraz şekil çizelim :)




10 Mayıs 2013 Cuma

Ege Üniversitesi Biyomühendislik Günleri Sunumum

Geçtiğimiz Cuma günü gerçekleşen ve konuşmacı olarak davet edildiğim 10. Biyomühendislik Günleri'nden bahsetmek istiyorum bu yazımda. Etkinliğin teması "Girişimci Biyomühendisler"di ve yarım gününü de kendi şirketini kuran girişimcilere ayırdılar.

Konuşmacıların sırası alfabetik olarak belirlendiği için, öğleden sonraki oturumun ilk konuşmasını ben gerçekleştirmiş oldum ve AG Biyoinformatik'in nasıl kurulduğunu anlattım. Bilmeyenler için söyleyeyim, AG Biyoinformatik Türkiye'nin ilk biyoinformatik şirketi ve 2008 yılında TÜBİTAK desteğiyle kuruldu. Proje desteğine başvurduğumda Bilkent Üniversitesi Moleküler Biyoloji ve Genetik Bölümü'nden yeni mezun olmuştum ve yine aynı bölümde gerçekleştirdiğim yüksek lisansımın ilk senesi biterken de şirketi kurdum. AG'nin hikayesi belki başka bir yazıya konu olabilir, ben doğrudan sunumdan bahsetmek istiyorum.

7 Mayıs 2013 Salı

Biyoinformatiğe Nasıl Başladım 6

Önceki yazımda belirttiğim üzere, bu yazımda, biyoinformatiğe ilişkin bakış açımı ve anlayışımı derinden etkileyen 3. sınıf staj maceramdan söz edeceğim.

İçinde bulunduğumuz çağ büyük oranda İngilizce yazılıyor (gerçi Çin, ABD'nin yüzyıldan fazla süren liderliğini geri plana atmaya başladı birkaç yıldır) ve teknolojiye damgasını batı dünyası vuruyor. 2. sınıfta genç araştırmacı bursuyla katıldığım ve Sheffield Üniversitesi'nde gerçekleştirilen sistem biyolojisi temalı (Systems Biology: Will It Work?, 2005) konferansta bir haftalığına da olsa İngiltere'yi gözlemleme fırsatım olmuştu ve bahsettiğim durumu derinden hissetmiştim. Bu nedenle, 3. sınıfın yazında iyi bir yerde staj yapabilmek için biyoinformatik alanında en iyi 20 merkeze başvurdum ve ikisinden kabul aldım; Toronto Üniversitesi'nin teklifi aralarında en cazip olanıydı, duygusal olarak :)