28 Şubat 2013 Perşembe

Kavramların Türkçeleştirilmesi

Moleküler biyoloji ve genetik kavramlarının neredeyse hiç birinin meydana gelmesinde katkımız olmadığı için bu kavramlar dilimize girerken de ne yapacağımızı şaşırmış durumdayız. İzlenilen bazı pratik kurallar var; bunlardan ilki, o kavramın Fransızca okunuşunun doğrudan alınması (ekspresyon, sekans). Bu alışkanlık bize Jön Türkler'in hediyesi. Jön de, Fransızca genç sözcüğünün okunuşuyla devşirilen bir kelime. Buna alıştığımız için yadırgamıyoruz bu tür kelime dönüşümlerini ancak bu da bir yerden sonra yetersiz kalıyor. Örneğin, direction kelimesini ele alalım. İngilizce okunuşunu yaklaşık şöyle yazabiliriz: dayrekşın (yazınca komik geliyor değil mi). Aynı kelime, Fransızca'da da aynı şekilde yazılıyor, fakat farklı bir şekilde okunuyor: direksiyon. Belki son bir yüzyıldır İngilizce konuşan ekolün bilimi geliştirme konusunda Fransızca konuşan ekolden daha ileri gittiği düşünüldüğünde, klasik yaklaşımımız yetersiz kalmaya başlıyor. Burada da en güzel örnek Google. Guugıl olarak okuyoruz, ancak böyle yazmıyoruz (bu durum sadece özel isim olmasından kaynaklanmıyor, alışkanlıklarımız değişiyor). Selahattin'li son banka reklamında da bir kelime kullanıyor: konnekşın. Bunu konneksiyon olarak kullanan kişiler de var; bu bir kültür savaşı nihayetinde.

Bir diğer kavram ithalati yaklaşımı da, Türkçe'de en yakın anlamına çevirme. Bilgisayar kelimesinin ortaya çıktığı zamanları düşünün, ve bugün yazıcı olarak isimlendirdiğimiz ürünün de piyasaya girmeye başladığını. İngilizce printer olarak isimlendirilmiş olan bu cihazın Türkçe karşılığı başlarda bilgiyazar olarak isimlendirilmiş (Kaynak: Ufuk Tarhan), bunu biliyor muydunuz? Sonra yazıcı kabul görüyor ve bu şekilde kalıyor.

27 Şubat 2013 Çarşamba

Biyoinformatik ve Veri Analizi - 3


Hasta bir şikayetle doktora gittiğinde, doktorun ilk yaptığı şey hastanın şikayetlerini dinlemek ve onun doğrultusunda muayene etmektir. Bu muayene sırasında ilk etapta hastaya sorular sorarak elindeki araçlarla (steteskop vs. ) sorunu anlamaya çalışır. Bu ilk tanı hastalığın genel bir özeti niteliğindedir ve tam bir teşhis koymaz. Fakat resme genel bir bakış atar. Sorunun olduğu yeri tespit eder ve duruma göre o bölge üzerinde genel bir araştırmaya gider ( röntgen, MR gibi ).

Veri analizi de doktorun yaptığı muayeneye benzer. Veriye sorular sorar ve dinler. Verinin yapısını şeklini öğrenir. Yapısı ve şeklinden kasıt; dağılımı, basıklığı, çarpıklığı, genişliği, aykırı değerlerin varlığı gibi özet bilgiler olup, bu bilgiler verinin yapısının belirlenmesinde önemlidir.  Veride bir anormallik var mı onu tespit eder. Varsa tedavisi için gerekli yöntemlerin seçimine verinin yapısına göre karar verilir. Kısacası yanlış teşhis yanlış tedavi demektir. Doğru teşhis için gerekli bilgiyi veren  "keşfedici veri analizi" yöntemleri kullanılır.

Bir önceki yazımda verinin içindeki hatalardan bahsetmiştim. Keşfedici veri analizi, bu hataların bulunmasına yönelik analizleri içerir. Veride, uç değerlerin bulunması ve veri yapısındaki sapmaların olması, uzun kuyruklu olması ( verinin çok geniş olması ) ve veri gözlemlerinin asimetrik dağılıma sahip olması gibi nedenlerden dolayı hataya sebebiyet verir. Çünkü veri içindeki gerçekliğe ulaşmamıza engel olur. Hatalar bulunup giderilebildiği kadar giderilebilmelidir. Giderilemediği durumlarda ise farklı yöntemlere başvurulur. Keşfedici veri analizinde kullanılan teknikler; tanımlayıcı istatistikler, grafik yöntemleri, sağlam ( robust ) istatistikler, ilişki katsayıları gibi yöntemlerdir. Basit ve genel bir bakış vermesine rağmen doğru teşhis ve doğru tedavi için çok önemlidir.



Sözün Özü:

Keşfedici veri analizi verinin yapısını ve şeklini ortaya koyarak veri hakkında genel bir bilgi verir. İçeriyorsa hataları bulur ve giderilmesi için yol gösterici niteliğindedir. Özet bilgiler vererek verinin bütünü açısından genel bir yargıya varmamıza yardımcı olur.

Biyoinformatiğe Nasıl Başladım 4

Önceki yazıyı tamamlarken, gerekli disiplini nasıl aldığımdan bahsedeceğimi söylemiştim. İkinci sınıfın yazında gerçek problemlerin neye benzediğini görmek için Doç. Dr. Özlen Konu'nun laboratuvarında çalışabilmek adına bir girişimde bulundum ve mikrodizi verileriyle çalışmaya başladım. Yalnız aklınıza bugünkü tarzda mikrodizi verileri gelmesin; daha GEO ve ArrayExpress'in yaygınlaşmadığı zamanlar, sadece SMD (Stanford Microarray Database) vardı ve cDNA mikrodizi çipleri kullanılarak elde edilen veriler mevcuttu. Yaklaşık 10 yıl öncesinden bahsediyoruz ancak henüz verilerin nasıl normalize edileceğine ilişkin tam olarak belirlenmiş algoritmalar bile mevcut değildi veya yaygınlaşmamıştı.

Amacımız, farklı mikrodizi çalışmalarından elde edilen verileri biraraya getirmek ve ribozomal proteinleri meydana getiren genlerin ifade seviyelerini incelemekti. Verilerin indirilmesi biraz zaman alıyordu ancak ilk büyük problem, bu verilerin doğru ve istenilir bir biçimde biraraya getirilebilmesiydi. Bu da kendi içerisinde iki temel problemi barındırıyordu: 1) veriler etkin bir şekilde nasıl depolanabilir ki hızlı ve basit bir şekilde ulaşılabilsin, ve 2) veriler birleştirilirken en doğru nasıl yeniden şekillendirilebilir? Her birinde binlerce satır ve onlarca sütun olan verilerden bahsediyoruz, ve işin kötüsü her bir mikrodizi çipi tasarım olarak birbirinden çok farklı; ortak gen veya transkriptleri elle tespit edebilmek neredeyse imkansız. Tam bir programlama problemi ve yeni başlayan biri için de ideal zorlukta, ancak o zaman etkin bir şekilde kullanabildiğim tek dil JAVA idi ve JAVA'nın metin işleme problemleri için en iyi seçenek olmadığını rahatlıkla söyleyebilirim. Bir diğer problem de, geliştirilecek olan yazılımın herkes tarafından kullanılabilir olmasıydı, bu da beraberinde bir arayüz tasarımını gerektiriyordu. Farklı işletim sistemlerinde çalışabilir bir yazılım yerine, bir sunucuda çalışan fakat bir web arayüzü aracılığıyla ulaşılabilen bir sistem geliştirmenin daha faydalı olacağını hissetmiştim ve JAVA tabanlı bir web uygulaması geliştirme yazılımı olan JSP'ye yönelmiştim, ancak birşeyler ters gidiyordu.

26 Şubat 2013 Salı

Zeitgeist ve Biyoinformatik - 1

Zamanın ruhu. Enteresan bir kavram. Bu kavramın biyoinformatikle olan ilişkisini anlatabilmek için bu konuyu iki ayrı yazıda ele alacağım.

Geçen gün sıradışı bir belgesel izledim: "How Earth Made Us: Winds". Rüzgarların medeniyetleri nasıl şekillendirdiğini anlatıyordu. Birbirini bu kadar az çağrıştıran iki kavramın birbiriyle belki hiç bir şeyin olmadığı kadar içiçe olması çok şaşırtıcı geldi bana; ve bunu ancak bu yüzyılda keşfedebilmemiz de bir o kadar hayret verici. Belgeseli yarısında izlemeye başlamıştım ancak bahsedilen ilişki o kısa zaman diliminde beni çarpmaya yetti.

Diyordu ki; dünyayı şekillendiren birkaç büyük hava akımı döngüsü var, ve bunların bazıları yıllık, bazıları on yıllık, ve bazıları 50 yıllık döngüler. Bu döngülerdeki değişim yağmurun dünya üzerindeki dağılımını sürekli değiştiriyor fakat bazıları o kadar uzun sürelerde etkili ki, insan ömrü bunları tespit ve takip edebilmek için yeterli gelmiyor. Bu nedenle de bazı motiflerin [pattern] tespiti bu yüzyıla gelinceye kadar mümkün değildi.

24 Şubat 2013 Pazar

Primer Tasarımı ve Biyoinformatik


Primer tasarımı hakkında daha detaylı bilgi almak ve Primer-BLAST adlı web tabanlı primer tasarım aracını öğrenmek için bu yazının yanı sıra yeni hazırladığım Primer Tasarımı yazı dizisine de bir göz atabilirsiniz.

Primer tasarımı her ne kadar birçok kişi için korkutucu olsa da, aslında birkaç noktaya dikkat edildiğinde gayet kolayca başarılabilen kolay bir tasarım. Primer3Plus gibi ücretsiz ve çevrimiçi araçların varlığında ise neredeyse çocuk oyuncağı. Temel sıkıntı, iyi bir primer tasarımında olması gereken şeylerin tam olarak bilinmeden bu işe kalkışılması; yardım sayfalarını ve varolan örnek dersleri [tutorial] okumadan primer tasarımı yapmaya kalkınca sonuç bir facia olabiliyor. Türkçe kaynaklar sınırlı ancak yine de hızlı bir Google aramasıyla bulunabiliyor.

Bu haliyle primer tasarımı artık biyoinformatik açısından popülerliğini yitirdi diyebiliriz; artık bu işi yapan bir çok yazılım geliştirildi ve bahsettiğim gibi çevrimiçi ve ücretsiz olanlara da kolaylıkla ulaşılabiliyor. Primer tasarımını ilgi çekici bir biyoinformatik projesi haline getirebilecek ihtiyaçlardan biri, birçok farklı primeri aynı anda aynı PCR cihazında çalışabilir hale dönüştürmek; bunu yapan yazılımlar da mevcut ancak ücretli olarak sunuluyor.

Eğer çalıştığınız laboratuvarda sınırlı sayıda örnekle ve ara sıra PCR deneyi yapıyorsanız, belki tüm primerlerin aynı sıcaklıkta optimum olarak çalışıp çalışmaması sizin için pek de önem ifade etmiyor olabilir. Ancak rutin olarak PCR çalışılan, PCR cihazlarının yoğun bir şekilde kullanıldığı ve mümkün olduğunca yüksek verimli bir şekilde kullanılması gerektiği durumlarda tüm primerlerin neredeyse aynı sıcaklıkta çalışıyor olması büyük oranda zamandan kazandırabilir ve iş yükünü gayet azaltabilir. Peki bu nasıl yapılabilir?

Biyoinformatik ve Veri Analizi - 2


İstatistik dersi grip aşısından daha sevimli
 değildir ama en az onun kadar yararlıdır.
Paul Newbold

Bir önceki yazımda biyoinformatiğin bir çok bilimden yararlanan disiplinler arası bir alan olduğunu söylemiştim. Bunlardan biri de istatistiktir. Sayıların arkasındakini anlamak, resmin bütününü görmek, göstermek istediğimizde istatistik, bize gerekli alet edevatı sunar.

İstatistik kısa bir tanımla, belirli bir amaç için veri toplama, toplanan verileri düzenleme (kullanılabilir hale getirme), özet çıkarma, genelleme (model kurma, çıkarsama) yapma ve yorumlama yöntem ve teknikleri bilimidir. Verinin ve değişkenliğin olduğu yerde istatistik de vardır.

 Veri = Gerçeklik + rassallık (hatalar)

Veri, deney sonucu (ölçüm, gözlem vs.) elde ettiğimiz bilgidir. İçinde gerçeklik de vardır, gerek ölçümden kaynaklanan gerek değişkenliğe bağlı olan hatalar, bozulmalar da vardır. Amacımız olabildiğince veri içindeki ilişkileri, örüntüleri bularak gerçekliğe ulaşmaktır. Hatalar gerçekliğe ulaşmamıza engel olan tümsekler ve çukurlardır. Bu yüzden olabildiğince az çukurların, tümseklerin olması kaza yapma ihtimalini düşürür.

Veri analizi bir süreçtir ve araştırmacı ile istatiskçinin ortaklaşa çalışmasını gerektirir. Özellikle araştırmanın amacına yönelik doğru ve güvenilir veri toplanmasında çok önemlidir. Çünkü istatistik veri üzerinden öğrenerek bilgi çıkartır. Verinin yanlış olması araştırma sonucunu da etkiler. Aynı zamanda ihtiyaç duyulan doğru istatistiksel analizlerin belirlenebilmesi için de araştırmacı ile işbirliği gerektirir.


Sözün Özü:
Bir çok bilimde olduğu gibi biyoinformatik için de veri analizi çok önemlidir. Verinin içinde saklanan örüntüleri bulmak, bilgi çıkartmak için istatistiksel yöntemlerden çoğunlukla yararlanılır. Doğru sonuçların elde edilebilmesi için araştırmacının yeterli istatistik bilgisine sahip olması ya da uzman bir istatistikçiyle iş birliği yapması araştırmanın sağlığı açısından gereklidir. 

23 Şubat 2013 Cumartesi

Mikrodizi (Microarray) Nedir, Ne Değildir?

Bu kavramı birçok yerde "mikrodizin" olarak da görmüşsünüzdür, o ayrı bir yazı konusu. Bu yazıda, daha önce detaylı bir şekilde bahsedeceğimi söylediğim mikrodizi teknolojisine giriş yapacağım. Mikrodizi veri analizi yerine, bu teknolojinin nasıl bir şeye benzediğinden bahsedeceğim.

Bu teknoloji fazlasıyla popüler ülkemizde (dünyada artık Yeni Nesil Sekanslama konuşuluyor), bir süre daha devam edeceğe de benziyor. Temel birkaç sebepten birisi bu teknolojiyi uygulamayı bilen insan sayısı göreceli olarak hayli fazla, her yerde (evet, neredeyse her yerde) mikrodizi cihazı var, ve bu teknolojiyi kullanarak yayın çıkarmak göreceli olarak kolay. Bu durum da beraberinde gereğinden yüksek beklentileri ve uygunsuz teknoloji kullanımlarını getiriyor.

Önce neden böyle bir teknolojiye ihtiyaç duyulduğundan başlayalım.

21 Şubat 2013 Perşembe

Biyoinformatiğe Nasıl Başladım 3

Benim için sıkıntılarla geçen bir dönemin ardından nihayet yazılarıma devam ediyorum. Bu arada, Deniz'in yazısına mutlaka bir göz atmanızı öneriyorum; farklı bakış açılarıyla oluşturacağı yazılarını da merakla bekliyorum.

Toplumsal karakterimize işlemiş birkaç olumsuz özellikten biri de, bilgi ve birikime önem ver(e)mememiz. Hele yaptığınız şey uzmanlık gerektiriyorsa, birçok sıkıntıdan muzdarip oluyorsunuz. Bunlardan ilki, belki haftalarca uğraşıp didinerek elde ettiğiniz deneyimleri paylaştığınız kişilerin sanki kendileri aynı çabayı vermiş gibi, sizi herhangi bir şekilde referans vermeden sizden aldıkları bilgiyi rahatça paylaşabilmeleri. Maalesef bu tür çekinceler nedeniyle de bu blog başlaması gerekenden çok daha sonra hayata geçti. Oysa bilgiyi üreten toplumlara baktığımızda, paylaşılan bilgilerin çok hızlı bir şekilde yayılabildiğini ve kullanılabilir hale geldiğini görüyoruz; temel motivasyonun referans verebilme alışkanlığıyla ilgili olduğunu düşünüyorum. 

Bir diğer olumsuz özellik ise, bilgiyi üretme kabiliyetimizi kaybedeli çok uzun zaman oluşu ve bu nedenle de herhangi bir şeye ihtiyacımız olduğunda -tabir yerindeyse- parası neyse veriyor oluşumuz. Örneğin, internet tabanlı teknolojileri dünyada en çok kullanan milletlerden birisiyiz ancak kullandığımız cihazların plastiği de dahil olmak üzere neredeyse hiç bir parçasını biz üretmiyoruz. Hadi diyelim ki donanım üretim trenini kaçırdık; yazılımlarını da biz üretmiyoruz. Böyle olunca, sizin ortaya koyduğunuz şey ne denli değerli olursa olsun, "bizden" olduğu için kendine bir yer bulamıyor ve benimsenmiyor. Öyle olunca da ortaya komik durumlar çıkıyor; son teknoloji ürünü projelerin geliştirilmesini desteklemek üzere büyük hibeler veriyoruz ancak ne bunların çıktıları yerli pazarda kendine yer bulabiliyor (istisnalar müstesna), ne de yabancı teknoloji bağımlılığından kurtulabiliyor. Söylenecek çok şey var ancak odağımı kaybetmek istemiyorum.

Biyoinformatik ve Veri Analizi

Bu yazı değerli çalışma arkadaşım Deniz'in bakış açısıyla ortaya çıktı, katkısından ötürü çok teşekkür ediyorum.


Ahmet Bey'e blogunda ki bu değerli alanı ayırdığı için teşekkürlerimi sunarak başlamak istiyorum. 

Biyoinformatik, dünyada önemli bir araştırma konusu olan ve ülkemizde de yeni yeni tanınmaya, adından söz ettirmeye başlayan ve  kendine yer edinen disiplinler arası bir alandır. Ayrıca temelini moleküler biyoloji oluşturup, bilgisayar ve istatistik alanlarından yararlanarak problemlerine cevap arayan bir disiplindir.

Özellikle insan genom projesinin tamamlanması ve teknolojinin ilerlemesi genetik çalışmaları hızlandırmış, genlerin ve proteinlerin arka sokaklarında gizlenenlerin keşfine zemin hazırlamıştır. Bu keşifler sırasında oldukça büyük boyutlu veriler elde edilmektedir. Elde edilen bu verilerin saklanması için veritabanı  oluşturulması ve bu büyüklükteki verilerinin analizi için yeni tekniklerin geliştirilmesine önem verilmiştir.

Gen çiplerinin gelişmesiyle beraber yüzlerce genin aynı anda incelenmesi kolaylaşmıştır. Bu çipler genlere ve proteinlere ait işlevlerin arasındaki ilişkinin bulunmasında önemli rol oynamaktadır. Bu da bahsettiğimiz büyük boyutlu verilerin analizini gerektirmektedir. 

Verilerin analizi için var olan istatistiksel analiz yöntemlerinin yanında veri madenciliği(data mining) ve makine öğrenmesi (machine learning) teknikleri kullanılmaktadır. Biyoinformatikçiler için buradaki temel sorun da  doğru bir analiz için hangi yöntemlerin hangi durumlarda kullanılacağıdır. Her bir yöntemin oluşumunun kendine ait koşulları ve varsayımları vardır. Bu varsayımlar sağlanmadığında yöntemin geçerliliğinin yitirilmesi söz konusu olacağı için elde edilecek sonuçlar da yanlış olacaktır. Örneğin;  Yapılan bir veri analizinde kullandığınız yöntemin doğru seçilmemesi durumunda BRCA1 geninin göğüs kanseriyle bir ilişkisinin olmadığı sonucuna varabilirsiniz. Oysa ki çalışmalar bu genin ifade düzeyinin artması ile göğüs kanseri görülme olasılığının arttığını göstermektedir.


Sözün Özü:

Biyoinformatik bir çok tekniklerden yararlanan disiplinlerarası bir alandır. Bu sebeple problemlerin çözümünde bilimlerin koordineli ve eşzamanlı çalışmasını gerektirir.


Deniz Ağırdan