12 Ocak 2013 Cumartesi

Veritabanı Veritabanları

Biyoinformatiğe yeni başlayanlar veya kendini geliştirmek isteyenler genelde genom veya proteom veritabanlarıyla başlarlar; biz de eğitimlerimizde bu yolu izliyoruz ve bu kaynakları bir araya getiren veritabanları veritabanlarından sonlarda bahsediyoruz. Ancak bir süredir bunun çok da etkin olmadığını farketmeye başladım. Temel sıkıntı, bu yaklaşımla birçok veritabanına aynı anda bakmak pek de pratik olmadığı için her bir veritabanının güçlü ve zayıf yönlerini anlamak mümkün olmuyor. Yani bu şuna benziyor; bir çamaşır makinası almak istiyorsunuz ancak her bir markayı ayrı ayrı gezdiğinizde kafanız karışıyor ve hızlı bir kıyaslama imkanı bulamıyorsunuz; bir teknoloji mağazasında aynı markaları bir arada gördüğünüzde ise karar verme süreciniz kolaylaşıyor.
Kitap dizin kartları, ilk kez Erciyes
Üniversitesi Kütüphanesi'nde
görmüştüm, ilkokula yeni başlamıştım.

GeneCards'la başlayalım. Kısaca şunu yapıyor GeneCards; her bir gen için birçok veritabanındaki veriyi otomatik olarak toplayıp aynı sayfada sınıflandırarak gösteriyor. Bunu hatırlar mısınız bilmiyorum ama, eskiden (daha bilgisayarlar piyasada yokken) kütüphanelerde dizin kartlarından oluşan bir sistem vardı. Bir kitap hakkındaki tanımlayıcı her bilgi ve bazen de kısa bir özet bir kart üzerinde sunulurdu ve bu kartlar alfabetik olarak dizilip dar uzun çekmecelerde muhafaza edilirdi [geçmişten bahsettiğim için kelime seçimlerim bile değişti, korunmak yerine muhafaza'ya geçtim :) ].


Kolay kolay karşılaşamayacağınız veya bir başkasının yönlendirmesi olmadan keşfedemeyeceğiniz birçok kıymetli veritabanı GeneCards'da yer alıyor. Örneğin MDM2 üzerinden gidelim [Lisans'ta ilk ciddi raporumu bu gen için hazırlamıştım, neden seçtiğimi bilmiyorum, ismi hoşuma gitmişti sanırım]. GeneCards'ta bu geni aradığınızda bu genin kelime olarak bir şekilde ilişkilendirilebileceği birçok seçenek karşınıza çıkıyor, ardından genin kendisine tıklayıp devam edebiliyorsunuz. En önemli kısım, "Jump to Section" menüsünde yer alan ve web sayfasında da kutularla ayrılan başlıklar. Her bir başlığın altında, akademik olarak güvenilir ve referans kabul edilen veritabanlarının isimleri ve buralardan elde edilen verileri buluyorsunuz. Bir gen veya protein hakkında araştırma veya ödev yapıyorsanız, bu konuda bulabileceğiniz ve mutlaka başvurmanız gereken neredeyse tüm kaynaklar burada, tek bir sayfada. GeneCards'ı bir kez keşfedince vaz geçemeyeceksiniz :)

GeneCards hakkında ufak bir konudan daha bahsetmek istiyorum. Güneş tutulmasının ülkemizden çok iyi gözlenebildiği bir sene (galiba 2006'da) Antalya'da ICGEB etkinliğinde bu servisi kuran ve yürüten kişi ile tanışmıştım. 5 tam zamanlı, bir o kadar da yarı zamanlı çalışandan oluşan bir ekipten bahsetmişti; büyük kısmı öğrenciydi diye hatırlıyorum. O zaman içimden geçirmiştim, böyle bir şeyi neden biz yapamayalım diye. Ancak bizdeki kritik kütle o zaman daha oluşmamıştı, bir türlü de oluşamadı nedense.

Bir diğer kritik veritabanları veritabanı ise Pathguide. Toronto'dan Gary Bader'in [BIND veritabanını hayata geçiren zât-ı muhterem] meydana getirdiği bu kaynak o kadar değerli ki, nasıl ifade etmek lazım bilemedim. Buradaki temel fayda şu: piyasadaki birçok yolak [pathway] veritabanı veya bu bilgiyle ilişkili veritabanları teker teker taranmış ve bazı özellikleri özetlenmiş. Yani yaptığınız araştırma yolak bilgisini veya sistem yaklaşımını içeriyorsa, kesinlikle başvurmanız gereken bir kaynak; hayatınızı çok kolaylaştıracak. Lisans yaz stajımda  yer aldığım laboratuvar Bader ve ekibiyle ortak işler yapıyordu ve ben de tanışma ve birlikte çalışma şansına sahip olmuştum. Türkiye'den ve Bilkent'ten geldiğimi öğrenmiş ve öğrenir öğrenmez benim yanıma gelmişti, ve hemen PATIKA'yı sormuştu. PATIKA bizde çok bilinmez ancak yurtdışındaki etkisi hakikaten çok büyük. 

Son olarak bir eksiklikten bahsetmek istiyorum. Kaynaklarımızın neredeyse tamamı metin tabanlı, ancak biz insanlar metin yerine şekilleri algılamakta daha uzmanlaşmış durumdayız. Bu nedenle, verilerin -nasıl olacağını tam olarak kestiremiyorum ama- şekillerle temsil edilebileceği bir yaklaşıma ihtiyacımız var; büyük ihtimalle bunu keşfedebildiğimiz zaman bazı şeyler çok daha hızlanacak. Cytoscape bu bağlamda sahip olduğu eklentiler [plug-ins] ve Google Chart entegrasyonu ile büyük bir potansiyele sahip. Yapılacak ve yapılabilecek çok şey var.


Sözün özü:
Veritabanı veritabanları özellikle referans veritabanlarını biraraya getirmesi ve sınıflandırarak sunması açısında eşsiz kaynaklar. GeneCards ve Pathguide'ı keşfettiğinizde büyük resmi daha iyi göreceksiniz. Mutlaka kurcalayın.



Proje:
GeneCards ve Pathguide'da MDM2 ve ATM genlerini araştırın; bu iki genin ortak noktalarını (ipucu: mesela bir gen/protein) bu kaynakları kullanarak çok hızlı bir şekilde farkedeceksiniz.

Meraklısına:
baderlab.org adresinde Gary Bader'in grubuna ve biyoinformatik çalışmalarına ilişkin birçok bilgiye ulaşabilirsiniz. Özellikle ana sayfada yer alan video ilginizi fazlasıyla çekecektir.