12 Ocak 2013 Cumartesi

Veritabanlarında Diğer İsim [Alias] Problemi

Herhangi bir konuda uzmanlaşmak için, o konunun tarihsel süreçlerini biraz olsun bilmek gerekiyor. Bunun temel sebebi, verinin, malumatın ve bilginin birikerek çoğalması ve ortaya çıkması. Malumat kelimesini bile bile seçtim, sebebini anlatayım.

Birkaç yüzyıldır bilginin peşinden koşmayı kitlesel olarak bırakmamızdan olsa gerek, bu geri kalmışlık kelime dünyamıza da bulaşmış. Bilgi diyerek genelleştirdiğimiz kavramı İngilizce'de 4 farklı kelimeyle sınıflandırmışlar; bizde de karşılıkları var ancak biz neredeyse her şey için bilgi kelimesini kullanmayı tercih ediyoruz. Gerçekte bu kavramların Türkçe'leri şu şekilde (TDK'nın da bu konuda kafası biraz karışık, bu nedenle orayı referans almadım):
- Veri (data)- Malumat (information)- Bilgi (knowledge)- İrfan/bilgelik (wisdom)
Bunlardan ilk üçü arasındaki fark ve bağlantıyı çok güzel bir şekilde ifade eden bir kitaptan alıntı yapmışlar bir blogda, şu şekilde anlatılıyor:
Veri (data), birbiri ile ilişkilendirilmemiş ham kayıtlardır. Enformasyon (malûmat, information), işlenmiş veya anlam kazanmış verilerdir. Bilgi (knowledge) ise, değer kazanmış enformasyondur ve enformasyonun amaca yönelik olarak bir araya getirilmesidir.(Paul Myers, Knowledge Management and Org. Design, s.3)

Bu konuya ileride de bolca referans vereceğim ve bu farkın iyice anlanmasının önemli olduğunu düşünüyorum. Merak ediyorsunuzdur bunun diğer isim [alias] problemiyle ne alakası var; bu problemi anlayabilmek için gen veya protein isimlendirilmesinin nasıl yapıldığı hakkında fikir sahibi olmamız ve malumat seviyesinden bilgi seviyesine geçmemiz  gerekiyor. Konuya doğrudan girdiğimizde veri veya malumat safhasını bir türlü geçemezken, işin tarihsel arkaplanına hakim olunca aradaki bağlantıları kurabiliyoruz ve sağlıklı bilgi seviyesine ulaşabiliyoruz. 



İnsan Genom Projesi'nden önce genlerin nasıl tespit edildiğini hiç merak ettiniz mi? Veya ETS (expressed sequence tag [ifade edilen dizilim etiketleri]) kavramının nereden çıktığını? Şöyle özetleyeyim; İnsan Genom Projesi'ne kadar keşfedilen birçok genin DNA diziliminin aslında çok küçük bir kısmını bulabiliyorduk; bu da deneysel yaklaşımların yetersiz kalmasından kaynaklanıyordu. Bir genin/mRNA'nın genelde 5' ucuna yakın olan bölgesinden (mRNA parçalanmaya 'genelde' 3' ucundan başlar ve kaliteli bir mRNA elde etmeniz ancak 5' bölgesinde mümkün olur-du). Bu nedenle, her bir geni temsilen kısa DNA dizilimleri belirlenmişti ve yapılan çalışmalar bu varsayımlar üzerinden ilerliyordu. Ancak şöyle temel bir sıkıntı var; artık biliyoruz ki birçok gen ortak DNA dizilimlerini içeriyor, özellikle fonksiyonel bir özelliği kodlayan DNA dizilimlerini. Yani insanlar farkında olmadan iki tür hata yapıyordu: 1) ya birbirinin aynı iki geni iki farklı gen zannediyorlardı (genin farklı bölgelerini ETS olarak referans aldıkları için), 2) ya da iki farklı geni aynı gen zannediyorlardı (ETS'nin elde edildiği bölgenin aynı olması nedeniyle). 

Her bir veritabanının da gen isimlendirmesini ve kimliklendirmesini [id, identity] kendi sistemine göre yapması ve kendince adlandırması sonucunda bir genin gerçekte hangi transkripti temsil ettiği problemi literatürde büyük bir sorun teşkil ediyor; özellikle İnsan Genom Projesi'nin tamamlanmasında önceki tarihlerde çıkan makalelerde. Gördüğünüz üzere ortada çok kritik bir sorun var. Vardı diyemiyorum; çünkü bu yaklaşım günümüzdeki genom anlayışımızı da şekillendiriyor. Diğer isim [alias] problemini anlamak bu açıdan çok önemli. Bunun günümüzdeki yansımalarından bahsedelim biraz.

Artık alternatif kırpılma [alternative splicing] kavramının daha çok farkındayız ve geni ifade ederken DNA dizilimini kastediyorken, muhtemel mRNA'ları ise farklı transkriptler olarak isimlendiriyoruz (ökaryotlarda genler ekzon adı verilen DNA dizilimi parçalarından oluşur ve her bir ekzonun arasında değişken miktarlarda uzaklık bulunur. Örneğin MDM2 geni 13 ekzondan oluşmaktadır ve bazı MDM2 transkriptlerinde bu ekzonların bir veya birkaçı bulunmamaktadır. Bu da yaklaşık 20 bin genin 100 binin üzerinde farklı proteini kodlamasını sağlamaktadır). Bu nedenle yakın zamanlı literatürde gen/transkript isimlendirilmesi problemi büyük ölçüde çözüldü. Ancak her bir genin kısa DNA parçalarıyla tanımlanabileceği varsayımı günümüzdeki iki teknolojiyi derinden etkiliyor: Mikrodizi [microarray] ve Yeni Nesil Sekanslama [next generation sequencing] teknolojileri.

Mikrodizi teknolojisi, bir transkriptin 25-50 bazlık birçok bölgesinin miktarının tespit edilmesiyle o genin o dokuda ne kadar ifade edildiğinin anlaşılabileceğini varsayar. Ancak çoğu zaman seçilen bu bölgeler birden fazla gende de bulunur ve bu nedenle verinin kullanılabilir hale gelmesi için birçok analiz ve varsayım gerektirir. Bu nedenle bu teknoloji her ne kadar yoğun bir şekilde kullanılıyor olsa da sonuçları qRT-PCR ile doğrulamaya kalktığınızda birçok sürprizle karşılaşabilirsiniz. Aynı problem Yeni Nesil Sekanslama teknolojisinde kısa okumalar [read] sonucunda da oluşur; eğer amacınız gen ifadesini tespit etmekse, elinizdeki okumalar [read] aslında birden çok gene ait olabilir. Her ne kadar farklı teknolojiler farklı uzunlukta okumalara [read] izin verse de, yüksek kaliteli maliyet etkin DNA dizilimleri elde etmek için henüz kısa okumalarla [read] idare ediyoruz. Bu teknoloji ayrı bir yazı konusu.

Toparlayacak olursak, yüksek çıktılı [high-throughput] teknolojiler geçmişteki algı hatalarından temizlenebilmiş değil ve kendini farklı şekillerde ortaya çıkarıyor. Biyoinformatiğin günümüzde bu kadar hayati olmasının temel sebebi de bu; elinizdeki veriyi her zaman işlemlerden geçirmek, temizlemek, düzeltmek ve kıyaslanabilir hale getirmek için büyük bir çaba harcıyorsunuz. 


Sözün özü:
Genetik bilimindeki algılarımızı etkileyen tarihsel hatalar günümüzde de etkisini gösteriyor. Temel problem, genlerin/transkriptlerin kısa DNA dizilimleriyle tespit edilebileceği ve kimliklendirilebileceği. Geçmişte diğer ad [alias] problemi ile karşımıza çıkan bu hatalı yaklaşım, günümüzdeki yüksek çıktılı [high-throughput] teknolojilerin analizlerini olumsuz olarak etkiliyor. Bu nedenle biyoinformatiğe çoğu zaman bir şey keşfetmektense düzeltmek için başvuruluyor.



Proje:
Diyelim ki MAT1 geni üzerine kısa bir rapor hazırlamanız gerekiyor; GeneCards'ta MAT1 genini arayın, acaba hangi gen kastedilmiş olabilir? 
(Programlama bilgisi gerektiriyor) Ortak isimlendirmesi olan genleri nasıl tespit edebiliriz (ipucu: NCBI FTP'sinden elde edilebilecek transkript dosyaları bir genin tüm diğer isimlerini [alias] de içeriyor)?

Meraklısına:
İnsan Genom Projesi öncesindeki teknolojiler ve yaklaşımlar hakkında bilgi almak için Gen Savaşları (J. Shreeve) adlı kitabı okuyabilirsiniz. Biyoinformatiğin nasıl doğduğu ve geliştiğine ilişkin de birçok ayrıntı içeriyor.