8 Nisan 2013 Pazartesi

Normalizasyon Neden Bu Kadar Önemli?

Uzun ve yorucu bir gün. Dünyamız -duyu organlarımızın çalışma tarzından ötürü- sürekli kıyaslamalarla geçiyor. Uzun, ve yorucu, sayısal olarak ifade etmesi zor ancak diğer günlere göre bir farklılığı ifade ediyor. Bunu bir yazılım vasıtasıyla ölçmeye kalksaydık ilk yapacağı iş sayısal hesaplamalara girişmekti; ama biz nasıl oluyorsa sayısal hesaplara girmeden bu tür kıyaslamaları yapabiliyoruz. Bu farklılığın nedenini açıkça ortaya koymadan insan gibi düşünen bilgisayarlar yapamayız diye düşünüyorum.

İlk cümleyi sırf örnek vermek için kurmadım, hakikaten çok yorucu geçti bugün :) Biyoinformatikle bunun ne alakası var diyorsanız, işte alaka şu: eğer kullandığınız teknoloji size mutlak [absolute] değerler değil de, göreceli [relative] değerler veriyorsa,  o zaman kıyaslamanın tuzağına düştünüz demektir. Farklı değerleri adaletli bir şekilde kıyaslayabilmek için hepsini de ortak bir paydada eşitlemelisiniz. Örneğin, iki farklı saksıda  aynı bitkinin iki farklı türü olsun (gözümün önüne domates bitkisi geldi, acıktım galiba) ve bunların hangisinin daha çabuk büyüdüğünü ölçmeye çalışın. Ancak bu saksılardan birini siz kendi evinizde sulayın, diğerini ise bir arkadaşınız kendi evinde. Bir ay sonra yanyana getirin bitkileri, biri diğerinden daha hızlı büyümüştür büyük ihtimalle. Ama bu büyümeye etki eden faktör, bitkinin türü müydü sadece? İkisi de aynı miktarda mı ışık aldı? Peki ya su, aynı miktarda mı sulandılar? Eğer bu etkenleri göz önünde bulundurmazsanız bitkilerden hangisinin daha çabuk uzadığını öğrenemezsiniz.

Peki bu kıyaslamalı teknolojiler neler? Moleküler biyoloji ve genetikte kullanılan neredeyse her teknoloji göreceli değerler sunar. Bu göreceli değerler bazen örnekler arasında iken, bazen de örnek içerisindedir. Örneğin, mikrodizi deneyi yaparsınız ama bir mikrodizi çipine yüklediğiniz toplam cRNA miktarı bir diğerine yüklediğinizden %10 farklı olabilir pipetleme hatasından ötürü. Veya hazırlık aşamasında bir reaksiyon diğer tüptekine göre daha iyi çalışmıştır ve farkında olmadan daha çok genetik materyal çoğaltmışsınızdır. 

Domates örneğimizden devam edelim; diyelim ki arkadaşınız her gün sizin sulamak için kullandığınız su miktarının iki katını kullanmış olsun. O zaman -eğer arada doğru orantılı bir ilişki olduğunu düşünüyorsanız- siz de iki katı su kullanmış olsaydınız bitkinizin boyu kıyasladığınız andakinin iki katı olurdu. Ya arada doğru orantılı bir ilişki yoksa? O zaman bu bağlantıyı keşfetmeniz lazım; veya bununla ilgili bazı varsayımlarınızın olması. Bir diğer seçenek, kıyaslamak için her iki bitkinin de aldığı güneş ışığı verisini kullanmak; ama ya burada da doğru orantılı bir ilişki yoksa? Bir diğer seçenek de, hem su hem de güneş ışığı miktarını birarada düşünüp yeni bir ilişki tanımlamak, ama acaba oranlar ne olmalı? İşte tam da normalizasyonun kör kuyusundayız; ama bu yaklaşımlarda bulunamazsak da kıyaslamayı doğru bir şekilde yapamayız. Bu durumu gerçek bir biyolojik veriyle göstereyim:
































Yüksek lisans tezimden aldığım bu şekilde ham veriyi [raw data] ve bu veriye uygulanan 3 farklı normalizasyon yönteminin (RMA, gcRMA ve MAS5) ham veriyi nasıl değiştirdiğini görebilirsiniz. Kutu grafiği, her bir örnekteki verilerin dağılımı göstermek için kullanılır ve veriler sıralandığında birinci, ikinci ve üçüncü çeyrekte yer alan değerler işaretlenerek kutu  (veya dikdörtgen) içerisinde gösterilir. Kutunun ortasındaki veri medyan değeridir ve verinin genel karakterini özetleyebilmek için kullanılan ölçümlerden biridir. Gördüğünüz üzere, RMA ve gcRMA medyan değerlerini MAS5 değerine göre daha başarılı bir şekilde hizalamış (yani su, güneş vb etkileri bir nevi aynı standarda indirgemiş) ancak veriyi belirgin bir şekilde değiştirmiş. Yapılan biyolojik doğrulamalar, her ne kadar verinin yapısını gözle görülür bir şekilde değiştirip düzenlese de RMA yönteminin diğerlerine göre çok daha başarılı olduğunu gösteriyor. Yalnız yine de şunu göz önünde bulundurmakta fayda var; RMA'dan daha iyi bir yöntem olabilir ancak henüz keşfetmemiş olabiliriz. Başka bir örnek daha vereyim, bu da yüksek lisans tez sunumumdan:

Deney sonucu elde ettiğimiz şekil (veya veriler) şuna benziyor:



Bir normalizasyon yöntemini uyguladığımızda aşağıdaki gibi bir resim elde ediyoruz:



















Diğer yöntemi uyguladığımızda ise şu resmi görüyoruz:






















Sözün özü:
Elimizdeki biyolojik veriler de üstteki karmaşık resim gibidir; içeriğini anlayabilmek için normalizasyon yöntemi uygulamalıyız. Hangi yöntemin daha iyi olduğundaki ölçü ise hangisinde ızgara ve sucukların daha net göründüğüdür :)



Proje:
Siyah beyaz bir fotoğrafa bilgisayarda çeşitli renk filtreleri uygulayın (kırmızı, koyu kahverengi [sepia] veya sarı) ve hangisinin daha gerçekçi olduğunu inceleyin. Elinizdeki veriye en uygunu hangisi? Bunun sebebi ne olabilir?

Meraklısına:
Aslında RMA da her durumda en iyi yöntem değil, bazı istatistiksel analizlerde MAS5 ile normalize edilmiş veriler daha güvenilir sonuç veriyor. Bununla ilgili yapılmış bir çok bilimsel araştırmayı Pubmed'de bulabilirsiniz.