7 Ekim 2016 Cuma

Yeni Nesil Sekanslama Nedir? - 3 (Veri Analizinde İzlenen Adımlar)

Deney tasarımınızı yaptınız, örneklerinizden kütüphane hazırladınız ve cihaza yüklediniz. Şimdi sırada veriyi elde etme ve analiz var. Hazır kitlerle de çalışsanız, kendi protokolünüzü de geliştirseniz ortaya çıkan ham verinin [raw data] işlenerek analize hazır hale gelmesinde mutlaka izlenmesi gereken bazı adımlar var.


Öncesinde biraz ham veriden bahsedelim. En basit sekans biçimi FASTA'dır: ">" işareti ile başlayan satırda ilgili sekansa ilişkin bilgiler ve açıklamalar bulunur, bir sonraki satırdan itibaren ise sekans bilgisi yer alır. Eğer aynı dosya içerisinde birden fazla sekans tutuluyorsa o zaman sekanslar arasında en az bir satır boşluk bırakılır. Örneğin:

>ABC
TGTCTTTCCATCATGAAATGCACATTTTATTTGTACTGTATTTGGGTGACCACAAGTCAACAACAAGATA
ATTCACAAGACCCTTGCCTTAGATGTGTCGGCAATAAAGTAATCAGGCCAAAATTTTTACTTTCCTTTGA

>XYZ
GCTTCAAAGACTGCTTGGCTTCCTTTCGGTGGATTAGTCAAGATGTTTTGCTGACTGAGACTAGGAAATC

Ancak Yeni Nesil Sekanslama (YNS) ile elde edilen verilerde bu bilgilere ek olarak bir de her bir bazın okunmasındaki doğruluğun miktarını belirten bir satır daha bulunur, detayını merak edenler şu linkten detaylara ulaşabilir: https://en.wikipedia.org/wiki/FASTQ_format. Bu formata FASTQ adı verilir ve bir YNS cihazı sonuçlarını FASTQ formatında verir.

Birçok teknik nedenden ötürü okumanın bir kısmı veya tamamı düşük okuma kalitesine sahip olabilir: bu da ilgili sekansın doğru olarak okunamadığını gösterir. Bu nedenle ilk işlem, kalite değeri kabul edilebilir bir değerin üzerinde olan sekansları alıp, kalanların atılmasıdır. Bu değer genel olarak Q30 olarak kabul edilir, yani hata oranı her bin bazda en fazla bir hatalı baz.

Bir sonraki aşama, okumaların hedef genoma hizalanmasıdır [alignment]. YNS okumaları kullanılan deneysel protokole göre 75 baza kadar düşebilmektedir, bu nedenle her bir parçanın hedef genomda nereye denk geldiğinin teker teker tespit edilmesi gerekmektedir. Aksi takdirde elimizdeki veri -neredeyse- değersizdir. Bunun istisnası ise bilinmeyen bir genomun sekanslanmasıdır, bu durumda da her bir parça sanki yapboz yapar gibi bir araya getirilir ve tüm genom elde edilmeye çalışılır [de novo genome assembly]. 

YNS'den elde edilen okumaların bilinen genoma hizalanması için yaygın olarak kullanılan algoritmalar arasında Tophat ve BWA'dan bahsedebiliriz. Gen ifadesi çalışmalarında Tophat'in özellikle alternatif kırpılmayı dikkate almasından ötürü diğerlerine göre üstün olduğunu söyleyebiliriz.


Her bir okumanın genomda nereye denk geldiğini belirledikten sonra yapmamız gereken şey, bunları saymak. Gen ifadesi odaklı çalışmalarda [RNA-Seq] gen bölgelerinden elde edilen değerler bize doğrudan genin ifade miktarını verecektir, amacın -mesela mutasyonları belirlemek amacıyla- DNA'nın sekanslanması [DNA-Seq] olduğu durumlarda ise ilgili bölgenin kaç defa okunduğunu bilmek, o bölgeyi ne kadar doğru okuduğumuzu bize ifade eder. Bu tür çalışmalarda klinik tanı vermek için kabul edilen alt sınır her bir bazın en az 30 kez okunmasıdır (30x), hatta bazı protokollerde alt sınır 100x olarak kabul edilir. Ancak amacınız genom veya hedef bölge hakkında sadece bilgi sahibi olmaksa, bu durumda 10x bile yeterli olacaktır. Burada da bir noktaya dikkat etmek gerekiyor: bahsedilen okuma miktarı -örneğin 30x- her bir bazın ortalama 30 kez okunduğu mudur, yoksa herhangi bir bazın mutlaka en az 30 kez okunması mıdır? Mesela, bir çalışmada genomun okuma ortalaması 1000x olarak verilmiştir ancak mesela CFTR geninin bir bölgesinde her bir bazın okuma miktarı 3x'e kadar inmiştir: bu durumda bu bölgenin okuma kalitesi kabul edilebilir değildir ve en azından ilgili bölge tekrarlanmalıdır. Bu detaya dikkat etmek çalışmanızın daha sağlıklı olmasını sağlayabilir.

Bu aşamada Cufflinks ile her bir bölgedeki okuma sayısını hesaplayabilirsiniz ve bu değerleri bir RNA-Seq çalışmasında kullanabilirsiniz. Eğer amacınız anlatımı anlamlı olarak değişen genleri tespit etmekse, literatürde önerilen analiz aracı DeSEQ2. Bu araç size gen ifade farklılıklarını ve bu farklılıkların p değerlerini veriyor.

Mutasyon tespiti için DNA-Seq yaptıysanız, o zaman amacınız referans genoma göre sizin örneğinizdeki farklılıkların listelenmesidir. Samtools adlı analiz yazılımını kullanarak referansa göre değişimleri [variant] bularak bunları listeleyebilirsiniz [variant calling]. Ortaya çıkan dosya formatına VCF [variant call format] adı verilir. Samtools'un sağladığı araçlarla bu dosyayı çeşitli şekillerde filtreleyebilir ve SnpEff ile dbSNP anotasyonlarını ekleyebilirsiniz.

Buraya kadarki analizler YNS'ye özgü temel analiz basamaklarını oluşturuyor ve çoğu zaman ihtiyacınızın neredeyse tamamını karşılıyor. Bundan sonrasında ise ihtiyacınıza göre daha karmaşık biyoinformatik analizleri yapabilirsiniz. 

Burada bahsettiğim araçların nasıl kullanılacağından da bahsetmek isterdim ancak bunun için uygun programların kurulu olduğu tercihen UNIX işletim sistemine sahip bir bilgisayara, örnek veri dosyalarına ve karşınıza çıkacak teknik problemleri çözebilecek sabra ihtiyacınız var. Belki bunun için bir eğitim veya Webinar yapmak faydalı olabilir, ortaya çıkabilecek talebe göre ilgilenenlerle bu analiz sürecinin nasıl gerçekleştirildiğini paylaşabiliriz.



Sözün Özü:
Temel veri işleme ve analizde izlenen basamaklar verileri kalitesine göre filtreleme, okumaları hizalama, okumaların denk geldiği bölgeleri sayma, bununla bir okuma derinliği veya gen ifadesi verisi elde etme, ve analizin amacına göre farklılıkları raporlama olarak özetlenebilir.




Proje:
NCBI GEO veritabanından bir ham NGS verisi bularak bwa ile bu veriyi ilgili genoma hizalayın.

Meraklısına:
Birçok hizalama [alignment] aracı olmasına ve bazılarının göreceli olarak çok da hızlı olmasına rağmen aralarında birçok açıdan en optimize olanı bwa'dır.