Uçsuz gen okyanusunda hedefimize doğru yol almak istediğimizde bize yardım eden rüzgarın adı; biyoenformatik. Gelin bu okyanusu birlikte keşfe çıkalım.
Her insanın yaşamını devam ettirmesini sağlayan bilgilerin tümü, milyonlarca hücresinin her birinde, yaklaşık üç milyon baz çifti uzunluğundaki deoksiribonükleik asitte (DNA) depo ediliyor. DNA'daki veriler kullanılarak vücudumuzda binlerce genden on binlerce gen ürünü, protein, RNA sentezleniyor. Bu moleküllerin bazıları hücrenin kendi döngüsünde varken bazıları ise bir hastalıkla ilişkili olarak ortaya çıkabiliyor. Tüm bu sistemin etkileşiminden doğan veri sayısı milyonlardan oluşan bir deniz. Bir de aynı durumu bağırsaklarımızdaki bakterilerden yediğimiz domatese kadar her canlının genetik bilgileri için düşünürsek uçsuz bucaksız bir veri okyanusu ile karşı karşıyayız. Bu okyanusta karşımıza çıkan herhangi bir verinin nereye ait olduğunu nasıl anlarız? Ya da bu verinin başka bir veri ile -örneğin ilgili bir genin bir hastalıkla- ilişkisi bize ne anlatır? İşte uçsuz bucaksız bu okyanusta gemimizle hedefimize doğru yönde yol almak istediğimizde bize yardım eden rüzgârın adı, biyoenformatik.
Kelime anlamı ile biyolojik veriden anlamlı bilgi elde edilmesi olan biyoenformatik, yaklaşık yüzyıl kadar önce genetiğin babası Mendel'in farklı özellikler içeren bezelyeleri çaprazlamasından elde ettiği sonuçları değerlendirmesi ile başladı diyebiliriz. Bugün popüler bir disiplin olarak ele alınmasında bilgisayar bilimlerinin gelişiminin ve 20.yüzyılın son çeyreğinde başlayıp İnsan Genomu Projesi ile parlayan DNA dizileme tekniklerinin ortaya çıkardığı muazzam büyüklükteki biyolojik verilerin etkisi oldukça fazladır. Bu büyüklüğü anlamak için, en geniş biyolojik veri depolarından biri olan GenBank'e bir göz atalım: 2000 yılında 5 milyon gen dizisine sahip olan bu veri deposu, Ekim 2017 itibari ile 203 milyon diziden daha fazlasına sahip ve her 18 ayda bir veri sayısını ikiye katlıyor. Dolayısıyla her geçen gün katlanarak çoğalan veriyi yorumlayabilecek daha çok araca ve bu araçlarda uzmanlaşmış bilim insanlarına ihtiyaç artıyor. Yani biyoenformatik ile tanışmanın tam zamanı!
Biyoenformatik, diğer bilişim alanlarına benzer olarak ilişkili üç bölümden oluşur: Bunlardan en temeli var olan bilginin düzenlenerek araştırmacıların hizmetine sunulması ve araştırmalardan gelen yeni bilgilerin hali hazırdaki veri kütüphanelerine eklenmesidir. Fakat burada depo edilen bilgiler doğru şekilde yorumlanmadığı takdirde işlenmemiş maden gibidir. Ancak anlamlandırıldıkları ve önceki bilgilerle karşılaştırıldıklarında bir yol haritası çıkarılmasına yardımcı olurlar. İkinci bolum ise tam bu ihtiyaç noktasında ortaya çıkar; hızlı ve doğru analiz için gerekli araçların tasarımı. Her ne kadar biyolojik veriyi harflerden oluşan diziler şeklinde ifade ediyor olsak da buradaki karşılaştırmalar harflerin kıyaslanmasından ziyade bu harflerin ifade ettiği yaşamsal işlevlerin kıyaslanmasıdır. Bu yüzden bu araçların geliştirilmesinde bilişim teknolojileri hakkında donanıma sahip olmak kadar, biyolojik süreçler hakkında da bir kavrayışa sahip olmak oldukça önemli taşır. Nasıl ki yalnızca hammadde ve gerekli araçlar bir ustanın elinden geçmeyince değerli ürünlere dönüşmüyorsa aynı şekilde ham veri ile analiz araçları da doğru şekilde kullanılmadıkları takdirde bize anlamlı bir hikâye anlatamazlar. Böylelikle üçüncü bolum olan farklı veriler için tasarlanmış doğru araçların kullanılması ve bu araçlardan çıkan verinin doğru şekilde ifade edilmesinin gerekliliği ortaya çıkar. Bu bölümde uzmanlaşmak elimizdeki bilgileri tek bir canlı ya da yerel bir alan sınırlamasında değil, birden fazla canlı ve küresel düzeyde karşılaştırma imkanını yaratır.
Bizi biz yapan bilgilerimizin yani genlerimizin saklandığı DNA dizileri, bir canlının genlerinin toplamı olan genomlar, hücresel düzeyde farklı işlevlere sahip protein dizileri, makro moleküler yapılar, gen ifadeleri ve ürünleri, vücudumuzdaki döngüler olarak adlandırılabilecek metabolik patikalar (yolaklar) ve bunlarla ilgili tüm bilimsel makaleler biyo-veri sınıfına girer. Özellikle son veri olan bilimsel makaleler kısmında bir hocamın dediği şu sözler aklıma geliyor: "Benin bu çalışma alanını seçtiğim zaman bu alanda yazılmış iki yüze yakın makale mevcuttu ve bu alanla ilgili bir konferans vardı. O zamanki hocam bir işi olduğu için asistanı olarak yerine gitmemi teklif edince ben de tüm makaleleri okumuş ve konferansta makale sahiplerine kendi yazdıkları şeyler hakkında atıfta bulunarak bağlantılar kurmuştum. Oysa şimdi her ay iki bine yakın makale yayınlanıyor. Haliyle hepsini takip etmem imkansıza yakın." Yani verinin ayıklanmasının yanı sıra ayıklanmış veri ile yapılmış çalışmaların da sınıflandırılması oldukça önemli.
Bunun yanı sıra diğer verilerin yapısını kısaca gözden geçirmek gerekirse; DNA, genom ve RNA gibi genlerden oluşan bilgileri bunların yapıtaşları olan dört nükleik asidin isimlerinin baş harfleri olan G, C, A ve T (RNA için U da kullanılabilir) harflerinden oluşan diziler ile ifade ediyoruz. Ama bu diziler binlerce hatta milyonlarca harften oluşabiliyor. Bir de bunların üçlü kombinasyonlarından oluşan kodonlardan aktarılan bilgi ile sentezlenen, proteinlerin yapıtaşı olan 20 farklı aminoasidin her biri için özel olarak belirlenmiş harflerden oluşup, uzunlukları yine binleri bulan protein dizileri var. Bunlar sadece harf dizisi gibi görünseler de ilgili dizilerden oluşan moleküllerin farklı şekiller alması işlevsel farklılıklar doğurabileceği için bunları hem dizi bazında hem de bu diziden oluşacak makro molekül şekli ve işlevi bazında değerlendirmek gerekmekte. Bunların hangi genlerden hangi durumlarda sentezlendiğinin bilgisi olan gen ifadesi ve farklı gen ürünlerinin oluşturduğu ilişkilerin haritası olan metabolik patikaların tanımlanması da başlıca veri tiplerinin örnekleridir.
1990 yılında başlayan İnsan Genomu Projesi ile ihtiyaç duyulan bilgisayar tabanlı otomatik analiz araçlarının işin içine girmesi ile kısa süre içinde elde edilen çok sayıda verinin sınıflandırılıp karşılaştırıldığı EMBL, GenBank ve Japonya DNA Veri Tabanı (DNA Database of Japan) gibi devasa veri tabanlarının ortaya çıkması ile biyoenformatikten bir disiplin olarak adından sıkça sözü edilir hale gelindi. Bugün söz konusu olan kütüphanelerden gelen bilgilerin ışığında bilgisayar tabanlı ilaç tasarımları bile yapılıyor. Ek olarak -omiks son eki ile biten ve ilgilenilen biyolojik molekülün tekil düzeyde değil de kolektif olarak değerlendirildiği – örneğin genomiks bir canlıya ait tüm genler üzerine yapılan analizler- geniş kapsamlı alanlarda da bilgisayar bilimleri ile biyolojik verinin analizi araştırmaların ayrılmaz bir parçasıdır. Bunun anlam ve önemi ise hem biyoloji hem de bilgisayar tabanlı bilgi analizi hakkında sahip olunan bilgilerin uygulanması ile yaşamın sırlarının çok daha hızlı bir şekilde açığa çıkarılacak olmasıdır. Yaşam arşivimizden çıkarılan her bir bilgi ile birçok alanda daha iyi bir anlayışa sahip oluyoruz.
Bu yazı Bin Yaprak misafir yazarlarından Irmak Akoğlu tarafından yazılmıştır. Teşekkürler Irmak!
2023 BinYaprak. Tüm hakları saklıdır. Bir TurkishWIN girişimidir
Yorum