近年來,隨著人類基因組計劃(HGP)在世界范圍內的開展,破譯人類及多種模式生物的遺傳密碼已成為生物學領域的重要學科。同時產生了巨量的基因組信息。分析這些信息是人類基因組研究*的重要內容,從而也促成了生物信息學的產生與發展。生物信息學作為一門新的學科領域,它是把基因組DNA序列信息分析作為源頭,在獲得了蛋白質編碼區的信息之后進行蛋白質空間結構模擬和預測,然后依據特定蛋白質的功能進行必要的藥物設計。因此在基因組研究時代,基因組信息學、蛋白質的結構模擬以及藥物設計必然有機地連接在一起,它們是生物信息學的三個重要組成部分。當前,生物信息學已在理論生物學領域占有了核心的地位,并提出了大量的緊迫任務。 1 基因組相關信息的收集、儲存、管理與提供 到1998年12月GenBank中收集的核酸序列已達3044000條,它們包含的堿基數目是2162000000個。與此同時有二十個生物體的完整基因組已被破譯,約有至少40個完整基因組正在破譯當中。大量基因數據的出現促進了數據庫、分析工具以及網絡連接等的快速發展。 1.1 生物信息數據庫 建立數據庫是存儲基因組相關信息的重要步驟,當前在互聯網絡上可找到與基因組信息相關的大量重要數據庫、服務器。其中:GenBank、EMBL、GDB、PDB、PIR等數據庫更是頻繁地被用戶檢索。在基因組織關數據庫的發展中,以及幾方面特別引起人們的重視: a)、建立基因組信息的評估與檢測系統 b)、數據標準化 c)、進行基因組信息的可視化和專家系統的研究 d)、發展次級與專業數據庫 原始數據是龐大的。在原始數據的基因上,根據不同的特征將其加工,而構建出若干數據庫,這不僅會給用戶帶來很多方便,更重要的是專業人員注入的知識會對用戶有很大的啟發。的二級數據庫象:蛋白質結構分類數據庫(SCoP),受體數據庫,克隆載體數據庫等……。 1.2 以因特網(Internet)為基礎的基因組信息學傳輸網絡 用戶與數據庫間迅速、有效地傳遞信息是基因組信息的收集、管理與使用的另一要素。目前與基因組信息相關的數據庫都有了自己的Internet地址和主頁(Homepage),同時在網上還出現了很多相關的在線(online)服務器。 我國在基因組信息的收集與提供方面也有了一定的工作:北京大學物理化學研究所建立的PDB數據庫的中國節點;北京大學生命科學院建立的EMBL數據庫的中國節點。中國科學院生物物理所與日本JIPID的合作,收集了我國科學家測定的DNA和蛋白質序列并與相應數據庫進行交流。中國醫學科學院腫瘤研究所建立的MEE-HOW服務器等。在數據庫研究中有兩點特別重要,一是構建我國自己的數據庫;二是與常用數據庫的有效連接和及時更新。經過努力,相信這一領域在我國會迅速發展。 2 新基因的發現與鑒定 發現一個新的基因就能了解與其相關的生理功能或疾病的本質,從而為新藥的開發、設計奠定基礎。使用基因組信息學的方法是發現新基因的重要手段,比如在啤酒酵母完整基因組(約1200萬bp)所包含的5932個基因中,大約60%是通過信息分析得到的。使用EST序列信息尋找新基因是當前上基因爭奪戰的熱點。 2.1 利用EST數據庫(dbEST)發現新基因 eST序列(Expressed sequence Tags)是從基因表達的短c-DNA序列,它們攜帶著完整基因某些片段的信息。到1998年12月中在GenBank的EST數據庫中已收集了EST序列2,020,608條,其中人EST序列為1,201,241條,它大約覆蓋了人類基因的80%。由于EST序列中包括了大量未發現的人類基因的信息,因此如何利用這些信息發現新基因成了近幾年的重要研究課題。 2.2 從基因組DNA測序數據中確定編碼區 這一研究已經進行了很多年,并建立了多種方法。這些方法概括說來分為兩類,一類是基于編碼區所具有的*信號,比如起始密碼子、終止密碼子等,另一類是基于編碼區的堿基組成不同于非編碼區。這是由于蛋白質中20種氨基酸出現的概率不同,每種氨基酸的密碼子兼并度不同,同一種氨基酸的兼并密碼子使用頻率不同等原因造成的。近年來一批新的確定編碼區的方法出現了,例如,考慮高維分布的統計方法、神經網絡方法、分形方法等。將密碼學方法用于識別編碼區,也取得了較好的結果。 3 非編碼區信息結構分析 雖然對約占人類基因組95%的非編碼區的作用人們還不清楚,但從生物進化的觀點看來,這部分序列必定具有重要的生物功能。普遍的認識是,它們與基因在四維時空的表達調控有關。因此尋找這些區域編碼特征,信息調節與表達規律是未來相當長時間內的熱點課題。 3.1 非編碼區中各種組分的分類與確定 非編碼區(“Junk”DNA)占據了人類基因組的大部分,研究表明“Junk”是許多對生命過程富有活力的不同類型的DNA的復合體,它們至少包含如下類型的DNA成份或由其表達的RNA成分:內含子(intron)、衛星(Salite)DNA、小衛星(minisalite)DNA、微衛星(Microsalite)DNA、非均一核RNA(簡稱hmRNA)短散置元(short interspersed elements,簡稱SINE)、長散置元(long interspersed elements,簡稱LINE)、偽基因(pseudogenes)等。除此之外順式調控元件,如啟動子、增強子等也屬于非編碼序列。一些科學家認為應當把染色體稱為信息細胞器(information organelle)。了解“JunK”DNA是了解信息細胞器的關鍵步驟。 3.2 尋找新的非三聯體的編碼方式 是否在基因組中僅存在三聯體的編碼方式呢?是否傳遞不同的信息應有不同字長的碼呢?人們熟知三聯碼是用于將4個字符組成的基因中的信息傳遞給由20個字符組成的蛋白質。只有堿基三聯體數(43=64)才是大于20(氨基酸的種類數)且zui接近20的堿基組合。所以三聯體是DNA與蛋白質間傳遞信息的編碼。按照這樣的推理人們可以認為由DNA到結構RNA間的信息傳遞是單聯體碼,因為DNA與RNA的結構單元是一一對應的。如果考慮到人類基因的總數約為5萬到10萬,那么要調節單獨的一個基因的調節單元的數目也要與此相應,達到若干萬個。此時三聯體編碼方式的區分度就遠為不足。這就是生物信息學家尋找其他非三聯體編碼方式的原因。 3.3 編碼區和非編碼區中信息調節規律的研究 雖然Jacob和Monod的乳糖操縱子模型給出了基因表達調控的zui基本模式,但近年來很多發現表明基因的調節是遠為復雜與豐富的。隨著基因組研究進入后基因組時代,功能基因的表達譜得以測定,這些深刻的問題會逐步得到解決。 4 生物進化的研究 自1859年Darwin的物種起源(Origin of Species)發表以來,進化是對人類自然科學和自然哲學發展的zui重要貢獻之一。自本世紀中葉以來,隨著分子生物學的不斷發展,進化論的研究也進入了分子水平。并建立了一套依賴于核酸、蛋白質序列信息的理論方法。現在隨著序列信息的大量出現開展分子進化的研究具有了*時機。 5 完整基因組的比較研究 在后基因組時代,生物信息學家面對的不僅是序列和基因而是越來越多的完整基因組。科學家們對zui早的七個完整基因組所做的分析得到了很多有意義的結論。這些生物體都是能獨立存活的,zui大的是啤酒酵母,它有5932個基因,zui小的是生殖道枝原體,它只有470個基因。有了這些資料人們就能估計,zui小獨立生活的生物至少需要多少基因,這些基因是如何使它們活起來的?基因組研究還發現,鼠和人的基因組大小相似,都含有約三十億堿基對,基因的數目也類似。可是鼠和人差異確如此之大,這是為什么?同樣,有的科學家估計不同人種間基因組的差別不大于0.1%;人猿間差別不大于1%。因此其表型差異不僅應從基因、DNA序列找原因,也應考慮染色體組織上的差異。總之,由完整基因組研究所導致的比較基因組學必將為后基因組研究開辟新的領域。 6 基因組信息分析的方法研究 6.1 發展有效的能支持大尺度作圖與測序需要的軟件和數據庫以及若干數據庫工具,包括互聯網絡上的遠程通訊工具,使之能容易地處理日益增長的物理圖、遺傳圖和序列信息。改進現有的理論分析方法,象統計方法、隱含馬爾科夫過程方法、分維方法、神經網絡方法、復雜性分析方法、密碼學方法等。創建一切適用于基因組信息分析的新方法、新技術。 6.2 建立快速、嚴格的多序列比較方法 多序列比較是解決同源性分析等重要問題的關鍵手段,但迄今為止只有近似方法。雖然兩個序列比較有動態規劃算法這樣的方法,但要把它推廣到多序列的情況是不現實的。為此發展的多序列比較方法是當務之急。 7 大規模基因功能表達譜的分析 目前,基因組的研究已從結構基因組(structural genome)逐漸過度到功能基因組(functional genome)。因此獲得基因的功能表達譜,將存在于人類基因組上的靜的基因圖譜,向時間、空間維上展開是新一階段基因組研究的核心。為了得到基因表達的功能譜,上在核酸和蛋白質兩個層次上都發展了新技術。在核酸層次上的新技術是DNA芯片,在蛋白質層次上則是二維凝膠電泳和測序質譜技術。由此導致了大規模基因功能表達譜的分析問題。它們從數學角度看不是簡單的NP問題、動力系統問題或不確定性問題,因此需要發展新的方法和工具。所以無論是生物芯片還是蛋白質組技術的發展都更強烈地依賴于生物信息學的理論、技術與數據庫。 8 蛋白質分子空間結構的預測、模擬和分子設計 隨著人類基因組計劃的執行,找到人類5萬到10萬個基因的堿基序列是指日可待的事,因而確定人的上千個原癌基因和幾萬個與疾病相關基因表達產物的氨基酸順序也會逐漸實現。這無疑給人類疾患的治療帶來了很大的希望。然而要了解他們的功能、要找到這些蛋白質致病的分子基礎,只有氨基酸順序的知識是不夠的,必要知道它們的三維結構。與此同時,要設計藥物治療這些疾患也需要了解蛋白質的三維結構。這是擺在科學家面前的緊迫任務。 當前不論是還是國內,蛋白質空間結構預測和蛋白質分子的改性設計都在廣泛而快速地展開。近年來對蛋白質構象模式的研究取得了很大進展。比較*的看法是:蛋白質的折疊類型是有限的,目前估計為幾百至幾千種。這要遠小于蛋白質所具有的自由度數目。同時蛋白的折疊類型是與它們的組分和一級序列相關的,這樣就有可能從蛋白質的初級信息中確定它們的zui終折疊類型。 9 藥物設計 傳統的藥物研制主要是從大量的天然產物,如動物、植物、微生物和合成有機、無機化合物中進行篩選。往往得到一個可供臨床使用的藥物要篩選1萬種不同的化合物,要經過10年左右的時間和耗資2.5-3.0億美元。當前隨著組合化學和群集篩選的發展,這一狀況有了一定程度的改善,但耗資、耗時仍然是巨大的。近年來由于結構生物學的發展,相當數量的蛋白質以及一些核酸、多糖的三維結構已被了解。因此,基于生物大分子結構知識的藥物設計成為了當前的熱點。生物信息學的研究不僅可提供生物大分子空間結構的信息,還能提供電子結構的信息,如能級、表面電荷分布、分子軌道相互使用等以及動力學行為的信息,如生物化學反應中的能量變化、電荷遷移、構象變化等。理論模擬還可研究包括生物分子及其周圍環境(如水、離子等)的復雜體系和生物分子的量子效應。上述的不少方面當前是難以直接用分子生物學的實驗手段加以研究的。這些模擬的結構對于在分子、亞分子和電子結構層次上了解生命現象的基本過程具有重要意義。并為天然生物大分子的改性和基于受體結構的藥物分子設計提供了依據。 10 應用與發展研究 基因組信息學的研究結果不僅具有重要的理論價值,也可直接應用到工農業生產和醫療實踐當中去。 10.1 與疾病相關的人類基因信息的匯集以及病人樣品序列信息檢測技術的發展 很多的人類基因是和疾病有關,有人估計與癌癥相關的原癌基因約有一千個,抑癌基因約有一百個。約有六千種以上的人類疾患與各種人類基因的變化相關聯。隨著人類基因組計劃的深入,當我們知道了全部八萬到十萬個人類基因在染色體上的位置和它們的序列特征以后,人們就可以有效地判定各種分子疾患。為了實現這一目標有兩項工作是重要的,一是構建與疾病相關的人類基因信息數據庫,二是發展快速、有效的對患者血液、體液、組織等樣品進行測試和序列信息檢測的技術。近幾年上已出現了若干與疾病相關的數據庫,其他技術也在發展中。 10.2 建立與動、植物良種繁育相關的基因組數據庫。 隨著人類基因組、水稻基因組以及各種模式生物基因組的解譯,根據不同物種間的進化距離和功能基因的同源性,可以容易地找到各種家畜、經濟作物與其經濟效益相關的基因,進而對它們按照人們的愿望加以改造。 10.3 發展基于序列信息的分子生物學技術 分子生物學常用的表達載體、PCR引物以及各種試劑盒的設計必須依賴于核酸的序列信息。基因組信息學提供的大量信息為這類技術的發展提供了廣闊的天地。 總之,當前是人類基因組研究的一個有活力的新時代。不少科學家還說它是人類基因組研究的收獲時代,它不僅將賦予人們基因研究重要成果,也會帶來巨大的經濟效益和社會效益。在未來的幾年中DNA序列數據將以意想不到的速度增長,這是一個難得的機會,盡早利用這些數據就可能走在科學界的zui前沿。 |