發(fā)布時間:所屬分類:計算機(jī)職稱論文瀏覽:1次
摘 要: 摘要 在過去的10年中, 以基因組學(xué)、醫(yī)學(xué)遺傳學(xué)和神經(jīng)信息學(xué)等為代表的生命科學(xué)各研究領(lǐng)域, 以前所未有的增長趨勢, 積累了海量的數(shù)據(jù)信息. 這些數(shù)據(jù)類型復(fù)雜、數(shù)量龐大, 其中蘊(yùn)含的價值更是不可估量. 通過傳統(tǒng)的處理手段, 難以理清海量原始數(shù)據(jù)中錯綜復(fù)雜的關(guān)聯(lián)信息. 而
摘要 在過去的10年中, 以基因組學(xué)、醫(yī)學(xué)遺傳學(xué)和神經(jīng)信息學(xué)等為代表的生命科學(xué)各研究領(lǐng)域, 以前所未有的增長趨勢, 積累了海量的數(shù)據(jù)信息. 這些數(shù)據(jù)類型復(fù)雜、數(shù)量龐大, 其中蘊(yùn)含的價值更是不可估量. 通過傳統(tǒng)的處理手段, 難以理清海量原始數(shù)據(jù)中錯綜復(fù)雜的關(guān)聯(lián)信息. 而針對生物大數(shù)據(jù)的可視化研究, 將有利于科研人員對復(fù)雜數(shù)據(jù)進(jìn)行多角度觀察并獲取有效信息. 生物數(shù)據(jù)量越大, 復(fù)雜性越高, 可視化在生物有效信息挖掘方面發(fā)揮的作用就越大. 本文通過例舉若干生物機(jī)構(gòu)中心現(xiàn)存的數(shù)據(jù)規(guī)模和數(shù)據(jù)增長速率, 說明生物研究領(lǐng)域已進(jìn)入大數(shù)據(jù)時代, 然后由生物數(shù)據(jù)的組成特征及可視化的特點引出生物大數(shù)據(jù)可視化的重要性和必要性. 本文總結(jié)了生命科學(xué)研究領(lǐng)域中不同類型生物大數(shù)據(jù)的可視化研究進(jìn)展, 最后討論了目前生物大數(shù)據(jù)可視化所面臨的挑戰(zhàn), 并提出可能的解決方案.
關(guān)鍵詞 大數(shù)據(jù)生物信息學(xué)可視化
2005年以來, 隨著高通量測序技術(shù)的不斷進(jìn)步及廣泛應(yīng)用, 生命科學(xué)跨入了大數(shù)據(jù)時代. 以基因組科學(xué)和生物醫(yī)學(xué)領(lǐng)域為代表的生命科學(xué)研究產(chǎn)生和積累了海量的數(shù)據(jù)信息: 歐洲生物信息學(xué)研究所 (European Bioinformatics Institute, EBI)目前存儲了將近20 PB的數(shù)據(jù), 其中基因組數(shù)據(jù)約占2 PB, 這一數(shù)字隨著新一代測序技術(shù)的不斷發(fā)展每年成倍增長[1]; 高通量測序數(shù)據(jù)庫(Sequence Read Archive, SRA)作為美國國立生物技術(shù)信息中心(National Center for Biotechnology Information, NCBI)最主要的高通量數(shù)據(jù)存儲庫, 目前存儲的數(shù)據(jù)總量超過了3 PB, 對外發(fā)布的數(shù)據(jù)量達(dá)到1640 TB[2]; 此外, 當(dāng)前世界上最大的基因數(shù)據(jù)產(chǎn)出機(jī)構(gòu)——華大基因研究院(Beijing Genomics Institute, BGI)每天產(chǎn)出包括人、植物、動物和微生物在內(nèi)的約6 TB基因組數(shù)據(jù)[1].
國際上的多個合作研究項目產(chǎn)生了史無前例規(guī)模的生物數(shù)據(jù). 為了破譯人類的全部遺傳信息, 美國科學(xué)家在1985年率先提出了人類基因組計劃(Human Genome Project, HGP)[3], 這一計劃不僅覆蓋了 99.99%的人類基因組, 解讀了人體基因密碼的“生命之書”, 而且推動了生命科學(xué)和生物技術(shù)的基礎(chǔ)性研究, 促進(jìn)了一系列科學(xué)技術(shù)的產(chǎn)生和發(fā)展; 2004年, 為了尋求新一代DNA研究技術(shù)對人類基因調(diào)控序列在全基因組水平上研究的應(yīng)用, “DNA元件百科全書” 計劃(Encyclopedia of DNA Elements, ENCODE)啟動, 這一計劃促使來自32個科研機(jī)構(gòu)的442名研究人員獲取并分析了超過15 TB的原始數(shù)據(jù)[4]; 從2005年底至今, 由美國國國家癌癥研究所(National Cancer Institute, NCI)和美國國家人類基因組研究所(National Human Genome Research Institute, NHGRI)共同發(fā)起的癌癥基因組圖譜計劃(The Cancer Genome Atlas, TCGA)[5], 通過多個基因組技術(shù)平臺分析并獲取超過 800 TB數(shù)據(jù)及文檔資料, 為診斷、治療和預(yù)防癌癥打下了敦實的基礎(chǔ); 2010年, 中、英、德、美等國共同合作了國際千人基因組計劃(1000 Genomes Project), 至今為止產(chǎn)生的數(shù)據(jù)量達(dá)到50 TB, 其中包含來自全球27個族群的2500個人的全部基因組信息[6].
當(dāng)今測序技術(shù)的進(jìn)步速度之快, 已遠(yuǎn)超計算機(jī)領(lǐng)域里的摩爾定律[7](價格不變時, 集成電路的性能每18個月增加一倍). 在1990年啟動的人類基因組計劃中, 美、歐、中、日等多個國家和地區(qū)超過200名科學(xué)家, 投入了超過10年的時間和約30億美元才完成人類全基因組的測序; 但現(xiàn)在, 僅靠一個實驗室的數(shù)名研究人員, 就可在數(shù)周內(nèi)完成人類全基因組重測序, 而試劑成本則可控制在1000美元之內(nèi). 如此巨大的進(jìn)步, 不僅給生命科學(xué)的研究帶來了巨大的機(jī)遇, 在此基礎(chǔ)上如何有效處理和分析這些測序數(shù)據(jù), 也給此領(lǐng)域內(nèi)的研究人員帶來了巨大的挑戰(zhàn).
以DNA序列數(shù)據(jù)為代表的海量數(shù)據(jù)是構(gòu)成生命科學(xué)研究的重要組成部分, 通過應(yīng)用生物信息學(xué)技術(shù)進(jìn)行大數(shù)據(jù)研究, 理解隱藏在大數(shù)據(jù)里的生物學(xué)知識成為當(dāng)前生物技術(shù)發(fā)展的迫切需求. 傳統(tǒng)的基于文本的數(shù)據(jù)處理和展示模式已經(jīng)嚴(yán)重制約了對于生命科學(xué)大數(shù)據(jù)的解讀. 基于可視化技術(shù)的信息挖掘成為一種必需的解決途徑. 可視化是對事物建立心理模型或者心理圖像的一個過程1). 通過可視化, 抽象的符號信息可以轉(zhuǎn)化為易于理解的圖像和模型, 另外交互式的使用允許研究人員從不同的可視化角度來探究隱藏在大數(shù)據(jù)里的不同模式和關(guān)聯(lián). 可視化擁有強(qiáng)大的將復(fù)雜數(shù)據(jù)轉(zhuǎn)化為可利用信息的能力. 生物數(shù)據(jù)復(fù)雜、冗余等諸多特點決定了可視化是有效地理解生物數(shù)據(jù)的不可或缺的手段. 生物大數(shù)據(jù)可視化依托于現(xiàn)有的計算技術(shù), 在一定時間內(nèi)產(chǎn)生視覺表現(xiàn)模型, 并在此基礎(chǔ)上盡可能地增強(qiáng)交互性, 從而加強(qiáng)用戶體驗以及對生物數(shù)據(jù)分析結(jié)果的認(rèn)知能力.
1 生物大數(shù)據(jù)的特征及來源
生物大數(shù)據(jù)除了具有傳統(tǒng)大數(shù)據(jù)4“V”的特點, 即數(shù)據(jù)量大(Volume)、數(shù)據(jù)處理速度快(Velocity)、數(shù)據(jù)源多變(Variety)和蘊(yùn)含價值(Value)外[8], 還擁有其特有的數(shù)據(jù)復(fù)雜性(Complexity)[9]. 有生物學(xué)家提出, 復(fù)雜程度將生物領(lǐng)域產(chǎn)生的大規(guī)模數(shù)據(jù)與其他科學(xué)領(lǐng)域的產(chǎn)出區(qū)分開來. 在高能物理中, 數(shù)據(jù)有著合理的結(jié)構(gòu)和注釋, 而生物學(xué)數(shù)據(jù)目前來講卻難以完美地組織起來. 除了簡單的基因組測序外, 生物學(xué)家會追蹤許多不同的細(xì)胞和分子成分, 試圖使用各種手段弄清其中包含的復(fù)雜關(guān)系. 此外, 由于生物數(shù)據(jù)經(jīng)常來自不同的實驗方法和機(jī)構(gòu), 使用了不盡相同的參數(shù)標(biāo)準(zhǔn), 產(chǎn)生的數(shù)據(jù)類型豐富多樣, 導(dǎo)致這些數(shù)據(jù)可能采用不同的存儲結(jié)構(gòu)(如narrowPeak, BED, SAM 等), 針對不同的研究對象(如基因序列、蛋白質(zhì)互作關(guān)系、菌群共生等), 來源于不同的渠道(如測序、醫(yī)療記錄等). 不同實驗的參數(shù)標(biāo)準(zhǔn)、特異的細(xì)胞組織類型以及無法結(jié)構(gòu)化存儲的藥物處理過程等諸多因素都是造成生物大數(shù)據(jù)復(fù)雜性的原因. 生物數(shù)據(jù)可視化的核心就是利用有效的算法消除這些數(shù)據(jù)的復(fù)雜性, 從而將其中隱含的生物學(xué)規(guī)律清晰地展示給用戶, 而解析、轉(zhuǎn)換這些復(fù)雜數(shù)據(jù)的格式, 則是數(shù)據(jù)可視化設(shè)計的第一步, 下面以數(shù)據(jù)來源為分類來了解生物數(shù)據(jù)復(fù)雜多樣的格式特征.
首先, 測序技術(shù)的飛速發(fā)展為生物領(lǐng)域提供了數(shù)目龐大的寶貴資源. 目前第二代測序技術(shù)被廣泛采用, 第二代測序產(chǎn)生數(shù)以百萬計的短序列, 再由拼接算法將這些短序列在全基因組范圍內(nèi)組裝起來, 從而進(jìn)行進(jìn)一步的數(shù)據(jù)分析工作[10]. 迄今為止, 新興的單細(xì)胞測序技術(shù)一直被認(rèn)為是最為值得關(guān)注的測序技術(shù), 傳統(tǒng)的測序方法忽略了細(xì)胞間的差異性, 得到的結(jié)果僅僅是一群細(xì)胞信號的平均值, 而基于單細(xì)胞水平對全基因組進(jìn)行擴(kuò)增與測序的單細(xì)胞測序技術(shù), 不僅在基因表達(dá)量方面測量精準(zhǔn), 而且能夠檢測到表達(dá)量較低的基因及非編碼RNA, 因此具有很大的優(yōu)勢及發(fā)展空間[11]. 除此之外, 單細(xì)胞 RNA測序(single-cell RNA-seq)使追蹤單個細(xì)胞的轉(zhuǎn)錄組成為可能 [12], 染色質(zhì)免疫共沉淀測序 (ChIP-seq)[13]等實驗技術(shù)有力地支持了對基因組數(shù)據(jù)的功能性注釋. 這些高通量的測序技術(shù), 為研究者發(fā)現(xiàn)與疾病相關(guān)的基因型變異、研究某個表型的整個轉(zhuǎn)錄組、某一條件下的甲基化狀態(tài)以及對DNA上蛋白質(zhì)結(jié)合位點進(jìn)行定位等工作提供了便利與支持, 然而隨著數(shù)據(jù)規(guī)模的增大, 測序數(shù)據(jù)的處理和分析逐漸成為瓶頸.
其次, 生物芯片技術(shù)的使用在過去的數(shù)年中產(chǎn)生了龐大的數(shù)據(jù)資源. 為了實現(xiàn)對生物組織、細(xì)胞、蛋白質(zhì)、核酸等組分中富含的大量信息進(jìn)行快速準(zhǔn)確的檢測, 研究人員在固體芯片表面構(gòu)建了微型的生物化學(xué)分析系統(tǒng). 當(dāng)前的生物芯片主要分為微陣列芯片和微流控芯片兩種類型[14]. 傳統(tǒng)的以靜態(tài)和雜交技術(shù)為基礎(chǔ)的微陣列芯片主要有基因芯片(DNA Microarray)、蛋白芯片(Protein Chip)和芯片實驗室 (Lab-on-a-chip)等形式[15]. 其中, 基因芯片也叫DNA 高密度微點陣雜交技術(shù), 以核酸探針互補(bǔ)雜交技術(shù)為基礎(chǔ)而建立, 可用于DNA序列測序、基因表達(dá)分析、基因分型以及基因多態(tài)性分析等研究目的; 蛋白芯片依據(jù)蛋白質(zhì)分子和其他分子的相互作用而構(gòu)建; 而芯片實驗室將整個流程集約化形成微型的分析系統(tǒng). 芯片與生物分子反應(yīng)所產(chǎn)生的信號需要借助于芯片掃描儀, 并通過相關(guān)軟件分析采集到的各反應(yīng)點的熒光強(qiáng)弱信號、所在位置信息所形成的圖像來獲取有關(guān)的生物信息. 微流控芯片以微流體控制技術(shù)為基礎(chǔ), 主要有毛細(xì)管電泳芯片、PCR反應(yīng)芯片等形式[15]. 近年來, 生物芯片技術(shù)在基因表達(dá)水平檢測、基因診斷、藥物篩選、個體化醫(yī)療臨床、疾病診斷和治療、疾病易感基因發(fā)現(xiàn)以及基因功能確認(rèn)等醫(yī)學(xué)與生物學(xué)領(lǐng)域得到廣泛的應(yīng)用.
再次, 生物質(zhì)譜為生命科學(xué)的研究做出了巨大的貢獻(xiàn), 不僅被認(rèn)為是大規(guī)模、高通量鑒定幾十萬分子量的生物大分子結(jié)構(gòu)的首選工具, 而且對于研究蛋白-蛋白等大分子之間的相互作用、翻譯后修飾以及基因表達(dá)水平的變化有著很大的幫助. 質(zhì)譜法主要原理是先將樣品變?yōu)闅鈶B(tài)的離子混合物, 再按照質(zhì)荷比(m/z)進(jìn)行分離, 從而成功獲取樣品的質(zhì)量、含量及結(jié)構(gòu)等信息[16]. 在獲取使用譜圖法或列表法表示的測定結(jié)果后, 需要進(jìn)行進(jìn)一步的數(shù)據(jù)分析. 對于鑒定蛋白質(zhì)的方法, 目前常用的有質(zhì)量紋鑒定法 (Peptide Mass Fingerprinting)、二級質(zhì)譜的數(shù)據(jù)庫搜索鑒定法(MS/MS Database Searching)等手段[17]. 質(zhì)譜分析技術(shù)被稱作蛋白質(zhì)組的核心技術(shù), 最近在 Nature上公布的人類蛋白質(zhì)組草圖就是基于16857個質(zhì)譜分析實驗結(jié)果的整合[18]. 基質(zhì)輔助激光解析-飛行時間質(zhì)譜系統(tǒng)(VITEK®MS)作為美國FDA批準(zhǔn)的首個用于檢測病菌的質(zhì)譜檢測系統(tǒng), 可用于酵母菌和致病細(xì)菌臨床快速鑒定, 這也是第一種能在數(shù)分鐘內(nèi)檢測致病微生物的醫(yī)療器械[19].
此外, 通過各種先進(jìn)手段獲取的與生物相關(guān)的圖片影像資料也日益豐富起來. 生命體內(nèi)存在著蛋白質(zhì)、RNA以及DNA等種類繁多的生物大分子. 隨著顯微鏡、成像捕捉等高精尖端儀器技術(shù)的不斷發(fā)展, 科學(xué)家們不僅能夠通過低溫電子顯微鏡直接觀察到蛋白質(zhì)等生物大分子精細(xì)到原子的組織結(jié)構(gòu), 而且逐漸可以直接觀測記錄到活體組織中生物大分子在時間、空間維度上的結(jié)構(gòu)變化和各分子間的相互作用的動態(tài)畫面. 目前, 美國斯坦福大學(xué)研究人員借用 “微型內(nèi)窺鏡”及玻璃導(dǎo)管已經(jīng)實現(xiàn)了在不破壞活體被觀察組織的情況下, 長時間地對活體大腦神經(jīng)元進(jìn)行觀測[20]; 北京大學(xué)開發(fā)的“生物正交受激拉曼散射成像”技術(shù)成功地特異性標(biāo)記了活細(xì)胞的脂類、核糖、蛋白質(zhì)和糖類等成分[21]; 美國紐約冷泉港實驗室將分子標(biāo)記手段與顯微鏡技術(shù)相結(jié)合, 順利完成了第一個活體老鼠體內(nèi)腫瘤細(xì)胞活動的影像記錄工作[22]. 通過這些高新技術(shù)手段, 科學(xué)家們有望從中得到所有細(xì)胞、組織中蛋白質(zhì)和復(fù)合物的相關(guān)位置, 弄清人體的有機(jī)物概況. 因此, 越來越多非結(jié)構(gòu)化的圖片影像數(shù)據(jù)亟待批量化整合、分析及展示.
最后, 臨床數(shù)據(jù)也是一個不可忽略的數(shù)據(jù)來源. 僅隸屬于中國中醫(yī)科學(xué)院的廣安門醫(yī)院每年產(chǎn)生的數(shù)據(jù)量高達(dá)就70 TB2), 如果將全國的臨床數(shù)據(jù)都集合在一起, 其數(shù)據(jù)規(guī)模更是不可估量. 現(xiàn)有的臨床醫(yī)學(xué)數(shù)據(jù)包含電子病歷、醫(yī)學(xué)影像、化驗結(jié)果以及生化檢查、病理切片檢查的生物學(xué)信息等, 這些臨床信息不但多樣、冗余、不完整, 而且往往涉及患者隱私、公司利益沖突等問題, 加之有些數(shù)據(jù)之間難以關(guān)聯(lián), 造成標(biāo)準(zhǔn)化實施的困難. 這種結(jié)構(gòu)化與非結(jié)構(gòu)化格式并存的特點, 使得臨床數(shù)據(jù)的整理分析變得異常困難[23]. 為了挖掘這些醫(yī)療數(shù)據(jù)中潛在的價值, 一些臨床和科研機(jī)構(gòu)著手將醫(yī)療數(shù)據(jù)進(jìn)行整合, 構(gòu)建臨床試驗數(shù)據(jù)的共享和分析平臺. 北京的各大醫(yī)院通過臨床科研信息共享系統(tǒng)將實踐數(shù)據(jù)化、規(guī)范化、數(shù)字化, 海量的數(shù)據(jù)通過整理轉(zhuǎn)換等過程, 被進(jìn)一步應(yīng)用在查詢檢索、統(tǒng)計分析和數(shù)據(jù)挖掘上, 以此獲取新的知識, 從而更加有效地對臨床實踐進(jìn)行指導(dǎo)2). 美國臨床腫瘤學(xué)會(American Society of ClinicalOncology, ASCO)旗下的“CancerLinQ”允許研究人員進(jìn)入、訪問和分析匿名癌癥患者的病例[24]; 新型的電子診斷領(lǐng)域也為信息整合提供了極大的便利. 海量的臨床數(shù)據(jù)的整合利用將大大有助于科研人員及醫(yī)學(xué)專家對大規(guī)模疾病患者群體治療情況進(jìn)行分析, 從而為攻克疑難雜癥提供契機(jī).
相關(guān)知識推薦:收數(shù)據(jù)可視化論文的期刊
除了上述幾個主要的生物大數(shù)據(jù)來源以外, 新型的技術(shù)手段不斷貢獻(xiàn)出寶貴的資源數(shù)據(jù), 例如最新的流式熒光技術(shù)[25]可以實現(xiàn)快速、準(zhǔn)確、高通量地對腫瘤標(biāo)志物進(jìn)行檢測, 此外不同類型的儀表設(shè)備也為生物領(lǐng)域提供了不少有價值的數(shù)據(jù). 豐富的數(shù)據(jù)來源顯示出生物數(shù)據(jù)不僅數(shù)據(jù)規(guī)模龐大, 類型復(fù)雜多變, 而且在立體空間上結(jié)構(gòu)、位置隨時間不斷變換、移動. 解決這些數(shù)據(jù)的存儲只是最基本的任務(wù), 更為重要的是使用這些數(shù)據(jù). 同樣, 對生物大數(shù)據(jù)進(jìn)行可視化是為了更加充分地挖掘出數(shù)據(jù)中潛在的價值, 因此在設(shè)計可視化工具時如果能夠以數(shù)據(jù)來源為依據(jù), 從數(shù)據(jù)規(guī)模、復(fù)雜度、空間性和時間變換性這4個方面針對目標(biāo)數(shù)據(jù)進(jìn)行考慮, 將十分有益于從數(shù)據(jù)中獲取有效信息.
2 生物大數(shù)據(jù)可視化類型及現(xiàn)狀
可視化對生物數(shù)據(jù)的分析至關(guān)重要, 以生物數(shù)據(jù)的特性來看, 一般情況下僅憑文字很難描述清楚其中存在的復(fù)雜關(guān)系. 可視化不僅可以用來進(jìn)行形象展示, 更是數(shù)據(jù)分析的第一個戰(zhàn)場, 對生物數(shù)據(jù)進(jìn)行良好的直觀、交互性展示可以揭示出數(shù)據(jù)內(nèi)在的錯綜復(fù)雜的關(guān)聯(lián)狀況, 在這一點上其他方法很難與可視化相提并論. 從最簡單的Excel電子表格、Google 文檔到R, Pandas等統(tǒng)計編程架構(gòu), 再到D3.js, Prefuse 等可視化程序包, 這些通用數(shù)據(jù)可視化和處理工具都可以為數(shù)據(jù)分析、信息挖掘提供很好的計算機(jī)手段. 另外針對于不同的數(shù)據(jù)類型和目的, 生物領(lǐng)域涌現(xiàn)了一大批開源、優(yōu)秀的可視化工具(圖1), 這些針對生物研究人員開發(fā)的工具易于上手, 為生物數(shù)據(jù)的快速分析提供了便利.
2.1 測序數(shù)據(jù)
測序技術(shù)、生物芯片提供了存在于生命體中的 DNA, RNA, 蛋白質(zhì)等大分子的豐富的一級序列資源, 現(xiàn)有的基因組瀏覽器根據(jù)不同的需求對這些基序進(jìn)行了從細(xì)節(jié)到宏觀的展示. 以當(dāng)前最為常用的 UCSC Genome Browser[26]為例, 它支持可以被比對到基因組上的任何數(shù)據(jù)類型, 將圖像在服務(wù)器端渲染后嵌入網(wǎng)頁中. 它對于基因組數(shù)據(jù)的展示模式體現(xiàn)了大多現(xiàn)存瀏覽器共有的特點: (1) 以染色體位置為索引的基因組數(shù)據(jù)視圖; (2) 以參考基因組為標(biāo)準(zhǔn)提供位置坐標(biāo)軸; (3) 基于track展示; (4) 良好的交互性和可定制性, 可根據(jù)用戶所需進(jìn)行裝載或隱藏數(shù)據(jù)內(nèi)容. 除了這些展示特征外, 不同的基因組瀏覽器也擁有自己獨特的功能. GenomeView[27]提供注釋編輯器, 可以展示和注釋信息, 進(jìn)行多序列比對、共線性匹配、短序列比對以及其他可以被顯示的內(nèi)容; 交互探究大型集成數(shù)據(jù)集的可視化工具 (Integrative Genomics Viewer, IGV)[28]可支持多種數(shù)據(jù)類型的交互展示, 包括測序序列比對、基因表達(dá)數(shù)據(jù)和拷貝數(shù)異常(圖1(e))等.
由于不同的組織轉(zhuǎn)錄組的表達(dá)差異往往借助于統(tǒng)計手段進(jìn)行聚類, 并需要使用熱圖使聚類結(jié)果呈現(xiàn)直觀的展示, 并加以解釋, 聚類得到的不同表達(dá)模式還可進(jìn)一步按照功能富集程度進(jìn)行分類并以圖形化方式表示假設(shè)檢驗的結(jié)果, 以Gitools[29]為代表的此類工具采用了熱圖的形式對基因組數(shù)據(jù)進(jìn)行集成化分析和展示, 此工具通過引入KEGG, Biomart等生物數(shù)據(jù)庫達(dá)到對先驗知識的利用, 提供富集分析、相關(guān)性分析以及顯著性計算等豐富的分析手段, 通過集成排序、過濾、移動、聚集、搜索及可視化行列注釋等功能允許使用者交互性地分析和可視化多維數(shù)據(jù).
此外, 測序數(shù)據(jù)的可視化可能會對數(shù)據(jù)的深入挖掘起著決定性的作用. 例如, 單核苷酸多態(tài)性 (SNP)、插入缺失標(biāo)記(InDel)以及基因組結(jié)構(gòu)變異是一級序列中頗受關(guān)注的內(nèi)容, 它們往往與復(fù)雜疾病的發(fā)生發(fā)展有著密切關(guān)系. 其中, 基因組結(jié)構(gòu)變異包括插入、刪除、倒置、易位、復(fù)制以及拷貝數(shù)變異等不同的類型, 每種類型使基因組產(chǎn)生不同的結(jié)構(gòu)改變. 由于各類結(jié)構(gòu)變異的復(fù)雜性, 以及真核生物基因組結(jié)構(gòu)固有的重復(fù)序列特性, 導(dǎo)致僅憑現(xiàn)有的算法很難完全正確地檢測出每種類型的變異. 特別地, 結(jié)構(gòu)變異往往會引起短序列的錯誤定位, 進(jìn)而導(dǎo)致小尺度的多態(tài)性預(yù)測錯誤, 因此通過提供可視化工具來方便研究者進(jìn)行人工判斷在結(jié)構(gòu)變異的檢測和識別中變得不可或缺[30]. 目前已有諸多的致力于展示、探究結(jié)構(gòu)變異的可視化工具, 如可以運行在各種操作系統(tǒng)上的針對結(jié)構(gòu)變異的集成軟件inGAP-sv[30], 不僅能夠以較低的假陽性概率檢測出復(fù)雜的變異類型, 而且提供了友好的可視化接口, 每種類型結(jié)構(gòu)變異特征模式進(jìn)行標(biāo)識, 通過右擊鼠標(biāo)可獲取關(guān)于特定讀長或結(jié)構(gòu)變異的所有信息(圖1(f)). 除此之外, inGAP-sv允許使用者根據(jù)自身的需求靈活設(shè)定顯示測序短序列的外型和連線的顏色, 以便更好地為探究結(jié)構(gòu)變異提供便利. inGAP-sv針對于結(jié)構(gòu)變異提供識別、可視化、注釋、人工編輯等一站式的服務(wù), 這種集可視化、挖掘為一體, 注重用戶體驗度的工具設(shè)計方式預(yù)示了未來的軟件開發(fā)走向.
2.2 分子結(jié)構(gòu)數(shù)據(jù)
結(jié)構(gòu)分子生物學(xué)是將物理和化學(xué)與生物學(xué)相連接的一門關(guān)鍵學(xué)科, 它主要聚焦于3D和4D復(fù)雜形狀和功能關(guān)系的研究, 熒光標(biāo)記、顯微觀察以及成像捕捉等技術(shù)為這一領(lǐng)域提供了豐富的視圖數(shù)據(jù), 而眾多服務(wù)于分子結(jié)構(gòu)的可視化工具在研究過程中起到了極大的作用. 以可視化軟件ParaView[44]為例, 它允許使用者通過定性和定量的技術(shù)手段對大量的數(shù)據(jù)集快速建立3D視圖模型, 從任意的角度對分子結(jié)構(gòu)進(jìn)行觀察. 由于蛋白質(zhì)等大分子結(jié)構(gòu)精細(xì)復(fù)雜, 其內(nèi)部的位置關(guān)系需要大量的計算資源, 因此3D視圖軟件往往比2D展示工具需要更加高效的算法設(shè)計, 高性能的計算設(shè)備以及高分辨率的展示屏幕. 為了增強(qiáng)對大規(guī)模數(shù)據(jù)集的處理能力, ParaView使用了分布式存儲計算資源, 可以運行在超級計算機(jī)上來對萬億次級的數(shù)據(jù)集進(jìn)行可視化分析. 除了ParaView, Amira[45], FluoRender[46]等工具都可以用來瀏覽分析 CT, MRI和顯微圖像, 以及實現(xiàn)對分子結(jié)構(gòu)的3D 還原.
這些以計算圖形學(xué)為基礎(chǔ)所開發(fā)的軟件工具雖然以更為精細(xì)準(zhǔn)確的展示方式取代了物理模型, 但是卻失去了與物理對象互動接觸時產(chǎn)生的固有的視覺豐富性, 而這種觸覺和本體感受往往為理解3D模型和進(jìn)行物理操作提供了關(guān)鍵的線索. 因此工業(yè)領(lǐng)域的物體分層制造逐漸被應(yīng)用在對分子結(jié)構(gòu)的還原上. 譬如最近清華大學(xué)與美國德雷克賽爾大學(xué)研究人員以混合膠、纖維蛋白和宮頸癌細(xì)胞為原材料, 在精準(zhǔn)的參數(shù)控制下, 利用一臺3D細(xì)胞打印機(jī)成功制造出了與自然腫瘤十分接近的腫瘤模型[47].
2.3 關(guān)系網(wǎng)絡(luò)
生物領(lǐng)域中由于生物分子互作、代謝途徑、調(diào)控作用和基因表達(dá)等現(xiàn)象的存在促使了各種各樣的關(guān)系網(wǎng)絡(luò)的存在, 隨著科學(xué)家們對這些過程的深入研究, 人們對其復(fù)雜度的了解也在不斷增加. 生物學(xué)家經(jīng)常需要對此類有相互作用關(guān)系的復(fù)雜系統(tǒng)和高維數(shù)據(jù)進(jìn)行分析, 因此產(chǎn)生了可以對各種網(wǎng)絡(luò)關(guān)系進(jìn)行可視化的軟件工具. 目前常用的復(fù)雜網(wǎng)絡(luò)可視化工具有Cytoscape[53]、R中的igraph包以及Perl中的 GraphViz包等. Cytoscape代表一類以點線模式為基礎(chǔ)進(jìn)行網(wǎng)絡(luò)可視化的工具, 它提供基礎(chǔ)的功能布局和網(wǎng)絡(luò)查詢功能, 并且能夠依據(jù)基本數(shù)據(jù)關(guān)系動態(tài)生成可視化網(wǎng)絡(luò). 其中因子、蛋白質(zhì)和分子使用點表示, 兩點間的交互關(guān)系用連接也就是邊進(jìn)行表示. 這種表示模式整合了分子間相互作用的網(wǎng)絡(luò), 適用任何分子系統(tǒng)的結(jié)構(gòu)和相互關(guān)系, 允許將蛋白質(zhì)、DNA 和其他對人類和生物有重要作用的分子數(shù)據(jù)庫關(guān)聯(lián)起來, 形成龐大的網(wǎng)絡(luò)結(jié)構(gòu). 此外, R中的NetBioV, Gephi[54](圖1(c))等軟件包為生物信息學(xué)者提供了對節(jié)點連接類型的網(wǎng)絡(luò)關(guān)系可視化開發(fā)工具.
隨著計算手段的進(jìn)一步發(fā)展, 網(wǎng)絡(luò)關(guān)系的3D可視化形式逐漸發(fā)展起來. BioLayout Express3D[55]可以用于在2D, 3D空間內(nèi)的可視化、分類歸納、探索和分析大型的網(wǎng)絡(luò)關(guān)系. 此軟件可對蛋白質(zhì)互作和序列相似性等關(guān)系形成的網(wǎng)絡(luò)進(jìn)行展示, 摒棄了傳統(tǒng)的對微陣列基因表達(dá)數(shù)據(jù)進(jìn)行統(tǒng)計學(xué)差異分析的方法, 轉(zhuǎn)而基于關(guān)聯(lián)度評估來定義表達(dá)量間的相似性, 從而形成數(shù)據(jù)分析的網(wǎng)絡(luò)范式 , 而且此工具基于 OpenCL并行框架編寫, 充分考慮到網(wǎng)絡(luò)關(guān)系3D可視化時所需的計算資源及圖形處理技術(shù)支持等問題. 在2D或3D環(huán)境中BioLayout Express3D提供以下3個功能; (1) 對圖像的移動、翻轉(zhuǎn)和縮放操作; (2) 節(jié)點、邊的個性化定制, 且允許設(shè)定文本標(biāo)簽以加強(qiáng)示意功能; (3) 背景顏色、3D燈光和投影、節(jié)點表面紋理等顯示內(nèi)容可進(jìn)行偏好設(shè)置, 以便更好地對可視化效果進(jìn)行渲染.
2.4 臨床數(shù)據(jù)
雖然電子病歷的使用范圍在不斷地擴(kuò)大, 但是不統(tǒng)一的標(biāo)準(zhǔn)、非結(jié)構(gòu)化的數(shù)據(jù)模式對研究者獲取疾病治療的真實資料造成了很大的障礙. 科學(xué)家們也開始著手處理這個問題, 以整合人類腫瘤數(shù)據(jù)為目標(biāo)的Flatiron就是其中一個代表, Flatiron搭建的基于云端的OncologyCloud[63]平臺聚合并轉(zhuǎn)換了來自多渠道的患者信息、藥單信息和患者恢復(fù)狀況等數(shù)據(jù), 并提供對數(shù)據(jù)集的歸納分析(圖1(d)), 由此醫(yī)生不僅能夠通過OncologyCloud看到同類患者的治療結(jié)果, 還能追蹤到以往不同治療方案所產(chǎn)生的臨床結(jié)果. 這樣一個提供全面的腫瘤數(shù)據(jù)收集、分析的系統(tǒng)也為腫瘤領(lǐng)域的基礎(chǔ)研究提供了極大的便利; “癌癥生命科學(xué)協(xié)會CEO圓桌會(the CEO Roundtable on Cancer)” 推出的PDS計劃(Project Data Sphere)[24], 嘗試打造一個癌癥三期臨床試驗數(shù)據(jù)共享和分析平臺, 數(shù)據(jù)集由賽諾菲、輝瑞以及阿斯利康等機(jī)構(gòu)共同提供, 這些數(shù)據(jù)集在去除患者個人信息后進(jìn)行了統(tǒng)一編號. 由于舊習(xí)慣及某些規(guī)章制度的影響, 大量醫(yī)療數(shù)據(jù)的整合和挖掘還需時間來逐步發(fā)展和規(guī)范. 但不可否認(rèn)的是, 將治療信息匯集在一起進(jìn)行分析展示對攻克疾病有著不可忽視的作用.
除了以上闡述的可視化工具, 根據(jù)不同的需求還存在著很多其他的可視化形式 (表 1~4). 例 如 , Chimera[50](圖1(b))將分子結(jié)構(gòu)和包括密度圖譜、超分子裝配、序列比對、軌跡在內(nèi)的相關(guān)數(shù)據(jù)集成起來, 產(chǎn)生高質(zhì)量的動畫效果; 由于不同質(zhì)譜儀所產(chǎn)生的蛋白質(zhì)譜初始數(shù)據(jù)格式不同, 而蛋白質(zhì)組學(xué)質(zhì)譜數(shù)據(jù)分析中統(tǒng)計學(xué)算法的實現(xiàn)過于復(fù)雜, 數(shù)據(jù)表示可視化、特征提取可視化及分類可視化對蛋白質(zhì)質(zhì)譜數(shù)據(jù)的分析十分重要; 除此之外, 還存在針對于SNP展示、表觀遺傳學(xué)所提供的核小體定位及組蛋白分析結(jié)果的可視化、微生物群落概況的可視化分析、海藻圖解等諸多專項專能的可視化軟件工具. 生物大數(shù)據(jù)可視化工具種類繁多, 為了更好地為挖掘有效信息做鋪墊, 其開發(fā)趨勢向具有統(tǒng)計分析功能的一站式集成工具靠攏. 此外, 未來的生物大數(shù)據(jù)可視化工具在交互性、美觀性、實用性方面會做得越來越好.
3 展望及未來的挑戰(zhàn)
生物數(shù)據(jù)有著自己的特點, 不僅數(shù)據(jù)規(guī)模龐大, 分布在不同的組織機(jī)構(gòu), 而且維度高, 數(shù)據(jù)不完整性和不確定性強(qiáng). 利用各種技術(shù)手段獲取數(shù)據(jù)本身不是目的, 將數(shù)據(jù)進(jìn)行可視化也不是目的, 真正的目的是探究生命的本質(zhì), 發(fā)現(xiàn)未知的規(guī)律, 為人類的健康幸福服務(wù), 因此挖掘隱藏在數(shù)據(jù)背后的涵義成為生物信息學(xué)家們一致的目標(biāo). 充分了解目前在分析生物數(shù)據(jù)的道路上存在的一些挑戰(zhàn)及潛在的解決方案具有重要的意義.
首先, 現(xiàn)有的海量生物數(shù)據(jù)中存在著大量的冗余和噪音, 生產(chǎn)數(shù)據(jù)的組織機(jī)構(gòu)可以對原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理和質(zhì)控. 例如, 可將數(shù)據(jù)分門別類, 使用統(tǒng)一的數(shù)據(jù)存儲標(biāo)準(zhǔn)、規(guī)格等. 合理的預(yù)處理手段可在一定程度上降低數(shù)據(jù)規(guī)模及復(fù)雜度, 節(jié)省存儲空間及數(shù)據(jù)傳輸成本, 同時也會提高數(shù)據(jù)的易讀性, 減少研究者對數(shù)據(jù)進(jìn)行相同處理所需要的計算時間和資源等.
其次, 由于產(chǎn)出的數(shù)據(jù)往往分布在不同的研究機(jī)構(gòu), 如何實現(xiàn)海量數(shù)據(jù)的共享是研究人員們普遍面臨的一大挑戰(zhàn). 現(xiàn)有的分布式注釋系統(tǒng)(DAS)[69]提供了一個潛在的解決方案. 它定義了一份用來交換基因或蛋白質(zhì)序列及其注釋的通信協(xié)議, 在此協(xié)議下, 基于網(wǎng)絡(luò)的可視化系統(tǒng)可實現(xiàn)同一界面下對遠(yuǎn)程異地分布注釋數(shù)據(jù)的可視化.
再者, 生物數(shù)據(jù)特有的復(fù)雜多樣性給數(shù)據(jù)挖掘帶來很大困難, 因此在對大批量數(shù)據(jù)進(jìn)行可視化前, 數(shù)據(jù)投影及各種降低維度的技術(shù)被廣泛采用. 與此同時, 人類視覺的敏銳性、使用者面對展示界面時的推斷能力和信息搜索能力等因素都需要加以考慮. 對生物大數(shù)據(jù)進(jìn)行可視化時, 需要記住目標(biāo)使用者是人, 目的是信息的展示和探索, 而非一味地追求視覺美觀. 在開發(fā)生物大數(shù)據(jù)的可視化工具時, 需要盡可能提高軟件或平臺的易用性, 充分考慮用戶的體驗度, 提供友好的交互界面.
此外, 在有限的時間內(nèi)對大規(guī)模數(shù)據(jù)進(jìn)行處理及可視化是最基本的要求. 除了通過使用優(yōu)化算法對數(shù)據(jù)規(guī)模和可視化效率進(jìn)行平衡外, 還可以引入并行處理技術(shù). 在對若干數(shù)據(jù)集進(jìn)行可視化時, 可將查詢處理分散在多個并行節(jié)點上, 以此縮短運行時間, 加快可視化的速度.
除了前述內(nèi)容, 用于傳輸生物數(shù)據(jù)的網(wǎng)絡(luò)基礎(chǔ)設(shè)施的建設(shè)、數(shù)據(jù)的存儲方式等諸多方面都存在著一定的困難. 雖然在分析生物大數(shù)據(jù)的道路上面臨著諸多挑戰(zhàn), 但是這些暫時的困難并不能阻止科學(xué)家們前進(jìn)的腳步, 生命科學(xué)的神秘面紗最終將會在一代代科研人員的努力下被完全揭開.——論文作者:周琳① , 孔雷② , 趙方慶①*