發(fā)布時(shí)間:所屬分類:醫(yī)學(xué)論文瀏覽:1次
摘 要: 摘 要: 現(xiàn)有知識圖譜構(gòu)建技術(shù)在醫(yī)學(xué)領(lǐng)域中普遍存在效率低、限制多、拓展性差等問題。針對醫(yī)療數(shù)據(jù)跨語種、專業(yè)性強(qiáng)、結(jié)構(gòu)復(fù)雜等特點(diǎn),對構(gòu)建醫(yī)學(xué)知識圖譜的關(guān)鍵技術(shù)進(jìn)行了自底向上的全面解析,涵蓋了醫(yī)學(xué)知識表示、抽
摘 要: 現(xiàn)有知識圖譜構(gòu)建技術(shù)在醫(yī)學(xué)領(lǐng)域中普遍存在效率低、限制多、拓展性差等問題。針對醫(yī)療數(shù)據(jù)跨語種、專業(yè)性強(qiáng)、結(jié)構(gòu)復(fù)雜等特點(diǎn),對構(gòu)建醫(yī)學(xué)知識圖譜的關(guān)鍵技術(shù)進(jìn)行了自底向上的全面解析,涵蓋了醫(yī)學(xué)知識表示、抽取、融合和推理以及質(zhì)量評估五部分內(nèi)容; 此外,還介紹了醫(yī)學(xué)知識圖譜在信息檢索、知識問答、智能診斷等醫(yī)療服務(wù)中的應(yīng)用現(xiàn)狀。最后,結(jié)合當(dāng)前醫(yī)學(xué)知識圖譜構(gòu)建技術(shù)面臨的重大挑戰(zhàn)和關(guān)鍵問題,對其發(fā)展前景進(jìn)行了展望。
關(guān)鍵詞: 知識圖譜; 知識獲取; 知識融合; 知識推理; 自然語言處理
自 1998 年萬維網(wǎng)之父 Berners-Lee 提出語義網(wǎng),人們不斷在網(wǎng)絡(luò)等電子載體上表達(dá)和修正對客觀世界的理解,形成了一個(gè)概念標(biāo)準(zhǔn)化的過程;同時(shí)隨著鏈接開放數(shù)據(jù)( linked open data)的規(guī)模激增,互聯(lián)網(wǎng)上散落了越來越多的知識元數(shù)據(jù)。知識圖譜就是在這樣的大數(shù)據(jù)背景下產(chǎn)生的一種知識表示和管理的方式,強(qiáng)調(diào)語義檢索能力。近年來,在人工智能的蓬勃發(fā)展下,知識圖譜涉及到的知識抽取、表示、融合、推理、問答等關(guān)鍵問題得到一定程度的解決和突破,知識圖譜成為知識服務(wù)領(lǐng)域的一個(gè)新熱點(diǎn),受到國內(nèi)外學(xué)者和工業(yè)界廣泛關(guān)注。
知識圖譜的前身是語義網(wǎng),它吸收了語義網(wǎng)、本體在知識組織和表達(dá)方面的理念,使得知識更易于在計(jì)算機(jī)之間和計(jì)算機(jī)與人之間交換、流通和加工。具體來說,一個(gè)知識圖譜由模式圖、數(shù)據(jù)圖及兩者之間的關(guān)系組成,模式圖對人類知識領(lǐng)域的概念層面進(jìn)行描述,強(qiáng)調(diào)概念及概念關(guān)系的形式化表達(dá),模式圖中節(jié)點(diǎn)是概念實(shí)體,邊是概念間的語義關(guān)系,如 part-of;數(shù)據(jù)圖對物理世界層面進(jìn)行描述,強(qiáng)調(diào)一系列客觀事實(shí),數(shù)據(jù)圖中的節(jié)點(diǎn)有模式圖中的概念實(shí)體和描述性字符串兩類,數(shù)據(jù)圖中的邊是具體事實(shí)的語義描述;模式圖和數(shù)據(jù)圖之間的關(guān)系是指數(shù)據(jù)圖的實(shí)例與模式圖的概念之間的對應(yīng),或者說模式圖是數(shù)據(jù)圖的模具。著名的通用知識圖譜中有谷歌的 Knowledge Graph [1]、搜 狗 知 立 方 ( https: / /www. sogou. com/)、YAGO[2]、 DBpedia [3]等,它們具有規(guī)模大、領(lǐng)域?qū)挕罅砍WR等特點(diǎn)。目前,醫(yī)學(xué)是知識圖譜應(yīng)用最廣的垂直領(lǐng)域之一,如上海曙光醫(yī)院構(gòu)建的中醫(yī)藥知識圖譜[4]、本體醫(yī)療知識庫 SNOMED-CT (http: / /www. snomed. org /)、IBM Watson Health ( http: / /www- 935. ibm. com/industries/hea lthcare /index. html) 等應(yīng)用近兩年也開始進(jìn)入人們視線。
知識圖譜是智能大數(shù)據(jù)的前沿研究問題,它以獨(dú)有的技術(shù)優(yōu)勢順應(yīng)了信息化時(shí)代的發(fā)展,比如漸增式的數(shù)據(jù)模式設(shè)計(jì),良好的數(shù)據(jù)集成,現(xiàn)有 RDF、OWL 等標(biāo)準(zhǔn)支持,語義搜索和知識推理能力等。在醫(yī)學(xué)領(lǐng)域,隨著區(qū)域衛(wèi)生信息化及醫(yī)療信息系統(tǒng)的發(fā)展,積累了海量的醫(yī)學(xué)數(shù)據(jù),如何從這些數(shù)據(jù)中提煉信息并加以管理、共享及應(yīng)用,是推進(jìn)醫(yī)學(xué)智能化的關(guān)鍵問題,是醫(yī)學(xué)知識檢索、臨床診斷、醫(yī)療質(zhì)量管理、電子病歷及健康檔案智能化處理的基礎(chǔ)。
1 醫(yī)學(xué)知識圖譜構(gòu)建
本文將醫(yī)學(xué)知識圖譜構(gòu)建技術(shù)歸納為五部分,即醫(yī)學(xué)知識的表示、抽取、融合、推理以及質(zhì)量評估。通過從大量的結(jié)構(gòu)化或非結(jié)構(gòu)化的醫(yī)學(xué)數(shù)據(jù)中提取出實(shí)體、關(guān)系、屬性等知識圖譜的組成元素,選擇合理高效的方式存入知識庫。醫(yī)學(xué)知識融合對醫(yī)學(xué)知識庫內(nèi)容進(jìn)行消歧和鏈接,增強(qiáng)知識庫內(nèi)部的邏輯性和表達(dá)能力,并通過人工或自動的方式為醫(yī)學(xué)知識圖譜更新舊知識或補(bǔ)充新知識;借助知識推理,推斷出缺失事實(shí),自動完成疾病診斷與治療;質(zhì)量評估則是保障數(shù)據(jù)的重要手段,提高醫(yī)學(xué)知識圖譜的可信度和準(zhǔn)確度。
1. 1 醫(yī)學(xué)知識表示知識表示
是為描述世界所做的一組約定,是知識符號化、形式化、模式化的過程[5],主要研究計(jì)算機(jī)存儲知識的方法,其表示方式影響系統(tǒng)的知識獲取、存儲及運(yùn)用的效率。然而醫(yī)學(xué)數(shù)據(jù)種類繁雜、存儲方式不一、電子病歷格式和標(biāo)準(zhǔn)不同、經(jīng)常涉及交叉領(lǐng)域等特點(diǎn),導(dǎo)致醫(yī)學(xué)領(lǐng)域與其他領(lǐng)域在知識表示方面有所差異,同時(shí)也給醫(yī)學(xué)領(lǐng)域的知識表示帶來極大的挑戰(zhàn)。
早期醫(yī)療知識庫運(yùn)用的知識表示方法有謂詞邏輯表示法、產(chǎn)生式表示法、框架表示法、語義網(wǎng)表示法等,比如 SNOMEDCT、早期的 MYCIN 系統(tǒng)[6]、大腸桿菌數(shù)據(jù)庫 EcoCyc [7]等。隨著知識圖譜中知識增長、關(guān)系復(fù)雜化,這些方法由于表示能力有限且缺乏靈活性,不再作為主要的知識表示方法,更多是作為醫(yī)學(xué)知識表示的輔助或補(bǔ)充。
本體表示法以網(wǎng)絡(luò)的形式表示知識,即以(實(shí)體 1,關(guān)系,實(shí)體 2)三元組來表示相關(guān)聯(lián)的兩個(gè)節(jié)點(diǎn)(實(shí)體),在知識圖譜提出之后逐漸得到認(rèn)可。它借鑒了語義網(wǎng)表示法但又有所區(qū)別,本體關(guān)注的是實(shí)體固有特征,比后者更聚焦、更深入,因而也具有更大的發(fā)展?jié)摿Α6倔w的描述語言也多種多樣,主要有 RDF 和 RDF-S、DAML、OWL 等。使用本體表示醫(yī)學(xué)術(shù)語可以提升數(shù)據(jù)整合能力,建立強(qiáng)大、可互操作的醫(yī)療信息系統(tǒng);滿足重用共享傳輸醫(yī)療數(shù)據(jù)的需求;提供基于不同語義標(biāo)準(zhǔn)的統(tǒng)計(jì)聚合。醫(yī)學(xué)領(lǐng)域本體的構(gòu)建需要深入分析醫(yī)學(xué)術(shù)語的結(jié)構(gòu)和概念,才能將晦澀甚至是跨語言的醫(yī)學(xué)知識有效地表達(dá)出來。目前的醫(yī)學(xué)知識本體庫有醫(yī)學(xué)概念知識庫 LinkBase [8]、 TAMBIS 本體庫 (TaO) [9]等。
知識圖譜的節(jié)點(diǎn)個(gè)數(shù)影響著網(wǎng)絡(luò)的結(jié)構(gòu)復(fù)雜度及推理的效率和難度。知識表示學(xué)習(xí)借助機(jī)器學(xué)習(xí),將研究對象的語義信息表示為稠密低維向量,有效解決數(shù)據(jù)稀疏問題,從而提升知識融合和推理性能[10]。低維向量表示是一種分布式表示 (distributed representation) [11],它模仿人腦中使用多個(gè)神經(jīng)元存儲對象的工作機(jī)制,使用多維度向量表示對象的語義信息。
知識表示學(xué)習(xí)中的代表模型有結(jié)構(gòu)化表示法( structure embedding,SE) [12]、單層神經(jīng)網(wǎng)絡(luò)模型 ( single layer model, SLM) [13]、隱 變 量 模 型 ( latent factor model,LFM) [14]、基 于 TransE[15]的翻譯模型等。這些模型考慮實(shí)體間的協(xié)同性和計(jì)算開銷,用向量表示實(shí)體,再對表示實(shí)體的向量或關(guān)系進(jìn)行相應(yīng)的矩陣變換,提出評價(jià)函數(shù)來衡量實(shí)體間的相關(guān)性,并為之后的知識補(bǔ)全和推理提供重要參考。Kleyko 等人[16]證明了分布式表示方法表示醫(yī)學(xué)圖像進(jìn)行分類,精度能夠與最佳經(jīng)典方法相同;Henriksson 等人[17] 對比使用多種知識表示方法表示 EHR 中四類記錄:診斷記錄、藥物使用記錄、治療方法和病程記錄。顯然,知識表示學(xué)習(xí)無疑為醫(yī)學(xué)知識圖譜的知識表示開辟了新思路。
1. 2 醫(yī)學(xué)知識抽取
醫(yī)學(xué)知識圖譜的構(gòu)建主要是從非結(jié)構(gòu)化數(shù)據(jù)中人工或自動地提取實(shí)體、關(guān)系和屬性。人工提取是通過專家依據(jù)一定規(guī)則收集并整理相關(guān)信息提取知識,目前通過人工構(gòu)建的醫(yī)學(xué)知識庫包括臨床醫(yī)學(xué)知識庫[18]、SNOMED-CT、ICD-10 等;自動提取則是利用機(jī)器學(xué)習(xí)、人工智能、數(shù)據(jù)挖掘等信息抽取技術(shù),從數(shù)據(jù)源中自動提取出知識圖譜的基本組成元素,自動構(gòu)建醫(yī)學(xué)知識庫的典型例子有一體化醫(yī)學(xué)語言系統(tǒng) UMLS [19]。人工提取的代價(jià)太大,知識的自動提取是目前重點(diǎn)的研究方向,也是將來構(gòu)建知識圖譜的趨勢。本節(jié)主要介紹如何自動從數(shù)據(jù)源中抽取知識和信息,包括實(shí)體、關(guān)系和屬性抽取。
1. 2. 1 實(shí)體抽取
識別文本中的生物醫(yī)學(xué)實(shí)體,其目的在于通過識別關(guān)鍵概念進(jìn)一步提取關(guān)系和其他信息,并將識別的概念以標(biāo)準(zhǔn)化的形式表示出來。醫(yī)學(xué)領(lǐng)域的實(shí)體抽取是從醫(yī)學(xué)數(shù)據(jù)源中提取出特定類型的命名實(shí)體,將醫(yī)學(xué)實(shí)體的抽取方法歸納為三類。
1)基于醫(yī)學(xué)詞典及規(guī)則的方法
該方法通過人工定義規(guī)則和模式匹配生成詞典或使用現(xiàn)有醫(yī)學(xué)詞典從語料中抽取醫(yī)學(xué)實(shí)體,它是具有挑戰(zhàn)性的。首先,目前沒有完整的字典囊括所有類型的生物命名實(shí)體,所以簡單的文本匹配算法是不足以應(yīng)對實(shí)體識別的;其次,相同的單詞或短語其意義可根據(jù)上下文的改變而指代不同的物體 (如鐵蛋白可以是生物物質(zhì)或?qū)嶒?yàn)室測試方法);再次,許多生物或藥物實(shí)體同時(shí)擁有多個(gè)名稱(如 PTEN 和 MMAC1 指代相同的基因)。因此,基于醫(yī)學(xué)詞典及規(guī)則只在最早期被廣泛使用。Friedman 等人[20]通過自定義語義模式和語法來識別電子病歷中的醫(yī)學(xué)信息。Wu 等人[21]使用了 CHV[22]和 SNOMEDCT 兩個(gè)醫(yī)學(xué)詞典得到了不錯(cuò)的實(shí)驗(yàn)結(jié)果,雖然該方法能達(dá)到很高的準(zhǔn)確度,但無法徹底解決上述問題,也過分依賴專家編寫的詞典和規(guī)則,無法適應(yīng)醫(yī)學(xué)領(lǐng)域詞匯不斷涌現(xiàn)的現(xiàn)實(shí)情況。
2)基于醫(yī)學(xué)數(shù)據(jù)源和數(shù)學(xué)模型的機(jī)器學(xué)習(xí)方法
該方法通過使用統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)方法,結(jié)合醫(yī)學(xué)數(shù)據(jù)源的特點(diǎn)訓(xùn)練模型,進(jìn)行實(shí)體識別。在英文醫(yī)學(xué)實(shí)體抽取方面,最具代表性的標(biāo)注語料是 i2b2 2010 [23] 發(fā)布的英文電子病歷標(biāo)注語料,另外還有 SemEval( http: / /www. senseval. org /)、NTCIR( http: / /research. nii. ac. jp /ntcir) 等評測,以及 NCBI [24] 語料庫等,都提供了英文醫(yī)學(xué)實(shí)體標(biāo)注數(shù)據(jù)。
目前常用方法有隱馬爾可夫模型(HMM)、條件隨機(jī)場模型(CRF)、支持向量機(jī)模型( SVM) 等。Kazama 等人[25] 使用 SVM 模型進(jìn)行生物醫(yī)學(xué)命名實(shí)體識別,引入了 POS、詞緩存、無監(jiān)督訓(xùn)練得到的 HMM 狀態(tài)等特征,該方法在 GENIA 語料庫中準(zhǔn)確率高于最大熵標(biāo)記方法,并能較高效地應(yīng)用于大規(guī)模語料集。Zhou 等人[26]通過一系列特征訓(xùn)練 HMM 模型,包括詞的構(gòu)成特征、形態(tài)特征、POS、語義觸發(fā)、文獻(xiàn)內(nèi)名稱別名等,其識別 準(zhǔn) 確 率 達(dá) 66. 5% ,在 GENIA 語料庫中的召回率達(dá) 66. 6% 。綜合以上方法,Chen 等人[27]利用 MedLEE 系統(tǒng)來識別與生物醫(yī)學(xué)文本中與表型信息相對應(yīng)的短語,該系統(tǒng)使用自然語言技術(shù)來識別期刊文章摘要中存在的表型短語。生物醫(yī)學(xué)的實(shí)體識別常常可使用較小的表型相關(guān)術(shù)語的知識庫。文獻(xiàn)[28]自動導(dǎo)入與語義類別相關(guān)的數(shù)千個(gè) UMLS 術(shù)語,如細(xì)胞體功能和細(xì)胞功能障礙以及哺乳動物本體中的幾百個(gè)術(shù)語,并手動添加了幾百個(gè)術(shù)語,實(shí)驗(yàn)結(jié)果表明,其實(shí)體識別準(zhǔn)確率達(dá) 64. 0% ,召回率達(dá) 77. 1% 。雖然結(jié)果不高,但為之后的研究人員提供了一條可行的思路。
在醫(yī)學(xué)領(lǐng)域,命名實(shí)體識別的痛點(diǎn)在于數(shù)據(jù)質(zhì)量的良莠不齊以及人工標(biāo)注的專業(yè)性要求高。目前有專門針對如何降低對于數(shù)據(jù)標(biāo)注依賴的研究,其原理主要是利用海量未標(biāo)注數(shù)據(jù)持續(xù)提升模型性能,從小樣本中進(jìn)行學(xué)習(xí),自我探索逐步學(xué)習(xí)新知識,形成一個(gè)交互學(xué)習(xí)過程。
3)深度學(xué)習(xí)方法
深度學(xué)習(xí)近年來開始被廣泛應(yīng)用于命名實(shí)體識別,最具代表性的模型是 2011 年 Collobert 等人[29]提出的一個(gè)深層神經(jīng)網(wǎng)絡(luò)模型,其效果和性能超過了傳統(tǒng)算法。Sahu 等人[30]所提出的 CNN 與 RNN 級聯(lián)的方法生成詞嵌入特征,其結(jié)果優(yōu)于目前最好的算法且不需要過多的特征工程。
在醫(yī)學(xué)領(lǐng)域,Wei 等人[31] 基于 CRF 和雙向 RNN 生成特征,再使用 SVM 進(jìn)行疾病命名實(shí)體識別。目前醫(yī)學(xué)信息命名實(shí)體識別任務(wù)中最主流的深度學(xué)習(xí)模型是 BiLSTM-CRF 模型, Jagannatha 等人[32] 對比了 CRF、BiLSTM、BiLSTM-CRF 三種模型以及一些它們的改進(jìn)模型在英文電子病歷命名實(shí)體識別的效果,實(shí)驗(yàn)結(jié)果表明所有基于 LSTM 的模型都比 CRF 效果更好,并且 BiLSTM 結(jié) 合 CRF 模型能夠進(jìn)一步提高評測結(jié)果 2% ~ 5% 的準(zhǔn)確率。
1. 2. 2 實(shí)體抽取
本文將醫(yī)學(xué)實(shí)體關(guān)系抽取歸結(jié)為兩類:同類型醫(yī)學(xué)實(shí)體層級關(guān)系抽取,如疾病的腸胃病—慢性胃炎等;不同類型關(guān)系抽取,如疾病—癥狀等。
1)同類型醫(yī)學(xué)實(shí)體層級關(guān)系抽取
同類型醫(yī)學(xué)實(shí)體層級關(guān)系相對較為單一,主要是 is-a 和part-of 關(guān)系。由于醫(yī)學(xué)有其嚴(yán)謹(jǐn)?shù)膶W(xué)科體系和行業(yè)規(guī)范,此類關(guān)系往往在醫(yī)學(xué)詞典、百科、信息標(biāo)準(zhǔn)中進(jìn)行。
ICD-10 [33]、SNOMED 等醫(yī)療詞典或醫(yī)療數(shù)據(jù)庫重點(diǎn)關(guān)注醫(yī)學(xué)專業(yè)術(shù)語、受限詞匯的分類和概念標(biāo)準(zhǔn)化工作,權(quán)威且涵蓋范圍廣,在數(shù)量和質(zhì)量上都有所保障,被醫(yī)療行業(yè)廣泛認(rèn)可,是抽取層級間實(shí)體關(guān)系的首選來源。針對具體的醫(yī)療詞典、知識庫提供的數(shù)據(jù)格式和開放 API 接口,可通過爬蟲、正則表達(dá)式、D2R 映射等技術(shù)從中抽取分層結(jié)構(gòu),抽取三元組來匹配、添加上下位關(guān)系。
2)不同類型醫(yī)學(xué)實(shí)體關(guān)系抽取
不同類型醫(yī)學(xué)實(shí)體間的語義關(guān)系識別大致基于兩大不同數(shù)據(jù)源而實(shí)現(xiàn),一是百科或其他結(jié)構(gòu)化數(shù)據(jù)源,如 MEDLINE、 UMLS 等;二是半結(jié)構(gòu)化的電子病歷。醫(yī)學(xué)實(shí)體類型相對有限 (主要是疾病、癥狀、治療、藥品等),目前通常在兩個(gè)實(shí)體間預(yù)定義好要抽取的關(guān)系類型,再將抽取任務(wù)轉(zhuǎn)換為分類問題來處理。如何預(yù)定義實(shí)體關(guān)系目前尚未有統(tǒng)一的標(biāo)準(zhǔn),這取決于醫(yī)學(xué)知識圖譜構(gòu)建過程中模式圖的設(shè)置、實(shí)體識別情況、語料來源、構(gòu)建目的及應(yīng)用場景等,如在 i2b2 2010 評測中,將電子病歷中的實(shí)體關(guān)系分成了醫(yī)療問題與醫(yī)療問題、醫(yī)療問題與治療、醫(yī)療問題與檢查三類。
Uzuner 等人[34]在句子層面抽取了六類醫(yī)療實(shí)體關(guān)系,使用實(shí)體順序和距離、鏈接語法和詞匯特征來訓(xùn)練六個(gè) SVM 分類器,通過對比實(shí)驗(yàn),指出詞匯特征在實(shí)體關(guān)系識別中的重要作用。在此基礎(chǔ)上,基于 MEDLINE 摘要,F(xiàn)runza 等人[35] 抽取了疾病、治療間的三種關(guān)系,并引入 UMLS 生物和醫(yī)療實(shí)體特征,取得了不錯(cuò)的實(shí)驗(yàn)結(jié)果。而 Abacha 等人[36]在同樣的任務(wù)中使用人工模板和 SVM 的混合模型,取得了 94. 07% 的平均 F 值。該研究指出,在樣本數(shù)較少時(shí),模板匹配方法起主要作用,而面向海量樣本時(shí)則 SVM 起主要作用。
此外,在關(guān)系識別的分類方法對比研究中,De Bruijn 等人[37]在 i2b2 2010 評測中對比研究了有監(jiān)督分類和基于 selftraining 的半監(jiān)督分類的表現(xiàn),表明 UMLS、依存句法分析結(jié)果和未標(biāo)記數(shù)據(jù)對關(guān)系識別有著顯著影響。除了預(yù)定義關(guān)系然后轉(zhuǎn)換為分類任務(wù)來處理的方法,還有少量研究采用了模板匹配、統(tǒng)計(jì)共現(xiàn)等方法來抽取關(guān)系,如在 MEDLINE 摘要中通過統(tǒng)計(jì)基因名的共現(xiàn)來提取關(guān)系,并根據(jù)共現(xiàn)矩陣生成了關(guān)系圖[38],或在 MEDLINE 摘要中通過語法依賴樹進(jìn)行圖的模式匹配,進(jìn)而抽取因果關(guān)系[39]。
醫(yī)學(xué)相關(guān)知識推薦閱讀:醫(yī)療技術(shù)方面論文有哪些征稿期刊
從事醫(yī)學(xué)領(lǐng)域工作的技術(shù)人員,無論是研究項(xiàng)目還是晉升職稱都會要求發(fā)表論文的,而且這一領(lǐng)域比其他行業(yè)要求更為嚴(yán)格,為此很多想要發(fā)表醫(yī)療技術(shù)論文的作者,對于期刊的選擇了解的并不多,哪類期刊能征收這方面的論文,大家是比較困惑的,為此,小編在這里給大家推薦了幾本合適的刊物,希望對于需要發(fā)表論文的作者提供幫助。