研究領域


 

生物資訊組

語意計算

許承瑜

語意計算處理技術主要是開發一個技術,藉由它可以讓使用者利用語意去創建、操作和檢索任何計算後的內容,這個“內容”可以是任何東西,如視頻、音頻、文字、軟體、硬體、網絡、環境或過程等。

我們的研究主要是以語意計算應用於雲端計算和生物醫學應用。將網際網路作為一個單一的平台,其中協作網路的計畫是為每一個普通人提供個人化的網絡,使得(1)人與人互相在網路相連接,都有平等的網路所有權;(2)每個人都能平等的連結網路並在其上創建包括資訊和應用工具等資源;以及(3)每個人都同樣有能力把其提供之應用工具轉成一個商業服務。其中,“每個人”的定義包含任何個人、公司、組織或團體,包括那些不是計算機科學家的普通人。

這計畫的組成中一部分是提供免費的網站ID(WebID)和網絡空間(Folio)。利用WebID使用者可以輕鬆地建立自己的“網絡”:一個內部相互連接的空間,每個人都可以負責提供不同的“產品”給使用者使用,其中可以訂有有收費等商業模式。這些商品包括數據、資訊、知識、專家、工具、連接和應用程式等。語意計算的協作網络協會(ICN)負責統整和支持協作互聯網的OS基礎設施,尤其是Web服務和問題解決。協作網路連接所有生物醫學服務,使用者可以用自然語言(NL)提出問題,協作網路可幫忙學找匹配的服務來解決使用者的問題。

 

系統生物學

吳家樂

系統生物學(systems biology)乃近年在生物資訊學領域中新興起的跨學門研究領域。從過去只能對單一基因或蛋白質的研究,但由於生物科技快速發展,如微晶片及蛋白質體技術的出現,累積了大量的資料,所以時至今日生物學家可從宏觀(即系統)的層面探討分子生物系統的議題。也就是說現今的資料容許也需要同時分析數個或多個基因或蛋白質。由於各成員並非獨立,乃彼此相互作用,故此可以在不同的生物系統層面產生新的生物現象。系統生物學的研究藉由整合多個領域,如分子生物學、電腦科學、數學、物理及化學等來探討生物現象,從細胞、組織、器官、族群或生態系統。

由於高通量實驗的發展,獲得了大量生物物種的生物資料,如基因體、轉譯體、蛋白質體及代謝體等。新的演算化及數學模型需要發展來描述生物系統的動態行為,並把預測結果(假設)與實驗資料比較。

蛋白質相亙作用的研究

對蛋白質相亙作用(PPI)的探討乃是研究系統生物學其中一種的方法或途徑。蛋白質由所謂蛋白質功能區域(domain)所組成,故此對蛋白質功能區域與蛋白質區域之相亙作用(DDI)進行大規模的研究,可加深對癌蛋白(cancer protein)與癌蛋白之相亙作用的了解,對生物醫學的研究有所貢獻。

癌症相關基因的研究

微陣列實驗可以一次記錄上萬個基因的表達,並可經由資料分析,從中篩選差異性表達基因(DEGs)。本研究以R及Bioconductor篩選前列腺癌微陣列的差異性表達基因,再利用癌症相關基因(TAG)、微型核糖核酸(miRNA)調控的PPI路徑(ncRNAppi)及與疾病相關的微型核糖核酸(miR2Disease)等三個資料庫,探討調控DEGs之相關miRNAs及其與人類癌症之關係。

病原菌與宿主的交互作用的研究

植物系統(如阿拉伯芥)常受到各種細菌性病原體的感染,包括病毒、細菌、真菌、線蟲及其它害蟲。本研究運用微陣列實驗數據,探討十字花科黑腐病菌(Xanthomonas campestris pv. campestris,Xcc)及農桿菌(agrobacterium)感染阿拉伯芥的差異性表達基因。

生物網路是由一些功能相近的模組成,稱為網路基序(network motif)。這些基序在許多分子生物過程中扮演著相當重要的角式。常見的網路基序有前饋迴路(feed-forward loop)、single input module及bi-fan等。這些網路基序皆具有重要的動力學行為(dynamical properties)。此研究整合微型核糖核酸、差異性表達基因及網路基序,建立微型核糖核酸調控的網路基序。這對病原菌攻擊宿主的交互作用之分子機制會有進一步的了解。

網路基序的研究

在後基因體時代,系統層面的分析方法對生物網路及基因調控網路之研究會有所幫助。利用圖論之方法,對蛋白質相亙作用網路進行全域分析及探討。從而找出相亙作用之蛋白質及網路之子結構。對於一些功能未知之蛋白質,可透過其所屬之蛋白質子網路(sub-network)內功能已知之蛋白質進行預測。這些被預測之蛋白質對基因調控網路的影響,將會在基因調控網路預測時被考慮。這研究有如下幾點目的:1)大規模收集生物分子之調控關係資料、2)發展一演算法辨識多種生物網路中主要的數種網路基序及3)探討基序與基序的交互作用。

收集大規模生物調控關係資料可以作為未來進行多項生物網路上的研究基礎。透過基序與基序交互作用的資訊可建立生物網路全域架構,這乃是一種由下而上建構的方式。由於基序具有功能上專一性的特色,在演化上這些模組可能具有保守性(conserved)的性質,可探討多種高等動物的網路基序保守性。

 

深度學習

蕭振緯

人工智慧一詞由約翰·麥卡錫(John McCarthy)於 1956 年夏天的達特茅斯會議上訂定,數十年來經歷了幾波熱潮及陰暗的低潮。2016 年被認為是人工智慧取得了長足進步的一年,尤其是媒體大幅報導以深度學習為核心技術的 AlphaGo而引起人們的關注。此後,深度學習成為學術界和工業界的熱門話題。其實,機器學習可視為人工智慧的一個分支,而深度學習又是其中一種機器學習,並已成功創造出許多不同應用且廣受歡迎。如今,人工智慧、機器學習與深度學習等名詞經常被新聞媒體交互引用。類神經網路起源於 1943 年神經生理學家沃倫·麥卡洛克(Warren McCulloch)和數學家沃爾特·皮茨(Walter Pitts)所提出的計算模型。傑佛瑞·亨頓(Geoffrey E. Hinton),西蒙·奧辛德羅(Simon Osindero)和怡惠·德(Yee-Whye Teh)於2006 年發表其突破性研究成果後,以「深度學習」重新命名成為類神經網路的後繼者,並快速廣為流行。除了增加類神經網路隱藏層數及更複雜的結構以符合其「深度」意涵外,深度學習模型之美在於其學習能力可直接從原始低階資料開始,而非得依賴人為設計產生的特徵屬性。深度學習其實是一類演算法的集合總稱,包含許多不同數學模式,其執行效能令人振奮又前景看好,且可應用于真實生活中的許多問題。截至目前為止,在研究文獻中與互聯網上已可搜尋各式各樣令人驚歎又新奇的應用成果。在生物資訊學、生物醫學工程及相關領域,每天所累積的資料量以文字、序列、圖像、視頻、音訊等多元形式產生,並呈爆炸性的速度增長。這些大量資料需要進行處理及分析,以便預測現象、模擬結果,甚至生成新知識。現有的方法在面對此嚴峻挑戰時可能有其局限性。例如,許多關於利用視網膜影像辨識出微動脈瘤的研究工作已發表於文獻期刊。過去的作法多仰賴傳統影像處理思維進行轉換、濾波及形態學分析,以擷取數個特徵值進行分類。近幾年,已有不少影像處理及分析的研究利用深度學習的方法,並獲得非常令人印象深刻的成果,其特徵值則是直接由原始低階資料學習產生,不再需要人為預設特徵值。深度學習的普及化必定推動即將到來的人工智慧革命,使我們日常生活中享受其帶來的助益。

 

體學

張培均

體學(Omics)是一個生物科學中跨領域的學科,主要在於整合生物數據和推斷內部的相互關係。體學包括基因體,蛋白質體,轉錄體,代謝體,組織體,相互作用體等。體學研究的核心目標是:1)識別和註釋完整生物的基因體,蛋白質體,轉錄體,代謝組體,組織體及相互作用體中的各個物件;2)通過實驗觀察的或人工的定義的方式,找到各組體中物件的交互作用關係;3)將基因,蛋白質和配體等信息對應到不同的生物狀態;4)將某一物件在特定生物狀態下的網絡結構呈現出來;5)整合的各種體學領域。

舉例說明,在癌症基因體學,藉由組織微陣列實驗,獲得各種不同癌症亞型的基因表現數據,藉以研究人類癌症基因組的全部基因和突變對癌細胞發展的影響,以及其從一個局部癌症發展成轉移癌的關係。這些基因相互作用網路關係可以視覺化方式顯示,由其中所獲得之線所可應用於抗癌藥物設計。

疾病共病性

陳玉菁

共病性是指兩個不同的疾病發生在同一個體身上的機率比隨機發生機率要高,且有統計上的意義。疾病的共病性議題在現今的社會越趨重要,因為共病性研究結果會影響疾病檢測方向、診斷情形、治療方法甚至是政府健康公共決策的制定。

台灣於西元1995年3月開始落實全民健康保險制度,且於2003年6月時台灣兩千三百萬人口中已有99%的人參加了中央健康保險局之全民健康保險,因此健保局累積了大量的醫療記錄並建立了全國健康保險研究資料庫(NHIRD)。實際上全國健康保險研究資料庫是由國家衛生研究院(NHRI)與中央健康保險局(NHI)共同維護,而全國健康保險研究資料庫是可被申請作為學術研究之用。

全國健康保險研究資料庫中包含了中醫與西醫院所的登記資料與申報文件。於全民健康保險研究資料庫所涵蓋的登記資料包含了醫事機構基本資料檔(HOSB)、醫事機構基副檔資料檔(HOSX)、醫事機構服務項目檔(HOX)、醫事機構診療科別明細檔(DETA)、醫事機構病床主檔(BED)、醫事人員基本資料檔(PER)、專科醫師證書檔(DOC)、承保資料檔(ID)、藥品主檔(DRUG)、重大傷病證明明細檔(HV)。另一方面而於全民健康保險研究資料庫所包含的申報文件有門診費用申請總表主檔(CT)、住院費用申請總表主檔(DT)、住院醫療費用清單明細檔(DD)、住院醫療費用醫令清單明細檔(DO)、門診處方及治療明細檔(CD)、門診處方醫令明細檔(OO)、特約藥局處方及調劑明細檔(GD)和特約藥局處方醫令總檔(GO)。

整合全國健康保險研究資料庫不同的檔案,我們可以獲得病人的身份證字號(編碼過後的身分證字號)、性別、年紀、所患疾病(國際疾病碼ICD-9-CM)、所使用之藥物及其劑量等資訊。根據全國健康保險研究資料庫所提供的資料再加上統計分析的方法可幫助我們從人口族群方面來探索疾病共病性的問題。

除了利用全國健康保險研究資料庫來證實共病性存在,尚有許多方法可用來研究疾病之共病性如建構新陳代謝網路、蛋白質與蛋白質間的交互作用網、基因網路及疾病網絡等。