學習生物資訊學要具備哪些能力？李御賢教授專訪｜科技大補帖

學習生物資訊學要具備哪些能力？
李御賢教授專訪

2022.12.16

林翰佐／銘傳大學生物科技學系副教授，《科學月刊》總編輯。

生物資訊學是一種利用資訊方法分析生物資料藉以理解生命現象的學問。它的研究命題範圍相當廣泛，涵蓋了 DNA、RNA、蛋白質等 3 個層次。DNA 層級的研究包括 DNA 定序（sequencing）、序列組裝（assembly）、基因註解（gene annotation）等 RNA 層次的研究有基因表現、基因間的交互作用等；而蛋白質層次則有結構預測、蛋白質表現等，但無論是在 DNA、RNA、蛋白質層次，都有一個共同的精神，就是有大量的資料需要進行分析，因此要使用適合的資訊工具與方法來分析生物資料。

《科學月刊》本期邀請李御賢教授，談論生物資訊學的應用與未來，分享他多年來研究生物資訊學的歷程，以及給所有想踏入生物資訊學的莘莘學子們一些學習上的建議。

生物資訊學是什麼?

《科學月刊》（以下簡稱科）：網路上常看到「計算生物學」（computational biology）這個名詞，計算生物學是生物資訊學（bioinformatics）嗎？

李御賢（以下簡稱李）：其實兩者的定義不同。生物資訊學是分析生物資料的學問，而計算生物學則偏向開發生物資訊的工具或理論。以次世代定序（next generation sequencing, NGS）而言，生物資訊學是利用序列組裝的工具，分析生物序列；而計算生物學則是改進或發展序列組裝的工具。

科：生物資訊學的研究如何進行？

李：生物資訊學是將生命科學的特徵資訊數位化，再進行分析比較。實務上可分為 3 個步驟，分別是「收集資料」、「分析資料」、「預測資料」。

我們以目前臺灣正在進行的「臺灣精準醫療計畫」（Taiwan Precision Medicine Initiative, TPMI）為例說明流程。TPMI 的目標是建立臺灣人口基因資料庫的基礎，透過生物資訊學研究體系的建立，希望能在「用藥安全及效能」、「疾病早期診斷」、「預防醫療」等面相提升醫療品質。

首先是收集資料，由中央研究院與 32 家大型醫院合作，預計收集數百萬個病人與正常人的生物資料（例如 DNA 序列）。基因資料的收集有時會使用生物晶片（microarray），在 TPMI 計畫中，使用單一核苷酸多型性（single nucleotide polymorphism, SNP）的基因型鑑定晶片。這種晶片可一次收集人類樣本中 60 多萬筆 SNP 資訊，再加上每個人的臨床資料，使得每份樣本都會產生相當驚人的資料。以 TPMI 預計收集每 10 萬人的數據量來預估，共計約有 60 Gigabyte（GB）的資料量需要進行儲存。

分析資料是為了找出大量樣本中數據的特徵。在上述的例子中，我們可以利用孟德爾遺傳學的表達方式，將每份檢體中的某筆 SNP 資訊簡單表示成 AA、Aa、aa 的 3 種可能基因型。透過簡單的二維矩陣方法，我們便可以分析兩筆資料之間的差異。

但實務上，每份檢體透過基因晶片的檢測會出現 60 多萬筆的 SNP 資訊。光要分析人與人之間 SNP 的差異，就需要 10 萬 × 10 萬的二維矩陣進行運算。除了數據的分析，如何將分析結果簡明而適切的表達出來也是一項重點，這部分也需要資訊學工具的幫忙。資料視覺化（data visualization）在生物資訊學領域中也是一門顯學。

預測資料則是利用這些疾病的特徵 DNA 序列進行疾病預測。針對 60 多萬筆 SNP，在資訊工具的幫助下，可能會有數十到數百個特徵 SNP 位點具有統計上的顯著意義。我們要利用找到的特徵 SNP，看看是否能預測疾病的發生。一般而言，資訊科學家會以預測的成功率來確定特徵 SNP 是否有效（猜對的機率高），但在臨床醫學的領域，針對疾病的確診，需要注意預測的專一度（猜錯的機率要低，不可以亂指患者有病），而初步篩選，則要注意靈敏度（要能將患者最大程度地從人群中檢出）。這邊就可以看出來，研究資訊與臨床醫學的科學家在想法上會有不同，需要誇領域的專家合作與充分的討論。

科：看起來「生物資訊學」並不是一門難以理解的科學。不過，生物資訊學似乎是近 20 年來才蓬勃發展的學門，這是為什麼呢？

李：基因學（genetics）與基因體學（genomics）有何不同？我的看法是，基因學是針對數個基因所做的研究，而基因體學則以透過基因「全體」的觀點做的研究。早期因為技術的限制，我們一次只能分析一個基因，但現今的分子生物學技術已有長足的發展，例如使用 NGS，僅用數天的時間就可以分析人類樣本的全基因體序列。或是利用生物晶片技術，可以在一天內分析個人所有基因的表現。平行化基因測量技術的發展，帶來的大量資料促進了生物資訊學的蓬勃發展。

即使在短短的 20 年間，生物資訊學自身也有相當顯著的「演化」。20 年前，也就是我剛進行生物資訊學研究時，常會遇到樣本數少的狀況，統計檢定要使用少樣本的檢定法。10 年前則因為平行化的基因測量技術發展，需要計算的特徵資料太多，會遇到多重檢定問題（multiple testing problem）。一般生物統計檢定 p 值要小於 0.05，但目前像 TPMI 的研究計畫，生物統計檢定 p 值要小於 10-7 左右，才能分辨出有價值的基因特徵。目前的研究趨勢，樣本數大於數萬的計畫，需要透過人工智慧（artificial intelligence, AI）或機器學習（machine learning）工具的協助進行分析。

科：「生物資訊學」是一門相當具有研究潛力的學門，對於社會大眾來說，「生物資訊學」能夠帶來什麼樣的效益呢？

李：以 TPMI 為例，在擁有百萬人的資料下，我有參與部分資料的分析。在很多癌症的研究，以往都沒辦法找到明確的結果。但在大量資料的基礎下，目前已找到很多癌症的特徵 SNP 位點，對於癌症的預防與早期診斷有很大的幫助，這就是生物資訊學帶來的顯著效益。

為什麼會走上生物資訊學之路？

科：據我們所知，早期的「生物資訊」科學家基本上都是「半路出家」的，希望能分享一下您的學經歷，以及最終投身「生物資訊學」領域的心路歷程。

李：我大學是主修物理系，在學時就修習很多電腦相關課程，我記得曾修過資工系的 C 語言課程，當時教授給我 99 分的高度評價，並且私下會與我討論程式設計的想法，這對我以後從事生物資訊有很大的鼓勵。在我當老師後，遇到認真的同學也會加以鼓勵。我碩士班的題目就是利用程式分析光譜儀的資料；而博士班進行病毒學的研究是，純分子生物學的課題；博士班後，剛好遇到人類基因體計畫（Human Genome Project, HGP）的進行，而生物資訊學也剛開始發展。當時我與林口長庚醫院的基因體核心實驗室合作基因體學研究，因緣際會下進入了生物資訊學的領域。

值得一提的是，2003 年我與林口長庚醫院合作進行 SARS 病毒的研究，利用生物晶片分析 SARS 病患血液中的基因表現圖譜，首度發現 SARS 病患感染早期的檢體中，有防禦素蛋白（defensins）基因表現的特性。當人體遇到一個陌生的病毒時，會表現大量防禦素基因，為人體提供保護。這個研究讓我首次感受到生物資訊學研究的的臨床意義；我們可以透過大量資料的分析找到關鍵，協助臨床上的治療。

科：目前日常工作樣態，以及運用哪些電腦硬體工具與軟體進行相關研究？

李：我身為銘傳大學的老師，主要以學校授課為主，並有開設生物資訊學的課程。就像前面所提，20 年前時，過去的樣本數少，必須使用少樣本檢定法，而 10 年前遇到的多重檢定問題，現在則可以直接利用人工智慧與機器學習進行分析。科技的進步很快，因此無論是為了教學、研究、讀論文，以及透過學術社群與其他的生物資訊的專家經驗交流，對我而言是很重要的。

此外，我也是一個程式設計師，10 年前曾開發數個生物資訊的工具與架設網站，供自己與其他的生物資訊學家使用。不過最近在網路上可以使用的相關工具很多。我覺得現今的生物資訊學家，雖然不一定需要具備開發演算法工具的能力，但至少需要有尋找網站工具，利用工具進行生物資料分析的能力。現在的生物資訊學家，需要具備建立程式管線（pipeline）的能力，可以串連很多的程式進行分析，僅具備基本撰寫批次檔（batch file）的能力就可以滿足參與研究的最基本。

生物資訊學的研究故事

科：據我們所知，李教授的學術著作等身，能否從這些學術研究中跟我們分享一則您覺得有趣，大眾也容易明瞭的故事，讓大家能體會一下「生物資訊學」的魔力呢？

李：2014 年時，我與林口長庚醫院進行「服用癲能停（phenytoin）藥物引起史蒂文生症候群（Stevens-Johnson Syndrome, SJS）的藥物基因體研究」的研究。「癲能停」是一個臨床上廣泛使用的藥物，針對多種疾病有相當的改善效果，然而流行病學上卻發現，一部分病人服用後會產生史蒂文生症候群的嚴重藥物過敏反應。通常一般人會將其歸咎於「體質」使然，但是我們研究團隊想要透過生物資訊學的方法，了解發生事情的真正原因。

這個實驗首先收集服用癲能停藥物引起史蒂文生症候群（實驗組），以及服藥不會引起史蒂文生症候群（對照組）的兩組樣本，大約 1,000 名檢體。每個檢體分析 90 萬點的 SNP 位點，再利用統計檢定找到實驗組與對照組有差異分布的 SNP 位點。後續我們發現這些 SNP 位點都位於代謝基因（CYP）上面，因此針對此代謝基因進行 DNA 定序，發現 CYP 上的一個核苷酸的點突變，使基因的胺基酸改變，造成人體無法有效代謝排除「癲能停」藥物，而「癲能停」再與人體免疫系統產生交替作用後，將使病人產生嚴重藥物過敏反應。

現在臨床醫生用藥時，可透過先期檢測病人基因體中的 CYP 基因是否異常，再決定可否服用癲能停藥物。透過我們的努力，2015 年以後，臺灣癲能停藥物產生史蒂文生症候群的藥害救濟的案例已明顯降低，這顯示生物醫學的研究是能造福病人。此成果已刊登於國際知名期刊《美國醫學會雜誌》（JAMA）。

想要學習生物資訊學，應該需要具備怎樣的條件？

科：如果年輕學子想要投身「生物資訊學」的相關研究，您會建議他們應該具備哪些的基本知識？像是生物學？還是程式寫作的能力？

李：我是生物科技系的老師，因此我的建議比較適合給生物科技系的學生做參考。想成為生物資訊學的研究者，我認為需要具備 3 項能力。首先是會建立程式管線來分析生物資料；再來要用視覺化的方法將資料呈現出來，使複雜的研究結果，能以適當的圖像呈現，最後則是要能與資料提供者討論，並確立研究結果在生命科學領域有其學理上的意義。

建立程式管線要具備程式寫作的能力，視覺化分析需要生物學素養與程式寫作能力的結合，而確定生物學的結果則要具備生物學的基本素養。因此，無論生物學的素養或程式寫作的能力都非常重要。

另外，從事生物資訊學需要不斷學習相關的文章。現在生物資訊學進展很快，很多視覺化或分析的工具都可以在網上找到。當面對問題難以突破的狀況，建議可以到相關網站的論壇提問，通常都能得到解答。對於生物科技系的同學，從事生物資訊學的優勢在於，只要努力，都可以很快的學會建立程式管線分析生物資料，但是對於非生物科技系的同學，則需要與資料提供者討論，確定生物學結果的部分比較困難。我非常鼓勵生物科技系的同學從事生物資訊學的研究工作。

科：如果中學生想要利用「生物資訊學」作為科展的題目，您會建議從哪個方向下手會比較適合？

李：想要進行生物資訊學的練習，首先要必須有資料。現在很多網站上都有相關資料，例如美國癌症基因體圖譜計畫（The Cancer Genome Atlas, TCGA）的網站。該網站收集了美國、加拿大的醫學研究中心裡，包含 20 多種癌症，數百個到數千個病人的臨床病歷紀錄，以及基因體的資料、生物晶片資料、SNP 資料等，都是由於 TCGA 的網站是系統性的收集資料，每一筆資料格式都一樣，因此中學生只要針對一組資料建立分析模式，並確定生物學的結果，就可以分析整個 TCGA 的資料。

中學生想要利用「生物資訊學」作為科展的題目，可以發揮的面向是建立程式管線。現在很多軟體都可以利用 Docker 安裝，只要適當指導都可以輕易上手。因此我對於中學生利用「生物資訊學」作為科展題目的建議，與給大學生的建議是不一樣的。給大學生的建議是利用本身生物學的素養，以生物資訊去分析生物資料；而給中學生的建議則是建立與訓練基本分析生物資料的能力。

延伸閱讀

1.台灣精準醫療計畫，https://tpmi.ibms.sinica.edu.tw/www/。

2. TCGA Cancers Selected for Study, https://reurl.cc/MbxlGK。

⇠上一篇：塗料科學裡的堅韌因子

以「次世代定序」完成精準醫療，更能協助生命科學領域的探索：下一篇⇢

本文轉載、修改自《科學月刊》2022 年 4 月