簡介國際近期的科研資料開放政策
何明諠/中央研究院資訊科技創新研究中心專案經理。
研究資料的開放攸關研究成果的可再現性、透明度,並可進一步促成科學研究的共享與合作,帶來新的發現。但當研究人員試圖分享資料也時常面臨各類挑戰,包含不熟悉分享的流程或價值、過程繁複、資料量大、資料敏感、擔憂成果被他人先發表(scooping)等,都可能成為阻礙研究人員分享資料的原因。現階段研究資料分享的實踐雖已逐漸提昇,但各種既存的挑戰仍導致成效緩慢。
2022 年 11 月有一項研究分析了 2019 年刊載於 PubMed 網站的 306 份癌症研究報告,發現其中僅有約 19% 的研究資料為公開有效,且不到 1% 符合 FAIR 原則 註 。去年 10 月的另一項研究調查統計了 3,556 篇研究論文,儘管其中有近 1,800 篇的作者表示願意分享資料,但經實際詢問調查後,僅獲得了 1,800 篇當中的 14% 回覆,並僅有 6.7% 作者最終真的提供了資料,顯示現階段的研究資料分享仍有很大的進步空間。
為改善研究資料分享的窘境,近來國際上許多科研補助機構,陸續發布了與資料分享有關的政策,建議或要求研究人員分享研究資料。以下簡介世界衛生組織(World Health organization, WHO)、歐洲核子研究組織(European Organization for Nuclear Research, CERN),以及美國國家衛生院(National Institute of Health, NIH)等重要科研補助機構所提出的相關措施。
重要科研單位的資料分享政策
WHO 的資料分享政策
WHO 在去年 4 月發布了名為《為研究目的分享及再次使用健康相關資料:WHO 政策及實行指引》(WHO policy and implementation guidance)的政策文件。該文件近 30 頁,旨在闡明 WHO 技術專案所支持而蒐集的健康資料該如何被再次使用和分享。WHO 訂定了四個資料分享的目標:平等、倫理、效率、FAIR。
在此政策下,所有受到 WHO 支持的研究計畫都須按照它們的目標,擬定「資料管理與分享方案」(data management and sharing plan)。在資料分享時,不涉個資的部分以及後設資料,皆須以「CC BY 4.0」(創用 CC「姓名標示」4.0)方式授權公眾使用,並寄存於資料儲存庫(data repository),取得持續識別碼(persistent identifiers, PID)。而針對敏感或個人資料,也須將相關後設資料存放於資料儲存庫。研究若發表於期刊,研究人員須在文章中提供「資料取得陳述」(data availability statement),說明取得資料的方式。
值得一提的是,因為研究可能涉及眾多的個人資料,WHO 在提供選擇資料儲存庫的指引時,也特別將個人資料納入考量。
CERN 的資料分享政策
CERN 在去年 10 月頒布了最新的《開放科學政策》(CERN open science policy),該政策涉及了九個開放科學的面向,其中有關「開放資料」的章節,可視為 CERN 的資料分享政策。
在該章節中,CERN 明確指出研究者與實驗計畫須提交資料管理方案,所有資料都要附上持續識別碼並遵循 FAIR 原則,實驗資料則將以 CC0(公眾領域貢獻宣告)方式釋出,不保留著作權。
握有大型強子對撞機(large hadron collidor, LHC)的 CERN 另外制定有《大型強子對撞機實驗的開放科學政策》(CERN open science policy for the LHC experiments),該政策按資料用途不同,另有四個子政策,分別為成果出版政策、外部與教育政策、已處理資料政策、以及原始資料政策。
NIH 的資料分享政策
NIH 於 2020 年 10 月公布了新的《資料管理及分享政策》(Policy for Data Management and Sharing),經過兩年的準備期後,於 2023 年 1 月 25 日開始生效。新政策的目標,是希望透過有效的資料管理與資料分享的實踐,讓 NIH 資助的研究計畫產出可被公眾取用。
在 NIH 的新政策中,明定所有受 NIH 資助的科研計畫,都須在申請計畫時,提交資料管理及分享方案(data management and sharing plan, DMS Plan),且須在著作發表或計畫結束,讓科學資料(scientific data)可被取用。
NIH 在監督資料政策擬定與落實上有較為嚴格的設計,DMS Plan 除須經 NIH 所屬的研究所、中心或辦公室(NIH Institutes, Centers, and Offices; NIH ICOs)評估之外,它的執行狀況也須定期受以上機構的審查。
根據 NIH 的政策,研究人員需分享的「科學資料」,不僅包含用以支持該篇著作發表的資料,凡是具足夠品質、有助於驗證和再現研究發現的資料,都屬科學資料的範疇。
科研機構資料分享政策的侷限
儘管有前述重要的科研資助機構陸續制定資料分享政策以提昇科學研究的可信度與效益,但這類機構至今仍是少數。《科學》(Science)期刊的一篇文章就引述雪梨大學(University of Sydney)研究員譚(Aidan Tan)在 2022 年 9 月的研究,他發現縱使是最注重資料分享的健康研究領域,也僅有不到半數的大型科研補助機構會建議或要求研究者應分享資料。
在這同時,研究人員所需的資料時常不只來自科研界,也來自商業界。因此如何透過其他政策或法律,讓各方研究者能自不同管道取得所需的資料,彼此處在公平的起跑點上,同樣至關緊要。
以歐盟(European Union, EU)為例,它在 2022 年提出的《資料法》(Data Act)草案,旨在強化企業間的資料分享,以促進企業的競爭與創新。但同時卻也引發了來自學術界的顧慮。近來一篇刊登在《自然》(Nature)的評論文章〈擬訂中的歐盟資料法將讓研究人員陷入困境〉(Proposed EU data laws leave researchers out in the cold)就傳達了這類憂慮。
該文認為,從學術研究的角度來看,《資料法》大幅強化了企業間的資料分享,商業資助的研究者因而受益匪淺;但對於公共資助的研究者而言,這些企業資料僅在緊急狀況如天災、傳染病等下,才可被公共部門取得並用於相關研究;也因此,《資料法》不僅對學術機構取得所需資料的助益有限,反而會將公共資助的研究者推向比過往更不利的地位,並導致更多研究人力流向商業界,成為築起資料高牆的推手。
開放科學下一步:監督落實的指標與方式
聯合國教科文組織(United Nations Education Scientific and Cultural Organization, UNESCO)在 2021 年底發布了《開放科學建議書》,將研究資料的分享視為開放科學的重要實踐之一,並強調研究資料應按 FAIR 原則進行管理。在去年,UNESCO 針對該建議書,發布了一份簡短的介紹文件,並於其中再次強調了資料應「儘可能都開放」(as open as possible)的原則。
UNESCO 的建議書至 2023 年獲得 193 個會員國同意的文件,成為近來許多科研補助機構制定資料分享政策的基石,例如本文介紹的 CERN 就援引了此份文件。但相關研究也指出,儘管愈來愈多的機構在此期間引入了包含資料分享在內的開放科學建議或指引,但若要監測開放科學有無落實仍需耗費大量的時間與資源。因此,各機構於制定政策之後,未來在監督上是否有明確的指標、流程、方式,或甚至是否有自動化監督的可能,以降低相關的監督成本,將會是下一步需要持續觀察的標的。
註 :FAIR 原則:即可被找到(findable)、可被取用(accessible)、可相互操作(interoperable)、可再次使用(re-usable)。
延伸閱讀
1. World Health Organization. (2022). Sharing and reuse of healthrelated data for research purposes: WHO policy and implementation guidance. https://reurl.cc/01dKVA
2. UNESCO, Canadian Commission for UNESCO. (2022). An introduction to the UNESCO Recommendation on Open Science. UNESCO Digital library. https://reurl.cc/nDvmQl
3. Kaiser, J. & Brainard, J. (25 January 2023). Ready, set, share! Science. https://reurl.cc/dDyQKM
⇠上一篇:當開放資料遇上生物多樣性——TaiBIF讓世界看見你的資料
蘭與蘭嶼:復育的尋根之旅:下一篇⇢
本文轉載、修改自《科技報導》2023 年 7 月