科技大補帖
eLearning

實現未來科技生活的樞紐
——大數據
2020.12.01

曾耀寰∕中央研究院天文與天文物理研究所研究副技師,本刊理事長。

 

最近幾年全世界最熱門的科技就屬人工智慧(AI),但人工智慧並不是這幾年才出現。早在 1956 年,一場在美國達特茅斯學院(Dartmouth College)舉辦的會議中,美國計算機科學家麥卡錫(John McCarthy)提出人工智慧的說法,並給予明確的概念:「如果程式能夠根據已知數據和指令,自主推斷出可能導致的各種直接結果,我們就說這程式具有常識(common sense)。」

這樣的程式與一般程式的不同之處在於它能自主推斷,以往程式是根據程式設計師的要求,照著指令一步一步準確地執行,就像汽車工廠內的自動化製造,每隻機械手臂的動作都是依照程式設計,精準無誤地完成應有的動作,沒有意外之舉;但一個具有人工智慧的程式能像人類一樣學習,機械手臂就能根據現場影像判讀,將上個流程沒有做好的汽車零件從生產線上移除,就像以前的現場工人一般,挑出瑕疵並進行補強。麥卡錫也在當時提出人工智慧的最終目標,是讓程式能像人類一樣有效地學習經驗。

 

類神經網路打造人工智慧

人工智慧的發展經過數個階段的大起大落,主要都與核心技術的演變有關,由於發展當下能夠配合的軟硬體還跟不上腳步,人工智慧從 1956 年以來,始終跌跌撞撞,終於在 2017 年由 Google 開發的 AlphaGo 深度學習技術,擊敗了世界圍棋第一高手柯潔而聲名大噪後,人工智慧成了家喻戶曉的大熱門。深度學習的底層核心技術是類神經網路,這是模仿人類大腦的神經運作系統,當接收外部資料後,經過一連串複雜的神經元處理,得到一個可以進一步處理未來外部變化的模式,這個方法對於人來說,就成了知識。

在深入追究類神經網路到底是如何學習人類,我們只能說人工智慧的深度學習方式和人類並不太相同,或是科學家對於人類的意識仍處在迷團當中,即便是猶抱琵琶半遮面的長安倡女,看過一眼仍有辦法辨識,這是多麼地奇妙。在不清楚人類的認知模式之下,又遑論深度學習和人類認知之間的差別,但我們知道若要成就人工智慧,大量的數據絕對是關鍵。

 

 

 

大數據是人工智慧的發展關鍵

大數據是指數據量很大很多,又稱巨量資料。由於資料本身很難定義,舉例來說,一早起床,我們眼睛張開就會看到各式各樣的數據,光是進浴室的清潔動作,使用的牙刷牙膏的過程都可以是數據。一個都市有多少人使用傳統牙刷?多少人使用電動牙刷?而牙刷數量的統計可以成為一種數據,什麼時候進行刷牙的動作也可以是數據,哪類型人的刷牙時間更是數據。只要想得到,任何事物都可以變成數據。

但近年來對於各種數據的擷取和儲存有了跳躍式的進步,電腦速度的進展藉由摩爾定律(Moore's law),大約每隔18個月,速度就會增加一倍,這是根據經驗所算出的數值,主要是在積體電路的製造上,所含的電晶體數量增加一倍,計算速度自然也增加一倍。在數據儲存量,從 1980 年代開始,大約每 40 個月就變成兩倍。2012 年,每天大約有 2.5 艾位元組(EB,1018 位元組)產生,預測到了 2025 年,每天則會有 163 皆位元組(ZB,1021 位元組)。也就是說在 2025 年,現在市面上可以買到 10 TB(1013 位元組)的硬碟,每天最少需要生產 100 億顆來儲存資料。

雖然資料本身難以定義,但大數據有四個特性,包括資料量龐大(volume)、資料型態多樣(variety)、資料處理速度快(velocity)和資料具真實性(veracity)。也就是說,現在的科學家面對的是又多又雜的數據,並要能迅速從中取出正確的數據,並進一步找出數據間的模式,作為預測未來的根據。二十世紀末,網際網路將全球各地的資訊資料和服務連接起來,數據始終存在,但由於人工智慧的強烈需求,一時之間,大數據變成了當紅炸子雞。

 

 

數據一直都在 但該如何使用?

數據始終存在,但能發揮最大功用,就要有合適的方法。大數據的運作主要有四個階段,從資料收集、資料儲存、資料處理,到最後的資料分析,才能將原本看似散落在海邊的白沙,轉變成耀眼璀璨的鑽石。這種鑽石不僅只為了好看,在現今的社會,應用範疇橫跨各行各業,例如精準農業、精準行銷及精準醫療等,與我們的日常生活密不可分。

在大數據運作的各個階段中,有許多科技需要密切配合,例如資料收集。資料收集必須牽涉到物聯網,在以往資料的提供方式,可能僅是一般數據的填寫,或是實驗室觀察的數據及計算的結果,但在物聯網的時代,各種不同類型的偵測器可以隨時隨地收集資料,例如手機 GPS 定位的提供,手機所拍攝的圖片,甚至到未來車輛行駛在道路上的各種環景資料、戶外的氣象資料到人們的個人的生理資料等,這些都需要特別設計的偵測器,能即時又準確地獲取人們需要的資料。當有了資料,還需要適當的儲存,不僅能快速且正確地存放在設備中,並且讓需要的人能隨時隨地取得,這就需要 5G(5th generation mobile networks)的快速傳輸及雲端的大量儲存。

 

 

資料分析要更快!

對於資料的處理,已經不可能只靠人力,甚至單一電腦設備進行,而是需以分散式儲存,以及分散式處理代替集中處理。以搜尋引擎為例,好的搜尋引擎必須能從分散在網路世界的各個資訊服務中心,同時找尋使用者想要的訊息,這種處理的方式不再只靠單一的處理程式,在大約 300 億個網頁之間,循序地一一查詢,而是需要同時進行許多的處理程式,才能在鍵盤彈指之間,就將訊息顯示出來。

關於大數據的概念及介紹,讀者可參閱《科學月刊》第 581 期的〈Google、縱橫字謎與大數據〉與 599 期的〈「數大」便是美——大數據與現代生活的連結〉

 

大數據與人工智慧終將融入日常生活

最後的資料分析則是人工智慧的強項,透過各種已有的數學工具,詮釋複雜的資料,並能根據已有的資料,對未來進行辨識和預測。未來的世界將越來越複雜,整個世界的節奏也會變得越來越快,大數據和人工智慧不僅是資訊科學的範疇,它的影響將會和我們生活息息相關。就像現在的智慧型手機,十幾年前,你是沒辦法體會一支手持電話將改變人們的日常生活型態,而現代人已離不開手機,未來大數據和人工智慧也將會像智慧型手機一般,無形地滲透我們,再一次改變人類的生活。

 

▲圖為 PM2.5 即時監測網。最早由環境感測網路系統(Location Aware Sensing System, LASS)民間組織發起,結合物聯網和大數據分析,以全臺超過 4000 台空氣盒子偵測器,每五分鐘回傳一筆資料,即時監控全臺空氣汙染的狀況, 至今已喚起政府與大眾對空汙的重視。(EdiGreen 空氣盒子,https://airbox.edimaxcloud.com/

 

⇠上一篇:你是風兒,我是沙,一解建物的風工程

「數大」便是美——大數據與現代生活的連結:下一篇⇢