當你在使用生成式 AI 或是 AI 客服功能時,有沒有想過這麼一個問題:如果說閱讀理解的定義是「通過互動從書面文字中提取與構造文章語義的過程」,那麼機器 AI 是又如何透過閱讀,來了解我們輸入的文字,並且提取其中的關鍵字進行回答的呢?
其實機器閱讀理解的發展歷史很早,是屬於自然語言處理下的一個重要範疇,雖然同樣能夠讓機器進行閱讀理解,但機器閱讀理解和自然語言處理在層次上卻存在著巨大的差異,從最簡單的限定範圍閱讀測驗選擇題,到如今生成式 AI 這樣,能夠像是與人類面試,進行非限定範圍交互回答、申論的模式,其間經歷了非常多次技術的變革。
另外,相對於擁有龐大語言資料庫能夠進行訓練的英文,中文僅有不到百分之一的資料規模,尤其是繁體中文的素材更是稀少!所以那些以英文作為基礎訓練的語言模型,在遇上中文時,就會顯得有些不順暢,甚至是怪異,也因為如此,這些語言模型更需要使用繁體中文的我們,去主動參與 AI 的訓練,製作更好的「在地化模型」。
本集我們邀請到台大資訊工程學系資訊網路與多媒體研究所的陳縕儂教授,來帶領大家一起認識,作為如今 AI 發展最重要的基礎技術之一——機器閱讀理解,究竟是怎麼運作的,以及它到底如何實現在地化。
關於善科聊天室
每週四晚上八點於「善科教育基金會」Facebook 粉絲專頁首播,由主持人帶領觀眾朋友透過節目,和科技、科學、教育相關領域的來賓暢談,主題廣泛,從前沿科技、環保課題、創新創業、電影講解、到天文盛宴等等,全都能在《善科聊天室》中看到!希望透過簡單、輕鬆的聊天節目,寓教於樂,傳達正確、豐富的知識給各位觀眾朋友,也期待能透過主持人及來賓獨特的魅力,用不同角度來關心時事和科技教育。
✓更多節目影片|https://reurl.cc/Xk6M9M
✓鎖定節目首播|https://reurl.cc/Z7O3qV