專題討論4:科技趨勢於外科醫學之應用

程 序 表

S4-2
大數據在醫療的應用──結構性與非結構性數據
劉致和
國泰醫院整形外科 資訊部

  大數據的定義有 3 V,巨量 Volume、需要即時 Velocity、及複雜度Variety、茲就複雜度與醫學同行討論。
  醫療大數據的故事,該由 2000 年第一次網際網路熱談起,通訊技術第一次讓病患、消費者與第一線工作人員普遍享受電腦運算技術的好處。當時即倡議者提出醫療資料探勘(Medical data mining)一詞,討論健康及醫療資料的特性,台灣的全民健保研究資料庫(NHIRD)也在那幾年迅速發展,讓保險申報資料的研究在世界上異軍突起,形成另一種台灣奇蹟。所謂資料探勘,其實是把發展已經近三十年的人工智慧技術,加上新型資料庫跟資料倉儲等包裝,新瓶裝舊酒的行銷用語。類神經網路 (Artificial neural network, ANN)、機器學習 (Machine learning) 等實質技術,在當時並沒有大躍進式進展。
  由於手機等行動裝置的發展,網路技術以及消費者的可近性(Accessibility)再度讓醫療資訊研究蓬勃發展。近年 IBM 「深藍」以更高級的 ANN 技術陸續打敗人類西洋棋跟圍棋世界冠軍,可是以該技術進軍醫療業的 Watson 小組拓展並不順利,2018 年年初甚至傳出團隊大幅縮編的新聞,這是醫療資訊複雜度的間接證明。
  醫療數據可大致分成傳統研究者熟悉的結構化數據(Structured data)跟非結構化數據(Unstructured data),簡單的區別是前者直接可以跑統計軟體,後者需要寫程式準備資料。後者如影像資料、文字病歷資料等,除了必須按實證醫學PICO 概念的 Population 跟 Outcome 選擇適合的臨床情境範圍來分析外,還需要近年在生活中越來越普及的停車場車牌影像辨識、無人車自動駕駛、Ube叫車媒合管理等,讓這類數據處理的巨量與複雜度都讓民眾有具體的感受。
  目前非結構化醫學數據,以影像辨識最著名,例如以人工智慧自動偵測腫瘤(Image segmentation)、與判讀乳癌切片是否有轉移。講者因為實證醫學興趣,另以自然語言處理(Natural language processing, NLP)及機器學習說明醫學文獻分析的難處與進展。最後將回到大型臨床資料庫的分析,以非結構化的觀點來看預後分析。
  衛福部自 2005 年開始推動各院所的電子病歷,為臨床人員提供很大的想像空間。陳建仁副總統自 2016 年起更推動「精準醫療」(Precision medicine)的政策方向,把臨床資訊結合 1990~2003 的人類基因組計畫跟隨後的生物資訊研究,希望今天關於大數據複雜度的討論激起同道的興趣。