臺灣醫學會

專題討論4：科技趨勢於外科醫學之應用

程　序　表

S4-2
大數據在醫療的應用──結構性與非結構性數據
劉致和
國泰醫院整形外科　資訊部

　　大數據的定義有 3 V，巨量 Volume、需要即時 Velocity、及複雜度Variety、茲就複雜度與醫學同行討論。
　　醫療大數據的故事，該由 2000 年第一次網際網路熱談起，通訊技術第一次讓病患、消費者與第一線工作人員普遍享受電腦運算技術的好處。當時即倡議者提出醫療資料探勘（Medical data mining）一詞，討論健康及醫療資料的特性，台灣的全民健保研究資料庫（NHIRD）也在那幾年迅速發展，讓保險申報資料的研究在世界上異軍突起，形成另一種台灣奇蹟。所謂資料探勘，其實是把發展已經近三十年的人工智慧技術，加上新型資料庫跟資料倉儲等包裝，新瓶裝舊酒的行銷用語。類神經網路 (Artificial neural network, ANN)、機器學習（Machine learning) 等實質技術，在當時並沒有大躍進式進展。
　　由於手機等行動裝置的發展，網路技術以及消費者的可近性（Accessibility）再度讓醫療資訊研究蓬勃發展。近年 IBM 「深藍」以更高級的 ANN 技術陸續打敗人類西洋棋跟圍棋世界冠軍，可是以該技術進軍醫療業的 Watson 小組拓展並不順利，2018 年年初甚至傳出團隊大幅縮編的新聞，這是醫療資訊複雜度的間接證明。
　　醫療數據可大致分成傳統研究者熟悉的結構化數據（Structured data）跟非結構化數據（Unstructured data），簡單的區別是前者直接可以跑統計軟體，後者需要寫程式準備資料。後者如影像資料、文字病歷資料等，除了必須按實證醫學PICO 概念的 Population 跟 Outcome 選擇適合的臨床情境範圍來分析外，還需要近年在生活中越來越普及的停車場車牌影像辨識、無人車自動駕駛、Ube叫車媒合管理等，讓這類數據處理的巨量與複雜度都讓民眾有具體的感受。
　　目前非結構化醫學數據，以影像辨識最著名，例如以人工智慧自動偵測腫瘤（Image segmentation）、與判讀乳癌切片是否有轉移。講者因為實證醫學興趣，另以自然語言處理（Natural language processing, NLP）及機器學習說明醫學文獻分析的難處與進展。最後將回到大型臨床資料庫的分析，以非結構化的觀點來看預後分析。
　　衛福部自 2005 年開始推動各院所的電子病歷，為臨床人員提供很大的想像空間。陳建仁副總統自 2016 年起更推動「精準醫療」（Precision medicine）的政策方向，把臨床資訊結合 1990~2003 的人類基因組計畫跟隨後的生物資訊研究，希望今天關於大數據複雜度的討論激起同道的興趣。