專題討論10:大數據知多少

S10-1
大數據是甚麼?
曾志仁
中山醫學大學附設醫院

  人類很早就已經懂得使用數據解決問題,如果說數據是文明的基石,那麼數據資料產出也就是暗示著文明正在加速發展,使得這項「使用數據解決問題」的能力,隨著人類文明演進逐漸提升,並發展出科學、統計學之類的知識體系。尤其是現在資訊時代來臨,電子數據開始大量湧現,讓「使用數據解決問題」再次獲得質的提升,這種新的使用方式,就稱為「大數據思維」。
  大數據(Big Data)又稱為巨量資料或海量資料,其概念就是過去廣泛用於內部資料分析、商業智慧和統計應用,並且因應數位時代不斷累積的各式資訊之集大成。但大數據現在不只是資料處理工具,更是一種營運思維和商業模式,因為資料量急速成長、儲存設備成本下降、軟體技術進化和雲端環境成熟等種種客觀條件就位,促使資料分析從過去的洞悉歷史進化到預測未來,甚至是破舊立新,建立新的產業結構模式。有專家預測,2020 年資料量將會是 2009年的44倍。
  一般而言,大數據的定義是Volume(容量)、Velocity(速度)和Variety(多樣性),但也有人另外加上Veracity(真實性)和Value(價值)。不論是幾個V,大數據的資料特質和傳統資料最大的不同是,資料來源多元、種類繁多,但是大多是屬於尚未經過整理的「非結構資料」,例如文字、數字、圖片、影像等,而且更新速度非常快,促使資料量飛快成長。
  現況大數據常見在分析應用的關鍵領域包含:醫療領域、金融領域、城市管理、流程優化再造、理解使用者的服務需求、改善生活方式、提高體育賽事成績、安全和執法等。2012年開始非結構化數據佔有比例將達到整個數據網絡資料量的75%以上,由此可見,意味著個性化數據時代的到來。
  然而要用大數據創造資料價值,不得不注意數據的真實性,困難在於其完整性,因為資訊蒐集的來源與方式很多元,隱私權、資訊外流等資安議題,這些資料的質量控管都是項挑戰。
  大數據挑戰和機遇並存,大數據在未來的發展,將從前幾年的預期膨脹階段、炒作階段轉入理性發展階段、落地應用階段,未來幾年將逐漸步入理性發展期,未來的大數據發展依然存在諸多挑戰,但前景依然非常樂觀。