最近 Big Data 成為了顯學。而政府在這個熱潮之下,也開始不斷的強化 Open Data。雖然資料不斷的開放,分析工具也不斷的進步,讓處理這些大數據的門檻降低不少,但對於缺乏統計或資訊處理背景的人們來說,這些資料仍然與無字天書無異。為了讓人們能更容易的從數據中找到有意義的資訊,線上資料庫的需求也應運而生。
傳統上,數據資料大多以靜態資料檔的方式存在。最基礎的資料庫,或稱為資料中心也僅止於陳列這些資料檔供人索取、下載而已。但隨著資料量越來越大,單純的儲存與下載已難以讓使用者了解資料的全貌,進而從中找到有用的資訊。因此,能動態處理資料的資料庫系統地位日趨重要。
資料庫系統大致上又可分為著重資料處理的「資料檢索及下載」及提供即時結果的「線上分析」兩類。
資料檢索及下載系統著重於資料處理,主要的目的在協助使用者搜尋所需變數及整合資料的時間,讓使用者可以快速找到所需的變數資料,並整合成一個符合分許需要的資料檔。至於資料的分析與應用工作,則由使用者自行處理。此種資料庫結構主要適用於資料量龐大,且開放原始資料的統計資料。由於系統不涉及複雜的統計運算,開發門檻較低。另外,統計分析由使用者自行處理,使用者的技術門檻較高,但由於使用者直接取得原始資料,在分析的便利性上也較為彈性。
線上分析系統主要適用於原始資料不公開,或使用者技術門檻較不足的情況。系統必須包含前者的資料檢索及處理功能,及後續的統計分析技術。開發門檻將是提供的統計方法而定,但整體而言皆比資料檢索及下載系統高。有些統計資料具有一定的敏感性,例如可能有洩漏隱私的風險等等,因此原始資料不宜直接提供給使用者,但在顧及 open data的情形下,資料僅能以統計結果的方式呈現。或者,資料庫的使用者普遍缺乏使用統計軟體的能力時,也適用線上分析系統。而線上分析系統的盲點,便在於缺乏彈性。統計分析方法變化萬千,單一資料庫軟體勢必無法完整呈現,線上分析系統一般而言僅能適應一般性的統計需求,很難面面兼顧。
幾年前,有感於自己工作的單位資料量愈趨龐大,因此決心開發動態資料庫系統。有感於自己能力有限,且資料使用者多具備統計分析能力,因此以較單純的資料檢索及下載系統為開發目標。近日,陸續聽到一些單位都有統計資料資料庫化的野心。看來動態儲存統計資料似乎已成為一種趨勢。
沒有留言:
張貼留言