按Enter到主內容區
:::

財團法人海峽交流基金會

:::

全球大數據發展趨勢與台灣的機會◆文/林安妮《交流雜誌104年6月號第141期(歷史資料)》

近幾個月在台灣爆紅的關鍵字不少,大數據(big data)就是其中一個。特別是去年底的「九合一」選舉,標榜素人參政的台大醫生柯文哲,靠了一支大數據部隊風光打贏選戰;今(二○一五)年初,毛內閣上台後,也是標榜要以大數據、開放資料與群眾外包,翻轉政府、創造有感施政。

中研院統計科學研究所研究員銀慶剛與高雄大學統計研究所副教授俞淑惠,是國內知名的大數據夫妻檔。銀慶剛解釋,大數據經常也被稱為巨量資料或是海量資料,數據之所以大、巨量或者海量,都是因為其涉及的資料量規模,已經大到無法讓人工在合理時間內擷取、管理、處理並整理成為人類所能解讀的資訊。

舉例來說,像是臉書、谷歌每分每秒都在網路上收集資訊,按照時間累積出的資料量相當巨大。對於處理大數據的專家而言,他最重要的任務,就是要找對方法躲開不可能的計算負擔,並在有限時間挖掘及分析資料。

大數據妙用多 應用層面廣

去(二○一四)年底「九合一」選舉時,現任台北市長的柯文哲,就是靠著一批年輕的大數據部隊,幫忙分析網路族群關心何項議題並判斷那些事情發生時,必須即刻回應。事實上,大數據應用層面廣,在國外,有團隊算出那些機場最有可能碰到感染伊波拉病毒的旅客,以便官方加強防疫。在國內,還有團隊把大數據用在國人健康照護、提升晶圓廠良率、環境監測,甚至還能預測一家公司的破產機率。

財經背景出身的俞淑惠說,她曾以大數據建立一個公司破產模型,靠著找出導致公司破產的關鍵因素,如營運管理、財務槓桿等,算出一家公司的破產機率。若是把大數據的方法應用在改善良率上,就要看生產線資訊;要預測哪些地方可能發生霾害,就要大量收集各空氣監測站的資料;要找出破產公司,則看財務報表。

她笑說,大數據的妙用,就是能以科學方法處理資料、解讀資料,並做出預測,有時候感覺像在茫茫的「資料海」中,要找出「兇手」來。銀慶剛更傳神形容,就是要在大海中撈出那根針。

銀慶剛與俞淑惠先前曾透過科技部的研究計畫,協助台積電運用大數據,找出問題機台,讓不少台積電人驚呼,「不用進到生產線,也能找到問題機台」。

銀慶剛說,晶圓的製造過程非常繁複,需要大量機台層層加工塗料,才能誕生一個合格的晶圓成品。對科技廠來說,如何在晶圓成品還很少的製程初期,找到最優良的關鍵機台協助生產,就能提升良率。

舉例而言,一個晶圓成品若要經過三百個機台,正常情況下要找出問題機台的機率是二的三百次方,無疑是一個大數據。銀慶鋼的做法分三步驟,第一,先透過統計資料將三百個機台做優劣排列;第二,透過機率設定截斷點;第三,則是篩檢,找出真正的問題機台。

銀慶剛的這套方法,是他在二○一一年底與中研院院士、美國史丹福大學統計系教授黎子良一同研究,以大數據協助提升晶圓廠良率所建立。黎子良後來也帶領史丹福團隊協助英特爾改善良率,說明國際間的晶圓龍頭業者,英雄所見略同,早已看見大數據的力量。

運用大數據 提升政策精準度

大數據除了用於產業、協助政治人物提升選民好感度外,也可用在政策制訂,協助文官以新方法、新資料,提升政策精準度。

行政院長毛治國最近就指定經濟部、國發會與科技部籌組「大數據技術指導小組」,協助各部會提高政策制定精準度。毛院長初步開出要「大數據技術指導小組」研究的「指定題」有三個,包括企業加薪、協助新住民第二代與毒品防制。

國發會官員表示,政府官員每天都在談論大數據,但是除了擁有技術專長的科技部、經濟部,及近年力促各部會釋出資料的國發會等少數部會,大多數官員仍對大數據感到陌生,於是毛院長才會要求在政府內部成立指導小組,教各部會如何運用大數據。

以企業家薪資調查來說,過去政府掌握國人薪資情形,主要是仰賴主計總處做薪資調查,或是觀察企業投保勞保,但是兩者都可能出現人為短報。行政院此次運用大數據,先「撈出」五百多萬名納稅人資料,再從每一筆納稅資料人的繳稅紀錄,與勞保資料庫勾稽,分析納稅人所受雇的公司,這三年給薪情形,判定企業有無加薪、加薪水準為何、那些人最容易被加薪等。

行政院的「大數據技術指導小組」指揮官為擁有資通訊專長的副院長張善政,未來各部會可以自行發想出題,由經濟部、科技部擔任技術指導。當兩部會「罩不住」的時候,再請學界、業者提供工具或是好點子幫忙解題。至於國發會則擔任行政協調,若A部會想要用B部會資料庫,B部會不願提供,國發會負責協調,並扮演倫理把關者角色,確定各部會的題目不會有道德疑慮或引發社會爭議。

國發會官員表示,大數據雖非無所不能,但有了這項新工具,可讓政府資源「去到更想去的地方」。除了企業加薪調查外,毛揆相當重視的新住民第二代資源問題,也可靠大數據來「摸底」。官員說,目前台灣的新住民已達五十萬人,惟一直欠缺有力的資料庫,來掌握新住民與第二代在台灣生活的圖像,「毛揆的功課,就是要大家從資料庫中,『撈出』新住民與第二代在哪裡?需要幫忙嗎」﹖

官員解釋,一般說來,內政部可掌握新住民的入境、居住資料,但是一旦新住民歸化我國籍後,資料很可能就「斷鏈」,倘若能再加入教育部、衛福部等更多部會掌有的資料庫,就可大致捕捉到這些新住民與第二代在台灣生活情形,教育、社福資源是否充沛,如果不夠,可定向提供資源。更重要的是,此刻正值台灣想要深耕東南亞等海外市場,這些新住民第二代,若能透過政府的重點培育,將可成為助攻海外市場的貿易尖兵。

從點擴及面 全方位運用大數據

在張善政領軍下,政府內部除了啟動「大數據技術指導小組」,教導各部會如何運用外,包括科技部、經濟部也陸續啟動擴大政府與產學界應用大數據計畫。經濟部表示,今年起,經濟部將啟動四年約十二億元的大型科專計畫,第一步是先鼓勵工研院與資策會兩大法人,往前端做大數據的技術發展和應用探索,下一步會透過科專計畫鼓勵業者應用到實際生產面。

科技部在二○一六年的科專計畫裡,已把大數據列為發展重點,近期教育部還將在碩博士班開設大數據課程,培育人才、縮短產學落差。

科技部次長林一平說,目前科技部已有五十多個學界研發計畫,近期會媒合各部會,看是要「政府出題,學界幫忙解決」,還是「學界丟需求,政府幫忙給資源」。他說,大數據真的很夯,很多業者都已看到商機,國內業者,像是運用在物聯網的研華,或運用在工具機的上銀,紛紛表態,希望能跟政府多合作。

至於業者常碰到的問題為何?科技部與經濟部表示,國內大數據人才不足,或是法規面限制,例如健保資料庫能否釋出或是遠距醫療只能做健康管理,不能有診療行為等,都是跨部會接下來會檢視之處。

資料科學家 薪情夯

大數據夯,讓各行各業看見機會與希望,不過,龐大的數據資料,除靠電腦程式挖掘、計算,還是得靠「人」來幫忙設計模型並解讀。這些「人」,就是所謂的「資料科學家」。

台灣科技大學管理學院資管系特聘教授盧希鵬表示,數位科技帶來各種新的人才需求,這些人才往往也是「跨領域」人才。所謂「跨領域」人才,是指在多個專業領域裡擁有知識(domain knowledge),同時兼具分析資訊的邏輯能力,並能與團隊一同工作。

他認為,在這樣的需求下,不但既有的科系如數學系、資管系等傳統學系分法,已顯得不管用。既有的公司部門分界,也變得不確定,因為資料科學家、大數據人才似乎不是單一科系能夠培育,其任務也不是企業既有的資訊、行銷等單一部門能涵括,產官學界應共同思索,如何抓住大數據背後的真正需求,為培育大數據科學人才紮根,帶動台灣資料科學環境的發展。

回頁首