根據朱敬一先生在今周刊提出的「大數據瞎掰症候群」裡面指出,很多在上位者只知其詞卻不知其所勻的瞎掰,看來我們得幫朱主委脫離他所貼上標籤的族群,畢竟他自己提到「台灣就是有一些人,什麼都不懂卻又不讀書,大搖大擺地講錯話,做錯的判斷」。
大數據,一個既陌生又熟悉的名詞就這樣出現在我們媒體新聞中,還有台灣眾多中小企業中高階管理人口中。當一個詞可以被廣泛提起時,代表這項科技離我們生活並不遠,但為什麼我們又不熟悉呢?大數據又是如何影響你的生活呢?台灣在這波新世代科命革命中我們在什麼位置?我們會再度迷失嗎?
筆者與台灣各業朋友聊到大數據,而聽到筆者朋友闡述的一段與他老闆的對話讓筆者感到非常震驚與無可奈何。對話如下:
老闆:誒小傑,我聘你來我們公司做分析師是希望你能給我完善的分析,你 PPT 做好沒?
友:老闆,我 PPT 做好了,我可以演練給你看。
老闆:來,快快
筆者朋友開始解釋,口沫橫飛,闡述著他收集的數據資料以及背後意涵。不到第六張 slide 老闆開口了。
老闆:誒小傑,你這是大數據嗎?
友:老闆請問這是什麼意思?我收集的數據是市場上所有能收集到的數據,並不算是大數據範疇吧?
老闆:那你報這有什麼用?我付你錢就是要最好的東西,你這什麼玩意兒?大數據這麼火你不會學嗎?
友:老闆可是我們只需要簡單的統計圖表就可以完全解釋我們的數據給客戶了,我們…(被打斷)
老闆:你不會用把很多東西都放在 excel 上面就可以了嗎?這樣不就是大數據了?這樣都不會?
以上對話筆者相信很多工程師,分析師,顧問們常常會聽到上級主管對您這樣提起,但當您問他們何謂大數據卻又打不出個所以然。當然這就跟我們台灣人有個有趣的習性有很大關係,也就是賣弄與市儈。
比如前幾年很紅的奈米科技,紅到第四台賣果汁機的銷收人員都宣稱他們家的果汁機可以把果汁打成奈米等級顆粒讓你更好吸收,這麼神奇的果汁機,真的應該頒給他們公司諾貝爾獎。再來不只奈米科技,生物科技也是一個很常被用的詞,比如生物科技香菇可以讓你神強體壯,但筆者左看右看,都只是普通的香菇,哪裏有這麼奇特的功效?
現在大數據這個詞彙在台灣好比筆者提到的例子,人人都可以講,但是人人都不盡了解,講起來酷炫又拉風,但是又是虛無飄渺。
定義大數據:大數據是由巨型的資料集合 (dataset) 所組成,其大小由兆元組 (TB) 到十兆億不等 (PB)。Gartner 公司的分析師 Douglas Laney 指出「大數據是大量、高速、及 / 或多變的資訊資產,它需要新型的處理方式去促成更強的決策能力、洞察力與最佳化處理」他並且指出「除非我們知道處理巨量資料的目標以及手段不然處理巨量且多變的數據還是有著技術上的困難」。
而大數據有其三種性質,稱為 3V,分別為資料量 (Volume),資料產生速度 (Velocity),以及資料多變性 (Variety)。更精確來說,大數據是無法在一定時間內由人工收集,管理,整合與判讀的巨型資料,而在這總量資料下分別比對各總小型資料組合以期在其中獲得資訊,辨認趨勢進而預測 (Hadoop: The Definitive Guide, 4th Edition)。而所謂大數據是幾乎無法用單一資料庫去進行處理,必須平行的在數十,甚至數千個伺服器上進行運算與處理。
回到剛剛小傑的例子,小傑老闆要小傑用 excel 搞出大數據報告,基本上這就是完全無理的要求也是一個極佳的慣老闆例子。excel 能處理的數據基本上連儲存進數據庫這一步都可以省下來,那何謂用 excel 處理大數據?是整個 matrix 看起來很大一張就是大數據嗎?還是這些數據在台灣老闆心中已經是大數據?那我們來看看國外一級公司的每日產生數據有多大;如下:
台灣的老闆、高階主管們,你公司的數據一天的 3V 有多少?殺雞真該用牛刀?不論要不要使用牛刀,真正有多少台灣人了解刀工?也就是基本的機器學習與數據探勘技術?
朱主委認為,所謂大數據資料分析是無法有因果假說,如果有了某些推論,某些預期,其研究就不能屬於大數據分析。換句話講,若要用大數據分析資料就先不能提出假說與推論,這論點在邏輯上已經出現悖論,是偷換概念。在資料探勘學裡,機器學習演算法的使用是主要工具,而機器學習裡面有分成監督學習,非監督學習以及半監督學習。
這三類學習裡頭又根據不同目的細分成更多不同的演算法。換句話說,根據不同的資料類型,以及研究目的,所採用的演算法都不同,如果有如朱主委所言「我們不可先有推論」的假說是不能成立的。朱主委所言「台灣就是有一些人,什麼都不懂卻又不讀書,大搖大擺地講錯話,做錯的判斷」以及「碰到這種無厘頭的官員,我就對台灣巨量資料產業發展的前景,感到悲觀。」但筆者呼籲朱主委,收起悲觀的心情開始唸書並著手培養更多大數據人才。
筆者認為台灣還沒有產生許多大數據人才是因為台灣還沒有遇到真正的「大數據」問題,既然沒有問題,就不會有專門應對的人才。但在美國,歐巴馬政府視大數據問題為國家安全問題與經濟重點。歐巴馬政府於 2012 年開始投入無數資金發展大數據科技,華盛頓郵報甚至評論歐巴馬為「大數據總統」。
在美國帶領風騷之下,中國大陸,韓國以及傳統歐陸強權無不投入資源在這波新世代革命,以期搶得先機。我們台灣準備好了嗎?
- 培養頂尖資料科學家,台灣教育體系準備好了嗎?
筆者認為所謂「資料科學家」人才的培養在台灣是可行的,雖然很困難,但有鑒於台灣學生們普遍數學都不錯所以稍加努力,都有希望培養出頂尖的「資料科學家」。
為什麼資料科學家培養困難?原因在於資料科學家不是一個專精一個領域的職業而是是個多領域都要達到高水準的超一流人才。資料科學家得有電腦科學知識,工程知識,統計學,以及每個其他領域知識,舉凡醫學,物理,生物,大氣科學,股市交易,媒體新聞,廣告,商業等等,連《哈佛商業評論》都說到 2018 以前在美國至少有 14~19 萬資料科學家的短缺。
筆者認為台灣高等教育界一定有思考如何培養此種人才,但是筆者希望政府能更加重視這塊產業的發展與帶動台灣高教對於「大數據人才」的培養。
台灣資料科學家不下百位,其中有赫赫有名的 g0v 成員以及眾多有名教授在各大院校。但是區區百位資料科學家還是不夠的,在這全球化,網路化的時代,人才的流動性非常強而且所謂良禽擇木棲,縱使我們還有幾百位大數據人才,但面臨眾多國家競爭與挖角之下,我們很難保證這些頂尖人才不出走台灣。
而高等院校教學負責人也許也該思考,我們要如何設計課程讓學生與世界接軌,也許可以設計額外專修數據科學組別或是像 Standford University 一樣採取認證制度。筆者在此也呼籲想學習相關技能與概念的朋友,可以搜尋很多 online 的學程。比 如 coursera 提供一個完整的 data science 課程並且在修完課後頒證書給你。而這點也許我們台灣的企業也該學習認證,畢竟很多線上學習網站的證書在美國是被許多大公司認證的,而且那也是員工申遷的考核標準之一,因為其員工發揮主動學習的精神,而這是普世讚揚的特質。
大數據在台灣也許現在看起來是一場鬧劇,但是熱熱鬧鬧的背後,卻潛藏龐大的商機但也是危機重重。如果台灣政府能更加重視這塊,我們也許能擺脫過去經濟疲軟的包袱,邁向更欣欣向榮的未來。但是如果我們依然不了解,也不想去了解這波科技革命所帶來的影響,我們就無法擺脫在數位世界被別人宰制的命運。台灣在這個大數據的浪濤下會被衝去哪裡?是以喜劇收場還是以悲劇結尾端看我們全體國民的智慧與有志有識者的擔當。
★ 本文為讀者投稿,以下為作者簡介
姓名:簡榮廷
筆名:板橋笑笑生包博
email:jtchien0925@gmail.com 以及 jchien2@emory.edu介紹:美國艾默里大學 (Emory University) 電腦科學 – 生物醫學資訊組博士候選人。費德智庫共同創辦人。Sequegenic 生技公司共同創辦人。專長次世代定序科技,機器學習與數據探勘,生物醫學技術,系統生物學。目前於 National Yerkes Primate Research Center 之 Malaria Host-Pathogen Interaction Center 團隊下進行瘧疾研究,從基因體學,系統生物學到流行病學全方位更深入的研究瘧疾以期瞭解其機轉並帶動疫苗以及藥物之研發。
Source:http://buzzorange.com/techorange/2015/05/20/big-data-use-case-000001/
留言列表