本次半導體大數據分析競賽,共分為初賽、複賽及決賽三個階段方式進行,其中初賽是採用分組方式,每組人數以4人為限,可以找學校指導老師,亦可多增加一位業師,而在復賽時也會開放通過初賽隊伍做成員的增加。至於獲得最終優勝的隊伍,除了可贏得最高30萬元的獎金外,也將擁有台積電優先面試的機會。
近日,台積電和清華大學共同舉辦賽前的“半導體大數據分析競賽”起跑說明會,除了公佈各項競賽的流程和規則外,活動中也邀請到兩位資深台積電半導體大資料分析的重要負責人,分別是黃裕峰處長以及部經理王天文,一同分享過去在運用半導體大資料分析的實務經驗,甚至也有來自台積電半導體大資料分析工程師,到場與參賽學生交流學習。
近幾年,大資料風潮不只是在國外開始發光發熱,現在更吹向台灣帶動一股大資料應用的潮流,除了成為許多企業爭相卡位未來大資料商機的踏板,現在也興起了一波資料科學家的“搶購”人才,而身為半導體龍頭大廠台積電,從過去以來就一直積極投入人力開發,將大資料運用在半導體製程生產管理上,提供如生產良率、製程品質,甚至是節能方面改善的解決方案。
為了培育更多國內大資料分析人才,今年,台積電也和清華大學共同合作舉辦“半導體大數據分析競賽”活動,除了不限科系開放國內學生來參加外,甚至在比賽題目上也以實戰為主,直接將台積電提供數百道製程的實際機台資料作為大資料競賽的題目。
在15日這場起跑說明會上,負責本次競賽籌畫的科技部IC產業同盟暨台積電卓越製造中心總主持人,同時也是清華大學講座教授簡禎富表示,這次競賽的目的是,希望能起到一個火車頭作用,經由提供這樣一個與產業實際情況接近的訓練機會,培育更多有志成為資料科學家的人才,因此,在賽前也在新竹、台南兩地先後舉辦半導體大資料應用的培訓課程,透過在培訓過程中開啟學生對於半導體大資料分析的知識與興趣。
已經累積擁有30年半導體工作經驗的台積電黃裕峰處長,也在現場分享近幾年在運用半導體大資料分析的實務經驗,他說,台積電每一個新製程技術的開發,都意味著其資料量的大幅成長,像是在2000年,一個機台所提供製程資料的感應器,數量大約是200至500個,但到2014年,平均一個機台已可以提供500至1,000個感應器,如果是更先進的機台,數量更達到了7,000個感應器。
每片晶圓需經數百道步驟製程,可產出120萬筆資料
黃裕峰也說,目前台積電產出一片晶圓,通常需經過500至1,000道的製程步驟,而在出廠過程中,約可產出120萬筆的製程資料,而每一個製程機台前後之間都有很重要的關係,甚至每個機台都可視為一個群組,有著它自己的特性,因此如何透過資料分析去挖掘出製程當中的變異資料,找出最關鍵的控制因子,就是大資料分析很重要的範疇。
對於要成為一名資料科學家,黃裕峰也認為,單一的科學並不足以到達資料科學家的程度,必須是由很多領域、學術、系統的綜合體。但黃裕峰也指出,一個資料科學家不只要具備有一個良好的分析能力、數學及統計的基礎,也要有講故事的能力,可以把資料轉化成資訊來呈現,另外也要有相關IT知識技能。
黃裕峰也舉目前在台積電擔任大資料分析工程師為例,這些成員的背景多來自不同的科系,像是有統計、化工、材料、心理、經濟等碩博士,而研究範圍除了半導體產業也涵蓋了癌症分析、農業病蟲害分析、財務分析,以及花卉交易分析等,研究領域可以說是五花八門。
一個好的巨量資料分析,得跟資料頻繁互動
而同樣也負責台積電半導體大資料分析的部經理王天文也表示,一個好的巨量資料分析,跟資料的互動要非常頻繁,包括針對資料內可能有的雜訊或是設定過濾的條件,然而,他也強調,這次大資料分析比賽主要是以製造生產所蒐集而來的資訊為主,因此會牽扯到不同以往的資料型態,像是機台設備、製程品質、良率表現等,光就資料量就比一般其他類型大資料分析的數量和復雜度還要高出很多。
因此這次比賽的挑戰在於,如何過濾不要資料,然後做適當的分群,找出關鍵參數,以此建立預測模型。此外,比賽也考驗參賽隊伍,如何從資料本身建立資料的前處理、過濾,並利用模型(model)將整理完的資料,經由可視化(visualization)工具,將結果呈現出來,然後針對需要修正和重新運算的結果,以最快的方式找到答案。
然而,王天文也認為一個好的資料科學家,不僅僅是在學校里關起門來做分析,還必須透過團隊的合作來學習,發揮團隊分工的精神,這也是舉辦這次活動的目的之所在。
善用大資料分析工具及資料處理平台
簡禎富也說,這次活動除了由台積電與清華大學共同舉辦之外,也吸引許多廠商參與,像是競賽使用的伺服器就是由宏碁提供,比賽過程中也有協力廠商負責提供大資料分析工具和平台,從IBM的SPSS、SAS統計分析工具,一直到R語言開發以及Hadoop等資料處理平台,全由廠商贊助,此外,各廠商也開出數門大資料分析工具的培訓課程,讓參賽學生可以學習到多種大資料工具與資料處理平台的應用。
本次大資料分析競賽,共分為初賽、複賽及決賽三個階段方式進行,其中初賽是採用分組方式,每組人數以4人為限,可以找學校指導老師,亦可多增加一位業師,而在復賽時也會開放通過初賽隊伍做成員的增加。
簡禎富也提到,初賽目的是幫助大家領進門,強調的是熟悉半導體大資料的本質,因此在初賽題目上門檻也相較複賽容易許多,例如使用的並非巨量資料等,至於在更進階的複賽階段,則會加入更接近實際半導體大資料特性的題目,這時參賽隊伍必須要善用大資料分析工具及平台,才能夠找出答案。
用競賽提升大資料實戰經驗,培育大資料分析人才
至於獲得最終優勝的隊伍,除了可贏得最高30萬元的獎金外,也將擁有台積電優先面試的機會。不過,簡禎富也表示,對於特定的技能,例如資料庫處理、特定分析工具等,會再另行規畫特別獎項,甚至該活動也與1111人力銀行合作建立“大數據人才專區”,提供各種大資料人才與產業需求的媒合。
簡禎富也鼓勵參賽學生將這次的競賽活動,當成是在修一門重要學分的課程來學習,而經由學習這些半導體大資料分析的知識與工具,未來不只是可以運用在半導體產業,也能運用在其他如太陽能及LED面板等製程技術的大資料分析應用上。
王天文亦表示,最近也找了不少國內外大資料分析優秀人才進入台積電,而在面試過程中,他看重的反而是面試者到底對大資料了解多少,或是曾經有過什麼樣的大資料相關經驗,如參加比賽得獎等。
因此,如何透過參加各種相關大資料應用的競賽活動,來增加自己的實力,也增加大資料應用的實戰經驗,這是學生可以發展朝向的目標。
来源: ithome
留言列表