“Big Data大數據”是近幾年科技行業最喜歡提的詞彙。從 Google 到中國百度,都提出要發展“深度學習”的方針。而百度為了能發展該技術,不遠萬里在矽谷設立研究院,還從 Google挖來“機器學習”領域的先鋒人物吳恩達,負責“百度大腦”計畫。至於未來戰略方向轉為“行動為先、雲端為先”的微軟,最近也披露“大數據”相關的計畫 Project Adam,將挑戰Google 的 Google Brain 計畫。
現在,我們可以看到部分“大數據”在實際運用的後果。在四年一屆的世界盃裡, Google、百度還微軟均利用“大數據”預測出每支球隊的比分情況,甚至還相當地準確——一方面,體育行業發展多年,每名球員每場比賽的資料均有詳盡的記錄,方便專家研究和解讀,同樣這些已經分門歸類的有效資料也可以被電腦利用;另一方面,由於體育遊戲的規則很多,預測分支的數量可以控制在一定規模,這也方便電腦進行預測。
由於體育行業的特殊性,未來該領域裡將出現不少“大數據”案例。不過,在討論未來之前,我們不妨探討一下“大數據”運用在體育行業的實際方法。比如說,如何讓機器明白棒球比賽當中,人們如何作出決策,以及如何讓這些模型隨時適應新資料,並運用在新的比賽當中。
根據 FastCompany 的報導,最近 GigaOm Structure 會議上,來自博思艾倫諮詢公司的雷·亨斯伯格(Ray Hensberger)分享他以及團隊為 MIT Sloan Sports Analytics 會議準備的論文——現在,他的團隊利用美國職業棒球大聯盟的資料提煉出數據模型,可以即時預測一名投手將投出怎樣球,以及何時投出,準確率高達 74.5%。
亨斯伯格介紹,團隊先從 900 個投手著手,分析他們的比賽資料,後來又採用排除法,將過去三個賽季投球數量少於 1000 的球手排除掉,這樣就只剩下 400 名投手作為資料分析的樣本。除了投手本身的資料外,團隊也分析當前比賽的資料,比如場地類型、擊球數等等;還有一些和比賽相關的情況,比如回合數、出局數以及球場上的人數和球員的位置;至於球手,他們的分析條件將包括投手的偏好性,曲球的出手時機、快速球的速度、球場選擇的一般規律、滑球的運動等等。
通過大量的資料獲取以及綜合分析,找出其中的關聯性,亨斯伯格和團隊最終為每名投手的構建個性數據模型,能夠預測一名投手在賽場上會作出怎樣的投球決策。他們所採用的數據模型,已經總結到一本名為《The Field Guide To Data Science》的書裡。
構建數據模型的過程可能沒有我們想像中的難,而如何證明數據模型是可靠的,卻很關鍵。亨斯伯格說,構建了數據模型之後,團隊對模型進行了 5 重交叉驗證。這種交叉驗證是能夠觀察,為數據模型輸入陌生的資料集後, 是否有異常的表現。“你不會需要一個基於歷史數據預測準確度達 100% 的數據模型。如果不經過交叉驗證, 而把數據模型推出去,人們大概會認為你模型只不過適合自己所擁有的數據。”
數據模型通過驗證後,亨斯伯格和團隊就採用“支持向量機”(Support Vector Machine)機器學習方法中的“一對多方法”(one-versus-rest)來預測下一場比賽當中投球手的投球決策。他們以三種不同的角度來看待數據:
· 基於用球數來預測:看比賽局勢有利或不利,或者用球數持平的情況下;
· 基於“左右病”(platoon system)來預測,看球場上是否用右撇子打擊手應對左撇子投手,反之亦然;
· 使用“樣本外檢驗”的方法來訓練數據模型,保證它能正常工作。
亨斯伯格和團隊在構建投手的數據模型時還發現,部分投手的投球決策在一定的情況下十分好預測。不過,投手投球的可預測性高低和他的比賽成績沒有關聯。亨斯伯格發現,15 個最可預測的球員當中,有 8 個來自有名的辛辛那提紅人隊和聖路易紅雀隊。另外,“左右病”策略也會影響比賽的成績。
儘管“大數據”經過大量爆光,Google、微軟、百度也通過自己的預測來證明大數據實際運用的例子,但是根據 MIT Sloan Sports Analytics 會議的聯合創始人、聯合主席潔西嘉·吉爾曼(MIT Sloan Sports Analytics)稱,體育資料分析目前不是主流,而且不是所有運動都可以運用這條方法。比如說冰上曲棍球比賽,預測往往失準。不過,某些運動又可以更快地適用數據分析,在這些運動當中,數據分析能夠發揮顯著的價值。
如果要在體育行業推廣“大數據”分析方法,行業聯盟是繞不過去的門檻。現在,美國職業美式足球、大聯盟,還有英格蘭超級聯賽都已經引入了數據分析,至於棒球運動,幾乎每家棒球隊都擁有一個分析小組。至於商業方面,數據分析還可説明體育場吸引那些在家通過電視看比賽的人。
不過,即便是亨斯伯格和團隊構建的數據模型的預測能夠達到 100% 準確率,比賽的關鍵還在於賽場上的人。在 70 年代的美國職業棒球比賽上,史蒂夫·卡爾頓就依靠“滑球”這一招半式,在 24 年代職業生涯中投出 329 勝的佳績。對方往往知道卡爾頓要投什麼球,但是就是擊不到球,或者擊斷球棒。
戰略都是完美的,但戰術往往無法完美。
全站熱搜
留言列表