上一篇THT上分析文的問題所在,如果你還沒有看過,就先看看這一篇吧。

 

先岔題一下,昨天斷斷續續地看了中韓戰,第三局陳冠宇和陳鴻文被打的時候,曾文誠有幾個論點我要提出來談一下,首先,當陳冠宇投完該局的左打陣後,曾文誠說陳冠宇投左打的階段性任務達成了可以把他換掉了,其實這是有問題的說法,一個在第三局一開局上場的投手,他的任務絕對不會是投該局的左打這樣的「階段性任務」,除非是像明星賽一樣投手有一整群個個都很強根本用不完,教練打算之後每一局都用一個或更多投手,否則這時候上場的投手就不是「階段性任務」的投手,投手該換是因為他撐不住了,而不是因為他的責任區結束了。不過這雖然過程不正確,或者其實是不好意思直說怎麼可能會有人這時候還不換投,只好硬想一個理由出來說,不過不管怎樣至少他的結論是對的。另一個部分,當時曾文誠不斷質疑投捕搭檔一直丟直球所以被打應該要投變化球,這也是一樣,雖然他的說法有部分是正確的:打者都在等直球所以被打。但是他這樣說也暴露出他缺乏觀察投手狀況的能力,當時兩名投手變化球根本掌握不住,處於一個投球選項裡沒有變化球的狀態,所以不是投手愛拼直球,不丟變化球非不為也,乃不能也,這種狀況在一些大聯盟投手身上都是看得到的。但是這時候投捕手若因此而被指責,是有點無辜了。但也正是因為這一點,所以陳冠宇是真的該換了,而陳鴻文當他滑球沒有時,他的速球還是對打者有威脅性,還能夠留有一定的基本戰鬥力不致於瞬間被打趴(當然那一局的最後一打席還是被抓到了就是),而後面滑球比較掌握到了自然壓制力也提昇了一些。不過上至曾文誠,下至路邊雞排攤老闆甚至南韓痞鬢靶老闆應該都知道要換投手了,為什麼陳冠宇還會繼續投下去,那可能就不是一般凡人可以置喙的了。

回到正題來,我前面整人文的那一篇分析裡面的破洞在哪裡呢,首先先從小洞來說,作者用史上長打率最高的前一百名打者來算出強打者的保送率基準,這裡基本上是一個很莫名其妙的作法,如果今天這是像這篇一樣是一篇娛樂性質的文章,ok,算他可以過,但作者的目的是要回答一個問題並且將答案量化,這就是一個很巨大的瑕疵了。就像我今天要評估某打者的價值,我卻不是用average或者replacement level甚至0當基準,而是以.325/.390/.430為基準,然後看他的成績換算成他值得的薪水,你覺得這個評估有意義嗎?

不過上面這個雖然是洞,也只能說他是個瑕疵,瑕疵品雖然難用但還是可以用。但下面這兩個洞就讓這篇分析完完全全屬於垃圾桶或Sabermetrics for dummies的反面例文。第二個要談的中洞,在上面的回文裡已經有人提到了,就是leverage,也就是這些保送的timeliness。作者既然是想以球隊的觀點來評估這些保送值不值得,就必須要考慮保送出現的時空背景,一個零出局無人在壘的保送跟兩出局三壘有人的保送,一個第九局領先四分和第三局落後一分的保送,一個下一棒是Albert Pujols和下一棒是Melky Cabrera的保送,你覺得價值會一樣嗎?以事前的角度來看,就看該打席保送完和給他打的run distribution或win probability(端看你想要從分數還是從勝負觀點來下手)差別,另外對後續棒次打者做調整。而以回溯的角度來看就看以當時的run distribution或win probability差別和最後的實際得分或win probability變動來看,但不管怎麼樣都不能用整季甚至整個生涯在那邊算得很高興。

不過上面的中洞雖然糟糕,但愚蠢程度還是完全遠不及最後一個大洞。這個洞糟糕到不容易一兩句話說明清楚,先用簡單版本的數學觀點來說明,假設一個打者的打擊三圍是A/B/C,然後照作者的作法去計算打者只拿到基準保送數後的成績的話,我們會得到什麼?答案是A/(B-x)/C,x是取決個人保送率和打擊率的一個函數,也就是只要照作者這樣算,只要保送減少,打者的價值就一定會降低。也就是作者自己問了一個問題,但是選了一個否定掉許多可能答案的分析方法來進行分析,也就是在分析開始之前就已經決定了分析結果,因此中間的分析完全是多餘的。至於為什麼這個分析方法是錯誤的呢?從這裡我們可以帶出一個觀念,你要分析一個問題,你要搞清楚你要分析的究竟是什麼?這裡作者想回答的是以敵對球隊的觀點來說給Barry Bonds這麼多保送究竟好不好,那麼他的出發點就是對方球隊。這時候關鍵點來了,作者假設不給Barry Bonds這麼多保送的話,少掉的這些保送的打席裡Barry Bonds會有跟他整季平均同樣的產率(AVG和SLG)。是的,這一點就是讓整個分析徹底崩壞的最大關鍵點,Bonds的AVG和SLG就是在對手對他投這麼閃的情況下打出來的,今天你不想保送他,卻還預設他的打擊成績會跟之前你投很閃的時候一樣,你覺得夠不夠天真?

數字就是這樣,人人可以用,但用出來的結果到底是回答出問題還是在搞笑,那就因人而異了。所以其實有些時候當印象派被數據派電得慘兮兮的時候,根本不見得是數據派對了,只是印象派本身根本缺乏發現那些很弱的數據派提出的數字的問題所在的能力而已。就像之前提到的胡金龍,傻傻的鄉民就會告訴你,他是在AAA打出.317/.332/.438的打者耶(這還算好的了,我想"他猛到在AAA的打擊率都超過三成耶"這種的一定也會不時出現)。只是奇怪的,大家都知道洛磯隊的打者和教士隊的投手的意義,但拿到小聯盟選手身上(或者其實是台灣人身上?)大家都像健忘症一樣不記得有這種事,所以也才會永遠都有人傻傻地抱著陳金鋒的長打率當作寶,這樣好了,我給你三串數字:

800/740/898/906/1057/969/856/882/867/671/678/963/954/777

631/533/654/532/622/441/371/699/570/582/642/475/589/296/498/635

/582/805/195

4-8/3-10/1-15/1-16/4-9/2-15

知道這是什麼嗎?前面的是今年在Albuquerque所有超過200 AB或30 IP的選手的OPS和ERA,最後一行是Albuquerque最近六年來在聯盟十六隊中團隊OPS-ERA的排行。細節我就不多說了,如果看完這些數字你還沒有概念,那也不是我三言兩語能說清楚的了。至於有留言提到胡的選球,不,我們現在不是在看prospect,我們是在看打者現在的打擊能力,這就是我上面提到過沒有抓到該回答的問題究竟是什麼而造成的,如果是以看prospect的觀點來看,那還有更多東西要提。Anyway,胡金龍不是重點,重點是同樣的用數字去分析回答問題,你在得出答案之前必須要想清楚這兩個問題:

1.我用的數字回答到了我要回答的問題了嗎?

2.我的分析方法有沒有問題?

更簡而言之:

1.我用了對的數字嗎(Did I use the right numbers)?

2.我對這些數字的用法對了嗎(Did I use them correctly)?

否則,你就可能會是說出"Barry Bonds的對手每年因為保送奉送給巨人20分","道奇隊有眼無珠埋沒了成績優異的陳金鋒",或者"胡金龍在AAA打很好"這種話的下一個人。

arrow
arrow
    全站熱搜

    andrenomo 發表在 痞客邦 留言(6) 人氣()