Is ALIERA a good tool?

看完荷蘭辛苦地擊退象牙海岸後,我試著來檢驗一下我的ALIERA在預測隔年ERA的準確性,為了盡量減少球場帶來的影響,我把所有前後兩年的樣本點中有轉隊的投手扣除,只留下第二年至少有半個球季以上是在原球隊的投手,雖然這些投手有部分球季是在不同球場投球,但一來局數不多,二來這樣的投手只佔了總樣本的很小一部份,不至於對結果有多少影響。同時我只選取樣本點中前後兩年投球局數都超過90局的投手,這讓我還有573個投手球季做為樣本,並來看這些樣本點前一年球季一些統計量與第二年ERA的關連性,結果如下:

 

 ERA

ALIERA1

ALIERA2

ALI_AVG

 FIP

 CERA

ALI_FIP

 Error

 -0.070

 -0.073

-0.088

-0.080

 0.172

 -0.212

0.009

 RMSE

 1.015

0.860

0.901

0.872

 0.908

 1.046

0.853

 Corr

 0.401

0.502

0.484

0.498

 0.472

 0.427

0.504

Self_Corr

 0.401

0.600

 0.610

 0.612

 0.587

 0.455

0.614


ALIERA1和ALIERA2是兩種不同版本的ALIERA,ALI_AVG是兩種版本的平均,CERA是component ERA,ALI_FIP是ALIERA1和FIP以2:1權重做的加權平均。下面的四列中,Error是平均誤差,Corr是相關係數,Self_Corr是該統計量本身前後兩年的相關性,因為如果該統計量較能夠代表投手的「能力」,那麼應該不止會跟第二年的ERA有較好的關連性,本身的關連性應該也會較高。

結果上,不看ALI_FIP的話,用ERA本身來預測第二年的ERA雖然在平均誤差上是最小的,但是在RMSE和相關係數上就明顯差了許多,而ALIERA1除了在平均誤差上排第二和自身相關性排第三以外,RMSE和與第二年ERA的相關性都是最好的,不過比較讓我意外的是,CERA在RMSE上竟然比ERA本身還糟,可能是樣本數太小或者我用的90局門檻稍低了點的緣故,不過無論如何,雖然只是很粗糙的檢驗,ALIERA1在預測隔年ERA上看起來似乎還算是個不錯的工具。

此外因為我看到ALIERA1平均來說有低估了隔年ERA的傾向,而FIP則是高估,因此我隨意將這兩者以2:1的權重加權平均,發現出來的結果會更好一點,在這些樣本點中,有53%的樣本點經過這樣的加權平均後會比原本更接近隔年的ERA,整體的RMSE和相關係數也變得更好一些,這背後當然沒有任何理論,純粹只是去fit the data的結果,我也不知道這樣做好或不好,不過我姑且先這樣做了,未來我用的ALIERA也會使用這樣的加權結果。

順便看看去年從ALIERA的角度來說,運氣最好和最差的10名投手目前的表現(ERA+),只看兩年都有一定投球局數以上的投手:

Lucky 10


Unlucky 10


Average

 Group

 ERA05

 ALIERA

 ERA06

 ERA+05

 ERA+06

 Improve

 Decline

 Lucky10

 3.46

 4.48

 4.54

 129

 106

 3

 7

 Unlucky10

 5.46

 4.55

 4.91

 79

 95

 8

 1


    全站熱搜

    andrenomo 發表在 痞客邦 留言(0) 人氣()