How well does ALIERA do? @ The Tornado

Is ALIERA a good tool?

看完荷蘭辛苦地擊退象牙海岸後，我試著來檢驗一下我的ALIERA在預測隔年ERA的準確性，為了盡量減少球場帶來的影響，我把所有前後兩年的樣本點中有轉隊的投手扣除，只留下第二年至少有半個球季以上是在原球隊的投手，雖然這些投手有部分球季是在不同球場投球，但一來局數不多，二來這樣的投手只佔了總樣本的很小一部份，不至於對結果有多少影響。同時我只選取樣本點中前後兩年投球局數都超過90局的投手，這讓我還有573個投手球季做為樣本，並來看這些樣本點前一年球季一些統計量與第二年ERA的關連性，結果如下：

	ERA	ALIERA1	ALIERA2	ALI_AVG	FIP	CERA	ALI_FIP
Error	-0.070	-0.073	-0.088	-0.080	0.172	-0.212	0.009
RMSE	1.015	0.860	0.901	0.872	0.908	1.046	0.853
Corr	0.401	0.502	0.484	0.498	0.472	0.427	0.504
Self_Corr	0.401	0.600	0.610	0.612	0.587	0.455	0.614

ALIERA1和ALIERA2是兩種不同版本的ALIERA，ALI_AVG是兩種版本的平均，CERA是component ERA，ALI_FIP是ALIERA1和FIP以2:1權重做的加權平均。下面的四列中，Error是平均誤差，Corr是相關係數，Self_Corr是該統計量本身前後兩年的相關性，因為如果該統計量較能夠代表投手的「能力」，那麼應該不止會跟第二年的ERA有較好的關連性，本身的關連性應該也會較高。

結果上，不看ALI_FIP的話，用ERA本身來預測第二年的ERA雖然在平均誤差上是最小的，但是在RMSE和相關係數上就明顯差了許多，而ALIERA1除了在平均誤差上排第二和自身相關性排第三以外，RMSE和與第二年ERA的相關性都是最好的，不過比較讓我意外的是，CERA在RMSE上竟然比ERA本身還糟，可能是樣本數太小或者我用的90局門檻稍低了點的緣故，不過無論如何，雖然只是很粗糙的檢驗，ALIERA1在預測隔年ERA上看起來似乎還算是個不錯的工具。

此外因為我看到ALIERA1平均來說有低估了隔年ERA的傾向，而FIP則是高估，因此我隨意將這兩者以2:1的權重加權平均，發現出來的結果會更好一點，在這些樣本點中，有53%的樣本點經過這樣的加權平均後會比原本更接近隔年的ERA，整體的RMSE和相關係數也變得更好一些，這背後當然沒有任何理論，純粹只是去fit the data的結果，我也不知道這樣做好或不好，不過我姑且先這樣做了，未來我用的ALIERA也會使用這樣的加權結果。

順便看看去年從ALIERA的角度來說，運氣最好和最差的10名投手目前的表現(ERA+)，只看兩年都有一定投球局數以上的投手：

Lucky 10

Unlucky 10

Average

Group	ERA05	ALIERA	ERA06	ERA+05	ERA+06	Improve	Decline
Lucky10	3.46	4.48	4.54	129	106	3	7
Unlucky10	5.46	4.55	4.91	79	95	8	1

andrenomo

The Tornado

andrenomo 發表在痞客邦留言(0) 人氣()

E-mail轉寄

The Tornado

Andre's baseball blog

How well does ALIERA do?

歷史上的今天

留言列表

近期文章

最新迴響

熱門文章

文章分類

文章彙整

部落格文章搜尋

誰來我家

我的連結

ベースボールリーンクス

參觀人氣

QR Code

新聞交換(RSS)

The Tornado

Andre's baseball blog

How well does ALIERA do?

歷史上的今天

留言列表

近期文章

最新迴響

熱門文章

文章分類

文章彙整

部落格文章搜尋

誰來我家

我的連結

ベースボール リーンクス

參觀人氣

QR Code

新聞交換(RSS)

ベースボールリーンクス