別の記事を書くために調べていて発見したブログでの内容が発端。FFの方の反応でちょっと考えるものがあったので自分なりに曖昧な表現に逃げず言語化しようと思ったので記事にする。
あらかじめ断っておくが、特に目新しい発見があるわけでもなく大した結論は出せていないのでお暇な方が時間つぶしに読んでなんか反応くれたら嬉しいくらいで書く。なお、勘違いや曲解をされやすい話なのでうざいくらい()で説明を加える。
「真の能力」
「真の能力」の一般的な解釈としては『その選手が持つ「本当の」数値で、たとえば通常のコンディションを保ったまま1億回打席に立たせた時の成績』だが、当然現実的にはそんな仮定が成立することはない。当然選手のコンディションは一定ではなく、1億打席も立つことは決してない。
ここで、「真の能力」を式で定義するとこうなる。
真の能力 = 観測値(実際にその選手が記録した成績) + 誤差
これは野球をある程度見ている方ならば、経験的あるいは感覚的に理解できるものであるはずである。例えば、その選手に対する事前情報が全くなかったとして(あまりにも馬鹿らしい仮定だが)、4打席4凡退の選手を打率.000の打者であると判断する人はいないはずである(ここのフォームが明らかにおかしいとかそういう話は置いておいて結果だけを見た場合)。
ここでいう誤差の影響を小さくするためには、ある程度の打席数が必要となるはずである。(ある程度という曖昧な言葉を使う理由はどの指標を見るかで信頼に足る打席数あるいは打球数が異なるからである。)これも感覚的に理解できる方が多いはずだ。誤差という言葉に集約されてしまっているために曲解されがちだが、誤差は所謂「運」だけを指すのではなく分解可能な成分だ。例えをあげるのであれば、選手のその日の調子、どのコースに来そうかのヤマ勘が当たる、たまたま良いコースに飛んだとか本当に色々(しかし、ここでいう誤差にはパークファクターによって本塁打が出やすい、出にくいといった要素は含めないことが多い)。
しかし、先ほど挙げた例や、その選手の能力とは関係ない(と思われる)要因は、打席数を重なればおおよそ影響を持たなくなる。調子やヤマ勘に再現性はない。ヤマ勘にも後付けで説明を加えることは可能だし、自分の中で「この攻めしたらセオリーはこう攻めるはずであるからここを読んだ」というそれらしい理屈はつけられるが、果たして1億打席立った時にその要素によって受ける恩恵はどれほどなのか。
1億打席、「通常の状態」で対戦した時の成績という説明をしたため勘違いされそうだが、現実的には対戦の中でバッテリーも学習をする。「このバッターはこの攻めしたら打たれるケースが多い気がするから変えよう」とか。そういったその場その場の戦術はマクロ的には大きな差を生まない。このようなその場の機転でどうにかできてしまう戦術は戦略とは呼べない。
分析者としては、それがその選手の能力だと言い張るのであればやはり再現性を求めたいのだ。読みが当たるとかそういうのは、私のイメージとしては、お互い100個の戦術がある中を自分の中の理論で、相手の100個の戦術を削っていって、削った中で残った戦術に対して最適(と思われる)な戦術を選択しただけというイメージだ。だが、その理論が強固であればあるほどその戦術は戦略と昇華するというイメージ。
イメージでは分かりにくいかもしれなかった。野球で言えば、より多くの得点を創出するために重視するべきなのは打率<OPSであるのは既知であるが、OPSを増やすためには強い打球を飛ばす必要がある。強い打球とは打球初速が速く、その打球初速に見合った打球角度から放たれる打球であるが、そのような打球を打つためにはヘッドスピードが重要であると研究の結果分かっている。これはちょっと頭をひねるくらいじゃ覆せない「現代の」野球の事実である。そのため、ヘッドスピードを上げるために筋力を増やすとか、ヘッドスピードがあがるようなメカニクス(体の使い方)を取り入れることは本稿でいうところの戦略に該当する。
1シーズンだけ驚異の打率を残し首位打者となったような選手がファンからBABIPガーとか言われ、データサイトから平均への回帰が懸念される最大の要因は、他チームやアナリストが分析した結果、「こいつのフォームってここが欠陥じゃね?」とかそのような欠陥が見いだされるのが主因なのではないかと思われる。現代野球の最適解からすこしずれた打撃なのだから何かしら欠陥があると考えるのが自然である(どの戦略にも欠陥はあるだろうが、それが最適解とされるものよりかは顕著であろうという意味←伝われ)。本稿の表現を使うならば、その選手の戦略は戦略ではなく戦術だったということだ。つまり、その選手がそのシーズン残した成績はその選手の真の能力とは離れた成績だった。(かなり怪しい日本語だが、そのシーズンに残した成績がその選手の真の能力ではないという言い方はできないため)
1シーズンというサンプル(対戦機会)ではその作戦に対しアジャストできなかったが1億回の対戦の中ではアジャストされ、その作戦によるエッジはなくなるということ。
真の能力の推定とサンプルサイズ
ここでようやく当初問題となっていた「真の能力」の推定に戻るわけだが、実際に私が今からどの指標にはどの程度バラつきがあるとかそういう話をするのは結構あほらしい。
なぜならば偉大な先人たちの先行研究があるからだ。以下は統計学に知見がないと少々難しい内容かもしれない(私が統計のプロみたいな言い方だが、全くそんなことはない)が非常に面白い読み物で、wOBAの誤差がどの程度なのかを調査してくれている。打率やOPSではなく、wOBAが使われる理由は語るまでもない。
wOBAの誤差範囲: スキルの推定 (95% CI, 回帰)
上のリンクの本文の中の図でこのようなものがある。(図のクリックでもリンク飛べる)
これは各イベントの発生確率が既知であるという(一種奇妙に思える仮定だが)前提のもとで多項分布からのサンプリングでwOBAがどの程度ばらつくのかを打席数ごとでシミュレーションした結果である(この説明で誤解を招きそうまたは問題があれば教えてください)。この分布をみると、平均的な打者とAaron Judge(本文の説明だと恐らく実際のJudgeが記録したデータ)との比較が視覚的に可能だ。
両者には真のパラメータ(真のwOBA)は0.108という差が設定されているにも関わらず、200打席程度では実際の差よりも±50%以上程度の差が出ることはかなりよくあると示唆されている。感覚的に理解していることでも具体的に数値にされると結構なインパクトがあるものである。
月並みな結論だが、1シーズンでの個人の成績は割り引いてみる必要があるということだ。
実際にどういう指標がどれくらいのサンプルがあれば信頼できるのかは参考文献に色々貼っておくのでそっちを参考にしてもらうのが分かりやすい。
真の能力についての解釈の余地
先ほど、私の中での真の能力の定義の際に年度を跨いで通用しなくなるような戦略は戦略ではないみたいな旨の発言があったが、年度を跨いでサンプルサイズ(打席数)を増やすことは私の中では疑問というか解釈が難しいと思うような側面がある。
年度を跨ぐということは年齢を重ねるということである。年齢はパフォーマンスに大きな影響を与える。何が言いたいかというと、選手の切り取るシーズンによっては「真の能力」自体が違うということだ。25歳~29歳の全盛期時代の真の能力と35歳~40歳の期間の真の能力は必ず違う。(全盛期が若い時代にある選手が例の場合ということ。荻野は?とかアホみたいなこと言うなよ!w)
サンプルサイズも大事だが、年齢ももちろん考慮しなければならない。ここでは分かりやすくベテランの年齢で例を出したが、衰える年齢が必ずこうであるという決まったものは当然ない。22歳から24歳までの期間ですごいパフォーマンスを出したC.B選手が25歳のシーズンで少ない打席数で低調な成績に終わったから翌シーズンには「必ず」成績が回復するとは限らないということだ。稀有な例ではあるもののこれも当たり前ではあるのだが。(この選手が年齢によって衰えたのかどうかは詳しくないから知らないけど)
参考文献
・Baseball Concrete「指標の信頼性と平均への回帰」
・sleep_in_nmbrs「wOBAの誤差範囲: スキルの推定 (95% CI, 回帰)」
・sleep_in_nmbrs「wOBAの誤差範囲: 年度レベルのSD」
・God do not answer letters.「信頼に足る打席数(サンプルサイズ)」
・城所収二他 「野球のバッティングにおける打球飛距離と打球の運動エネルギーに影響を及ぼすスイング特性」
コメント