【セイバーメトリクス】投手WARの計算に最も適した指標は何か？

NPBにおいてWARを算出している主なデータ会社はDELTAとデータスタジアムであるが、DELTAは投手WARの算出にはtRAという指標を使用している。データスタジアムは情報収集不足かもしれないがそれらしいものを見つけることができなかった。2021年の柳のWARが4.6なのに対し、データスタジアムでは4.3なので、違う指標を使っている可能性がある。

それに対し、MLBで有名なWAR算出サイトはBaseball-ReferenceとFangraphsであるが、Baseball-Referenceは失点率ベースのxRAという指標を使用していて、Fangraphsでは、FIPによってWARを算出している。なおこのFIPは通常のFIPと違い内野フライを加味しているらしい。

このように有名な４つのサイトがある中で全てのサイトが違う指標を使用してWARを算出している。野手評価は基本、打撃、守備、走塁であるが、この評価の大半を占める打撃部分はどのデータサイトもwOBA(wRAA)を使用している。走塁部分も基本的にBsRを使用しているため、違うのは守備部分である。そのため野手WARもデータサイトによって違うことが多いのだが、守備部分に関しては指標そのものが発展途上な面が大きい。とりあえず野手WARの話は置いておくとして、今回は投手WARの算出について解説していく。

各データ会社が使用している指標の解説や、なぜその指標を使用しているのか、そのメリットデメリット、データ会社の思惑などを解説した後、どの指標が適しているのかを再考してみる。なおデータスタジアムは指標が分からないので除外する。

DELTA
Fangraphs
Baseball-Reference
どの指標が適切であるか

DELTA

DELTAで使用しているのはtRA（true Run allowed Average)である。

WAR(Wins Above Replacement)【投手】

この指標ではFIPはインプレー打球を無視して投手評価するのに対して、tRAではFIPを拡張し、打球をライナー、内野フライ、外野フライ、ゴロに４分割にして各打球の平均的な失点期待値を考慮して計算を行う。FIPと同じく守備から独立した投手評価指標でありながら、FIPが過小評価してしまうゴロピッチャーをより詳細に評価できるなどの特徴がある。

また、前書いた記事でMLBでは救援投手のWARではレバレッジの高い局面での登板では補正をかけることを行っているが、DELTAではこれをしていない。この辺に関しては前書いた記事を参考にしてもらいたい。

メリットとして挙げられるのは、ゴロピッチャーやフライボールピッチャーというもの自体は確実に存在する。そこに、それらを区別しないFIPとの違いが挙げられる。また、ゴロ、フライ、ライナーというどの打球を打たれるかはピッチャーの責任範囲とみなされるため、その部分の評価をしつつも、打球が実際にアウト、ヒットになったか関係なく平均的な失点期待値として計算されるため、守備から独立した指標であるという点は高評価できる。

デメリットは、守備から独立してしまっている点である。何を言っているのかと思うかもしれないが、これはメリットでもありデメリットでもあるのだ。

そもそもの問題として、なぜ守備から独立した指標が好ましいのかと言えば、インプレー打球がヒットになるかならないかは投手の責任部分が小さいというのがセイバーメトリクスの考え方であり、味方の守備や球場や運によってヒットになるかアウトになるかが左右されてしまうが、守備や球場の格差は投手によって関与することはできないため、それを含めて評価してしまうのは不公平な評価であるというのがFIPなどに始まる投手指標の基本的な考え方である。

これの何がデメリットなのかと言えば、守備から独立させる過程で運による影響も排除してしまっている点である。運も投手によって関与できない部分なのだから排除して良いだろうと思うかもしれないが、WARというのは未来のパフォーマンスなどを予測する性質をもった指標ではないし、その必要もなく、ある選手の成績がフロックであったかどうかは関係なく結果を説明する性質をもつのがWARである。

その最大の証拠として、打者はどんなへぼい打球(xwOBAconが著しく低い打球）であったとしてもそれが安打にさえなればwOBAは上昇するし、それは打者評価の中で全く問題ではないのだ。

運などの投手がコントロールできないとされる要素を完全に排除した指標で選手を評価したいならば、xFIPやスタットキャスト指標である被xwOBAなどを使えば良いが、現実にそのような手法でWARを算出しているサイトは有名サイトでは現在のところ確認できない。

expected系の指標はexpectという英語が表すようにあるべきだった値を示す。xFIPといえば、本来あるべきだったFIPを表すことになる。これは個人的な勝手な考え方であるが、なぜこの指標でWARを計算しないのかと言えば、ギャップが生まれやすいからである。

例えば、13回を投げ、48人の打者と対戦した投手がいたとする。この投手は13個の三振を奪いながらも四死球を2つに抑えた。しかしながらHRは3本も打たれてしまった。このような投手はFIPは基本的にかなり悪い数値をしめすが、xFIPは非常に良い値を示すはずである。実際に、この投手のポテンシャルは大きいと感じる人も多いはずだし、現時点でWARがマイナスになることは多いだろうが、使い続ければある程度FIPが良化する可能性も高く、使い続けるのが普通の考えであろう。

しかしながらこの投手がこの時点で実際に行った働きはあまり良くない。それはたまたまであったかもしれないが、現実として13回のうちに3本も打たれた事実を無視して良いのかという問題は大きい。「結果」を説明しなければいけないのにも関わらず、「結果」の一部を無視した値でWARを決めるのは乱暴な考え方ではある。三振と四死球だけ見ればいいのならば、K-BB%だけ見ればいいことになってしまう。

もっとも、WARは算出者が適したと判断した指標で計算することがWARの定義であり、算出者が適してると思うならどんな指標を使ったとしても構わないのだが。

個人的にはexpected系の指標はWARの算出に適していると思わないが、守備から独立させないのもそれはまた一考の余地があると考えている。ここで最初の話に戻るが、インプレー打球を無視、または、アウトになったかヒットになったかを区別しないということは運も排除してしまうということにも繋がってしまう。

もっとも、ここでインプレー打球を無視する最大の目的は運による影響を排除することではなく、守備の影響から独立させることが最大の目的である。メリットでありデメリットであると表現したのはこういうことである。

Fangraphs

FangraphsではFIPで算出を行う。ほとんどDELTAの部分でほとんど解説してしまっているので大して解説するところはない。

なぜtRAではなく、内野フライを加味したFIPを使っているのかをFangraphsで解説している記事は見つけられなかったが、単純にFangraphsがその方が適切だと思っているだけだろう。

内野フライを加味している理由としては内野フライはチームの守備力と関係なくほとんど場合でアウトを取ることができるためである。要するに再現性高くアウトを取れるからである。ちなみにFangraphsでは、内野フライと三振と同義と扱っているらしい。

この内野の守備力に依存しないという点が、あえてFIPに内野フライを含んでいる大きな理由である。

単純に内野フライを加味して、FIPを計算しているわけではないので、下のリンクに計算方法が詳しくのっているので気になる方は参考にすると良い。

Calculating Pitcher WAR, A Complete Example

Baseball-Reference

このサイトでは、xRAという指標を使用している。正直あまり聞き馴染みがないかもしれない。計算方法は今までの指標と全く異なるが、計算方法の解説を目的とした記事ではないのでここでの解説はしない。

特徴として、この指標はあえて守備から独立した考え（DIPS）ではなく、失点率をベースに計算を行っている。この根拠は先述したが、不運であったか幸運であったかは関係なく、記録されたパフォーマンスの評価を目的とするという考えからである。そこに運を排除した再現性は求めていないし、関係ないという考えでBaseball-ReferenceはWARの算出をしているのだ。

先ほども解説したが、DIPSの考えを採用してしまうと、その影響で運も排除してしまうのである。この辺に関してはトレードオフの関係なのでどちらを取るかは非常に悩みどころである。このあたりはBaseball-Reference自身がFangraphsと比較しているので、そのリンクを貼っておく。

Pitcher WAR Calculations and Details

どの指標が適切であるか

ここまでの話から、WARの計算にどの指標が適切かどうかを確かめるポイントはこちらだと分かる。

・守備から独立した評価であるかどうか

・「結果」を説明できているか

・三振、四死球、本塁打以外の投手の持っている能力を過小評価、過大評価していないか

この三点からtRA、FIP、xRAを評価してみる。

この表は個人的な評価のため、あまりあてにしないでもらいたい。この表を単純に見てしまうと、tRA>FIP>xRAとなってしまうが、個人的な考えでは、FIPが一番適していると考えている。次点でxRAでtRAだと考えている。この二つは自分の中ではほとんど変わらないが。

Othersとは、一番最後の評価項目であるが、ここに関しては特に重視する項目ではないし、色んなことを考慮してしまうと逆にノイズになるというのはよくあることであると思っているからである。しかしながら、tRAが実際にそうなっているかは私の知るところではなく、tRAが一番適切ではないと直ちに断言されるものでもない。

個人的にFangraphsのFIPは内野フライを加味しているのが、最も高評価しているところである。何度も言うが、内野フライはどんなチームでも守備力関係なくほとんどアウトになる。DIPSの考えを守りつつも、最大限打球の部分に少し踏み込んでいるのは非常に一貫した考えかつより正確だと思っている。

私の考える最もWARの算出に適している指標は守備からは独立しつつも運（結果は結果としてみる）を排除しない指標であると考えるが、今のところそのような指標はない。（知らないだけかも）それに最も近いのがこの形のFIPであると思っているので現状はFIPを推しておく。

ここからは小話になるが、FIPは基本的に防御率スケールのため、WARの計算時には失点率スケールに調整される。私が防御率の最もアテにならないと思っている点は自責点が記録員の裁量によって決まってしまうのにそれを計算に含んでいる点であると考えている。

例を使うが、5/1のロッテ対日本ハム戦で日本ハムは4回に9得点している。この回は先頭にサードの悪送球。三振。シングル。四球。2点タイムリーダブル。サードへのハードヒットをサードがエラー。3点目。その後3ランホームラン。シングル。三振。タイムリーシングルで7点目。ここで投手交代。変わったリリーフがツーランを浴びて9点目。交代前の先発に記録された自責点は1点であり、防御率にそこまで悪影響は出ていない。確かにアウトを取る機会はあったが、この記録を私はやはり全く参考にできないと思っている。というただの愚痴。