- KDD 2025論文のUMIモデルが提唱する「非合理性ファクター」を日本株約330銘柄で検証した
- ロングショート戦略の税前シャープレシオは1.01→2.34に大幅改善、ただし取引コスト後は両モデルともマイナス
- 予測精度(IC)の改善は統計的に有意ではなく、論文のIC+20%改善は日本株では再現できなかった
「株式市場は常に合理的に動く」という効率的市場仮説(EMH)は、金融理論の基盤であると同時に、多くの投資家が直感的に疑問を感じるテーゼでもある。2025年、トップカンファレンスKDD(Knowledge Discovery and Data Mining)に採択された論文「UMI: Learning Universal Multi-level Market Irrationality Factors」は、この「市場の非合理性」を定量化し、株価予測に活用するという野心的なアプローチを提案した。本稿では、この論文の手法を日本株約330銘柄・13年分のデータで再現検証し、その有効性と限界を明らかにする。
1. 論文の概要と仮説
UMI論文(Yang et al., 2025)の核心的なアイデアは、「市場には合理的に説明できない価格の動きがあり、それを定量化すれば株価予測が改善する」というものである。具体的には、2つのレベルの「非合理性ファクター」を提唱している。
銘柄レベルの非合理性(Stock-level Irrationality)
個別銘柄の株価は、本来、同じセクター(業種)の他の銘柄と似た動きをするはずである。たとえば半導体セクター全体が上昇しているときに、ファンダメンタルズ(業績や財務状況)に問題がないにもかかわらず下落している銘柄があれば、それは「非合理的な価格のずれ」と考えられる。
UMI論文では、この「セクター内での乖離」をニューラルネットワークで数値化する。具体的には、同一セクターに属する銘柄群の平均的な動きから、個別銘柄の動きがどの程度逸脱しているかを計測する。この乖離が大きいほど「非合理性が高い」と判断し、将来の価格修正(平均への回帰)を予測するための特徴量として活用する。
市場レベルの非合理性(Market-level Irrationality)
もう一つの非合理性は、市場全体の同期性(シンクロナイゼーション)に関するものである。通常、個別銘柄はそれぞれ独自のファンダメンタルズに基づいて動くため、銘柄間の相関はある程度分散する。しかし、パニック的な売りやバブル的な買いが発生すると、多くの銘柄が一斉に同じ方向に動く。
UMI論文では、市場全体で銘柄間の動きがどの程度同期しているかをDCC-GARCH(動的条件付き相関GARCH)モデルなどで推定し、その同期度が高い場合を「市場レベルの非合理性が高い」と定義する。この指標は、群集心理による過剰反応やその後のリバーサル(反転)を予測するために使われる。
論文の主張するメリット
論文の検証では、米国市場と中国市場のデータを使い、これらの非合理性ファクターをLSTM(Long Short-Term Memory、長短期記憶ネットワーク。時系列データの学習に適したニューラルネットワークの一種)などの予測モデルに追加することで、予測精度が10〜20%向上し、ロングショート戦略(予測上位を買い、下位を売る戦略)のシャープレシオ(リスクあたりのリターンを示す指標。1.0以上で優秀とされる)が20〜30%改善したと報告している。
2. データと検証手法
論文の手法を日本株で再現するにあたり、以下のデータと条件で検証を行った。
| 項目 | 内容 |
|---|---|
| 対象銘柄 | TOPIX構成銘柄のうち、データが完備された約330銘柄(東証プライム市場中心) |
| 対象期間 | 2013年1月〜2025年12月(約13年間) |
| データ分割 | 訓練: 2013-2018 / 検証: 2019-2021 / テスト: 2022-2025 |
| 入力特徴量 | OHLCV(始値・高値・安値・終値・出来高)の5項目を過去20営業日分 |
| 追加ファクター | 銘柄レベル非合理性(セクター内乖離)+ 市場レベル非合理性(銘柄間同期度) |
| 予測対象 | 翌営業日のリターン |
| モデル | LSTM(2層、隠れ次元64) |
| セクター分類 | 東証33業種をTOPIX-17相当にマッピング |
| 評価指標 | IC(情報係数)、RankIC(順位相関係数)、ロングショート戦略のリターン・シャープレシオ |
3つのモデルの比較
検証では以下の3つのモデルを比較した。効果の源泉を切り分けるため、ファクターの追加を段階的に行っている。
- Baseline LSTM: OHLCV(価格と出来高)のみを入力とする標準的なLSTMモデル
- + Stock irrationality only: Baselineに銘柄レベルの非合理性ファクター(セクター内乖離)のみを追加したモデル
- Enhanced LSTM(全ファクター): 銘柄レベル + 市場レベルの非合理性ファクターを両方追加した、論文のフルモデルに相当する構成
評価指標の説明
IC(Information Coefficient、情報係数)とは、モデルの予測値と実際のリターンとのピアソン相関係数のことである。RankIC(Rank Information Coefficient)は予測値と実リターンの順位相関(スピアマン相関)で、外れ値の影響を受けにくい。いずれも値が大きいほど予測精度が高いことを意味し、一般に0.03〜0.05程度で「実用的に有意」、0.05以上で「良好」とされる。
データの前提条件と制約
本検証のデータと手法には以下の制約があり、結果の解釈にあたって留意が必要である。
- 銘柄数の差異: 論文は米国約500銘柄・中国約300銘柄で検証しているが、今回は日本株約330銘柄である。銘柄数が少ないとセクター内の乖離計算のロバスト性が低下する可能性がある
- セクター分類の差異: 論文はGICS(世界産業分類基準)の11セクターを使用。今回は東証33業種をTOPIX-17に集約しており、セクター粒度が異なる
- 非合理性ファクターの近似計算: 論文のDCC-GARCHベースの市場同期度は計算コストが高いため、簡略化した銘柄間相関の集約値で代用している
- 生存者バイアス: 検証期間中に上場廃止となった銘柄は対象から除外されている
- 取引コスト: ロングショート戦略の実効性を評価するため、片道5bps(0.05%)の取引コストを仮定したネットリターンも算出した
3. 検証結果: 予測精度
まず、予測精度の観点からモデルを比較する。テスト期間(2022〜2025年)における各指標を以下に示す。
| モデル | 平均IC | 平均RankIC | IC正率 |
|---|---|---|---|
| Baseline LSTM(OHLCVのみ) | 0.0259 | -0.0085 | 55.9% |
| + 銘柄レベル非合理性のみ | 0.0316 | -0.0008 | 57.9% |
| Enhanced LSTM(全ファクター) | 0.0260 | -0.0006 | 55.1% |
結果を見ると、いくつかの注目すべき点がある。
まず、平均ICは3モデルとも0.025〜0.032の範囲に収まっており、差は極めて小さい。銘柄レベルの非合理性ファクターのみを追加したモデルが最も高いIC(0.0316)を示したが、全ファクターを追加したEnhancedモデルは0.0260とBaselineとほぼ同値に戻っている。これは、市場レベルのファクターを追加したことでむしろノイズが増えた可能性を示唆する。
次に、RankICは全モデルでほぼゼロまたは微小なマイナスである。RankICが負ということは、予測の「順位付け」の精度がランダムに近いことを意味する。ICが正でRankICがゼロ付近という状況は、「全体的な方向性(上がるか下がるか)の予測はある程度できているが、銘柄間の相対的な優劣の予測は苦手」という構図を示している。
図1: テスト期間(2022-2025年)における日次ICの推移。青がBaseline LSTM、オレンジがEnhanced LSTM。両モデルともIC値の変動パターンはほぼ重なっており、ファクター追加による系統的な改善は視覚的に確認しにくい。
統計的検定の結果
ICの改善が統計的に有意かどうかを検定した結果は以下のとおりである。
IC改善のp値は0.998であり、統計的に有意な改善とは到底言えない。RankIC改善のp値は0.057で、5%有意水準をわずかに上回っており、「限界的に有意(marginally significant)」と表現される水準にある。つまり、ファクター追加によるRankICの改善はゼロとは断言できないが、統計的に確信を持てる水準でもないというのが正確な結論である。
図2: 日次ICの分布。Baseline(青)とEnhanced(オレンジ)の分布形状はほぼ同一で、ファクター追加による分布のシフトは確認できない。両モデルとも分布の中心は0付近にあり、正のICを示す日がやや多い。
4. 検証結果: ロングショート戦略
予測精度の改善は限定的であったが、実際の投資戦略としてのパフォーマンスはどうだろうか。各モデルの予測値に基づき、毎日上位20銘柄をロング(買い)、下位20銘柄をショート(空売り)するロングショート戦略のバックテスト結果を以下に示す。
| 指標 | Baseline | Enhanced | 変化 |
|---|---|---|---|
| 年率リターン(税前) | 10.4% | 25.8% | +15.4pt |
| シャープレシオ(税前) | 1.01 | 2.34 | +1.33 |
| 年率リターン(コスト後, 5bps) | -13.6% | -1.5% | +12.1pt |
| 最大ドローダウン | -54.5% | -28.4% | 改善 |
| 勝率 | 46.4% | 48.6% | +2.2pt |
税前のパフォーマンスは印象的である。Enhancedモデルのシャープレシオは2.34で、Baselineの1.01から大幅に改善した。年率リターンも10.4%から25.8%に伸びている。最大ドローダウンも54.5%から28.4%に改善しており、リスク管理の面でも優れている。
しかし、取引コストを考慮した途端に状況は一変する。片道5bps(0.05%)という控えめなコストを仮定しても、Baselineは年率-13.6%、Enhancedでも-1.5%と、どちらもマイナスに転落する。これは毎日40銘柄のポートフォリオをリバランスする高頻度戦略の宿命であり、1日あたりのリターンが小さいため、取引コストに対して脆弱になる構造的な問題を抱えている。
図3: ロングショート戦略の累積リターン推移。Enhanced LSTM(オレンジ)はBaseline(青)と比較して安定した右肩上がりを示すが、ネットリターン(取引コスト考慮後、破線)はどちらも横ばいからマイナス圏で推移している。
予測精度と戦略パフォーマンスの乖離
ここで興味深い矛盾が生じている。予測精度(IC)はほぼ改善していないのに、戦略のシャープレシオは2倍以上に改善した。この一見矛盾する結果はなぜ生じたのだろうか。
考えられる最も合理的な説明は、ファクター追加がICの「全体的な水準」ではなく「テールの質」を改善した可能性である。ロングショート戦略は予測値の上位と下位だけを使うため、分布の両端(テール)の精度が戦略リターンに大きく影響する。平均ICがほぼ同じでも、「極端に高い(低い)と予測した銘柄」の精度が向上していれば、ロングショートのリターンは改善しうる。
もう一つの可能性は、非合理性ファクターがモデルのオーバーフィッティング(過学習)を抑制する正則化効果を持ち、予測の安定性(分散の低下)を通じてシャープレシオを改善したというものである。最大ドローダウンが54.5%から28.4%に大幅改善している事実は、この仮説を支持する。
5. 論文との比較と考察
今回の日本株での結果を、論文が報告した米国市場・中国市場の結果と比較する。
| 市場 | IC変化 | IC改善率 | シャープレシオ変化 | SR改善率 |
|---|---|---|---|---|
| 米国(論文) | 0.071 → 0.086 | +20% | 1.14 → 1.47 | +29% |
| 中国(論文) | 0.070 → 0.081 | +16% | 1.09 → 1.38 | +27% |
| 日本(今回) | 0.0259 → 0.0260 | +0.4% | 1.01 → 2.34 | +132% |
比較すると、際立った特徴が2つある。
第一に、ICの改善率は日本株ではほぼゼロ(+0.4%)であり、論文の+16〜20%とは大きく異なる。そもそもBaselineの時点でICの水準が異なっており、日本株のIC(0.026)は米国・中国(0.070〜0.071)の約3分の1にとどまる。これは日本株市場の予測が根本的に難しいことを示唆している。
第二に、シャープレシオの改善率は日本株で+132%と突出して大きい。論文の+27〜29%を大幅に上回る。ただし、これは前述のとおり「テール精度」や「予測安定性」の改善が主因であり、ICの改善とは異なるメカニズムで生じている可能性が高い。また、取引コスト後にはどちらもマイナスという制約は変わらない。
なぜ日本株でICが改善しなかったのか
日本株でIC改善が見られなかった原因として、以下の要因が考えられる。
- セクター構造の違い: 米国市場はGAFAMに代表されるテック・セクターの存在感が突出しており、セクター内の動きが比較的明確である。一方、日本市場は製造業の比率が高く、セクター内での銘柄間の異質性が大きい。セクター乖離ファクターの有効性はセクターの同質性に依存するため、日本ではこのファクターが効きにくい可能性がある
- 市場の非合理性の構造差: 中国市場は個人投資家比率が高く(約60%)、群集心理による非合理的な動きが出やすい。米国も小型株を中心に同様の傾向がある。日本市場の個人投資家比率は約20%であり、機関投資家主導の合理的な価格形成がなされやすい環境にある。そもそも「非合理性」の程度が小さければ、それを捕捉するファクターの効果も限定的になる
- 近似計算の限界: 今回の検証では論文のDCC-GARCHベースの市場同期度を簡略化した手法で代用しているため、論文と同等の精度でファクターを算出できていない可能性がある。特に市場レベルの非合理性ファクターは、全ファクターモデルでICが低下した一因かもしれない
個人的な見解
個人的には、この論文のアイデア自体は非常に興味深いと考えている。「市場の非合理性を定量化して予測に使う」というフレームワークは、行動ファイナンスの知見をアルファ生成に直結させる発想であり、理論的な筋は通っている。
しかし、日本株での検証結果は「ICの改善なし」「取引コスト後はマイナス」という、個人投資家にとっては実用的とは言い難い内容であった。特に気になるのは、ICが改善していないのにシャープレシオが大幅改善したという矛盾である。この結果はファクターの「正則化効果」で説明可能だが、それは「非合理性を予測に使っている」という論文の主張とは本質的に異なるメカニズムである。
もう一つ指摘しておきたいのは、日本株市場そのものの予測可能性の低さである。BaselineのICが0.026という水準は、米国・中国の3分の1であり、OHLCVだけでは日本株のリターンをほとんど予測できていない。この「予測の土台」が弱い状態では、どんなに優れたファクターを追加しても大幅な改善は期待しにくい。日本株で機械学習ベースの予測を試みる場合、OHLCVに加えてファンダメンタルズデータ(財務指標、アナリスト予想など)や需給データ(信用残、投資主体別売買動向など)を入力に加えることが、より本質的な改善の鍵になるのではないかと考えている。
6. まとめ
結論: アイデアは有望だが、日本株での実用化にはハードルが残る
- UMI論文の「非合理性ファクター」を日本株330銘柄で検証した結果、予測精度(IC)の改善は統計的に有意ではなかった(p=0.998)
- ロングショート戦略のシャープレシオは1.01→2.34と大幅改善したが、取引コスト後は-1.5%のマイナスであり、日次リバランス戦略の実用化には取引コストの壁が立ちはだかる
- 論文が報告したIC+16〜20%の改善は日本株では再現できず、その背景にはセクター構造の違い、市場参加者構成の違い、予測ベースラインの低さがある
- ただし、最大ドローダウンの改善(54.5%→28.4%)やシャープレシオの向上は、ファクターが「予測精度」ではなく「予測安定性」を改善している可能性を示唆しており、この点は今後の研究で深掘りする価値がある
今後の展望
今回の検証は「論文の再現」に焦点を当てたため、改善の余地が多く残されている。考えられる発展方向として、以下が挙げられる。
- リバランス頻度の低減: 日次ではなく週次・月次のリバランスに変更し、取引コストを抑制する
- 入力特徴量の拡充: OHLCVに加えて財務データや需給データを入力することで、ベースラインのIC自体を引き上げる
- DCC-GARCHの完全実装: 市場同期度の計算を論文どおりに実装し、近似計算による精度低下の影響を排除する
- 個別セクターの効果検証: どのセクターで非合理性ファクターが効いているかを特定し、セクター選択的にファクターを適用する
学術論文の手法が「そのまま利益に直結する」ケースは稀である。しかし、論文のアイデアを出発点として、日本市場の特性に合わせたカスタマイズを行うことで、実用的なアルファの源泉に到達できる可能性は十分にあると考えている。
※本記事は公開情報に基づく情報整理であり、個人の見解を含みます。特定の銘柄の売買や投資を推奨するものではありません。投資判断はご自身の責任においてお願いいたします。