💡 この記事のポイント
- 日銀金融研究所が「機械学習×新聞テキスト×複数の経済データ」を組み合わせて景気後退を予測する新フレームワークを発表した
- 30年分のデータを使った検証で、AIモデル(KNN / LightGBM)はAUC 0.88〜0.93を記録し、従来手法(ロジスティック回帰 AUC 0.55〜0.66)を大幅に上回った
- 新聞記事から「企業の苦境」「金融不安」「デフレ圧力」の3つの経済ストーリーを自動抽出し、景気の「空気」を数値化している
- 「何がどれくらい予測に効いたか」をSHAP分析で可視化。過去の景気後退ごとに原因の組み合わせが異なることもわかった
目次
2026年3月、日本銀行の金融研究所(IMES)がひとつの研究論文を公開した。タイトルは「Forecasting Recessions Using Machine Learning on Text Data and Mixed-Frequency Predictors」。日本語にすると「テキストデータと混合頻度予測変数を用いた機械学習による景気後退予測」という少し難しい名前だが、やっていることは意外とシンプルである。新聞記事のAI分析と、さまざまな経済データを組み合わせて、「これから景気が悪くなるかどうか」を予測するモデルを作ったという内容だ。本稿では、この論文のエッセンスを専門知識がなくても理解できるように、できるだけ平易な言葉で解説する。
1. そもそも「景気後退」とは何か
まず基本的なところから押さえておこう。景気後退(リセッション)とは、経済全体の活動が数か月以上にわたって縮小する状態のことである。もっとかんたんに言えば、「モノが売れない」「会社が儲からない」「仕事が減る」という状態が続くことだ。
日本における景気後退の公式な定義
日本では、内閣府の経済社会総合研究所(ESRI)が景気基準日付を認定する。これは「景気の山(ピーク)」と「谷(ボトム)」を事後的に特定し、山から谷までの期間を「景気後退期」と定めるものである。
具体的には、景気動向指数のCI一致指数(鉱工業生産、有効求人倍率、商業販売額など複数の経済指標を合成した指数)の動きを主な判断材料としている。この指数が持続的に下落していれば「景気後退」、上昇していれば「景気拡張」と判断される。戦後日本の景気循環の平均的な長さは約50か月(約4年)で、そのうち景気後退期は平均で約16〜18か月程度である。
今回の論文では、この公式な景気基準日付に基づいて、ある月が景気後退期にあたる場合は「1」、そうでなければ「0」とする二値変数(バイナリ変数)を目的変数として使用している。つまり、モデルが出す答えは「h か月後に景気後退が起きている確率は○%」という形になる。
ただし問題がある。景気後退の認定はいつも「後から」行われるということだ。実際に景気が悪化しているときには「今が景気後退かどうか」がはっきりしない。だからこそ、「これから景気後退が来るかどうかを事前に予測する」ことには大きな意味がある。政府や日銀が適切な対策を打つための判断材料になるからである。
2. この論文が解決しようとしている問題
景気後退を予測する研究は昔からあるが、従来の手法にはいくつかの限界があった。
| 課題 | 具体的な内容 |
|---|---|
| データの頻度がバラバラ | GDP(国内総生産)は四半期ごと、鉱工業生産は月次、株価は日次や週次で発表される。頻度の異なるデータをうまく組み合わせるのが難しい |
| 数字だけでは捉えにくい「空気」 | 経済指標の数字には表れない「企業の不安感」「市場のムード」といった定性的な情報が反映されない |
| 予測モデルが単純すぎる | 従来よく使われるロジットモデル(後述)は、データ間の複雑な関係性を捉えきれない |
今回の論文は、これら3つの課題をまとめて解決するフレームワークを提案している。具体的には、(1) 頻度の異なるデータを統合する「U-MIDAS」という手法、(2) 新聞記事からテキストデータを活用する手法、(3) 機械学習による高精度な予測モデル——この3つを組み合わせたものだ。
3. 予測に使うデータの全体像 — 目的変数と説明変数
機械学習モデルを作るには、「何を予測するか(目的変数)」と「何をヒントにするか(説明変数)」を明確にする必要がある。この論文では以下のように設計されている。
目的変数(予測したいもの)
目的変数は「hか月後に日本が景気後退期にあるかどうか」を示す二値変数(0 or 1)である。景気後退期なら1、そうでなければ0。内閣府ESRIの景気基準日付に基づいて判定する。予測の時間軸は3か月先(短期)、6か月先(中期)、12か月先(長期)の3パターンで検証されている。
説明変数(予測のヒント)— 全19変数
説明変数は大きく4グループ・全19変数で構成されている。データ期間は1992年1月〜2024年12月の約33年分である。
| No. | 変数名 | 頻度 | グループ |
|---|---|---|---|
| 1 | 最終需要財在庫率指数 | 月次 | 景気先行指数(LI)の 構成11指標 |
| 2 | 鉱工業用生産財在庫率指数 | 月次 | |
| 3 | 新規求人数(除く新卒) | 月次 | |
| 4 | 実質機械受注(製造業) | 月次 | |
| 5 | 新設住宅着工床面積 | 月次 | |
| 6 | 消費者態度指数 | 月次 | |
| 7 | 日経商品指数(42種) | 月次 | |
| 8 | マネーストック(M2) | 月次 | |
| 9 | 東証株価指数(TOPIX) | 月次 | |
| 10 | 投資環境指数(製造業) | 月次 | |
| 11 | 中小企業売上見通しDI | 月次 | |
| 12 | 長短金利差(10年−1年) | 週次 | タームスプレッド |
| 13 | 長短金利差(5年−1年) | 週次 | |
| 14 | 長短金利差(3年−1年) | 週次 | |
| 15 | 債務返済比率(DSR) | 月次 | 金融変数 |
| 16 | 日経225 実現ボラティリティ | 週次 | |
| 17 | マクロ経済センチメント(874語辞書) | 週次 | テキスト指標 (毎日新聞) |
| 18 | 金融市場センチメント(19,630語辞書) | 週次 | |
| 19 | 経済政策不確実性指数(EPU) | 週次 |
ポイントは、No.1〜11の景気先行指数の構成指標(月次データ)がベースラインとなり、そこにNo.12〜16の金融データやNo.17〜19のテキストデータを追加することで、予測精度がどう変わるかを検証している点である。テキスト指標の元データは毎日新聞の経済面から抽出されている。
使用された機械学習モデル — 全10手法
論文では、以下の9種類の機械学習モデル + 1つの従来手法(ベンチマーク)を比較している。
| モデル名 | 特徴(かんたんに) |
|---|---|
| ロジスティック回帰 | 従来手法(ベンチマーク)。シンプルだが複雑なパターンは捉えにくい |
| Lasso / Ridge / Elastic Net | 正則化(ペナルティ付き)線形モデル。変数が多いときに余計な変数の影響を抑える |
| SVM(サポートベクターマシン) | データの境界線を引く手法。RBFカーネルで非線形パターンも学習可能 |
| ランダムフォレスト | 多数の決定木の「多数決」で予測。過学習に強い |
| LightGBM | 勾配ブースティング決定木。高速で精度が高く、実務で広く使われている |
| KNN(k近傍法) | 「似ている過去のデータ」を探して予測。直感的でわかりやすい手法 |
| LDA(線形判別分析) | グループ間の違いが最大になる軸を見つけて分類する |
| ニューラルネットワーク | 脳の神経回路を模した手法(1〜2隠れ層の浅い構造) |
各モデルに対して、説明変数の組み合わせ(タームスプレッドの有無 × 金融変数の有無 × テキスト指標4パターン × 週次データの有無)で32通り、合計320パターンの予測モデルが各時間軸について評価されている。
4. 3種類のデータを組み合わせる仕組み(U-MIDAS)
この論文のカギとなる技術のひとつがU-MIDAS(Unrestricted Mixed Data Sampling=制約なし混合データサンプリング)である。名前は難しいが、やっていることは「更新頻度の違うデータをうまく1つのモデルに入れる工夫」だ。
たとえ話で理解するU-MIDAS
天気予報をイメージするとわかりやすい。天気を予測するとき、「毎月の平均気温」だけを見ても精度は低い。「毎週の降水量」「毎日の気圧の変化」など、頻度の違うデータも一緒に使ったほうが正確に予測できる。しかし、月に1回のデータと毎日のデータでは「数」が違うので、単純に並べるわけにはいかない。U-MIDASは、この「頻度の違い」を統計的にうまく処理して、すべてのデータを同じ土俵に乗せる手法である。
| データ種別 | 更新頻度 | 具体例 |
|---|---|---|
| マクロ経済指標 | 月次 | 景気先行指数の構成11指標(在庫率指数、新規求人数、機械受注、住宅着工、消費者態度指数、TOPIX等) |
| 金融指標 | 週次 | 株価指数、長短金利差(イールドスプレッド)、社債スプレッドなど。市場がリアルタイムに織り込む期待や不安を反映 |
| テキスト指標 | 週次 | 毎日新聞の経済面から抽出した3種類のセンチメント指標(874語〜19,630語の辞書を使用)。数字には表れない「世の中の空気」を数値化 |
たとえば、実質機械受注(企業の設備投資意欲を示す指標)は月に1回しか発表されないが、長短金利差や新聞センチメントは毎週更新される。U-MIDASを使えば、こうした「速度の違うデータ」を自然に統合できるのである。論文では月次変数に2か月分のラグ、週次変数に8週分のラグ(月次約2か月分に相当)を使用している。
5. 新聞記事から「景気の空気」を読み取る
この論文でとくにユニークなのが、新聞記事をAIで分析して景気予測に活用している点である。
新聞には「業績悪化」「リストラ」「倒産」「物価下落」「金融不安」といった言葉が日々登場する。こうした言葉の出現頻度は、経済統計の数字よりも早く「景気の変調」を捉えることがある。なぜなら、記者は企業の取材や市場の取材を通じて、統計データとして集計される前の「肌感覚」を記事に反映しているからだ。
スパースPCAで3つの「経済ストーリー」を発見
ただし、新聞記事に登場するキーワードは膨大な数にのぼる。そのまますべてをモデルに入れると、ノイズ(関係ない情報)が多すぎて予測精度が下がってしまう。そこで論文ではスパースPCA(Sparse Principal Component Analysis=まばらな主成分分析)という手法を使い、大量のキーワードから本当に重要な情報だけを抽出している。
「主成分分析」とは、たくさんの変数を少数の「まとまり」に要約する統計手法のことだ。例えるなら、100人の生徒のテスト結果を「文系力」「理系力」「体力」の3つにまとめるようなイメージである。「スパース」とは「まばらな」という意味で、余計な要素を削ぎ落としてよりくっきりした結果を出す工夫が加わっている。
この手法を新聞記事データに適用した結果、3つの経済ストーリー(ナラティブ)が浮かび上がった。
| ナラティブ名 | 意味と具体例 |
|---|---|
| 企業の苦境 (Corporate Distress) |
「業績悪化」「リストラ」「倒産」「減産」など、企業活動の不振を示すキーワード群。工場の操業停止や大規模な人員削減のニュースが増えると、この指標が上昇する |
| 金融不安 (Financial Distress) |
「不良債権」「信用収縮」「金融危機」「貸し渋り」など、銀行や金融市場の不安定さを示すキーワード群。金融システムの不安が高まると上昇する |
| デフレ圧力 (Deflationary Pressure) |
「物価下落」「デフレ」「価格競争」「消費低迷」など、物価が持続的に下がる傾向を示すキーワード群。モノの値段が下がり続け、企業の収益が圧迫される状況を反映 |
つまり、AIが新聞記事を読んで「いま世の中では企業が苦しんでいるのか、金融システムが不安定なのか、デフレが進んでいるのか」を自動的に判定し、それを数値化して景気予測に活用しているのである。
6. 機械学習モデルの予測精度 — AUCで定量比較
論文では、1992年1月〜2024年12月のデータを使い、2003年1月〜2024年12月をアウトオブサンプル期間(疑似リアルタイム予測)として検証を実施している。この期間にはリーマンショック(2008年)、東日本大震災(2011年)、コロナショック(2020年)といった複数の景気後退が含まれている。
AUC(予測精度の指標)とは?
予測精度の比較にはAUC(Area Under the ROC Curve)という指標が使われている。AUCは0.5〜1.0の値をとり、0.5なら「コイン投げと同じ(ランダム)」、1.0なら「完璧な予測」を意味する。「景気後退の月を、景気拡張の月よりも正しく高い確率でランク付けできるか」を測る指標であり、値が高いほど予測モデルの性能が良い。
結果: 機械学習が従来手法を大幅に上回った
以下は、各予測時間軸(3か月先・6か月先・12か月先)における上位モデルと、ベンチマーク(従来手法)のAUC比較である。
| 時間軸 | モデル | 使用した追加データ | AUC |
|---|---|---|---|
| 3か月先 | KNN | テキスト(Sentiment-M)+ 週次データ | 0.93 |
| LightGBM | テキスト(Sentiment-M)+ 週次データ | 0.91 | |
| KNN | 金利差 + 金融変数 + テキスト(Sentiment-M) | 0.91 | |
| ロジスティック回帰 | LI構成指標のみ(ベンチマーク) | 0.66 | |
| 6か月先 | LightGBM | 金利差 + 金融変数 + テキスト(Sentiment-M) | 0.87 |
| KNN | 金利差 + 金融変数 + テキスト(Sentiment-M)+ 週次 | 0.86 | |
| KNN | 金利差 + 金融変数 + テキスト(Sentiment-F) | 0.86 | |
| ロジスティック回帰 | LI構成指標のみ(ベンチマーク) | 0.55 | |
| 12か月先 | LightGBM | 金利差 + 金融変数(テキストなし) | 0.88 |
| KNN | 金利差 + 金融変数(テキストなし) | 0.86 | |
| KNN | 金利差 + 金融変数(テキストなし)+ 週次 | 0.86 | |
| ロジスティック回帰 | LI構成指標のみ(ベンチマーク) | 0.55 |
結果は明確だ。短期(3か月先)では最良のKNNモデルがAUC 0.93を達成し、ベンチマークの0.66を0.27ポイント上回った。6か月先でもLightGBMが0.87 vs 0.55で+0.32ポイント、12か月先でもLightGBMが0.88 vs 0.55で+0.33ポイントの差をつけている。ベンチマークのロジスティック回帰は0.5台にとどまっており、ほぼランダムに近い精度しか出せていない。
短期はテキスト、長期は金融データが有効 — MCS分析の結果
320パターンのモデルから「統計的に優れている」と判定されたモデル群(MCS: Model Confidence Set、有意水準5%)を分析すると、どの種類のデータが有効かは予測の時間軸で大きく変わることがわかる。
| 時間軸 | 残存数 | 金利差 含有率 |
金融変数 含有率 |
テキスト 含有率 |
Sentiment-M 含有率 |
|---|---|---|---|---|---|
| 3か月先 | 27/320 | 44% | 44% | 96% | 85% |
| 6か月先 | 34/320 | 68% | 50% | 62% | 53% |
| 12か月先 | 24/320 | 75% | 58% | 25% | 17% |
この表の読み方を補足しよう。3か月先の予測では、MCSに残ったモデルの96%がテキスト指標を含んでいた。つまり、短期予測ではテキストデータがほぼ必須であることを意味する。一方、12か月先では金利差を含むモデルが75%を占め、テキスト指標は25%にまで低下した。新聞は「いま起きていること」に強く、金利差は「将来の景気見通し」を反映するため、時間軸が長くなるほど金融データの重要性が増すのは直感的にも理解できる結果だ。
また、ベンチマークのロジスティック回帰はどの時間軸でもMCSから除外された(=統計的に劣っていると判定された)。これは機械学習モデルの優位性が統計的にも裏付けられたことを意味している。
7. 「なぜそう予測したか」を説明するSHAP分析
機械学習モデルには「ブラックボックス問題」がつきまとう。つまり、「予測は当たるけど、なぜその予測になったのかがわからない」という問題だ。これは政策判断に使うには大きなハードルとなる。
この問題に対処するため、論文ではSHAP(SHapley Additive exPlanations=シャープレイ加法的説明)という分析手法を使っている。SHAPは、ゲーム理論(複数のプレイヤーが協力するときの貢献度を公平に分配する理論)に基づいて、「どの変数がどれくらい予測結果に貢献したか」を数値で示す手法である。
過去の景気後退は「原因の組み合わせ」が毎回違う
SHAP分析の結果、非常に興味深いことがわかった。過去の景気後退は、毎回異なる要因の組み合わせで引き起こされているのである。
| 景気後退の時期 | 主に寄与した要因 |
|---|---|
| 1990年代後半 | 「金融不安」ナラティブが急上昇(大手金融機関の経営破綻、不良債権問題の深刻化) |
| 2000年代前半 | 「デフレ圧力」ナラティブが主導(ITバブル崩壊後の物価下落と消費低迷) |
| 2008〜2009年 | 「企業の苦境」「金融不安」が同時に急上昇(リーマンショックによる世界同時不況) |
| 2020年 | 「企業の苦境」ナラティブが突出(コロナショックによる急激な経済活動の停止) |
これは「景気後退に万能の予兆はない」ということを意味している。金融不安が主因のときもあれば、デフレが主因のときもある。だからこそ、単一の経済指標ではなく、複数の角度からデータを集めて機械学習で統合的に判断するアプローチが有効なのだ。
8. 個人的な見解と今後の展望
この論文で個人的にもっとも注目しているのは、「テキストデータの予測力が短期で特に高い」という発見だ。
株式投資の世界では「ニュースは織り込み済み」とよく言われるが、この研究はむしろ逆のことを示している。新聞記事に含まれる「空気感」には、マクロ経済指標にはまだ反映されていない先行情報が含まれているということだ。考えてみれば、記者が「取材先の企業が急にコストカットを始めた」と書く記事は、その企業の業績悪化が統計に反映されるよりも先に出る。テキストデータの情報優位性は、直感的にも納得できる。
一方で、現実の政策への応用にはいくつかのハードルがある。まず、機械学習モデルの予測は確率的なものであり、「景気後退が来る/来ない」を白黒はっきり判定するわけではない。「景気後退の確率が60%」と言われたとき、どう行動すべきかの判断は結局人間に委ねられる。
また、今後はSNS(X/Twitterなど)のデータや、大規模言語モデル(ChatGPTやClaudeのような生成AI)を使ったテキスト分析も組み合わせることで、さらに精度が向上する可能性がある。日銀は2024年に大規模言語モデルを活用したテキスト分析の研究も発表しており、今回の論文はその流れの延長線上にある取り組みといえる。
注意点: この論文はあくまで学術研究であり、日銀の公式見解や政策判断を示すものではない。著者の個人的な見解であるとIMESも明記している。また、過去のデータを使った検証(バックテスト)の精度が、未来の予測精度を保証するわけではない点にも留意が必要である。
9. まとめ
「AIは景気後退を予測できるか」——答えは「従来手法よりは、かなりうまくできる」
本論文は、19変数・10手法・320パターンの大規模な比較実験を通じて、新聞テキスト・混合頻度データ・機械学習を統合したフレームワークが従来手法を大幅に上回ることを示した。最良モデルのAUCは短期0.93・中期0.87・長期0.88に対し、従来のロジスティック回帰は0.55〜0.66にとどまった。
- テキストデータは短期予測に強い。MCS分析で短期予測の上位モデルの96%がテキスト指標を含んでいた。新聞記事が伝える「景気の空気」は、統計データよりも早く景気の変調を捉える
- 金融データは長期予測に強い。12か月先の上位モデルの75%が金利差を含み、テキスト指標は17%に低下した。イールドカーブなど市場が織り込む将来見通しは中長期的な予測力を持つ
- 景気後退の原因は毎回違う。SHAP分析で「企業の苦境」「金融不安」「デフレ圧力」の寄与が景気後退ごとに異なることが確認された。だからこそ、複数のデータソースを機械学習で統合する意義がある
AIによる景気予測はまだ発展途上だが、「人間の判断を補助するツール」としての有用性は高い。経済ニュースを読む際に「いま新聞ではどんな言葉が増えているか」を意識してみるのも、この論文の知見を活かす第一歩になるだろう。
出典: 日本銀行 金融研究所ディスカッションペーパーシリーズ
出典: 日本銀行「大規模言語モデルを用いた新たなテキスト分析の取組み」(2024年12月 日銀レビュー)
※本記事は公開情報に基づく情報整理であり、個人の見解を含みます。特定の銘柄の売買や投資を推奨するものではありません。投資判断はご自身の責任においてお願いいたします。