V. レジーム条件付き分析

V. レジーム条件付き分析と訓練後診断

本セクションは訓練プロセスの一部ではなく、中心的な問いに対処する研究方法論の重要なコンポーネントである：

全ての時代からのデータでモデルを訓練した後、学習されたパターンは真の「系列から結果への関係」を示すか？そしてこれらのパターンは時代を超えて持続するか、それとも時代固有のままか？

本セクションは以下を目的とする：

訓練後の表現検証方法を定義する
イベント系列、特徴量、マクロ文脈のレベルでパターンを分析する
時間期間間でのパターンの安定性をテストする
真のシグナルとノイズまたは過学習を区別する

5.1 レジーム分割と時代別評価フレームワーク

市場レジームによって分割された時間期間の集合を以下とする

$$\mathcal{R} = \{R_1, R_2, \dots, R_L\}$$

ここで各 $R_\ell$ は重複しない時間区間

$$R_i \cap R_j = \varnothing, \quad i \ne j$$

データ範囲をカバーする

$$\bigcup_{\ell=1}^L R_\ell = [T_{start}, T_{end}]$$

訓練後、時代ごとに個別にモデルの振る舞いを評価する。

時刻 $t$ における資産 $a$ の系列レベル表現を以下とする

$$u_t^a = F_{\Theta}(\tilde{\mathcal{S}}^a_{(-\infty,t)})$$

時代 $R_\ell$ 内のイベント集合を以下とする

$$\mathcal{D}_{R_\ell} = \{(u_t^a, y_t^a) \mid t \in R_\ell\}$$

パフォーマンス関数を計算する

$$\Pi(R_\ell) = \mathbb{E}_{(a,t)\in\mathcal{D}_{R_\ell}} \Big[ \mathcal{M}(y_t^a,\hat{p}_t^a) \Big]$$

ここで $\mathcal{M}$ は以下のいずれか：

AUROC
ブライアスコア
稀なイベントに対するログ損失
結果条件付きメトリクス

重要な洞察：「市場全体の精度」を測定するのではなく、パターンの振る舞いが市場の時代間で安定しているか変化しているかを調べる。

5.2 学習されたパターンの時代間安定性

どのパターンが「時代間で普遍的」かをテストするため、表現の潜在部分空間への射影を定義する。

射影関数を以下とする

$$z_t^a = W_r u_t^a$$

異なる時代間での表現分布を分析する。

例えば、分布間距離を測定する

$$D(R_i, R_j) = \text{MMD} \Big( \{z_t^a \mid t\in R_i\}, \{z_t^a \mid t\in R_j\} \Big)$$

または密度推定によるKLダイバージェンス。

研究的解釈：

$D$ が低い場合 → パターン表現は「時代を超えて持続」する
$D$ が高い場合 → パターンは「レジーム固有」である

後者は、特定の期間で重要に見えるパターンが、普遍的な規則性ではなく時代固有の市場構造に起因する可能性を示唆する。

5.3 アテンション重み分析によるイベントレベル帰属

セクション3より、イベント $i$ と $j$ の間のアテンション重みを以下とする

$$\alpha_{ij} = \text{softmax}\left( \frac{q_i k_j^\top}{\sqrt{d}} \right)$$

イベント顕著性スコアを定義する

$$s_i = \sum_j \alpha_{ij}$$

時代別に平均化する

$$S(x, R_\ell) = \mathbb{E} \big[ s_i \mid x_i = x, t_i \in R_\ell \big]$$

これはイベントタイプ $x$が各時代のパターンにどの程度寄与するかを測定する。

これにより以下の調査が可能：

QEレジームでのみ重要な特徴量
危機レジームでのみ重要な特徴量
全ての時代で一貫して重要な特徴量

仮説への対処：パターンの蓄積は文脈依存か？

5.4 マクロトークン相互作用分析

ミクロイベントがどのマクロ文脈で「動作している」かを調べるため：

条件付きアテンション重みを定義する

$$\alpha_{ij}^{(macro)} \quad\text{where } x_j\in\mathcal{X}_{macro} \text{ の場合}$$

文脈結合スコアを定義する

$$C(x, m) = \mathbb{E} \big[ \alpha_{ij}^{(macro)} \mid x_i = x, x_j = m \big]$$

これは「特徴量イベント $x$」がマクロイベント $m$ とどの程度結合しているかを測定する。

解釈の例：

Feature-AはQE-STARTとの結合が高い
しかしQT-PHASEとの結合は非常に低い
これは同じパターンがQE下では「機能」するがQT下では「意味がない」可能性を示唆する

これは直接的な因果主張をせずに、文脈的因果性のような振る舞い分析を構成する。

5.5 結果条件付きパターンプロファイリング

特定の結果の前に不均衡に現れるイベント系列を特定するため：

近傍表現を定義する

$$\mathcal{N}_k = \{u_t^a \mid y_t^a = k\}$$

セントロイドを計算する

$$\mu_k = \frac{1}{|\mathcal{N}_k|} \sum_{(a,t)\in\mathcal{N}_k} u_t^a$$

類似度測定

$$d(u_t^a, \mu_k)$$

「上昇」イベントに先行する表現が特定の時代で密にクラスタリングされる（低いクラスタ内分散）場合、これはそれらの結果の前に繰り返しの系列パターンが存在することを示す。

ただし、分散が非常に高い場合 → 安定したパターンの証拠は存在しない。

5.6 時代別反事実的スタイル一貫性チェック

以下を区別する必要がある：

「モデルがその時代で良好なパフォーマンスを示すのは過学習による」
vs「パターンがその時代で特に動作している」

したがって、時代間評価を構築する。

時代 $R_i$ からの表現を以下とする

$$u^{(i)}_t$$

モデルパラメータを固定したまま、時代 $R_j$ の分布でテストする

$$\Pi(R_j \mid R_i)$$

解釈：時代 $R_i$ からのパターンが時代 $R_j$ で失敗する場合 → パターンはレジーム局所的な現象である。

一部のパターンが非持続的な市場条件から生じる可能性があるという仮説と整合的。

5.7 ノイズ仮説ベースラインテスト

偽のパターンをフィルタリングするため、以下のベースラインを実行する：

(1) 系列シャッフルテスト

イベント位置をランダムに並べ替える

$$\tilde{\mathcal{S}}^a_{\text{shuffle}}$$

パフォーマンスがほとんど低下しない場合 → モデルは「真のイベント順序」を使用していない = パターンは構造的に真正ではない。

(2) マクロマスキングテスト

一時的にマクロトークンを削除する

$$\tilde{\mathcal{S}}^a_{\neg macro}$$

次に測定する

$$\Delta\Pi = \Pi_{\text{full}} - \Pi_{\neg macro}$$

$\Delta\Pi \approx 0$ の場合 → マクロ文脈は意味のある貢献をしていない。

(3) ランダム特徴量注入テスト

ランダムな合成イベントを注入する

$$z_i^{rand}$$

それらがパターンとして解釈されるかチェックする。

そうであれば → モデルはノイズに過敏である。

5.8 エンジニアリング統合のための解釈可能性

研究およびエンジニアリングチームは結果を以下として抽出できる：

時代別アテンションヒートマップ
特徴量顕著性タイムライン
マクロ相互作用グラフ
レジームクラスタ軌跡

これらの出力は以下をサポートする：

下流の特徴量エンジニアリング
次のフェーズのための新しい仮説の策定
実用化前のサニティチェック

5.9 研究解釈プロトコル

結果が研究的価値を持つとみなされるのは以下の場合：

パターンが結果と統計的に有意な相関を示す
パターンが時代間で部分的に持続するまたはマクロロジックと整合的な時代固有の関係を示す
結果がノイズベースラインのみから生じていない
パターンが単一の特徴量ではなく共同イベント系列に依存している

言い換えると：本研究は「価格予測可能性」を証明しようとするのではなく、市場のイベント構造が非ランダムな統計的関係を示すことを示そうとする。

5.10 次のセクションへの接続

本セクションでは訓練されたモデルから意味を抽出する方法をまとめた。次のセクションでは：実験設計、データセット構築と再現性フレームワークを扱う。

以下を説明する：

体系的なデータ準備
検証可能な実験設計
本研究の再現性基準