IV. 学習目的と最適化

IV. 学習目的、最適化戦略と学習制約

本セクションでは、時間的制約、イベントの不均衡、データリーケージのリスクの下で、セクション3のモデルがどのように訓練されるかを説明し、明確で検証可能な統計的目的を確立する。

セクションの目的：

形式的目的関数を定義する
パイプラインレベルのリーケージ防止を説明する
クラス不均衡と結果のスパース性に対処する
頑健性のための正則化を説明する
レジーム認識型学習フレームワークを確立する

4.1 学習設定 — 時間的に整合した教師あり学習

評価時刻 $t$ における資産 $a$ の系列を以下とする：

$$\tilde{\mathcal{S}}^a_{(-\infty,t)} = \{z_i^a \mid t_i^a < t\}$$

結果イベント（セクション1より）を定義する

$$y_t^a \in \{-1, 0, 1\}$$

目的は以下を推定すること

$$\hat{p} = \hat{p}(y_t^a \mid \tilde{\mathcal{S}}^a_{(-\infty,t)})$$

時刻 $t$ より前に利用可能な情報のみを使用する。

これは時間に依存しない予測とは異なる、因果的に妥当な学習設定を構成する。

4.2 時間ベースのデータセット分割（ランダムシャッフルなし）

リーケージを防ぐため、データセット分割は時間的に行われる

$$\text{Train} < \text{Validation} < \text{Test}$$

時系列順のみ：

$$[0, T_{train}] < [T_{val}^{start}, T_{val}^{end}] < [T_{test}^{start}, T_{test}^{end}]$$

ランダム分割は禁止される。理由：

将来のイベントが間接的に訓練に現れる可能性がある
マクロレジームパターンが分割間でリークする可能性がある

パイプライン強制の原則

系列ビルダーはイベントをカットオフ時刻以下に制限する
ラベルビルダーはカットオフ後の将来の結果のみを参照する
モデルローダーは時間的整合性を検証する

4.3 学習目的関数

最終的な系列表現を $u_t^a$ とする

確率推定関数：

$$\hat{p}(y_t^a = k) = \frac{\exp(w_k^\top u_t^a)}{\sum_j \exp(w_j^\top u_t^a)}$$

クロスエントロピー損失を定義する

$$\mathcal{L}_{CE} = -\sum_{(a,t)} \sum_{k} \mathbb{1}[y_t^a = k] \log \hat{p}(y_t^a = k)$$

4.4 クラス不均衡とイベントスパース性の処理

結果イベントは通常稀であるため、重み付き損失を定義する

$$\mathcal{L}_{WCE} = -\sum_{(a,t)} \omega_{y_t^a} \log \hat{p}(y_t^a)$$

ここで

$\omega_k \propto 1/\text{freq}(k)$
あるいは、困難なサンプルを強調するfocal lossを使用

$$\mathcal{L}_{FL} = -\sum_{(a,t)} (1 - \hat{p}(y_t^a))^\gamma \log \hat{p}(y_t^a)$$

研究的根拠：目標は人工的なクラスバランスではなく、モデルが「稀だが重要なイベントを無視する」ことを防ぐこと。

4.5 頑健なパターン学習のための正則化

短期的なノイズへの過学習を避けるため、正則化コンポーネントを追加する。

(1) 特徴量ゲーティングスパース性

$$\Omega_{gate} = \lambda_g \|\alpha\|_1$$

表現が必要な特徴量のみを選択することを促進する。

(2) トークンドロップアウト / イベントマスキング

系列レベルで

$$z'_i = \begin{cases} z_i, & \text{確率 } (1-p) \text{ で}\\ \varnothing, & \text{確率 } p \text{ で} \end{cases}$$

意味論的効果：

モデルが単一のトークンに依存しないパターンを学習することを強制する
欠損シグナルへの頑健性を高める

(3) 時間的平滑化ペナルティ

表現が異常に変動する場合

$$\Omega_{temp} = \lambda_t \sum_i \|h_i - h_{i-1}\|_2^2$$

これはパターンが孤立したノイズによって急激に変化するのではなく、徐々に蓄積すべきであるという事前知識をエンコードする。

(4) 総合目的

$$\mathcal{L}_{total} = \mathcal{L}_{task} + \Omega_{gate} + \Omega_{temp} + \text{(拡張ペナルティ)}$$

4.6 フィルターではなく文脈としてのマクロ認識型学習

重要なことは：レジームは「モデルを分割する」ためではなく、統一された系列内の文脈として機能する。

したがって

$$\mathcal{L}_{total} = \sum_{\text{全時代}} \mathcal{L}_{era}$$

しかし表現 $u_t^a$ は系列内のマクロトークンに条件付けられている。

これにより事後的なテストが可能になる：

どのパターンが時代を超えて持続するか
どのパターンが時代固有か

データを捨てることなく。

4.7 リーケージ防止 — 形式的チェックリスト

以下のいずれかが発生した場合、モデルは無効とみなされる：

将来のイベントが入力系列に存在する
マクロイベントが後知恵で定義されている
価格由来の特徴量が間接的に将来の情報を使用している
検証/テストセットが訓練レジームデータと重複している

検証関数を定義する

$$\text{CheckLeakage}(\mathcal{S}) = \begin{cases} \text{True} & \text{if 時間的因果性が違反}\\ \text{False} & \text{その他} \end{cases}$$

全ての訓練実行前にパイプラインで適用される。

4.8 表現学習としての訓練 — トレーディングシステムではない

研究的立場：学習目的はパターン調査のための表現であり、トレーディングのためのパフォーマンス最適化ではない。

したがって、結果はこのフレームワーク内で解釈される：

時代間での表現の安定性
系列から結果への関係
直接的な経済的リターンではない

4.9 実装ビュー — 開発チーム向け

訓練パイプライン

因果的系列の構築
 → トークンのエンコード
 → Transformer系列エンコーダ
 → アテンションプーリング
 → 出力ヘッド
 → 重み付き/focal損失
 → スパース性 + 時間的ペナルティの追加
 → 最適化

検証ループ（時間認識型）

固定された前方ローリングウィンドウ
先読みの禁止
系列内の明示的なマクロ文脈

4.10 次のセクションへの接続

本セクションで確立したもの：

学習目的
時間的制約
不均衡の処理
訓練におけるマクロ文脈の役割

次のセクションでは：レジーム条件付き分析と訓練後診断（訓練後のパターン分析、時代別の振る舞い、説明可能性）を扱う。