III. モデルアーキテクチャと系列学習

III. モデルアーキテクチャと系列学習フレームワーク

本セクションでは、マクロイベントと資産イベントの両方を含む統一された系列が与えられたとき、モデルがトークン埋め込み（セクション2）から系列構造をどのように学習するかを説明する。

以下を提示する：

アーキテクチャの数学的定義
各層の役割
設計の根拠
研究仮説との接続
開発チーム向けの実装可能な視点

3.1 系列表現学習 — 核心概念

本研究の基本的仮説は、意味のある関係は孤立した特徴量値に存在するのではなく、イベントの順序とその蓄積の時間的リズムから現れるというものである。

したがって、コアモデルは回帰モデルではなく、系列表現モデルである。

資産 $a$ の埋め込み集合を以下とする

$$\mathbf{E}^a = (e_1, e_2, \dots, e_n)$$

系列モデルの課題は以下の関数を見つけることである

$$F_{\Theta}: (e_1,\dots,e_n) \longrightarrow (h_1,\dots,h_n)$$

ここで

$h_i$ = モデルが位置 $i$ までの系列を処理した後の表現
イベントの特性、先行イベントとの関係、系列内のマクロイベントに関する情報を組み込む

意味論的には：$h_i$ は「その時点でのモデルの理解」を表し、現在形成されているパターンを反映する。

3.2 バックボーン候補：なぜ系列モデルか

この問題に適したモデルは以下をサポートする必要がある：

不規則でスパースな系列
長期的なメモリ
マルチレベルの文脈イベント（資産 + マクロ）
非線形相互作用

候補アーキテクチャには以下が含まれる：

Transformerベースのイベント系列モデル
時間畳み込みネットワーク（TCN）
GRU / LSTM（ベースラインとして）

本研究はTransformerを主要モデルとして選択し、TCN / GRUを実験的比較に使用する。

理論的根拠：

Transformerはセルフアテンションにより長距離依存性をサポートする
ミクロとマクロの両方のイベントを含むトークンに適している
「イベントがアテンションを通じて互いを説明する」という概念的アイデアとアーキテクチャが一致する

3.3 Transformerベースのイベント系列モデル（形式的）

入力 $(e_1,\dots,e_n)$ が与えられたとき

線形射影を適用する

$$z_i = W_e e_i + b_e$$

次にマルチヘッドセルフアテンションを通す

$$\text{Attention}(Q,K,V) = \text{softmax}\left(\frac{QK^\top}{\sqrt{d_k}}\right)V$$

ここで

$$Q = ZW_Q, \quad K = ZW_K, \quad V = ZW_V$$

ヘッド $h$ の出力

$$H^{(h)} = \text{Attention}(Q_h, K_h, V_h)$$

複数のヘッドを連結

$$H = \text{Concat}(H^{(1)}, \dots, H^{(H)}) W_O$$

フィードフォワード層が続く

$$h_i = \text{FFN}(H_i)$$

残差接続とレイヤー正規化と共に

$$H_i = \text{LayerNorm}(H_i + z_i)$$

$$h_i = \text{LayerNorm}(h_i + \text{FFN}(H_i))$$

解釈：

モデルはイベントを1つずつ順番に読むのではない
代わりに、全てのイベントが互いにアテンドし関係する
マクロイベントトークンは系列に意味を与える「文脈アンカー」として機能する

3.4 なぜセルフアテンションがマクロイベントトークンに適しているか

マクロイベントが系列にインターリーブされるとき、例えば：

[t1] MACRO_QE_START
[t2] FEATURE_A
[t3] FEATURE_B
[t4] FEATURE_C

アテンション行列は、$t_2, t_3, t_4$ のイベントが $t_1$ のマクロトークンに「結びつく」べきであることを自動的に学習する。

数学的には：イベント $i$ とマクロイベント $j$ の間のアテンション重みが高い場合

$$\alpha_{ij} = \text{softmax}\left( \frac{q_i k_j^\top}{\sqrt{d}} \right)$$

これは資産側のイベント表現がマクロ文脈に直接条件付けられていることを意味する。

これが方法論の核心である：ルールを手動で書く代わりに、モデルに「どのマクロイベントがどのパターンに関係するか」を発見させる。

3.5 位置的・時間的条件付け

実データでは、絶対位置よりもイベント間の時間差の方が重要である。

したがって、時間差埋め込み（セクション2より）を使用する

$$\tilde{z}_i = z_i + \tau_i$$

これによりイベント表現はより豊かな意味を持つ：

単に「イベントが発生した」だけでなく
「前のイベントからX時間単位後にイベントが発生した」

これにより、モデルは以下のような区別を学習できる：

同じパターン、異なるペース（速い vs 遅い）→ 潜在的に異なる意味
マクロショック + 短間隔イベント → マクロ + 遅いパターンよりも重要かもしれない

言い換えると：モデルは単なる平坦な順序ではなく、「時間のジオメトリ」を学習する。

3.6 系列レベル表現

将来のトレンドを評価するには、系列全体の表現を抽出する必要がある。

$h_1, \dots, h_n$ が与えられたとき、要約ベクトルを構築する

$$u = \text{Pooling}(h_1, \dots, h_n)$$

オプションには平均プーリングまたはアテンションプーリング（推奨）が含まれる。

アテンションプーリング：

$$\beta_i = \text{softmax}(w^\top \tanh(W h_i))$$

$$u = \sum_i \beta_i h_i$$

重み $\beta_i$ は、どのイベントが全体的なパターンにとって最も重要かを示す — 事後的解釈（説明可能性）を可能にする。

3.7 出力ヘッド — 結果イベントの確率

最終表現 $u$ が与えられたとき、以下を定義する

$$\hat{p}(y \mid \tilde{\mathcal{S}}) = \sigma(W_o u + b_o)$$

または多クラス分類の場合

$$\hat{p}(y=k) = \frac{\exp(w_k^\top u)}{\sum_j \exp(w_j^\top u)}$$

損失関数

$$\mathcal{L} = -\sum_{a,t} \log \hat{p}(y^a_t \mid \tilde{\mathcal{S}}^a_{(-\infty,t)})$$

重要な含意：

モデルは先行系列が結果イベントとどの程度強く関係するかを学習する
これは連続的な価格予測ではない

3.8 レジーム条件付き表現（暗黙的条件付け）

マクロイベントは同じ系列内に存在するため、条件付けは暗黙的に行われる：

$$\hat{p}(y) = \hat{p}(y \mid \text{ミクロイベントのパターン}, \text{系列内のマクロトークン})$$

意味論的に表現すると

$$h_i \approx \Phi(\text{ミクロイベント}, \text{マクロ文脈}, \text{時間的構造})$$

これは、各時代ごとに別々のモデルを必要とせずに、レジーム認識型表現学習を構成する。

3.9 特徴量ゲーテッドアテンション（オプション拡張）

特定の特徴量のみが重要であり、その重要性は系列の文脈に依存するという仮説を反映する：

ゲーティングでアテンション重みを調整する

$$\alpha'_{ij} = g_{\psi}(x_i) \cdot \alpha_{ij}$$

スパース性ペナルティと共に

$$\Omega(\psi) = \lambda \|\psi\|_1$$

意味論的には：

モデルは「重要なイベントのグループ」を選択する
手動で指定する必要がない

3.10 実装ビュー — 開発チーム向け

チームは構造をパイプラインとして見ることができる：

生イベント
 → 統一系列の構築（資産 + マクロ）
 → イベント埋め込み
 → Transformer系列エンコーダ
 → 系列要約（アテンションプーリング）
 → 出力ヘッド
 → 学習目的

PyTorch / JAXなどのフレームワークでは：

イベント = トークン
マクロイベント = トークンタイプ
時間差 = 位置入力
系列モデル = 標準Transformer層
解釈可能性 = アテンションマップ + プーリング重み

どのコンポーネントも手作りのルールを必要としない — 全ては統計的学習から現れる。

3.11 このアーキテクチャの研究的根拠

このアーキテクチャはコアの仮説に対処する：

長期的パターン蓄積をサポートする
ミクロ ↔ マクロレベルを橋渡しする
全時代で統一された表現を維持する
一部のパターンが時代固有であり、他のパターンが時代を超えて持続することを許容する
事後分析を可能にする：時代別アテンションマップ、特徴量別ゲーティング、文脈別の振る舞い

3.12 次のセクションへの接続

本セクションでは「モデルが系列と文脈をどのように学習するか」を説明した。

次のセクションでは：学習目的、正則化、レジーム認識型評価を扱い、以下を深く掘り下げる：

時間的に整合した学習方法論
リーケージ防止
結果の不均衡への対処戦略
訓練後の表現解釈