II. イベント表現と埋め込みフレームワーク
本セクションは、生データとモデル学習を可能にする数学的フレームワークを橋渡しする。目的は以下の通り:
- スパースで非同期、異種の時間イベントをサポートする
- 資産レベルイベントとマクロレベルイベントを統一された系列内で統合する
- 直接実装可能なシステムアーキテクチャを提供する
2.1 形式的イベント構造
単一のイベントは以下のように表現される
ここで
- $t_i$ = イベントのタイムスタンプ
- $x_i$ = イベントタイプ(特徴量 / 指標 / マクロタグ)
- $v_i$ = 定量的な値(ブール、離散、または連続)
完全なイベント領域は以下のように定義される
したがって、イベントは以下のいずれかである:
- 企業/株式レベルのシグナル(ミクロ構造 / 戦略 / ファクターシグナル)
- マクロ経済イベント(QE、QT、危機フラグ、政策ショックなど)
2.2 統一イベント系列
資産 $a$ に対して、資産固有のイベント集合があるとする
そして市場全体で共有されるマクロ経済イベントの集合
以下により統一イベント系列を構築する
結果は以下の両方を含む単一の系列となる:
- その株式に固有のイベント
- 同じ期間内に発生したマクロイベント
イベントは時系列順に並べられ、モデルが統一された構造内で両レベルのイベント間の連続的な時間関係を知覚できるようになる。
2.3 時間エンコーディングと時間的ジオメトリ
データは非同期 / 不規則な時系列であるため、イベント間の間隔は構造的意味を持つ。以下を定義する
これを埋め込みとしてエンコードする
可能な実装には以下が含まれる:
- 対数スケールバケット
- 連続射影層
- 位置スタイルの時間カーネル
重要な洞察は、モデルが単なる順序ではなく、パターンの「テンポ」を知覚できるようにすることである。
2.4 イベントトークン表現
イベントからベクトルへの変換関数を定義する
コンポーネントに分解すると
コンポーネントの説明:
- type-emb — トークンが資産イベントかマクロイベントかを示す
- feature-emb — Feature-ID、Regime-IDなどのシグナルタイプを区別する
- value-proj — ブール / 離散 / 連続値を統一されたベクトル形式で処理する
- $\tau_i$ — 時間間隔の意味をエンコードする
この構造により、開発チームは実際の特徴量をトークン埋め込みに直接マッピングできる。
2.5 スパース性認識とイベントの重要度
特徴量の数が多いことを考えると、特定の文脈でのみ因果的重要性を持つサブセットを期待し、特徴量ゲーティング関数を導入する
スケーリング係数として適用する
スパース性を促進する正則化と共に
これは特徴量削減を強制するのではなく、表現が重要な特徴量を徐々に自己選択することを可能にする。
2.6 実装可能なビュー
システムレベルでは、単一のトークンをJSONとして見ることができる。例えば:
{
"t": 1712001234,
"type": "asset_event",
"feature": "feature_X_217",
"value": 1,
"delta_t": 5400
}
上記で説明した埋め込み層を通じてマッピングすることで、ベクトル $e_i$ が得られ、これが系列モデルに供給される。
つまり:
- データエンジニアリングが系列構築を担当
- MLモデルは埋め込み + 系列層のみで動作
2.7 系列モデルへの接続
ベクトル系列が与えられたとき
系列モデル(例:Transformer / TCN)は以下を学習する
これは以下の基盤を形成する:
- パターン蓄積の学習
- 下流でのレジーム条件付き分析の実行
次のセクションでは、バックボーンアーキテクチャと学習目的を形式的に説明する。