VI. 実験設計とデータセット

VI. 実験設計、データセット構築と再現性フレームワーク

本セクションでは、研究全体の方法論的基準を確立する：

データの準備方法
ラベルとイベント系列の構築方法
データ分割と時間期間の設計方法
偏りのない再現可能な結果を確保するための実験実施方法

形式的には：本セクションは、結果が試行錯誤のチューニングではなく、透明で再現可能なプロセスから導出されることを保証する「研究プロトコル」を構成する。

6.1 データセット定義 — マルチアセットイベント時間パネル

資産の集合があるとする

$$\mathcal{A} = \{a_1,\dots,a_M\}$$

データの時間範囲

$$[T_{start}, T_{end}]$$

資産 $a$ に対して、統一イベント集合（セクション2より）：

$$\tilde{\mathcal{S}}^a = \{(t_i^a, x_i^a, v_i^a)\}_{i=1}^{N_a}$$

離散時間価格

$$P^a(t), \quad t\in\mathcal{T}^a$$

完全なシステムデータセット

$$\mathcal{D} = \big\{ (\tilde{\mathcal{S}}^a, P^a(t)) \mid a\in\mathcal{A} \big\}$$

構造的に：

これはイベント時間パネルデータである
均一間隔サンプリングに基づかない
「イベント → 系列 → 結果」の構造を強調する

6.2 イベント構築プロトコル（資産・マクロレベル）

6.2.1 資産レベルイベント抽出

イベントは様々な特徴量タイプから導出される：

ブール条件トリガー
ファクター状態遷移
指標クロッシングイベント
構造的 / ファンダメンタルシグナル

イベント生成器を定義する

$$\Phi_{asset}: \text{生の特徴量ストリーム} \longrightarrow \mathcal{X}_{asset}$$

要件：

イベントはその時点で既知の情報から導出されなければならない
バックフィルデータは禁止
タイムスタンプは結果より厳密に先行しなければならない

6.2.2 マクロレベルイベント定義

マクロイベント集合：

$$\mathcal{M} = \{(t_j^{macro}, m_j)\}$$

事前に観測可能なルールに従って定義されなければならない。例えば：

公式発表からのQE開始日
金利変更日
公開ソースに記録されたショック日

「後から考えると、この期間は危機だった」のような後知恵の定義は禁止。

ソース文書を指定し、訓練開始前に定義を固定しなければならない。

6.2.3 統一イベントマージ手順

系列マージプロセス（資産 $a$ に対して）：

$$\tilde{\mathcal{S}}^a = \text{merge-sort}(\mathcal{S}^a, \mathcal{M})$$

強制される不変条件：

非減少時間：$t_1^a \le t_2^a \le \dots$
全資産で同一のマクロイベント
遡及的イベント作成なし

6.3 結果ラベル構築

将来のリターンを以下とする

$$r^a(t,\Delta) = \frac{P^a(t+\Delta)-P^a(t)}{P^a(t)}$$

結果関数を定義する

$$y_t^a = g(r^a(t,\Delta))$$

閾値ベースの例：

$$y_t^a = \begin{cases} 1, & r^a(t,\Delta) \ge \tau_{up}\\ -1, & r^a(t,\Delta) \le \tau_{down}\\ 0, & \text{その他} \end{cases}$$

重要な要件：

$y_t^a$ は区間 $[t, t+\Delta]$ 内の価格のみを使用しなければならない
将来期間にわたる中央値 / フォワードフィルは禁止
$\tau$ と $\Delta$ は実験前に指定され固定されなければならない

6.4 因果的に安全な訓練ウィンドウ構築

時刻 $t$ の各サンプルに対して

$$X_t^a = \tilde{\mathcal{S}}^a_{(-\infty,t)}$$

$$Y_t^a = y_t^a$$

すなわち

$$(X_t^a, Y_t^a) \quad\text{は} \quad \textbf{過去} \rightarrow \textbf{将来} \text{として構築}$$

将来データを消費するローリング遡及ウィンドウは禁止。

6.5 時間的分割と前方評価プロトコル

時間的因果妥当性を維持するため、以下に分割する：

訓練
検証
テスト

以下を満たす

$$T_{train} < T_{val} < T_{test}$$

ローリング前方評価：

$$\Pi_k = \Pi\left( [t_k, t_{k+1}] \right)$$

利点：

時間経過に伴うパフォーマンス安定性の検証
偏った期間選択のリスク低減

6.6 実験群（比較対象）

意味のある研究結果のためには、比較可能なベースラインが必要。

6.6.1 ベースラインモデル

ランダム / 多数決ベースライン
集約特徴量に対するロジスティック回帰
GRU / LSTM（マクロトークンなし）
Transformer マクロトークンなし
Transformer マクロトークンあり（提案手法）

目的：ベースラインを「打ち負かす」ことではなく、「イベント系列 + マクロ文脈」の組み込みが構造的な情報価値を提供することを示すこと。

6.7 ハイパーパラメータガバナンス（事前分析ルール）

チューニングバイアスを避けるため、事前登録された範囲を指定する

例：

$$d \in \{64, 128, 256\}$$

$$L \in \{2, 4, 6\}$$

$$\lambda_g \in \{10^{-4}, 10^{-3}, 10^{-2}\}$$

最終モデル選択：

時間分割検証に基づく
テストセットからの遡及的選択は禁止

6.8 再現性要件

研究は以下を含む場合に再現可能とみなされる：

バージョン管理されたデータセットレシピ（生データの公開は不要だが、構築式は必要）
設定固定された実験ファイル（例：YAML / JSON）
記録されたコミットハッシュ、ランダムシード、ハイパーパラメータ、訓練ログ
以下のような整合性検証関数

$$\text{Hash}(\tilde{\mathcal{S}}^a) = \text{定数}$$

実行間で系列が変更されていないことを確認。

6.9 エラーとリスク監査 — 何が問題になりうるか

透明性のため、潜在的リスクを評価しなければならない：

レジームの誤ラベリング
株式ユニバースの生存バイアス
コーポレートアクションによる価格ジャンプ
欠損イベントによる歪み
相関イベントの冗長性

全ての項目はリスク付録に文書化されるべき。

6.10 解釈範囲と倫理的境界

本文書は以下を明記する：

結果は構造的研究目的のためである
利益予測ツールとして解釈すべきではない
直接的な因果主張はなされない
これはパターン関係研究のみである

6.11 最終セクションへの接続

セクション6でデータセット、実験プロトコル、再現性の基盤を確立したので：

次のセクションでは限界、拡張と今後の研究方向性（範囲の限界、拡張フレームワーク、将来の研究方向性）を扱う。