NanoGPT Visualizer + Vector Editor

🧠
モデル学習

Embedding Size: 32

Attention Heads: 2

Layers: 2

Context Window: 8

Learning Rate: 0.0010

Epochs: 300

Dropout: 0.15

Weight Decay: 0.01

未学習

アーキテクチャ:
Token Emb + Pos Emb → [LayerNorm → Causal MHA + Dropout → LayerNorm → FFN(GELU) + Dropout] × N → LayerNorm → Linear(weight-tied) → Softmax
Adam + Weight Decay + Gradient Clipping で学習。

🔮
Next Token Prediction

Temperature: 1.0

生成トークン数: 10

生成結果: (紫=生成トークン)

次トークン確率分布 (Top-15):

📊
トークン埋め込みベクトル可視化 ← ドラッグで実際のEmbeddingを編集

ラベル表示類似度接続 | 選択中: なし

🎛️
Embedding次元エディタ

↑ 上の可視化空間でトークンをクリックすると
各次元をスライダーで直接編集できます

🧮
ベクトル演算 (Word2Vec風)

「king − man + woman = queen」的な演算。学習後のEmbeddingで実際に計算します。

− + ≈ ?

💡 試してみよう
morning − I + She → 朝の文脈で sheが続きやすい単語？
eat − like + want → 似た動詞の文脈が近い？
このモデルは小さいので明確な結果は出にくいですが、原理は同じです。

🧭
Activation Steering（隠れ層への直接介入）

Anthropicの研究と同じ原理：推論時に隠れ状態ベクトルへ特定の方向のベクトルを加算することで、出力を操作します。
「AとBの差ベクトル」を隠れ層に足すことで、モデルをBの概念の方向に誘導します。

⚙️ ステアリングベクトル設定

概念軸： → (difference vector = to − from をhidden stateに加算)

強度 α: 3.0 負=逆方向, 0=なし, 正=from→to方向

注入レイヤー: 最終 -1=最終LN前, 0〜N=各Transformer層後

🔬 これがAnthropicの研究の本質
steer_vec = emb("evening") − emb("morning") を隠れ層に足す
→ "morning"文脈のプロンプトを入れても"evening"っぽい単語が出やすくなる
α が大きいほど介入が強く、モデルの元の判断が上書きされる
これはGPT-4やClaudeのような大規模モデルでも同じ原理で機能します。

NanoGPT Visualizer + Vector Editor

🧠
モデル学習

🔮
Next Token Prediction

生成結果: (紫=生成トークン)

次トークン確率分布 (Top-15):

📊
トークン埋め込みベクトル可視化 ← ドラッグで実際のEmbeddingを編集

🎛️
Embedding次元エディタ

🧮
ベクトル演算 (Word2Vec風)

🧭
Activation Steering（隠れ層への直接介入）

⚙️ ステアリングベクトル設定

🔵 通常の出力（ステアリングなし）

🟢 ステアリング後の出力

👁️
Attention 重み可視化

🧠 モデル学習

🔮 Next Token Prediction

生成結果: (紫=生成トークン)

次トークン確率分布 (Top-15):

📊 トークン埋め込みベクトル可視化 ← ドラッグで実際のEmbeddingを編集

🎛️ Embedding次元エディタ

🧮 ベクトル演算 (Word2Vec風)

🧭 Activation Steering（隠れ層への直接介入）

⚙️ ステアリングベクトル設定

🔵 通常の出力（ステアリングなし）

🟢 ステアリング後の出力

👁️ Attention 重み可視化

🧠
モデル学習

🔮
Next Token Prediction

📊
トークン埋め込みベクトル可視化 ← ドラッグで実際のEmbeddingを編集

🎛️
Embedding次元エディタ

🧮
ベクトル演算 (Word2Vec風)

🧭
Activation Steering（隠れ層への直接介入）

👁️
Attention 重み可視化