DeepSeek DSpark / 技術解説
DeepSeekがAI言語モデルの生成速度を最大85%向上させる「DSpark」を公開
投機的デコード技術で推論を高速化
DeepSeekが大規模言語モデルの文章生成を高速化する投機的デコード技術「DSpark」を公開した。新しい言語モデルではなく、DeepSeek-V4-FlashおよびDeepSeek-V4-Proの既存チェックポイントに投機的デコード用モジュールを追加する形で提供される。実運用環境では従来方式と比べてユーザーあたりの生成速度を最大85%向上できたと報告されている。
投機的デコードとは
通常、大規模言語モデルはトークンを1つずつ順番に生成するため、出力が長くなるほど推論に時間がかかる。投機的デコードは、小型のドラフトモデルが複数のトークン候補を先に生成し、大型のターゲットモデルがまとめて検証する手法。ターゲットモデル単体で生成した場合と同じ出力分布を保ちながら、複数のトークンを一括で確定できる。
従来の手法には、候補を順番に生成する自己回帰型(Eagle3系)と、複数の候補を並列に生成する方式(DFlash系)があった。前者は質が高いが速度が遅く、後者は高速だが候補後半の採用率が低下する課題があった。
DSparkの特徴
DSparkは大部分の候補を並列に生成するバックボーンと、候補間の依存関係を取り込む軽量な逐次処理ブロックを組み合わせた「半自己回帰型」の設計。並列処理の速度を保ちながら、先に生成した候補を踏まえて後続候補を生成できるため、候補列の後半での不採用が減る。
また、候補の検証範囲を固定せず、信頼度ヘッドとリアルタイムスケジューラーを組み合わせてリクエストごとに調整。不要な検証を減らして全体のスループット低下を抑える。
性能向上の実測値
DeepSeek-V4-FlashとDeepSeek-V4-Proのプレビュー版を使った実運用環境での比較:
- DeepSeek-V4-Flash:ユーザーあたりの生成速度が60%〜85%向上
- DeepSeek-V4-Pro:ユーザーあたりの生成速度が57%〜78%向上
- オフライン評価では自己回帰型Eagle3比で平均採用長を26.7〜30.9%増加
- 並列型DFlash比でも16.3〜18.4%増加
提供形態とライセンス
DeepSeekは、プレビュー版のV4-FlashおよびV4-Pro向けにDSparkのチェックポイントを公開。投機的デコード向けの訓練リポジトリ「DeepSpec」もオープンソースとして公開しており、Eagle3、DFlash、DSparkの実装を利用できる。モデル重みはMITライセンスで提供されている。