Claude Sonnet を 4.6 → 5 に上げたらトークン消費が3倍になった話と対策

個人でニュース選定/要約アプリを作っていて、記事の関連度判定・分類を claude -p のサブプロセスにやらせている。
使うモデルを Sonnet 4.6 から 5 に上げたら、記事数はほぼ同じなのにトークン消費とコストが跳ね上がった。
原因を追ったのでメモしておく。

3行まとめ

モデルを Sonnet 4.6 → 5 に変えたら消費トークンが約3倍になった
Claude Code CLI の --effort デフォルト（xhigh） × Sonnet 5 の adaptive thinking（デフォルトON）の組み合わせが原因だった模様
--effort medium を明示指定することで解決した

実行	選定対象記事数	選出	入力合計	出力	コスト
Before A (4.6)	132	52	34,808	10,409	$0.32
Before B (4.6)	151	51	35,934	9,641	$0.32
After (Sonnet 5)	153	51	119,551	29,622	$0.84

記事数はほぼ同じ（132/151/153）なのに、入力 3.4x / 出力 3x / コスト 2.6x。プロンプト本文の増加では説明がつかない。

ふたつの挙動が噛み合っていた。

Claude Code CLI の --effort デフォルトは xhigh
Sonnet 5 は thinking 未指定でも adaptive thinking がデフォルトでON（4.6 は “未指定＝thinking OFF”）

この2つが組み合わさって thinking が非決定的に暴発していた模様。
公式ドキュメントにも「high（デフォルト）/xhigh/max ではほぼ必ず deep thinking する」とある。

--effort medium を明示する。

実行	effort	出力	備考
xhigh（デフォルト）	xhigh	20,632〜26,955	thinking暴発あり
medium 指定	medium	8,931	4.6相当に回帰

少し実験した感じ、記事選定結果もほぼ変わらなかった。

Migration guide

Guide for migrating to the latest Claude models from previous Claude versions

Claude Platform Docs

Effort

Control how many tokens Claude uses when responding with the effort parameter, trading off between response thoroughness and token efficiency.

Claude Platform Docs