<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>LLM on あるエンジニアのログブック</title><link>https://cloud-aws.net/tags/llm/</link><description>Recent content in LLM on あるエンジニアのログブック</description><generator>Hugo -- gohugo.io</generator><language>ja</language><lastBuildDate>Wed, 01 Jul 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://cloud-aws.net/tags/llm/index.xml" rel="self" type="application/rss+xml"/><item><title>自宅の個人AIアシスタントで、対話とコード開発でモデルを分けた</title><link>https://cloud-aws.net/post/personal-ai-model-split/</link><pubDate>Wed, 01 Jul 2026 00:00:00 +0000</pubDate><guid>https://cloud-aws.net/post/personal-ai-model-split/</guid><description>&lt;p&gt;自宅でClaude Codeを使った個人用のAIアシスタントを動かしている。音声とテキストで話しかけて、予定を確認したり、自分のコードを直させたりする用途だ。&lt;/p&gt;
&lt;p&gt;最近、対話の応答が遅かった。「OKとだけ返して」で済むような軽いやり取りでも、思考中の表示が長く出て、律儀に長考する。手元で往復時間を計ると、既定のOpus 4.8で約9秒かかっていた。相槌に9秒は待てない。&lt;/p&gt;
&lt;p&gt;原因を切り分けると、効いている要素は二つあった。既定で使っていたOpus系の重いモデルと、reasoning effort（答えを返す前に考える深さ）をhighに固定していたことだ。effortを下げれば思考は縮み、モデルを替えれば同じeffortでも速くなる。&lt;/p&gt;
&lt;p&gt;用途で分けることにした。私のアシスタントには性格の違う二つの使い方がある。普段の話しかけは、多少浅くても速く返ってほしい。自分のリポジトリを直させるコード開発は、遅くてもいいから正確であってほしい。この二つに同じモデルをあてていた。&lt;/p&gt;
&lt;p&gt;対話は6月末に出たSonnet 5、コード開発は従来どおりOpusにした。&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;用途&lt;/th&gt;
 &lt;th&gt;重視&lt;/th&gt;
 &lt;th&gt;モデル&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;対話&lt;/td&gt;
 &lt;td&gt;速さ&lt;/td&gt;
 &lt;td&gt;Sonnet 5&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;コード開発&lt;/td&gt;
 &lt;td&gt;正確さ&lt;/td&gt;
 &lt;td&gt;Opus 4.8&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;同じ「OKと返して」を、今度はSonnet 5で計った。約5〜6秒。Opusの約9秒から3〜4秒縮んだ。厳密なベンチマークではない。手元で2回ずつ計った、軽い一言の往復時間だ。それでも相槌の体感は変わった。&lt;/p&gt;
&lt;p&gt;判断力を落とした代償も見ておく。公表ベンチのSWE-bench Proで、Sonnet 5は63.2%、Opus 4.8は69.2%。この6ポイントはコード開発で効く場面があるので、そちらはOpusに残した。対話でこの差を体感することは、まずない。&lt;/p&gt;
&lt;p&gt;コストも同じ方向に働いた。私のプランは定額だが、このアシスタントが使うのはヘッドレス起動のClaude Code（&lt;code&gt;claude -p&lt;/code&gt;）で、こちらは使ったトークン量に応じて月のクレジットを消費する。安いSonnet 5に対話を寄せると、速いだけでなくクレジットも減る。&lt;/p&gt;
&lt;p&gt;実装は設定二行だった。アシスタント本体は対話のたびにClaude Codeをサブプロセスとして起動している。その起動時に、対話のときだけモデルとeffortを渡す。&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-bash" data-lang="bash"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="c1"&gt;# 対話だけに効く。空にすれば既定（Opus）に戻る&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="nv"&gt;CHAT_MODEL&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;claude-sonnet-5
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="nv"&gt;CHAT_EFFORT&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;high
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;背景で動かしている定期ジョブ（要約や監視）には、この指定を渡していない。対話ではないし、深く考えてほしい処理だから、Opusのままにした。&lt;/p&gt;
&lt;p&gt;一つ残っている。当初つらかった「思考中が長く出る」方は、完全には消えていない。あれの主因はモデルではなくeffort=highだからだ。effortは今もhighのまま様子見にしている。数日使って気になれば、&lt;code&gt;CHAT_EFFORT&lt;/code&gt;をmediumに落とす。一行変えて再起動するだけで戻せる。&lt;/p&gt;
&lt;p&gt;いまは対話がSonnet 5、コード開発がOpus、effortは据え置き。&lt;/p&gt;</description></item></channel></rss>