ローカル環境でLLMを動かし、Claude CodeのMCPと統合しました。この記事では、その手順を備忘録として記録します。
※LLMとは:Large Language Model(大規模言語モデル)の略。ChatGPTやClaudeのような対話AIの基盤となる技術です。
※MCPとは:Model Context Protocol の略。AIに外部ツールを接続するための規格で、Anthropic社が開発しました。詳しくは後述します。
背景と目的
クラウドAPIは便利ですが、プライバシーの問題やコスト、オフライン利用を考えると、ローカルでLLMを動かす選択肢も魅力的です。今回は、OllamaというツールをWindowsにインストールし、Claude Codeから呼び出せる環境を構築しました。
※APIとは:Application Programming Interface の略。ソフトウェア同士がやり取りするための窓口のようなもの。クラウドAPIの場合、インターネット経由で外部サービスの機能を利用します。
最終的に構築する環境の全体像は以下の通りです。

Ollamaについて
Ollamaは2023年にリリースされたオープンソースのLLM実行環境です。ローカル環境で様々なLLMを簡単に実行できる点が特徴で、2025年現在も活発に開発が続いています。
※オープンソースとは:ソースコード(プログラムの設計図)が公開されており、誰でも無料で利用・改変できるソフトウェアのこと。
主なメリットは以下の通りです。
- プライバシー保護 – データが外部サーバーに送信されない
- オフライン利用可能 – インターネット接続なしで使用できる
- コスト削減 – API利用料が発生しない
- 簡単セットアップ – コマンド1つでモデルをダウンロード・実行できる
作業環境
- OS: Windows 11
- GPU: NVIDIA RTX 3090(24GB VRAM)
- Claude Code: インストール済み
※GPUとは:Graphics Processing Unit の略。本来は画像処理用のパーツですが、AI計算にも使われます。NVIDIA製のGPUがLLM実行に適しています。
※VRAMとは:Video RAM の略。GPU専用のメモリのこと。LLMを動かすにはこのVRAMの容量が重要で、大きいモデルほど多くのVRAMが必要です。
GPUがなくてもCPUだけで動作しますが、推論速度は大幅に遅くなります。GPUなしの場合は3B以下の軽量モデルが現実的な選択肢になると思います。
※CPUとは:Central Processing Unit の略。パソコンの頭脳にあたる部品。汎用的な計算を行いますが、AI処理はGPUの方が高速です。
※推論とは:AIが入力データをもとに答えを出す処理のこと。LLMの場合、質問文から回答を生成する処理を指します。
※3Bとは:3 Billion(30億)パラメータの意味。パラメータ数はモデルの規模を示す指標で、大きいほど賢いが、その分VRAMを消費します。
Ollamaのインストール
Windowsではwingetコマンドでインストールできます。PowerShellで以下を実行しました。
※wingetとは:Windows標準のパッケージマネージャー。コマンドでソフトウェアを簡単にインストールできます。
※PowerShellとは:Windowsに標準搭載されているコマンド入力ツール。スタートメニューで「PowerShell」と検索すると起動できます。
winget install Ollama.Ollama –accept-package-agreements –accept-source-agreementsインストールが完了すると、Ollamaはバックグラウンドサービスとして自動起動します。タスクトレイにOllamaのアイコンが表示されていれば成功です。
※バックグラウンドサービスとは:画面に表示されず、裏で常に動いているプログラムのこと。Ollamaは常駐してリクエストを待ち受けます。
LLMモデルのダウンロード
Ollamaではollama pullコマンドでモデルをダウンロードできます。まず軽量なNemotron Miniをインストールしてみました。
ollama pull nemotron-miniダウンロード完了後、動作テストを行いました。
ollama run nemotron-mini “Hello! Say ‘test successful’ in Japanese.”「テスト成功」という日本語が返ってきたので、正常に動作していることを確認できました。
コーディング向けモデルの追加
コーディングに特化したモデルも追加しました。
# Alibaba製のコーディング特化モデル
ollama pull qwen2.5-coder:7b
# DeepSeek製のコーディング特化モデル
ollama pull deepseek-coder:6.7bインストールしたモデルはollama listで確認できます。
NAME ID SIZE MODIFIED
deepseek-coder:6.7b ce298d984115 3.8 GB 8 seconds ago
qwen2.5-coder:7b dae161e27b0e 4.7 GB 6 minutes ago
nemotron-mini:latest ed76ab18784f 2.7 GB 30 minutes agoClaude CodeとのMCP統合
OllamaをClaude CodeのMCPサーバーとして登録し、Claude Codeから呼び出せるようにしました。

MCPとは
MCP(Model Context Protocol)は、Anthropic社が開発したAIツール統合のためのオープンスタンダードです。「AIアプリケーション向けのUSB-Cポート」とも呼ばれ、様々な外部ツールやデータソースをAIに接続するための標準規格として、2024年11月のリリース以降急速に普及しています。
※オープンスタンダードとは:特定の企業に縛られず、誰でも利用できる公開された技術規格のこと。
MCPサーバーの登録
以下のコマンドでOllamaをMCPサーバーとして登録しました。
claude mcp add ollama — npx -y ollama-mcp-server※npxとは:Node.jsのパッケージを一時的にダウンロードして実行するコマンド。事前インストール不要で便利です。
登録完了後、接続を確認しました。
claude mcp listollama: npx -y ollama-mcp-server – ✓ Connected「✓ Connected」と表示され、Claude Code内からOllamaのモデルをツールとして呼び出せる状態になりました。

高性能モデル(Nemotron 3 Nano)の追加
VRAMに余裕があったので、より高性能なNemotron 3 Nanoもインストールしてみました。NVIDIAが開発したMoEアーキテクチャのモデルで、30Bパラメータながら3.6Bのアクティブパラメータで効率的に動作します。
※MoE(Mixture of Experts)とは:複数の専門家(Expert)ネットワークを組み合わせたAIの設計手法。入力に応じて必要な部分だけを使うため、パラメータ数の割に軽量に動作します。
※アクティブパラメータとは:MoEモデルで、実際の推論時に使われるパラメータ数のこと。全体は30Bでも、1回の推論で使うのは3.6B分だけなので、メモリ効率が良いです。
なお、このモデルには24GB以上のVRAMが必要です。
ollama pull nemotron-3-nano
つまずきポイント:モデル名の混乱
ここで少し混乱しました。先ほどインストールしたnemotron-miniと、このnemotron-3-nanoは別のモデルです。名前が似ているので間違えやすいですが、以下のように異なります。
| モデル名 | パラメータ | サイズ |
|---|---|---|
| nemotron-mini | 4B | 2.7 GB |
| nemotron-3-nano | 30B(アクティブ3.6B) | 24 GB |
ollama listで確認すると、両方が別々に表示されるので、意図したモデルがインストールされているか確認しておくと安心です。
Nemotron 3 Nanoは、推論時に「Thinking…」と表示され、内部で思考プロセス(Chain of Thought)を経てから回答を生成する点が特徴的でした。
※Chain of Thought(CoT)とは:AIが答えを出す前に、段階的に思考過程を踏む手法。複雑な問題の精度が向上します。
インストールしたモデルのまとめ
最終的に以下のモデルをインストールしました。
| モデル | サイズ | 特徴 | 用途 |
|---|---|---|---|
| Nemotron Mini | 2.7 GB | NVIDIA製軽量モデル | 軽量タスク、翻訳、要約 |
| Qwen2.5-Coder | 4.7 GB | Alibaba製コーディング特化 | コード生成、レビュー |
| DeepSeek-Coder | 3.8 GB | DeepSeek製コーディング特化 | コード生成、デバッグ |
| Nemotron 3 Nano | 24 GB | MoEアーキテクチャ、CoT対応 | 複雑な推論、分析 |
まとめ
OllamaをWindowsにインストールし、Claude CodeのMCPサーバーとして統合しました。これで、ローカルLLMをClaude Codeのツールとして活用できる環境が整いました。
次回は、MacBookからこのWindows PCのOllamaにリモートアクセスする設定を行います。
参考リンク

Ollama公式サイト。モデルのダウンロードとドキュメントを参照しました。
Ollamaの基本的な使い方について参考にしました。

MCPの概要と設計思想について参照しました。
Claude CodeのMCP設定方法について参照しました。
— こうしたローカルLLM・Claude Code の開発環境は、和楽器チューナー「とわいと」など とわのね のアプリ・サイト制作を支えています。
コメントを残す