ローカルLLMをClaude Codeと統合してみた【Ollama導入の備忘録】

ローカル環境でLLMを動かし、Claude CodeのMCPと統合しました。この記事では、その手順を備忘録として記録します。

※LLMとは：Large Language Model（大規模言語モデル）の略。ChatGPTやClaudeのような対話AIの基盤となる技術です。

※MCPとは：Model Context Protocol の略。AIに外部ツールを接続するための規格で、Anthropic社が開発しました。詳しくは後述します。

背景と目的

クラウドAPIは便利ですが、プライバシーの問題やコスト、オフライン利用を考えると、ローカルでLLMを動かす選択肢も魅力的です。今回は、OllamaというツールをWindowsにインストールし、Claude Codeから呼び出せる環境を構築しました。

※APIとは：Application Programming Interface の略。ソフトウェア同士がやり取りするための窓口のようなもの。クラウドAPIの場合、インターネット経由で外部サービスの機能を利用します。

最終的に構築する環境の全体像は以下の通りです。

Ollamaについて

Ollamaは2023年にリリースされたオープンソースのLLM実行環境です。ローカル環境で様々なLLMを簡単に実行できる点が特徴で、2025年現在も活発に開発が続いています。

※オープンソースとは：ソースコード（プログラムの設計図）が公開されており、誰でも無料で利用・改変できるソフトウェアのこと。

主なメリットは以下の通りです。

プライバシー保護 – データが外部サーバーに送信されない
オフライン利用可能 – インターネット接続なしで使用できる
コスト削減 – API利用料が発生しない
簡単セットアップ – コマンド1つでモデルをダウンロード・実行できる

作業環境

OS: Windows 11
GPU: NVIDIA RTX 3090（24GB VRAM）
Claude Code: インストール済み

※GPUとは：Graphics Processing Unit の略。本来は画像処理用のパーツですが、AI計算にも使われます。NVIDIA製のGPUがLLM実行に適しています。

※VRAMとは：Video RAM の略。GPU専用のメモリのこと。LLMを動かすにはこのVRAMの容量が重要で、大きいモデルほど多くのVRAMが必要です。

GPUがなくてもCPUだけで動作しますが、推論速度は大幅に遅くなります。GPUなしの場合は3B以下の軽量モデルが現実的な選択肢になると思います。

※CPUとは：Central Processing Unit の略。パソコンの頭脳にあたる部品。汎用的な計算を行いますが、AI処理はGPUの方が高速です。

※推論とは：AIが入力データをもとに答えを出す処理のこと。LLMの場合、質問文から回答を生成する処理を指します。

※3Bとは：3 Billion（30億）パラメータの意味。パラメータ数はモデルの規模を示す指標で、大きいほど賢いが、その分VRAMを消費します。

Ollamaのインストール

Windowsではwingetコマンドでインストールできます。PowerShellで以下を実行しました。

※wingetとは：Windows標準のパッケージマネージャー。コマンドでソフトウェアを簡単にインストールできます。

※PowerShellとは：Windowsに標準搭載されているコマンド入力ツール。スタートメニューで「PowerShell」と検索すると起動できます。

Bash

winget install Ollama.Ollama –accept-package-agreements –accept-source-agreements

インストールが完了すると、Ollamaはバックグラウンドサービスとして自動起動します。タスクトレイにOllamaのアイコンが表示されていれば成功です。

※バックグラウンドサービスとは：画面に表示されず、裏で常に動いているプログラムのこと。Ollamaは常駐してリクエストを待ち受けます。

LLMモデルのダウンロード

Ollamaではollama pullコマンドでモデルをダウンロードできます。まず軽量なNemotron Miniをインストールしてみました。

Bash

ollama pull nemotron-mini

ダウンロード完了後、動作テストを行いました。

Bash

ollama run nemotron-mini “Hello! Say ‘test successful’ in Japanese.”

「テスト成功」という日本語が返ってきたので、正常に動作していることを確認できました。

コーディング向けモデルの追加

コーディングに特化したモデルも追加しました。

Bash

# Alibaba製のコーディング特化モデル
ollama pull qwen2.5-coder:7b
# DeepSeek製のコーディング特化モデル
ollama pull deepseek-coder:6.7b

インストールしたモデルはollama listで確認できます。

Bash

NAME                    ID              SIZE      MODIFIED
deepseek-coder:6.7b     ce298d984115    3.8 GB    8 seconds ago
qwen2.5-coder:7b        dae161e27b0e    4.7 GB    6 minutes ago
nemotron-mini:latest    ed76ab18784f    2.7 GB    30 minutes ago

Claude CodeとのMCP統合

OllamaをClaude CodeのMCPサーバーとして登録し、Claude Codeから呼び出せるようにしました。

Claude CodeとOllamaのMCP統合構成図 — Claude CodeとOllamaのMCP統合

MCPとは

MCP（Model Context Protocol）は、Anthropic社が開発したAIツール統合のためのオープンスタンダードです。「AIアプリケーション向けのUSB-Cポート」とも呼ばれ、様々な外部ツールやデータソースをAIに接続するための標準規格として、2024年11月のリリース以降急速に普及しています。

※オープンスタンダードとは：特定の企業に縛られず、誰でも利用できる公開された技術規格のこと。

MCPサーバーの登録

以下のコマンドでOllamaをMCPサーバーとして登録しました。

Bash

claude mcp add ollama — npx -y ollama-mcp-server

※npxとは：Node.jsのパッケージを一時的にダウンロードして実行するコマンド。事前インストール不要で便利です。

登録完了後、接続を確認しました。

Bash

claude mcp list

Bash

ollama: npx -y ollama-mcp-server – ✓ Connected

「✓ Connected」と表示され、Claude Code内からOllamaのモデルをツールとして呼び出せる状態になりました。

Claude CodeでOllama MCPサーバーを設定している画面 — MCPサーバーの登録と接続確認

高性能モデル（Nemotron 3 Nano）の追加

VRAMに余裕があったので、より高性能なNemotron 3 Nanoもインストールしてみました。NVIDIAが開発したMoEアーキテクチャのモデルで、30Bパラメータながら3.6Bのアクティブパラメータで効率的に動作します。

※MoE（Mixture of Experts）とは：複数の専門家（Expert）ネットワークを組み合わせたAIの設計手法。入力に応じて必要な部分だけを使うため、パラメータ数の割に軽量に動作します。

※アクティブパラメータとは：MoEモデルで、実際の推論時に使われるパラメータ数のこと。全体は30Bでも、1回の推論で使うのは3.6B分だけなので、メモリ効率が良いです。

なお、このモデルには24GB以上のVRAMが必要です。

Bash

ollama pull nemotron-3-nano

つまずきポイント：モデル名の混乱

ここで少し混乱しました。先ほどインストールしたnemotron-miniと、このnemotron-3-nanoは別のモデルです。名前が似ているので間違えやすいですが、以下のように異なります。

モデル名	パラメータ	サイズ
nemotron-mini	4B	2.7 GB
nemotron-3-nano	30B（アクティブ3.6B）	24 GB

ollama listで確認すると、両方が別々に表示されるので、意図したモデルがインストールされているか確認しておくと安心です。

Nemotron 3 Nanoは、推論時に「Thinking…」と表示され、内部で思考プロセス（Chain of Thought）を経てから回答を生成する点が特徴的でした。

※Chain of Thought（CoT）とは：AIが答えを出す前に、段階的に思考過程を踏む手法。複雑な問題の精度が向上します。

インストールしたモデルのまとめ

最終的に以下のモデルをインストールしました。

モデル	サイズ	特徴	用途
Nemotron Mini	2.7 GB	NVIDIA製軽量モデル	軽量タスク、翻訳、要約
Qwen2.5-Coder	4.7 GB	Alibaba製コーディング特化	コード生成、レビュー
DeepSeek-Coder	3.8 GB	DeepSeek製コーディング特化	コード生成、デバッグ
Nemotron 3 Nano	24 GB	MoEアーキテクチャ、CoT対応	複雑な推論、分析