未分類

ローカルLLMをClaude Codeと統合してみた【Ollama導入の備忘録】

ローカル環境でLLMを動かし、Claude CodeのMCPと統合しました。この記事では、その手順を備忘録として記録します。

※LLMとは:Large Language Model(大規模言語モデル)の略。ChatGPTやClaudeのような対話AIの基盤となる技術です。

※MCPとは:Model Context Protocol の略。AIに外部ツールを接続するための規格で、Anthropic社が開発しました。詳しくは後述します。

背景と目的

クラウドAPIは便利ですが、プライバシーの問題やコスト、オフライン利用を考えると、ローカルでLLMを動かす選択肢も魅力的です。今回は、OllamaというツールをWindowsにインストールし、Claude Codeから呼び出せる環境を構築しました。

※APIとは:Application Programming Interface の略。ソフトウェア同士がやり取りするための窓口のようなもの。クラウドAPIの場合、インターネット経由で外部サービスの機能を利用します。

最終的に構築する環境の全体像は以下の通りです。

ローカルLLM環境の全体アーキテクチャ構成図
ローカルLLM環境の全体構成

Ollamaについて

Ollamaは2023年にリリースされたオープンソースのLLM実行環境です。ローカル環境で様々なLLMを簡単に実行できる点が特徴で、2025年現在も活発に開発が続いています。

※オープンソースとは:ソースコード(プログラムの設計図)が公開されており、誰でも無料で利用・改変できるソフトウェアのこと。

主なメリットは以下の通りです。

  • プライバシー保護 – データが外部サーバーに送信されない
  • オフライン利用可能 – インターネット接続なしで使用できる
  • コスト削減 – API利用料が発生しない
  • 簡単セットアップ – コマンド1つでモデルをダウンロード・実行できる

作業環境

  • OS: Windows 11
  • GPU: NVIDIA RTX 3090(24GB VRAM)
  • Claude Code: インストール済み

※GPUとは:Graphics Processing Unit の略。本来は画像処理用のパーツですが、AI計算にも使われます。NVIDIA製のGPUがLLM実行に適しています。

※VRAMとは:Video RAM の略。GPU専用のメモリのこと。LLMを動かすにはこのVRAMの容量が重要で、大きいモデルほど多くのVRAMが必要です。

GPUがなくてもCPUだけで動作しますが、推論速度は大幅に遅くなります。GPUなしの場合は3B以下の軽量モデルが現実的な選択肢になると思います。

※CPUとは:Central Processing Unit の略。パソコンの頭脳にあたる部品。汎用的な計算を行いますが、AI処理はGPUの方が高速です。

※推論とは:AIが入力データをもとに答えを出す処理のこと。LLMの場合、質問文から回答を生成する処理を指します。

※3Bとは:3 Billion(30億)パラメータの意味。パラメータ数はモデルの規模を示す指標で、大きいほど賢いが、その分VRAMを消費します。

Ollamaのインストール

Windowsではwingetコマンドでインストールできます。PowerShellで以下を実行しました。

※wingetとは:Windows標準のパッケージマネージャー。コマンドでソフトウェアを簡単にインストールできます。

※PowerShellとは:Windowsに標準搭載されているコマンド入力ツール。スタートメニューで「PowerShell」と検索すると起動できます。

Bash
winget install Ollama.Ollama –accept-package-agreements –accept-source-agreements

インストールが完了すると、Ollamaはバックグラウンドサービスとして自動起動します。タスクトレイにOllamaのアイコンが表示されていれば成功です。

※バックグラウンドサービスとは:画面に表示されず、裏で常に動いているプログラムのこと。Ollamaは常駐してリクエストを待ち受けます。

LLMモデルのダウンロード

Ollamaではollama pullコマンドでモデルをダウンロードできます。まず軽量なNemotron Miniをインストールしてみました。

Bash
ollama pull nemotron-mini

ダウンロード完了後、動作テストを行いました。

Bash
ollama run nemotron-mini “Hello! Say ‘test successful’ in Japanese.”

「テスト成功」という日本語が返ってきたので、正常に動作していることを確認できました。

コーディング向けモデルの追加

コーディングに特化したモデルも追加しました。

Bash
# Alibaba製のコーディング特化モデル
ollama pull qwen2.5-coder:7b
# DeepSeek製のコーディング特化モデル
ollama pull deepseek-coder:6.7b

インストールしたモデルはollama listで確認できます。

Bash
NAME                    ID              SIZE      MODIFIED
deepseek-coder:6.7b     ce298d984115    3.8 GB    8 seconds ago
qwen2.5-coder:7b        dae161e27b0e    4.7 GB    6 minutes ago
nemotron-mini:latest    ed76ab18784f    2.7 GB    30 minutes ago

Claude CodeとのMCP統合

OllamaをClaude CodeのMCPサーバーとして登録し、Claude Codeから呼び出せるようにしました。

Claude CodeとOllamaのMCP統合構成図
Claude CodeとOllamaのMCP統合

MCPとは

MCP(Model Context Protocol)は、Anthropic社が開発したAIツール統合のためのオープンスタンダードです。「AIアプリケーション向けのUSB-Cポート」とも呼ばれ、様々な外部ツールやデータソースをAIに接続するための標準規格として、2024年11月のリリース以降急速に普及しています。

※オープンスタンダードとは:特定の企業に縛られず、誰でも利用できる公開された技術規格のこと。

MCPサーバーの登録

以下のコマンドでOllamaをMCPサーバーとして登録しました。

Bash
claude mcp add ollama — npx -y ollama-mcp-server

※npxとは:Node.jsのパッケージを一時的にダウンロードして実行するコマンド。事前インストール不要で便利です。

登録完了後、接続を確認しました。

Bash
claude mcp list
Bash
ollama: npx -y ollama-mcp-server – ✓ Connected

「✓ Connected」と表示され、Claude Code内からOllamaのモデルをツールとして呼び出せる状態になりました。

Claude CodeでOllama MCPサーバーを設定している画面
MCPサーバーの登録と接続確認

高性能モデル(Nemotron 3 Nano)の追加

VRAMに余裕があったので、より高性能なNemotron 3 Nanoもインストールしてみました。NVIDIAが開発したMoEアーキテクチャのモデルで、30Bパラメータながら3.6Bのアクティブパラメータで効率的に動作します。

※MoE(Mixture of Experts)とは:複数の専門家(Expert)ネットワークを組み合わせたAIの設計手法。入力に応じて必要な部分だけを使うため、パラメータ数の割に軽量に動作します。

※アクティブパラメータとは:MoEモデルで、実際の推論時に使われるパラメータ数のこと。全体は30Bでも、1回の推論で使うのは3.6B分だけなので、メモリ効率が良いです。

なお、このモデルには24GB以上のVRAMが必要です。

Bash
ollama pull nemotron-3-nano
Nemotron 3 Nanoのダウンロード

つまずきポイント:モデル名の混乱

ここで少し混乱しました。先ほどインストールしたnemotron-miniと、このnemotron-3-nanoは別のモデルです。名前が似ているので間違えやすいですが、以下のように異なります。

モデル名 パラメータ サイズ
nemotron-mini 4B 2.7 GB
nemotron-3-nano 30B(アクティブ3.6B) 24 GB

ollama listで確認すると、両方が別々に表示されるので、意図したモデルがインストールされているか確認しておくと安心です。

Nemotron 3 Nanoは、推論時に「Thinking…」と表示され、内部で思考プロセス(Chain of Thought)を経てから回答を生成する点が特徴的でした。

※Chain of Thought(CoT)とは:AIが答えを出す前に、段階的に思考過程を踏む手法。複雑な問題の精度が向上します。

インストールしたモデルのまとめ

最終的に以下のモデルをインストールしました。

モデル サイズ 特徴 用途
Nemotron Mini 2.7 GB NVIDIA製軽量モデル 軽量タスク、翻訳、要約
Qwen2.5-Coder 4.7 GB Alibaba製コーディング特化 コード生成、レビュー
DeepSeek-Coder 3.8 GB DeepSeek製コーディング特化 コード生成、デバッグ
Nemotron 3 Nano 24 GB MoEアーキテクチャ、CoT対応 複雑な推論、分析

まとめ

OllamaをWindowsにインストールし、Claude CodeのMCPサーバーとして統合しました。これで、ローカルLLMをClaude Codeのツールとして活用できる環境が整いました。

次回は、MacBookからこのWindows PCのOllamaにリモートアクセスする設定を行います。

参考リンク

Ollama
Ollama
ollama.com

Ollama公式サイト。モデルのダウンロードとドキュメントを参照しました。

Ollamaを使ってオープンソースLLMをローカルホストしてみよう | 豆蔵デベロッパーサイト
Ollamaを使ってオープンソースLLMをローカルホストしてみよう | 豆蔵デベロッパーサイト
developer.mamezou-tech.com

Ollamaの基本的な使い方について参考にしました。

Introducing the Model Context Protocol
Introducing the Model Context Protocol
www.anthropic.com

MCPの概要と設計思想について参照しました。

Connect Claude Code to tools via MCP - Claude Code Docs
Connect Claude Code to tools via MCP – Claude Code Docs
code.claude.com

Claude CodeのMCP設定方法について参照しました。

— こうしたローカルLLM・Claude Code の開発環境は、和楽器チューナー「とわいと」など とわのね のアプリ・サイト制作を支えています。

共有: 𝕏 LINE B!