Skip to main content
ollama
March 7, 2026

ThinkPad gibi CPU ile çalışan bir makinede Ollama performansını ciddi şekilde artıran birkaç kritik ayar var. Varsayılan kurulum genelde CPU’yu tam verimli kullanmaz. Aşağıdaki 5 ayar çoğu durumda 2-3 kat hız artışı sağlar.

  1. CPU thread sayısını ayarlamak

Ollama bazen CPU çekirdeklerinin tamamını kullanmaz.

Çekirdek sayını öğren:

1
nproc

Örneğin 8 çekirdek ise Ollama’yı şu şekilde başlat:

1
OLLAMA_NUM_PARALLEL=1 OLLAMA_MAX_LOADED_MODELS=1 ollama serve

ya da systemd servisinde environment olarak ekleyebilirsin.

Servis dosyasını aç:

1
nano /etc/systemd/system/ollama.service

[Service] altına ekle:

1
2
Environment="OLLAMA_NUM_PARALLEL=1"
Environment="OLLAMA_MAX_LOADED_MODELS=1"

Sonra:

1
2
systemctl daemon-reload
systemctl restart ollama
  1. Context boyutunu düşürmek

Varsayılan context genelde çok büyüktür ve CPU’yu yavaşlatır.

Modeli çalıştırırken:

1
ollama run qwen2.5:7b -c 2048

Genelde:

1
2
3
4
Context	Performans
8192	yavaş
4096	normal
2048	hızlı
  1. Hafif quantization kullanmak

CPU’da en önemli şey quantization.

Model indirirken:

1
ollama pull qwen2.5:7b-q4_K_M

En iyi CPU seçenekleri:

1
2
3
4
Quant	RAM	Hız
q4_K_M	düşük	hızlı
q5_K_M	orta	dengeli
q8	yüksek	yavaş

CPU için genelde q4_K_M en iyi.

  1. Modeli RAM’de tutmak

Model her çağrıda yeniden yüklenirse ciddi gecikme olur.

Serviste şu ayarı ekle:

1
Environment="OLLAMA_KEEP_ALIVE=30m"

Bu sayede model 30 dakika RAM’de kalır.

  1. Embedding modelini ayırmak

RAG sistemlerinde embedding modeli ayrı olmalı.

En iyi seçenek:

1
ollama pull nomic-embed-text

Bu model özellikle şu framework ile çok iyi çalışır:

LangChain4j

Ollama

CPU ThinkPad için ideal stack

Jakarta EE + agent mimarisi için önerilen yapı:

1
2
3
4
5
6
7
8
Ollama
 ├── qwen2.5:7b-q4_K_M   (chat model)
 ├── nomic-embed-text    (embedding)

PostgreSQL
 └── pgvector

LangChain4j

Bu mimari:

  • Agent
  • Tool calling
  • RAG
  • Local LLM

için şu anda en stabil kombinasyonlardan biri.