ollama | ARI Systems

ThinkPad gibi CPU ile çalışan bir makinede Ollama performansını ciddi şekilde artıran birkaç kritik ayar var. Varsayılan kurulum genelde CPU’yu tam verimli kullanmaz. Aşağıdaki 5 ayar çoğu durumda 2-3 kat hız artışı sağlar.

CPU thread sayısını ayarlamak

Ollama bazen CPU çekirdeklerinin tamamını kullanmaz.

Çekirdek sayını öğren:

Copy

1
nproc

Örneğin 8 çekirdek ise Ollama’yı şu şekilde başlat:

Copy

1
OLLAMA_NUM_PARALLEL=1 OLLAMA_MAX_LOADED_MODELS=1 ollama serve

ya da systemd servisinde environment olarak ekleyebilirsin.

Servis dosyasını aç:

Copy

1
nano /etc/systemd/system/ollama.service

[Service] altına ekle:

Copy

1
2
Environment="OLLAMA_NUM_PARALLEL=1"
Environment="OLLAMA_MAX_LOADED_MODELS=1"

Sonra:

Copy

1
2
systemctl daemon-reload
systemctl restart ollama

Context boyutunu düşürmek

Varsayılan context genelde çok büyüktür ve CPU’yu yavaşlatır.

Modeli çalıştırırken:

Copy

1
ollama run qwen2.5:7b -c 2048

Genelde:

Copy

1
2
3
4
Context	Performans
8192	yavaş
4096	normal
2048	hızlı

Hafif quantization kullanmak

CPU’da en önemli şey quantization.

Model indirirken:

Copy

1
ollama pull qwen2.5:7b-q4_K_M

En iyi CPU seçenekleri:

Copy

1
2
3
4
Quant	RAM	Hız
q4_K_M	düşük	hızlı
q5_K_M	orta	dengeli
q8	yüksek	yavaş

CPU için genelde q4_K_M en iyi.

Modeli RAM’de tutmak

Model her çağrıda yeniden yüklenirse ciddi gecikme olur.

Serviste şu ayarı ekle:

Copy

1
Environment="OLLAMA_KEEP_ALIVE=30m"

Bu sayede model 30 dakika RAM’de kalır.

Embedding modelini ayırmak

RAG sistemlerinde embedding modeli ayrı olmalı.

En iyi seçenek:

Copy

1
ollama pull nomic-embed-text

Bu model özellikle şu framework ile çok iyi çalışır:

LangChain4j

Ollama

CPU ThinkPad için ideal stack

Jakarta EE + agent mimarisi için önerilen yapı:

Copy

1
2
3
4
5
6
7
8
Ollama
 ├── qwen2.5:7b-q4_K_M   (chat model)
 ├── nomic-embed-text    (embedding)

PostgreSQL
 └── pgvector

LangChain4j

Bu mimari:

Agent
Tool calling
RAG
Local LLM

için şu anda en stabil kombinasyonlardan biri.