Skip to main content

ollama

ThinkPad gibi CPU ile çalışan bir makinede Ollama performansını ciddi şekilde artıran birkaç kritik ayar var. Varsayılan kurulum genelde CPU’yu tam verimli kullanmaz. Aşağıdaki 5 ayar çoğu durumda 2-3 kat hız artışı sağlar.

  1. CPU thread sayısını ayarlamak

Ollama bazen CPU çekirdeklerinin tamamını kullanmaz.

Çekirdek sayını öğren:

1
nproc

Örneğin 8 çekirdek ise Ollama’yı şu şekilde başlat:

1
OLLAMA_NUM_PARALLEL=1 OLLAMA_MAX_LOADED_MODELS=1 ollama serve

ya da systemd servisinde environment olarak ekleyebilirsin.

Servis dosyasını aç:

1
nano /etc/systemd/system/ollama.service

[Service] altına ekle:

1
2
Environment="OLLAMA_NUM_PARALLEL=1"
Environment="OLLAMA_MAX_LOADED_MODELS=1"

Sonra:

1
2
systemctl daemon-reload
systemctl restart ollama
  1. Context boyutunu düşürmek

Varsayılan context genelde çok büyüktür ve CPU’yu yavaşlatır.

Modeli çalıştırırken:

1
ollama run qwen2.5:7b -c 2048

Genelde:

1
2
3
4
Context	Performans
8192	yavaş
4096	normal
2048	hızlı
  1. Hafif quantization kullanmak

CPU’da en önemli şey quantization.

Model indirirken:

1
ollama pull qwen2.5:7b-q4_K_M

En iyi CPU seçenekleri:

1
2
3
4
Quant	RAM	Hız
q4_K_M	düşük	hızlı
q5_K_M	orta	dengeli
q8	yüksek	yavaş

CPU için genelde q4_K_M en iyi.

  1. Modeli RAM’de tutmak

Model her çağrıda yeniden yüklenirse ciddi gecikme olur.

Serviste şu ayarı ekle:

1
Environment="OLLAMA_KEEP_ALIVE=30m"

Bu sayede model 30 dakika RAM’de kalır.

  1. Embedding modelini ayırmak

RAG sistemlerinde embedding modeli ayrı olmalı.

En iyi seçenek:

1
ollama pull nomic-embed-text

Bu model özellikle şu framework ile çok iyi çalışır:

LangChain4j

Ollama

CPU ThinkPad için ideal stack

Jakarta EE + agent mimarisi için önerilen yapı:

1
2
3
4
5
6
7
8
Ollama
 ├── qwen2.5:7b-q4_K_M   (chat model)
 ├── nomic-embed-text    (embedding)

PostgreSQL
 └── pgvector

LangChain4j

Bu mimari:

  • Agent
  • Tool calling
  • RAG
  • Local LLM

için şu anda en stabil kombinasyonlardan biri.

Previous Jitsi Next Frontend Checklist