ThinkPad gibi CPU ile çalışan bir makinede Ollama performansını ciddi şekilde artıran birkaç kritik ayar var. Varsayılan kurulum genelde CPU’yu tam verimli kullanmaz. Aşağıdaki 5 ayar çoğu durumda 2-3 kat hız artışı sağlar.
- CPU thread sayısını ayarlamak
Ollama bazen CPU çekirdeklerinin tamamını kullanmaz.
Çekirdek sayını öğren:
| |
Örneğin 8 çekirdek ise Ollama’yı şu şekilde başlat:
| |
ya da systemd servisinde environment olarak ekleyebilirsin.
Servis dosyasını aç:
| |
[Service] altına ekle:
| |
Sonra:
| |
- Context boyutunu düşürmek
Varsayılan context genelde çok büyüktür ve CPU’yu yavaşlatır.
Modeli çalıştırırken:
| |
Genelde:
| |
- Hafif quantization kullanmak
CPU’da en önemli şey quantization.
Model indirirken:
| |
En iyi CPU seçenekleri:
| |
CPU için genelde q4_K_M en iyi.
- Modeli RAM’de tutmak
Model her çağrıda yeniden yüklenirse ciddi gecikme olur.
Serviste şu ayarı ekle:
| |
Bu sayede model 30 dakika RAM’de kalır.
- Embedding modelini ayırmak
RAG sistemlerinde embedding modeli ayrı olmalı.
En iyi seçenek:
| |
Bu model özellikle şu framework ile çok iyi çalışır:
LangChain4j
Ollama
CPU ThinkPad için ideal stack
Jakarta EE + agent mimarisi için önerilen yapı:
| |
Bu mimari:
- Agent
- Tool calling
- RAG
- Local LLM
için şu anda en stabil kombinasyonlardan biri.