Yerel model
Diğer adlandırmalar: local LLM , lokal model , on-device model
Tanım
Yerel model, senin bilgisayarında çalışan büyük dil modelidir. Bulut API’sine bağlanmaz; cevapları yerel olarak üretir. Agent’ın bedenidir — eğitmen modelin terbiye ettiği yer.
Ilura yerel modeli Ollama üzerinden indirir ve çalıştırır. Sen Ollama’nın komut satırını kullanmazsın; Tezgah arka planda halleder.
Neden yerel model?
Üç sebep:
- Gizlilik. Verin senin makinende kalır. Müşteri dosyaları, kişisel notlar, hassas yazışmalar — hiç dışarı çıkmaz.
- Maliyet. Bulut API’sine her çağrı para tutar. Yerel model bir kerelik indirilir, sonra ücretsizdir.
- Süreklilik. Bulut sağlayıcısı kapansa, fiyatları artırsa, sansürlese — yerel modelin çalışmaya devam eder.
Bu üç sebep aynı anda Ilura’nın tezi: veriyi yerelde tutarken zekâyı bulutta eğitmek.
Hangi model nereye?
Tezgah donanımına bakarak öneri yapar ama genel kalıp:
| Donanım | Önerilen model | Boyut |
|---|---|---|
| 8 GB RAM (Mac/Windows) | Llama 3.2 3B | 2 GB |
| 16 GB RAM (M1+/RTX 3060+) | Llama 3.1 8B | 4.7 GB |
| 32 GB RAM (M2 Pro+/RTX 4080+) | Llama 3.3 70B (quant) | 40 GB |
| 64 GB+ Workstation | Llama 3.3 70B (full) | 130 GB |
Daha küçük modeller daha hızlıdır ama daha aceleci; iyi çağrım yazmak gerekir. Daha büyük modeller daha düşünür ama elektriği çok yer.
Çoğu kullanıcının başlangıç noktası: Llama 3.1 8B + Apple Silicon — sessiz, hızlı, yetenekli.
Yerel + Eğitmen — iş bölümü
Günlük kullanımda yerel model %90’ı yapar:
- Sohbet et
- Belge oku, özetle
- Mail taslağı yaz
- Karar öner
Eğitmen ise %10’da gelir:
- Eğitim seanslarında (haftada bir-iki)
- Belirsiz/riskli kararlarda (“ikinci görüş gerekli”)
- Üslup düzeltmesinde (ay sonunda)
Bu iş bölümü Ilura’da otomatiktir. Sen bir karar verirken arka planda yerel model çalışır; Tezgah belirsizlik eşiğini geçerse “eğitmene danışmamı ister misin?” diye sorar.
Yerel model + Bellek
Yerel model agent’ın motorudur ama belleği değildir. Bellek ayrı bir katmandır — vektör veritabanı + yapılandırılmış notlar + zaman çizelgesi. Bu katman da yerelde durur.
Bir analoji: yerel model agent’ın düşünme yetisi, bellek ise hatırası. İkisi birlikte agent’ın tamamını yapar.
Güncelleme — ne zaman?
Yeni model versiyonu çıktığında Tezgah bildirir:
- “Llama 3.2 → 3.3 — bağlam %15 daha iyi takip ediyor. İndirilsin mi?”
Geçiş anında:
- Bellek korunur (model değişir, hatıra kalır).
- Çağrım kütüphanesi taşınır.
- İlk birkaç saat agent biraz farklı yanıt verebilir; profil hızla yeniden hizalanır.
Acelesi yok. Eski model çalışmaya devam eder; yeni indirme arka planda olur.
Yaygın yanılgılar
“Yerel model = düşük kalite.” — 2024’te doğruydu, 2026’da değil. Llama 3.1 8B çoğu görevde GPT-3.5 ile başa baş; Llama 3.3 70B ise Claude Sonnet seviyesinde. Açık modeller hızla kapatıyor.
“Çok yer kaplar.” — 4-13 GB. Bir Photoshop kurulumu kadar. Modern SSD’lerde sorun değil.
“Yerel model = offline-only.” — Yerel model bağlantı gerektirmez ama Ilura’nın özellikleri (eğitmen, bulut yayını, ekip paylaşımı) bağlantıyla daha iyi çalışır. Hibrit kullan.
“Donanımım yetmez.” — Tezgah donanımına bakar ve sana çalışacak model önerir. 4 GB RAM’lik eski bir laptop’ta bile Phi-3 Mini koşar — sınırlı ama çalışır.