Pillar · mimari kararı · 12 dk okuma
Yerel Çalışan Yapay Zeka Nedir?
Yerel yapay zeka, bulut sunucuya değil — kendi cihazına çalışır. Veri makinen dışına çıkmaz, gecikme düşer, KVKK çerçevesi rahattır. Açık kaynak modeller, hibrit yaklaşımlar, ne zaman seçilir.
En güvenli veri, makinen dışına hiç çıkmamış olandır.
Ürün-landing: Yerelde çalışan AI agent — Ilura uygulaması.
Kısa cevap
Yerel çalışan yapay zeka — local AI veya on-device AI — modelin senin cihazında çalıştığı yapay zekadır. Bulut sunucularına veri göndermez. Llama, Mistral, Qwen gibi açık kaynak modeller bunu mümkün kıldı. Veri gizliliği, hız ve KVKK uyumu için tercih edilir.
Yerel vs bulut AI — yan yana
| Eksen | Yerel AI | Bulut AI |
|---|---|---|
| Veri | Senin makinen | Sağlayıcının sunucusu |
| Gecikme | Düşük (10-50 ms) | Yüksek (100-500 ms) |
| Maliyet | Donanım + elektrik | Token başına ücret |
| Çevrimdışı | Çalışır | Çalışmaz |
| Model gücü | Orta-iyi (Llama 8B-70B) | Frontier (GPT-4, Claude Opus) |
| KVKK | Yurt dışı aktarım yok | Sözleşmesel önlem ister |
| Güncelleme | Manuel indirme | Otomatik (sağlayıcı) |
| Özelleştirme | Tam kontrol (LoRA fine-tune) | Sınırlı (system prompt) |
Bulut AI hızlı başlar; yerel AI bağımsız kalır. Çoğu üretken iş için yerel yeterli. Yüksek-değer kararda bulut frontier model gerekir — hibrit yaklaşım her ikisini birleştirir.
Beş senaryoda yerel AI
1. Sağlık & Hukuk
Hasta dosyası, dava metni — KVKK §6 (özel nitelikli kişisel veri). Cloud’a yüklemek denetimli risk. Yerel AI bu çerçeveyi rahatça karşılar; veri makinen dışına çıkmaz.
2. Şirket içi belge
Müşteri sözleşmesi, fiyat listesi, finansal kayıt — rakibe sızması istenmez. ChatGPT Enterprise “eğitim için kullanılmaz” der ama veri sağlayıcının altyapısında durur. Yerel AI bunu ortadan kaldırır.
3. Kod tamamlama
GitHub Copilot her tuşa basışta kodu OpenAI’ye yollar. Yerel kod modelleri (Code Llama, Qwen Coder) IDE’nde çalışır; özel kod tabanın kapalı kalır.
4. Çevrimdışı sahaler
Saha çalışanı, gemi mürettebatı, dağ rehberi — internet kötü. Yerel agent çevrimdışı çalışır. Eğitim seansı internet bağlandığında tetiklenir.
5. Düşük gecikme uygulamaları
Ses asistanı, gerçek zamanlı çeviri, otomatik altyazı — 100 ms gecikme bile fark eder. Yerel inference 10-50 ms; bulut 200-500 ms. UX açısından kıyaslanmaz.
Açık kaynak modeller — bugünün manzarası
Açık kaynak (gerçekten açık ya da “open-weight”) büyük dil modelleri 2023’ten bu yana hızla olgunlaştı. Bugün pratik seçenekler:
Llama 3.1 / 3.2 / 3.3 (Meta)
- Llama 3.2 3B — 8 GB RAM cihazlar için
- Llama 3.1 8B — Apple Silicon ortalama (16 GB RAM)
- Llama 3.3 70B — Workstation (RTX 4090 / 64 GB RAM)
Türkçe yetkin, talimat-takibinde iyi, çoğu görevin temeli. License: Llama Community License (ticari kullanım izinli, 700M aylık aktif kullanıcı eşiği var).
Mistral 7B / Mixtral 8x7B (Mistral AI)
- Mistral 7B — küçük + hızlı
- Mixtral 8x7B — Mixture-of-Experts, daha hızlı çıkarım
- Mistral Large — ticari, yarı-açık
Avrupa kaynaklı, GDPR uyumlu yaklaşım. License: Apache 2.0 (Mistral 7B). Türkçe anlama Llama 3.1 ile yarışır.
Qwen 2.5 / 3 (Alibaba)
- Qwen 2.5 7B — Llama 8B ile yarışır
- Qwen 2.5 32B — workstation üstü
- Qwen Coder — kod görevleri
Türkçe Llama 3.1’den biraz daha iyi raporlanıyor (özellikle generation kalitesi). License: Apache 2.0 (Qwen 2.5).
Phi-4 (Microsoft)
- Küçük (14B parameter) ama kalitesi yüksek
- License: MIT
- Düşük donanımda iyi performans
Seçim donanım + dil + görev üçlüsüne göre yapılır. Yerel model sözlüğünde detaylı tablo var.
Hibrit yaklaşım — öğrenci/eğitmen kurgusu
Pure yerel: model gücü orta, frontier görevde zorlanır. Pure bulut: veri yurt dışına gider, KVKK risk, gecikme yüksek.
İkisinin iyi yanlarını birleştirmek mümkün:
[Yerel inference] [Bulut eğitmen]
Llama 3.1 8B Claude Sonnet
↓ günlük çalışma ↓ haftalık eğitim
Senin makinen ───────► Özetli + maskeli örnekler
◄──── LoRA adapter dönüşü ────
Kurgu şöyle işler:
- Günlük iş yerel modelde çalışır — düşük gecikme, veri makinen dışına çıkmaz.
- Eğitim seansı kullanıcı onayıyla tetiklenir; örnekler özetlenir, PII’ler otomatik maskelenir.
- Bulut eğitmen (frontier bir model) örneklere bakar, LoRA adapter üretir.
- Adapter yerel modele uygulanır. Yerel model biraz daha kullanıcısı gibi olur.
Sonuç: frontier model gücü, yerel veri kontrolü, KVKK uyumu — üçü bir arada. İlk nesil Ilura masaüstünde tam bu kurguyla çalışıyordu. Bugünkü Ilura iOS’ta daha sade bir cevap kullanıyor: Apple Intelligence cihaz-üstü — öğrenme de veri de cihazda kalıyor.
Ne zaman yerel seçilmez?
Her durumda yerel doğru cevap değil. Bulut tercih edilebilir:
- Tek seferlik yüksek-bağlam görev — Claude’un 200K+ context window’u eşsiz; senin yerel modelinin 32K-128K limitini aşan tek belge analizinde bulut ucundan çek.
- Yüksek-değer karar (yargı, tıp) — frontier modelde +%5 doğruluk fark eder. İyi tasarlanmış kurgular bu durumda iki modeli birden çalıştırıp anlaşmazlıkta kullanıcıya sorar.
- Donanım yok — telefon, ucuz dizüstü. Yerel pratik değil; bulut zorunlu.
Çoğu üretken iş için yerel yeterli. Hibrit yaklaşım kalan boşluğu doldurur.
Ilura’da yerel-öncelik — dünden bugüne
Doğrulamalı mimari Ilura’nın taşıyıcı kolonudur. İlk nesil (masaüstü) Ilura bunu üç katta kuruyordu:
- Yerel pod — agent her dosya/komut için politika motoruna sorardı. Politika kullanıcının tanımladığı sınırlardı.
- Audit zinciri — her karar SHA-256 hash chain’ine eklenirdi. Sonradan değiştirilemezdi.
- Yerel-öncelikli inference — yerel model varsayılandı; bulut sadece kullanıcı onayıyla devreye girerdi.
O dönemde yerel agent dış araçlara (filesystem, Slack, Postgres) MCP üzerinden bağlanırdı; bağlantı katmanı politika + denetimle sarılırdı. Kavramın anlatımı: MCP gateway nedir?.
Bugünkü Ilura aynı ilkeyi iOS’ta daha sade kurar: Apple Intelligence cihaz-üstü çalışır, agent’ın hafızası iPhone’da yaşar, sınırlar Playbook’larla çizilir. Agent’ını — kişisel iş arkadaşını — sen çağırınca çalışır, çıktıyı sen onaylarsın; Ilura arka planda kendi başına başka uygulamaları yönetmez. KVKK §6 §9 uyumu yine mimaride karşılanır — sözleşmesel önlem değil, yapısal güvence.
Detay: KVKK uyumlu yapay zeka.
Hangi modeller yerelde çalışır?
2024-2026 arası yerel model ekosistemi olgunlaştı. Bugün pratik haritası:
| Model ailesi | Boyut | Donanım eşiği | Türkçe | Tipik rol |
|---|---|---|---|---|
| Llama 3.1 | 8B | 8 GB RAM | İyi | Varsayılan öğrenci |
| Llama 3.1 | 70B | 64 GB RAM + GPU | Çok iyi | Workstation öğrenci |
| Mistral 7B | 7B | 8 GB RAM | Orta-iyi | Hafif alternatif |
| Mixtral 8x7B | 47B aktif | 32 GB RAM + GPU | İyi | MoE — hızlı çıkarım |
| Qwen 2.5 | 7B | 8 GB RAM | İyi-çok iyi | Türkçe odaklı seçim |
| Qwen 2.5 | 32B | 32 GB RAM + GPU | Çok iyi | Orta-büyük öğrenci |
| Qwen 2.5 | 72B | 64 GB RAM + GPU | Çok iyi | Frontier-yakın yerel |
| Phi-3 | 3.8B | 6 GB RAM | Orta | Düşük donanım |
| Phi-3 | 14B | 16 GB RAM | İyi | Küçük ama akıllı |
| Gemma 2 | 9B | 12 GB RAM | İyi | Google açık ağırlık |
| Gemma 2 | 27B | 32 GB RAM + GPU | İyi | Orta-büyük seçenek |
Türkçe yetkinliği modele göre değişir. Qwen 2.5 ve Llama 3.1 generation kalitesi açısından öne çıkar — anlamayı çoğunda iyi yapar, Türkçe yazımda akıcılık 7B sınıfında orta, 32B+ sınıfta belirgin iyileşir. Phi-3 ve Gemma 2 İngilizce-ağırlıklı eğitildi; Türkçe görevde ikinci tercih.
Bulut eğitmen seçimi ayrı bir karardır. Öğrenci/eğitmen kurgusunda öğrenci yereldir (Llama 8B / Qwen 7B), eğitmen bulutta seçilir: Claude Sonnet (Türkçe akademik metinde güçlü), GPT-4o (genel kapsama), Gemini Pro (uzun bağlam). Eğitmen frontier kalitede olduğunda yerel öğrencinin LoRA adapter’ı bu kalitenin damıtılmış sürümüne yaklaşır.
Lisans değerlendirmesi. Llama Community License (Llama 3.x) ticari kullanıma açık ama 700M aylık aktif kullanıcı eşiğinin üstünde Meta ile ek anlaşma gerek. Mistral 7B Apache 2.0 — sınır yok. Qwen 2.5 Apache 2.0. Phi-3 MIT. Gemma 2 Gemma Terms — ticari uygun ama yasaklı kullanım listesi var. Bireysel kullanıcı ve küçük ekip için pratik etki yok (700M user threshold ulaşılmaz); ama kurumsal dağıtımda lisans review’i ihmal edilemez.
Quantization seçimleri. FP16 (orijinal): kalite tam, RAM yüksek. INT8: kalite ~%99, RAM yarı. INT4 (Q4_K_M, Q5_K_S vb.): kalite %95-97, RAM çeyrek. Pratik olarak INT4 quantization Apple Silicon ve consumer GPU için altın standart — Ollama varsayılan olarak INT4 dağıtır.
LM Studio gibi araçlar donanımı tarayıp üç aday önerir: hız-öncelikli, kalite-öncelikli, denge. Seçim her zaman değiştirilebilir.
Donanım gereksinimi
Yerel inference için donanım kararı üç eksende alınır: RAM, hesaplama (CPU/GPU), disk.
Apple Silicon (M1/M2/M3/M4). Unified memory mimarisi yerel modeller için tasarlanmış gibi. M1/M2 16 GB → Llama 8B ve Qwen 7B sıkıntısız. M3 Pro 36 GB → 32B sınıfı akıcı. M3 Max 64-128 GB → Llama 70B int4 quantize edilmiş halde rahatça çalışır. MLX framework Apple Silicon’da en hızlı yerel inference yolu (Ollama da Metal backend kullanır).
NVIDIA GPU + Linux/Windows. RTX 3060 12 GB → 7B-8B FP16 / 13B int4. RTX 4070 12 GB → benzer ama hız daha yüksek. RTX 4090 24 GB → 32B sınıfı rahatça, 70B int4 sıkışık ama mümkün. CUDA + bitsandbytes + llama.cpp/Ollama kombinasyonu standart.
CPU-only sistemler. Modern Intel i7 / AMD Ryzen 7 + 16 GB RAM → Llama 8B çalışır ama 5-15 token/saniye gibi düşük hız. Pratik olarak Phi-3 3.8B veya Mistral 7B int4 quantize tercih. Eğitim için yetersiz; sadece çıkarım.
Quantization marjı. Model dosya boyutu × 1.2-1.5 = pratik VRAM/RAM ihtiyacı. Llama 8B FP16 (16 GB) → int4 (5 GB). Llama 70B FP16 (140 GB) → int4 (40 GB). Quantization kalitede %2-5 düşüş getirir; çoğu üretken görevde fark hissedilmez.
| Profil | RAM | Disk | Model önerisi |
|---|---|---|---|
| Hafif | 8 GB | 20 GB | Phi-3 3.8B / Mistral 7B int4 |
| Standart | 16 GB | 50 GB | Llama 8B / Qwen 7B FP16 |
| Pro | 32 GB | 100 GB | Qwen 32B / Gemma 27B int4 |
| Workstation | 64 GB+ | 200 GB+ | Llama 70B / Qwen 72B int4 |
Donanım yetersizse “bulut eğitmen + yerel hafif öğrenci” hibrit kurgusu pratik orta yoldur.
Pratik benchmark — Llama 8B int4. Apple M2 16 GB → 30-50 token/s (akıcı sohbet). RTX 3060 12 GB → 60-90 token/s. RTX 4090 → 120+ token/s. Ryzen 7 + 16 GB CPU-only → 8-15 token/s (yavaş ama çalışır). Bu değerler Ollama benchmark verilerinden derlenmiş tipik aralıklardır; gerçek ölçüm bağlam uzunluğuna ve quantization seviyesine göre değişir.
Disk strateji. Yerel modeller GGUF formatında dağıtılır; tipik dosya boyutları 4-50 GB arası. SSD zorunlu — HDD’de model yükleme dakikalarca sürer. Ollama model cache’ini ~/.ollama/models/ altında tutar. Disk yetersizliği sık görülen bir kullanıcı tuzağıdır — kurulumdan önce boş alanı kontrol et.
Hangi işlerde yerel AI tercih edilir?
Yerel mi bulut mu kararı duruma göre değişir. Karar matrisi:
Veri hassas → yerel zorunlu. Sağlık (KVKK §6), hukuk (avukat-müvekkil sırrı), finans (KAL kapsamı, ticari sır), kamu (gizlilik dereceli belge). Bu alanlarda bulut çağrısı sözleşmesel önlemle bile savunulması zor. Yerel yapısal cevap. Detay: KVKK uyumlu yapay zeka.
Düşük latency gerekli → yerel hızlı. Ses asistanı, gerçek zamanlı çeviri, IDE kod tamamlama, UI yardımcısı. Yerel inference 10-50 ms; bulut 200-500 ms (network round-trip dahil). UX açısından kıyaslanmaz — kullanıcı 100 ms’lik gecikmeyi hisseder.
Çevrimdışı çalışma şart → yerel tek seçenek. Saha mühendisi, gemi mürettebatı, dağ rehberi, hava taşımacılığı, savunma uygulamaları. İnternet yok veya kötüyse bulut çalışmaz. Yerel agent çevrimdışı görev yapmaya devam eder; eğitim seansı internet bağlandığında tetiklenir.
Maliyet kontrolü (yüksek hacim) → yerel ekonomik. Aylık milyon token+ çağrı yapan bir uygulama bulut API ile binlerce dolar fatura biriktirir. Yerel model donanım + elektrik dışında sıfır marjinal maliyet. Break-even noktası tipik olarak günlük ~10K çağrı civarında — üzerinde yerel açık ara ekonomik.
Kompleks akıl yürütme (büyük model) → bulut tercih. Hukuki yargı, tıbbi tanı, finansal modelleme — frontier model (Claude Opus, GPT-5) +%5-10 doğruluk farkı yaratır. Bu farkın değeri yüksekse bulut çağrısı meşru. Hibrit kurgular iki modeli birden çalıştırıp anlaşmazlıkta kullanıcıya danışabilir.
Tek seferlik yüksek-bağlam görev → bulut. Claude’un 200K+ context window’u yerel modelin 32K-128K limitini aşar. Tek belge analizi, uzun kod tabanı review için bulut.
Kompozisyon kararı. Çoklu agent kurgularında seçim agent başına ayrı yapılır: e-posta asistanı yerel kalır, hukuk asistanı yerel, müşteri iletişimi hibrit, raporlama yüksek-bağlam analizde bulut çağrısı yapar. Tek bir karar yok; her iş yükü kendi profilinde mantıklı seçimi alır.
Detay: Türkiye’de AI agent kullanımı, KVKK uyumlu yapay zeka.
Bulut + yerel hibrit yaklaşım — ilk nesil Ilura örneği
İlk nesil (masaüstü) Ilura’nın felsefesi pure yerel veya pure bulut değildi; hibrit üzerine kuruluydu. O dönemin üçlemesinin her aşamasında yerel ile bulut farklı rol üstlenirdi — bugün de hibrit sistem tasarlayanlar için öğretici bir örnek:
Kur — yerel. Agent tanımı, başlangıç prompt’u, araç bağlamı kullanıcının makinesinde oluşurdu. Eğitim verisi (örnek konuşmalar, onay-red kararları) yerel SQLite’a yazılırdı. Bu aşamada bulut çağrısı yoktu.
Eğit — yerel + bulut eğitmen. Yerel agent günlük çalışırken örnekler birikirdi. Haftalık eğitim seansında — kullanıcı onaylarsa — özetlenmiş + PII maskelenmiş örnek bulut eğitmenine gönderilir, dönen LoRA adapter yerel modele uygulanırdı. Kalite kapıları (refusal, tool, persona, alignment, latency) regression kontrolü yapardı.
Yayınla — bulut runtime. Üretime hazır agent bulut runtime’a alınabilirdi; TR data residency için TR-region seçilirdi.
Tether — bulut → yerel telemetri. Bulutta çalışan agent’ın kararları (özetlenmiş + maskelenmiş halde) masaüstüne geri akar, kullanıcı review yapardı. Halka kapalıydı.
Federe öğrenme halkası. Aynı agent şablonunu kullananlar için, eğitim verisi paylaşılmadan ortak adapter üretilebilirdi — FedAvg algoritması yerel adapter weight’lerini ortalardı. Ham veri asla paylaşılmazdı; sadece ağırlık güncellemeleri. Kolektif zekâ + bireysel veri gizliliği aynı anda.
Şeffaf kontrol noktaları. Her aktif bulut bağlantısı arayüzde canlı işaretlenir, eğitim seansı onay ekranından geçer, her bulut çağrısı audit chain’e yazılırdı — geri-tarihli kapanış imkansızdı.
Bu mimari bir dersle kapandı: hibrit ne kadar şeffaf olursa olsun, en sade güvence verinin hiç çıkmamasıdır. Bugünkü Ilura bu yüzden iOS’ta Apple Intelligence ile tamamen cihaz-üstü çalışıyor.
Sona
Yerel çalışan yapay zeka, veri makinen dışına çıkmadan üretken iş yapmanın yoludur. Bulutun frontier gücü hala bazı görevlerde önde — ama günlük çoğu iş için Llama / Mistral / Qwen yeterli. Hibrit yaklaşım — yerel inference, bulut eğitmen — ikisinin avantajını birleştirir. Ilura bu felsefede doğdu; bugün aynı ilkenin en saf halini iPhone’da uyguluyor — Apple Intelligence cihaz-üstü, verin iPhone’undan çıkmaz.
Yerel olduğunda asistan senin asistanın olur. Bulutta asistan birinin sunucusunda çalışan bir yazılımdır.