Pillar · mimari kararı · 12 dk okuma

Yerel Çalışan Yapay Zeka Nedir?

Yerel yapay zeka, bulut sunucuya değil — kendi cihazına çalışır. Veri makinen dışına çıkmaz, gecikme düşer, KVKK çerçevesi rahattır. Açık kaynak modeller, hibrit yaklaşımlar, ne zaman seçilir.

En güvenli veri, makinen dışına hiç çıkmamış olandır.

Ürün-landing: Yerelde çalışan AI agent — Ilura uygulaması.

Kısa cevap

Yerel çalışan yapay zeka — local AI veya on-device AI — modelin senin cihazında çalıştığı yapay zekadır. Bulut sunucularına veri göndermez. Llama, Mistral, Qwen gibi açık kaynak modeller bunu mümkün kıldı. Veri gizliliği, hız ve KVKK uyumu için tercih edilir.

Yerel vs bulut AI — yan yana

EksenYerel AIBulut AI
VeriSenin makinenSağlayıcının sunucusu
GecikmeDüşük (10-50 ms)Yüksek (100-500 ms)
MaliyetDonanım + elektrikToken başına ücret
ÇevrimdışıÇalışırÇalışmaz
Model gücüOrta-iyi (Llama 8B-70B)Frontier (GPT-4, Claude Opus)
KVKKYurt dışı aktarım yokSözleşmesel önlem ister
GüncellemeManuel indirmeOtomatik (sağlayıcı)
ÖzelleştirmeTam kontrol (LoRA fine-tune)Sınırlı (system prompt)

Bulut AI hızlı başlar; yerel AI bağımsız kalır. Çoğu üretken iş için yerel yeterli. Yüksek-değer kararda bulut frontier model gerekir — hibrit yaklaşım her ikisini birleştirir.

Beş senaryoda yerel AI

1. Sağlık & Hukuk

Hasta dosyası, dava metni — KVKK §6 (özel nitelikli kişisel veri). Cloud’a yüklemek denetimli risk. Yerel AI bu çerçeveyi rahatça karşılar; veri makinen dışına çıkmaz.

2. Şirket içi belge

Müşteri sözleşmesi, fiyat listesi, finansal kayıt — rakibe sızması istenmez. ChatGPT Enterprise “eğitim için kullanılmaz” der ama veri sağlayıcının altyapısında durur. Yerel AI bunu ortadan kaldırır.

3. Kod tamamlama

GitHub Copilot her tuşa basışta kodu OpenAI’ye yollar. Yerel kod modelleri (Code Llama, Qwen Coder) IDE’nde çalışır; özel kod tabanın kapalı kalır.

4. Çevrimdışı sahaler

Saha çalışanı, gemi mürettebatı, dağ rehberi — internet kötü. Yerel agent çevrimdışı çalışır. Eğitim seansı internet bağlandığında tetiklenir.

5. Düşük gecikme uygulamaları

Ses asistanı, gerçek zamanlı çeviri, otomatik altyazı — 100 ms gecikme bile fark eder. Yerel inference 10-50 ms; bulut 200-500 ms. UX açısından kıyaslanmaz.

Açık kaynak modeller — bugünün manzarası

Açık kaynak (gerçekten açık ya da “open-weight”) büyük dil modelleri 2023’ten bu yana hızla olgunlaştı. Bugün pratik seçenekler:

Llama 3.1 / 3.2 / 3.3 (Meta)

  • Llama 3.2 3B — 8 GB RAM cihazlar için
  • Llama 3.1 8B — Apple Silicon ortalama (16 GB RAM)
  • Llama 3.3 70B — Workstation (RTX 4090 / 64 GB RAM)

Türkçe yetkin, talimat-takibinde iyi, çoğu görevin temeli. License: Llama Community License (ticari kullanım izinli, 700M aylık aktif kullanıcı eşiği var).

Mistral 7B / Mixtral 8x7B (Mistral AI)

  • Mistral 7B — küçük + hızlı
  • Mixtral 8x7B — Mixture-of-Experts, daha hızlı çıkarım
  • Mistral Large — ticari, yarı-açık

Avrupa kaynaklı, GDPR uyumlu yaklaşım. License: Apache 2.0 (Mistral 7B). Türkçe anlama Llama 3.1 ile yarışır.

Qwen 2.5 / 3 (Alibaba)

  • Qwen 2.5 7B — Llama 8B ile yarışır
  • Qwen 2.5 32B — workstation üstü
  • Qwen Coder — kod görevleri

Türkçe Llama 3.1’den biraz daha iyi raporlanıyor (özellikle generation kalitesi). License: Apache 2.0 (Qwen 2.5).

Phi-4 (Microsoft)

  • Küçük (14B parameter) ama kalitesi yüksek
  • License: MIT
  • Düşük donanımda iyi performans

Seçim donanım + dil + görev üçlüsüne göre yapılır. Yerel model sözlüğünde detaylı tablo var.

Hibrit yaklaşım — öğrenci/eğitmen kurgusu

Pure yerel: model gücü orta, frontier görevde zorlanır. Pure bulut: veri yurt dışına gider, KVKK risk, gecikme yüksek.

İkisinin iyi yanlarını birleştirmek mümkün:

[Yerel inference]            [Bulut eğitmen]
  Llama 3.1 8B                Claude Sonnet
  ↓ günlük çalışma            ↓ haftalık eğitim
  Senin makinen     ───────►  Özetli + maskeli örnekler
  ◄──── LoRA adapter dönüşü ────

Kurgu şöyle işler:

  1. Günlük iş yerel modelde çalışır — düşük gecikme, veri makinen dışına çıkmaz.
  2. Eğitim seansı kullanıcı onayıyla tetiklenir; örnekler özetlenir, PII’ler otomatik maskelenir.
  3. Bulut eğitmen (frontier bir model) örneklere bakar, LoRA adapter üretir.
  4. Adapter yerel modele uygulanır. Yerel model biraz daha kullanıcısı gibi olur.

Sonuç: frontier model gücü, yerel veri kontrolü, KVKK uyumu — üçü bir arada. İlk nesil Ilura masaüstünde tam bu kurguyla çalışıyordu. Bugünkü Ilura iOS’ta daha sade bir cevap kullanıyor: Apple Intelligence cihaz-üstü — öğrenme de veri de cihazda kalıyor.

Ne zaman yerel seçilmez?

Her durumda yerel doğru cevap değil. Bulut tercih edilebilir:

  • Tek seferlik yüksek-bağlam görev — Claude’un 200K+ context window’u eşsiz; senin yerel modelinin 32K-128K limitini aşan tek belge analizinde bulut ucundan çek.
  • Yüksek-değer karar (yargı, tıp) — frontier modelde +%5 doğruluk fark eder. İyi tasarlanmış kurgular bu durumda iki modeli birden çalıştırıp anlaşmazlıkta kullanıcıya sorar.
  • Donanım yok — telefon, ucuz dizüstü. Yerel pratik değil; bulut zorunlu.

Çoğu üretken iş için yerel yeterli. Hibrit yaklaşım kalan boşluğu doldurur.

Ilura’da yerel-öncelik — dünden bugüne

Doğrulamalı mimari Ilura’nın taşıyıcı kolonudur. İlk nesil (masaüstü) Ilura bunu üç katta kuruyordu:

  1. Yerel pod — agent her dosya/komut için politika motoruna sorardı. Politika kullanıcının tanımladığı sınırlardı.
  2. Audit zinciri — her karar SHA-256 hash chain’ine eklenirdi. Sonradan değiştirilemezdi.
  3. Yerel-öncelikli inference — yerel model varsayılandı; bulut sadece kullanıcı onayıyla devreye girerdi.

O dönemde yerel agent dış araçlara (filesystem, Slack, Postgres) MCP üzerinden bağlanırdı; bağlantı katmanı politika + denetimle sarılırdı. Kavramın anlatımı: MCP gateway nedir?.

Bugünkü Ilura aynı ilkeyi iOS’ta daha sade kurar: Apple Intelligence cihaz-üstü çalışır, agent’ın hafızası iPhone’da yaşar, sınırlar Playbook’larla çizilir. Agent’ını — kişisel iş arkadaşını — sen çağırınca çalışır, çıktıyı sen onaylarsın; Ilura arka planda kendi başına başka uygulamaları yönetmez. KVKK §6 §9 uyumu yine mimaride karşılanır — sözleşmesel önlem değil, yapısal güvence.

Detay: KVKK uyumlu yapay zeka.

Hangi modeller yerelde çalışır?

2024-2026 arası yerel model ekosistemi olgunlaştı. Bugün pratik haritası:

Model ailesiBoyutDonanım eşiğiTürkçeTipik rol
Llama 3.18B8 GB RAMİyiVarsayılan öğrenci
Llama 3.170B64 GB RAM + GPUÇok iyiWorkstation öğrenci
Mistral 7B7B8 GB RAMOrta-iyiHafif alternatif
Mixtral 8x7B47B aktif32 GB RAM + GPUİyiMoE — hızlı çıkarım
Qwen 2.57B8 GB RAMİyi-çok iyiTürkçe odaklı seçim
Qwen 2.532B32 GB RAM + GPUÇok iyiOrta-büyük öğrenci
Qwen 2.572B64 GB RAM + GPUÇok iyiFrontier-yakın yerel
Phi-33.8B6 GB RAMOrtaDüşük donanım
Phi-314B16 GB RAMİyiKüçük ama akıllı
Gemma 29B12 GB RAMİyiGoogle açık ağırlık
Gemma 227B32 GB RAM + GPUİyiOrta-büyük seçenek

Türkçe yetkinliği modele göre değişir. Qwen 2.5 ve Llama 3.1 generation kalitesi açısından öne çıkar — anlamayı çoğunda iyi yapar, Türkçe yazımda akıcılık 7B sınıfında orta, 32B+ sınıfta belirgin iyileşir. Phi-3 ve Gemma 2 İngilizce-ağırlıklı eğitildi; Türkçe görevde ikinci tercih.

Bulut eğitmen seçimi ayrı bir karardır. Öğrenci/eğitmen kurgusunda öğrenci yereldir (Llama 8B / Qwen 7B), eğitmen bulutta seçilir: Claude Sonnet (Türkçe akademik metinde güçlü), GPT-4o (genel kapsama), Gemini Pro (uzun bağlam). Eğitmen frontier kalitede olduğunda yerel öğrencinin LoRA adapter’ı bu kalitenin damıtılmış sürümüne yaklaşır.

Lisans değerlendirmesi. Llama Community License (Llama 3.x) ticari kullanıma açık ama 700M aylık aktif kullanıcı eşiğinin üstünde Meta ile ek anlaşma gerek. Mistral 7B Apache 2.0 — sınır yok. Qwen 2.5 Apache 2.0. Phi-3 MIT. Gemma 2 Gemma Terms — ticari uygun ama yasaklı kullanım listesi var. Bireysel kullanıcı ve küçük ekip için pratik etki yok (700M user threshold ulaşılmaz); ama kurumsal dağıtımda lisans review’i ihmal edilemez.

Quantization seçimleri. FP16 (orijinal): kalite tam, RAM yüksek. INT8: kalite ~%99, RAM yarı. INT4 (Q4_K_M, Q5_K_S vb.): kalite %95-97, RAM çeyrek. Pratik olarak INT4 quantization Apple Silicon ve consumer GPU için altın standart — Ollama varsayılan olarak INT4 dağıtır.

LM Studio gibi araçlar donanımı tarayıp üç aday önerir: hız-öncelikli, kalite-öncelikli, denge. Seçim her zaman değiştirilebilir.

Donanım gereksinimi

Yerel inference için donanım kararı üç eksende alınır: RAM, hesaplama (CPU/GPU), disk.

Apple Silicon (M1/M2/M3/M4). Unified memory mimarisi yerel modeller için tasarlanmış gibi. M1/M2 16 GB → Llama 8B ve Qwen 7B sıkıntısız. M3 Pro 36 GB → 32B sınıfı akıcı. M3 Max 64-128 GB → Llama 70B int4 quantize edilmiş halde rahatça çalışır. MLX framework Apple Silicon’da en hızlı yerel inference yolu (Ollama da Metal backend kullanır).

NVIDIA GPU + Linux/Windows. RTX 3060 12 GB → 7B-8B FP16 / 13B int4. RTX 4070 12 GB → benzer ama hız daha yüksek. RTX 4090 24 GB → 32B sınıfı rahatça, 70B int4 sıkışık ama mümkün. CUDA + bitsandbytes + llama.cpp/Ollama kombinasyonu standart.

CPU-only sistemler. Modern Intel i7 / AMD Ryzen 7 + 16 GB RAM → Llama 8B çalışır ama 5-15 token/saniye gibi düşük hız. Pratik olarak Phi-3 3.8B veya Mistral 7B int4 quantize tercih. Eğitim için yetersiz; sadece çıkarım.

Quantization marjı. Model dosya boyutu × 1.2-1.5 = pratik VRAM/RAM ihtiyacı. Llama 8B FP16 (16 GB) → int4 (5 GB). Llama 70B FP16 (140 GB) → int4 (40 GB). Quantization kalitede %2-5 düşüş getirir; çoğu üretken görevde fark hissedilmez.

ProfilRAMDiskModel önerisi
Hafif8 GB20 GBPhi-3 3.8B / Mistral 7B int4
Standart16 GB50 GBLlama 8B / Qwen 7B FP16
Pro32 GB100 GBQwen 32B / Gemma 27B int4
Workstation64 GB+200 GB+Llama 70B / Qwen 72B int4

Donanım yetersizse “bulut eğitmen + yerel hafif öğrenci” hibrit kurgusu pratik orta yoldur.

Pratik benchmark — Llama 8B int4. Apple M2 16 GB → 30-50 token/s (akıcı sohbet). RTX 3060 12 GB → 60-90 token/s. RTX 4090 → 120+ token/s. Ryzen 7 + 16 GB CPU-only → 8-15 token/s (yavaş ama çalışır). Bu değerler Ollama benchmark verilerinden derlenmiş tipik aralıklardır; gerçek ölçüm bağlam uzunluğuna ve quantization seviyesine göre değişir.

Disk strateji. Yerel modeller GGUF formatında dağıtılır; tipik dosya boyutları 4-50 GB arası. SSD zorunlu — HDD’de model yükleme dakikalarca sürer. Ollama model cache’ini ~/.ollama/models/ altında tutar. Disk yetersizliği sık görülen bir kullanıcı tuzağıdır — kurulumdan önce boş alanı kontrol et.

Hangi işlerde yerel AI tercih edilir?

Yerel mi bulut mu kararı duruma göre değişir. Karar matrisi:

Veri hassas → yerel zorunlu. Sağlık (KVKK §6), hukuk (avukat-müvekkil sırrı), finans (KAL kapsamı, ticari sır), kamu (gizlilik dereceli belge). Bu alanlarda bulut çağrısı sözleşmesel önlemle bile savunulması zor. Yerel yapısal cevap. Detay: KVKK uyumlu yapay zeka.

Düşük latency gerekli → yerel hızlı. Ses asistanı, gerçek zamanlı çeviri, IDE kod tamamlama, UI yardımcısı. Yerel inference 10-50 ms; bulut 200-500 ms (network round-trip dahil). UX açısından kıyaslanmaz — kullanıcı 100 ms’lik gecikmeyi hisseder.

Çevrimdışı çalışma şart → yerel tek seçenek. Saha mühendisi, gemi mürettebatı, dağ rehberi, hava taşımacılığı, savunma uygulamaları. İnternet yok veya kötüyse bulut çalışmaz. Yerel agent çevrimdışı görev yapmaya devam eder; eğitim seansı internet bağlandığında tetiklenir.

Maliyet kontrolü (yüksek hacim) → yerel ekonomik. Aylık milyon token+ çağrı yapan bir uygulama bulut API ile binlerce dolar fatura biriktirir. Yerel model donanım + elektrik dışında sıfır marjinal maliyet. Break-even noktası tipik olarak günlük ~10K çağrı civarında — üzerinde yerel açık ara ekonomik.

Kompleks akıl yürütme (büyük model) → bulut tercih. Hukuki yargı, tıbbi tanı, finansal modelleme — frontier model (Claude Opus, GPT-5) +%5-10 doğruluk farkı yaratır. Bu farkın değeri yüksekse bulut çağrısı meşru. Hibrit kurgular iki modeli birden çalıştırıp anlaşmazlıkta kullanıcıya danışabilir.

Tek seferlik yüksek-bağlam görev → bulut. Claude’un 200K+ context window’u yerel modelin 32K-128K limitini aşar. Tek belge analizi, uzun kod tabanı review için bulut.

Kompozisyon kararı. Çoklu agent kurgularında seçim agent başına ayrı yapılır: e-posta asistanı yerel kalır, hukuk asistanı yerel, müşteri iletişimi hibrit, raporlama yüksek-bağlam analizde bulut çağrısı yapar. Tek bir karar yok; her iş yükü kendi profilinde mantıklı seçimi alır.

Detay: Türkiye’de AI agent kullanımı, KVKK uyumlu yapay zeka.

Bulut + yerel hibrit yaklaşım — ilk nesil Ilura örneği

İlk nesil (masaüstü) Ilura’nın felsefesi pure yerel veya pure bulut değildi; hibrit üzerine kuruluydu. O dönemin üçlemesinin her aşamasında yerel ile bulut farklı rol üstlenirdi — bugün de hibrit sistem tasarlayanlar için öğretici bir örnek:

Kur — yerel. Agent tanımı, başlangıç prompt’u, araç bağlamı kullanıcının makinesinde oluşurdu. Eğitim verisi (örnek konuşmalar, onay-red kararları) yerel SQLite’a yazılırdı. Bu aşamada bulut çağrısı yoktu.

Eğit — yerel + bulut eğitmen. Yerel agent günlük çalışırken örnekler birikirdi. Haftalık eğitim seansında — kullanıcı onaylarsa — özetlenmiş + PII maskelenmiş örnek bulut eğitmenine gönderilir, dönen LoRA adapter yerel modele uygulanırdı. Kalite kapıları (refusal, tool, persona, alignment, latency) regression kontrolü yapardı.

Yayınla — bulut runtime. Üretime hazır agent bulut runtime’a alınabilirdi; TR data residency için TR-region seçilirdi.

Tether — bulut → yerel telemetri. Bulutta çalışan agent’ın kararları (özetlenmiş + maskelenmiş halde) masaüstüne geri akar, kullanıcı review yapardı. Halka kapalıydı.

Federe öğrenme halkası. Aynı agent şablonunu kullananlar için, eğitim verisi paylaşılmadan ortak adapter üretilebilirdi — FedAvg algoritması yerel adapter weight’lerini ortalardı. Ham veri asla paylaşılmazdı; sadece ağırlık güncellemeleri. Kolektif zekâ + bireysel veri gizliliği aynı anda.

Şeffaf kontrol noktaları. Her aktif bulut bağlantısı arayüzde canlı işaretlenir, eğitim seansı onay ekranından geçer, her bulut çağrısı audit chain’e yazılırdı — geri-tarihli kapanış imkansızdı.

Bu mimari bir dersle kapandı: hibrit ne kadar şeffaf olursa olsun, en sade güvence verinin hiç çıkmamasıdır. Bugünkü Ilura bu yüzden iOS’ta Apple Intelligence ile tamamen cihaz-üstü çalışıyor.

Sona

Yerel çalışan yapay zeka, veri makinen dışına çıkmadan üretken iş yapmanın yoludur. Bulutun frontier gücü hala bazı görevlerde önde — ama günlük çoğu iş için Llama / Mistral / Qwen yeterli. Hibrit yaklaşım — yerel inference, bulut eğitmen — ikisinin avantajını birleştirir. Ilura bu felsefede doğdu; bugün aynı ilkenin en saf halini iPhone’da uyguluyor — Apple Intelligence cihaz-üstü, verin iPhone’undan çıkmaz.

Yerel olduğunda asistan senin asistanın olur. Bulutta asistan birinin sunucusunda çalışan bir yazılımdır.

Sıkça sorulanlar

Yerel yapay zeka bulut AI'dan zayıf mı?
Bazı görevlerde, evet — büyük frontier modeller (GPT-4, Claude Opus) hâlâ bulut. Ama günlük iş için Llama 3.1 8B veya Mistral 7B çoğu görevin %85-90'ında yeterli. Hibrit yaklaşım — yerel inference, bulut eğitmen — ikisinin avantajını birleştirir.
Hangi cihazda çalışır?
Apple Silicon Mac (M1/M2/M3/M4) — 16 GB RAM ideal. Windows + GPU (RTX 3060 12 GB+). Linux + GPU. CPU-only çalışır ama yavaş — pratik değil. Ollama ve LM Studio gibi araçlar donanıma göre uygun modeli önerir. Telefonda ise işletim sistemi halleder: Apple Intelligence cihaz-üstü hazır gelir.
Hangi açık kaynak modeller iyi?
Llama 3.1 8B / 70B (Meta), Mistral 7B / Mixtral 8x7B (Mistral AI), Qwen 2.5 7B / 32B (Alibaba), Phi-4 (Microsoft). Türkçe görevler için Llama 3.1 ve Qwen 2.5 öne çıkıyor; seçim donanım + dil + görev üçlüsüne göre yapılır.
İnternet olmadan çalışır mı?
Evet, yerel inference offline çalışır. Hibrit kurgularda bulut yalnızca eğitim veya yüksek-değer adımlarda devreye girer. Offline modda yerel model görev yapmaya devam eder.
Maliyeti ne kadar?
Yerel model bedava (donanım + elektrik). Bulut eğitmen API çağrıları aylık 5-50 dolar arası — sadece eğitim seanslarında. ChatGPT Plus 20 dolar / ay sabit; sen yerel + eğitmen kullanırken aktif kullanıma göre öder, tipik fatura daha düşük.
KVKK açısından farkı ne?
Yerel inference, kişisel veri için 'yurt dışı aktarım' meselesini ortadan kaldırır — veri makinen dışına hiç çıkmaz. Bulut eğitmenine giden örnek özetlenmiş + PII'leri maskelenmiş halde gider. KVKK §9 uyumu mimaride.
Yerel inference için minimum donanım?
8GB RAM + modern CPU = Llama 3.1 8B yeterli (orta hız). 16GB RAM + Apple Silicon M2 = akıcı. 32GB+ RAM + GPU = 70B parametre modelleri. Telefonda donanım hesabı gerekmez — Apple Intelligence destekleyen iPhone yeterli.
Yerel model Türkçe ne kadar iyi?
Qwen 2.5 ve Llama 3.1 Türkçe destekli ama bulut modeller (Claude/GPT) hala daha akıcı. Öğrenci/eğitmen hibrit kurgular yerelin Türkçesini zamanla pekiştirebilir.
Bulut model yerine yerel ne zaman gerek?
Veri hassas (KVKK + ticari sır), çevrimdışı şart, latency kritik veya yüksek hacimde maliyet kontrolü gereken iş yükleri. Hibrit kurgularda bazı işler yerel, bazıları bulut — ikisi de kullanıcının denetiminde olmalı.