Pillar · mimari kararı · 8 dk okuma

Yerel Çalışan Yapay Zeka Nedir?

Yerel yapay zeka, bulut sunucuya değil — kendi cihazına çalışır. Veri makinen dışına çıkmaz, gecikme düşer, KVKK çerçevesi rahattır. Açık kaynak modeller, hibrit yaklaşımlar, ne zaman seçilir.

En güvenli veri, makinen dışına hiç çıkmamış olandır.

Kısa cevap

Yerel çalışan yapay zeka — local AI veya on-device AI — modelin senin cihazında çalıştığı yapay zekadır. Bulut sunucularına veri göndermez. Llama, Mistral, Qwen gibi açık kaynak modeller bunu mümkün kıldı. Veri gizliliği, hız ve KVKK uyumu için tercih edilir.

Yerel vs bulut AI — yan yana

EksenYerel AIBulut AI
VeriSenin makinenSağlayıcının sunucusu
GecikmeDüşük (10-50 ms)Yüksek (100-500 ms)
MaliyetDonanım + elektrikToken başına ücret
ÇevrimdışıÇalışırÇalışmaz
Model gücüOrta-iyi (Llama 8B-70B)Frontier (GPT-4, Claude Opus)
KVKKYurt dışı aktarım yokSözleşmesel önlem ister
GüncellemeManuel indirmeOtomatik (sağlayıcı)
ÖzelleştirmeTam kontrol (LoRA fine-tune)Sınırlı (system prompt)

Bulut AI hızlı başlar; yerel AI bağımsız kalır. Çoğu üretken iş için yerel yeterli. Yüksek-değer kararda bulut frontier model gerekir — hibrit yaklaşım her ikisini birleştirir.

Beş senaryoda yerel AI

1. Sağlık & Hukuk

Hasta dosyası, dava metni — KVKK §6 (özel nitelikli kişisel veri). Cloud’a yüklemek denetimli risk. Yerel AI bu çerçeveyi rahatça karşılar; veri makinen dışına çıkmaz.

2. Şirket içi belge

Müşteri sözleşmesi, fiyat listesi, finansal kayıt — rakibe sızması istenmez. ChatGPT Enterprise “eğitim için kullanılmaz” der ama veri sağlayıcının altyapısında durur. Yerel AI bunu ortadan kaldırır.

3. Kod tamamlama

GitHub Copilot her tuşa basışta kodu OpenAI’ye yollar. Yerel kod modelleri (Code Llama, Qwen Coder) IDE’nde çalışır; özel kod tabanın kapalı kalır.

4. Çevrimdışı sahaler

Saha çalışanı, gemi mürettebatı, dağ rehberi — internet kötü. Yerel agent çevrimdışı çalışır. Eğitim seansı internet bağlandığında tetiklenir.

5. Düşük gecikme uygulamaları

Ses asistanı, gerçek zamanlı çeviri, otomatik altyazı — 100 ms gecikme bile fark eder. Yerel inference 10-50 ms; bulut 200-500 ms. UX açısından kıyaslanmaz.

Açık kaynak modeller — bugünün manzarası

Açık kaynak (gerçekten açık ya da “open-weight”) büyük dil modelleri 2023’ten bu yana hızla olgunlaştı. Bugün pratik seçenekler:

Llama 3.1 / 3.2 / 3.3 (Meta)

  • Llama 3.2 3B — 8 GB RAM cihazlar için
  • Llama 3.1 8B — Apple Silicon ortalama (16 GB RAM)
  • Llama 3.3 70B — Workstation (RTX 4090 / 64 GB RAM)

Türkçe yetkin, talimat-takibinde iyi, çoğu görevin temeli. License: Llama Community License (ticari kullanım izinli, 700M aylık aktif kullanıcı eşiği var).

Mistral 7B / Mixtral 8x7B (Mistral AI)

  • Mistral 7B — küçük + hızlı
  • Mixtral 8x7B — Mixture-of-Experts, daha hızlı çıkarım
  • Mistral Large — ticari, yarı-açık

Avrupa kaynaklı, GDPR uyumlu yaklaşım. License: Apache 2.0 (Mistral 7B). Türkçe anlama Llama 3.1 ile yarışır.

Qwen 2.5 / 3 (Alibaba)

  • Qwen 2.5 7B — Llama 8B ile yarışır
  • Qwen 2.5 32B — workstation üstü
  • Qwen Coder — kod görevleri

Türkçe Llama 3.1’den biraz daha iyi raporlanıyor (özellikle generation kalitesi). License: Apache 2.0 (Qwen 2.5).

Phi-4 (Microsoft)

  • Küçük (14B parameter) ama kalitesi yüksek
  • License: MIT
  • Düşük donanımda iyi performans

Tezgah donanımına + dile + göreve göre uygun modeli önerir. Yerel model sözlüğünde detaylı tablo var.

Hibrit yaklaşım — Ilura’nın seçimi

Pure yerel: model gücü orta, frontier görevde zorlanır. Pure bulut: veri yurt dışına gider, KVKK risk, gecikme yüksek.

İkisinin iyi yanlarını birleştirmek mümkün:

[Yerel inference]            [Bulut eğitmen]
  Llama 3.1 8B                Claude Sonnet
  ↓ günlük çalışma            ↓ haftalık eğitim
  Senin makinen     ───────►  Özetli + maskeli örnekler
  ◄──── LoRA adapter dönüşü ────

Ilura’nın çalışma şekli budur:

  1. Günlük iş yerel modelde çalışır — düşük gecikme, veri makinen dışına çıkmaz.
  2. Haftalık eğitim seansı sen onaylarsan tetiklenir. Tezgah örnekleri özetler ve PII’leri otomatik maskeler.
  3. Bulut eğitmen (Claude Sonnet, Gemini Pro veya OpenAI GPT-4o) örneklere bakar, LoRA adapter üretir.
  4. Adapter yerel modele uygulanır. Yeni agent biraz daha senin gibi olur.

Sonuç: frontier model gücü, yerel veri kontrolü, KVKK uyumu — üçü bir arada.

Ne zaman yerel seçilmez?

Her durumda yerel doğru cevap değil. Bulut tercih edilebilir:

  • Tek seferlik yüksek-bağlam görev — Claude’un 200K+ context window’u eşsiz; senin yerel modelinin 32K-128K limitini aşan tek belge analizinde bulut ucundan çek.
  • Yüksek-değer karar (yargı, tıp) — frontier modelde +%5 doğruluk fark eder. Tezgah bu durumda her iki modeli birden çalıştırıp anlaşmazlık varsa sana sorar.
  • Donanım yok — telefon, ucuz dizüstü. Yerel pratik değil; bulut zorunlu.

Çoğu üretken iş için yerel yeterli. Hibrit yaklaşım kalan boşluğu doldurur.

Ilura’nın yerel-öncelikli mimarisi

Doğrulamalı mimari Ilura’nın taşıyıcı kolonudur. Üç kat:

  1. Yerel pod — agent her dosya/komut için politika motoruna sorar. Politika senin tanımladığın sınırlar.
  2. Audit zinciri — her karar SHA-256 hash chain’ine eklenir. Sonradan değiştirilemez.
  3. Yerel-öncelikli inference — yerel model varsayılan; bulut sadece sen onaylarsan kullanılır.

Bu üçü bir arada KVKK §6 §9 uyumunu mimaride karşılar. Sözleşmesel önlem değil, yapısal güvence.

Detay: KVKK uyumlu yapay zeka.

Sona

Yerel çalışan yapay zeka, veri makinen dışına çıkmadan üretken iş yapmanın yoludur. Bulutun frontier gücü hala bazı görevlerde önde — ama günlük çoğu iş için Llama / Mistral / Qwen yeterli. Hibrit yaklaşım — yerel inference, bulut eğitmen — ikisinin avantajını birleştirir. Ilura bu mimaride yetişen agent’lar için tezgah sunar.

Yerel olduğunda asistan senin asistanın olur. Bulutta asistan birinin sunucusunda çalışan bir yazılımdır.

Sıkça sorulanlar

Yerel yapay zeka bulut AI'dan zayıf mı?
Bazı görevlerde, evet — büyük frontier modeller (GPT-4, Claude Opus) hâlâ bulut. Ama günlük iş için Llama 3.1 8B veya Mistral 7B çoğu görevin %85-90'ında yeterli. Hibrit yaklaşım — yerel inference, bulut eğitmen — ikisinin avantajını birleştirir.
Hangi cihazda çalışır?
Apple Silicon Mac (M1/M2/M3/M4) — 16 GB RAM ideal. Windows + GPU (RTX 3060 12 GB+). Linux + GPU. CPU-only çalışır ama yavaş — pratik değil. Tezgah donanımına göre uygun modeli önerir.
Hangi açık kaynak modeller iyi?
Llama 3.1 8B / 70B (Meta), Mistral 7B / Mixtral 8x7B (Mistral AI), Qwen 2.5 7B / 32B (Alibaba), Phi-4 (Microsoft). Türkçe görevler için Llama 3.1 ve Qwen 2.5 öne çıkıyor; Tezgah donanım + dil + görev üçlüsüne göre öneri yapar.
İnternet olmadan çalışır mı?
Evet, yerel inference offline çalışır. Bulut eğitmen yalnızca eğitim seansında gerekir (haftada bir, sen onaylarsın). Offline modda yetiştirme dondurulur ama agent görev yapmaya devam eder.
Maliyeti ne kadar?
Yerel model bedava (donanım + elektrik). Bulut eğitmen API çağrıları aylık 5-50 dolar arası — sadece eğitim seanslarında. ChatGPT Plus 20 dolar / ay sabit; sen yerel + eğitmen kullanırken aktif kullanıma göre öder, tipik fatura daha düşük.
KVKK açısından farkı ne?
Yerel inference, kişisel veri için 'yurt dışı aktarım' meselesini ortadan kaldırır — veri makinen dışına hiç çıkmaz. Bulut eğitmenine giden örnek özetlenmiş + PII'leri maskelenmiş halde gider. KVKK §9 uyumu mimaride.