Pillar · mimari kararı · 8 dk okuma
Yerel Çalışan Yapay Zeka Nedir?
Yerel yapay zeka, bulut sunucuya değil — kendi cihazına çalışır. Veri makinen dışına çıkmaz, gecikme düşer, KVKK çerçevesi rahattır. Açık kaynak modeller, hibrit yaklaşımlar, ne zaman seçilir.
En güvenli veri, makinen dışına hiç çıkmamış olandır.
Kısa cevap
Yerel çalışan yapay zeka — local AI veya on-device AI — modelin senin cihazında çalıştığı yapay zekadır. Bulut sunucularına veri göndermez. Llama, Mistral, Qwen gibi açık kaynak modeller bunu mümkün kıldı. Veri gizliliği, hız ve KVKK uyumu için tercih edilir.
Yerel vs bulut AI — yan yana
| Eksen | Yerel AI | Bulut AI |
|---|---|---|
| Veri | Senin makinen | Sağlayıcının sunucusu |
| Gecikme | Düşük (10-50 ms) | Yüksek (100-500 ms) |
| Maliyet | Donanım + elektrik | Token başına ücret |
| Çevrimdışı | Çalışır | Çalışmaz |
| Model gücü | Orta-iyi (Llama 8B-70B) | Frontier (GPT-4, Claude Opus) |
| KVKK | Yurt dışı aktarım yok | Sözleşmesel önlem ister |
| Güncelleme | Manuel indirme | Otomatik (sağlayıcı) |
| Özelleştirme | Tam kontrol (LoRA fine-tune) | Sınırlı (system prompt) |
Bulut AI hızlı başlar; yerel AI bağımsız kalır. Çoğu üretken iş için yerel yeterli. Yüksek-değer kararda bulut frontier model gerekir — hibrit yaklaşım her ikisini birleştirir.
Beş senaryoda yerel AI
1. Sağlık & Hukuk
Hasta dosyası, dava metni — KVKK §6 (özel nitelikli kişisel veri). Cloud’a yüklemek denetimli risk. Yerel AI bu çerçeveyi rahatça karşılar; veri makinen dışına çıkmaz.
2. Şirket içi belge
Müşteri sözleşmesi, fiyat listesi, finansal kayıt — rakibe sızması istenmez. ChatGPT Enterprise “eğitim için kullanılmaz” der ama veri sağlayıcının altyapısında durur. Yerel AI bunu ortadan kaldırır.
3. Kod tamamlama
GitHub Copilot her tuşa basışta kodu OpenAI’ye yollar. Yerel kod modelleri (Code Llama, Qwen Coder) IDE’nde çalışır; özel kod tabanın kapalı kalır.
4. Çevrimdışı sahaler
Saha çalışanı, gemi mürettebatı, dağ rehberi — internet kötü. Yerel agent çevrimdışı çalışır. Eğitim seansı internet bağlandığında tetiklenir.
5. Düşük gecikme uygulamaları
Ses asistanı, gerçek zamanlı çeviri, otomatik altyazı — 100 ms gecikme bile fark eder. Yerel inference 10-50 ms; bulut 200-500 ms. UX açısından kıyaslanmaz.
Açık kaynak modeller — bugünün manzarası
Açık kaynak (gerçekten açık ya da “open-weight”) büyük dil modelleri 2023’ten bu yana hızla olgunlaştı. Bugün pratik seçenekler:
Llama 3.1 / 3.2 / 3.3 (Meta)
- Llama 3.2 3B — 8 GB RAM cihazlar için
- Llama 3.1 8B — Apple Silicon ortalama (16 GB RAM)
- Llama 3.3 70B — Workstation (RTX 4090 / 64 GB RAM)
Türkçe yetkin, talimat-takibinde iyi, çoğu görevin temeli. License: Llama Community License (ticari kullanım izinli, 700M aylık aktif kullanıcı eşiği var).
Mistral 7B / Mixtral 8x7B (Mistral AI)
- Mistral 7B — küçük + hızlı
- Mixtral 8x7B — Mixture-of-Experts, daha hızlı çıkarım
- Mistral Large — ticari, yarı-açık
Avrupa kaynaklı, GDPR uyumlu yaklaşım. License: Apache 2.0 (Mistral 7B). Türkçe anlama Llama 3.1 ile yarışır.
Qwen 2.5 / 3 (Alibaba)
- Qwen 2.5 7B — Llama 8B ile yarışır
- Qwen 2.5 32B — workstation üstü
- Qwen Coder — kod görevleri
Türkçe Llama 3.1’den biraz daha iyi raporlanıyor (özellikle generation kalitesi). License: Apache 2.0 (Qwen 2.5).
Phi-4 (Microsoft)
- Küçük (14B parameter) ama kalitesi yüksek
- License: MIT
- Düşük donanımda iyi performans
Tezgah donanımına + dile + göreve göre uygun modeli önerir. Yerel model sözlüğünde detaylı tablo var.
Hibrit yaklaşım — Ilura’nın seçimi
Pure yerel: model gücü orta, frontier görevde zorlanır. Pure bulut: veri yurt dışına gider, KVKK risk, gecikme yüksek.
İkisinin iyi yanlarını birleştirmek mümkün:
[Yerel inference] [Bulut eğitmen]
Llama 3.1 8B Claude Sonnet
↓ günlük çalışma ↓ haftalık eğitim
Senin makinen ───────► Özetli + maskeli örnekler
◄──── LoRA adapter dönüşü ────
Ilura’nın çalışma şekli budur:
- Günlük iş yerel modelde çalışır — düşük gecikme, veri makinen dışına çıkmaz.
- Haftalık eğitim seansı sen onaylarsan tetiklenir. Tezgah örnekleri özetler ve PII’leri otomatik maskeler.
- Bulut eğitmen (Claude Sonnet, Gemini Pro veya OpenAI GPT-4o) örneklere bakar, LoRA adapter üretir.
- Adapter yerel modele uygulanır. Yeni agent biraz daha senin gibi olur.
Sonuç: frontier model gücü, yerel veri kontrolü, KVKK uyumu — üçü bir arada.
Ne zaman yerel seçilmez?
Her durumda yerel doğru cevap değil. Bulut tercih edilebilir:
- Tek seferlik yüksek-bağlam görev — Claude’un 200K+ context window’u eşsiz; senin yerel modelinin 32K-128K limitini aşan tek belge analizinde bulut ucundan çek.
- Yüksek-değer karar (yargı, tıp) — frontier modelde +%5 doğruluk fark eder. Tezgah bu durumda her iki modeli birden çalıştırıp anlaşmazlık varsa sana sorar.
- Donanım yok — telefon, ucuz dizüstü. Yerel pratik değil; bulut zorunlu.
Çoğu üretken iş için yerel yeterli. Hibrit yaklaşım kalan boşluğu doldurur.
Ilura’nın yerel-öncelikli mimarisi
Doğrulamalı mimari Ilura’nın taşıyıcı kolonudur. Üç kat:
- Yerel pod — agent her dosya/komut için politika motoruna sorar. Politika senin tanımladığın sınırlar.
- Audit zinciri — her karar SHA-256 hash chain’ine eklenir. Sonradan değiştirilemez.
- Yerel-öncelikli inference — yerel model varsayılan; bulut sadece sen onaylarsan kullanılır.
Bu üçü bir arada KVKK §6 §9 uyumunu mimaride karşılar. Sözleşmesel önlem değil, yapısal güvence.
Detay: KVKK uyumlu yapay zeka.
Sona
Yerel çalışan yapay zeka, veri makinen dışına çıkmadan üretken iş yapmanın yoludur. Bulutun frontier gücü hala bazı görevlerde önde — ama günlük çoğu iş için Llama / Mistral / Qwen yeterli. Hibrit yaklaşım — yerel inference, bulut eğitmen — ikisinin avantajını birleştirir. Ilura bu mimaride yetişen agent’lar için tezgah sunar.
Yerel olduğunda asistan senin asistanın olur. Bulutta asistan birinin sunucusunda çalışan bir yazılımdır.