Ilura
REHBER · AGENT EĞİTİMİ

AI agent nasıl eğitilir?

AI agent eğitimi üç katmanda yürür: agent ilk kararını verir, kullanıcı onaylar veya düzeltir, kararlar agent'ın tercih profiline — tercihlerin, rutinlerin ve karar kuralların — işlenir. Klasik dataset-toplama yerine teacher-student yöntemiyle frontier LLM öğretmen, yerel model öğrenci, kullanıcı mentor olur.

01Kimler için?

Eğitim akışını üç tip kullanıcı kullanır:

  • Kendi tarzına uygun agent isteyen profesyoneller. Ben hangi maili önemli sayıyorum, hangisini geçiyorum — agent bunu öğrensin.
  • Müşteri-yüzlü agent çıkaran küçük ekipler. Onay/red kararları markanın sesini şekillendirsin.
  • Kompliyans önemli olan kullanıcılar. Agent'ın hangi kararı neden verdiği audit trail'de.

02Nasıl çalışır?

Modern agent eğitimi dört adıma indirgenebilir:

  1. Teacher-student. Frontier LLM (Claude, GPT, Gemini) öğretmen rolü oynar — zor problemleri çözer ve "ben şu mantıkla yaptım" açıklamasını da üretir. Yerel veya küçük açık ağırlıklı bir model (Ollama Llama, Mistral) öğrenci olur.
  2. Insan-onaylı yörünge. Her tool çağrısı önce sana gelir. Onayladığın kararlar pozitif örnek, reddettiklerin negatif örnek olur.
  3. Tercih profili. Onay ve düzeltmelerin agent'ın tercih profiline işlenir: tercihlerin, rutinlerin ve karar kuralların kalıcı hafızada birikir. Agent "kullanıcı bu durumda nasıl davranır" bilgisini taşır.
  4. LoRA + DPO. LoRA (Low-Rank Adaptation) düşük parametrede fine-tuning sağlar; DPO (Direct Preference Optimization) tercih çiftleri ile modeli senin tercihine yaklaştırır. Tam yeniden eğitim yok — küçük adapter dosyaları.

03Ilura ile nasıl yapılır?

Ilura'da eğitimin adı öğretmek — iPhone'unda kişisel bir agent, bir iş arkadaşı yetiştirirsin. Ayrı bir dataset adımı yok, kullanım kendisi ders:

  • Playbook'larla yol gösterirsin. "Sabah özetinde önce takvimime bak" gibi kuralları doğal dille yazarsın; agent'ın bunları ders gibi işler.
  • Düzeltmen kalıcı. Her kararı anında yönlendirirsin; düzeltmelerin tercih, rutin ve karar kuralına dönüşür, agent'ın kalıcı hafızasına işlenir. Yazı ilk kanıttır — mesajların nasıl düşündüğünü, karar verdiğini, sınır koyduğunu gösterir.
  • Verin iPhone'unda. Apple Intelligence cihaz-üstü çalışır; öğrettiğin hiçbir şey telefonundan çıkmaz.
  • Çağırıp kullanırsın. Olgunlaşan agent'ı sen çağırınca çalışır, çıktıyı sen onaylarsın; desteklenen yerde Siri ve Kısayollar'la tetiklersin. Ilura arka planda kendi başına başka uygulamaları yönetmez; otonom kontrol iddia etmez. Öğrenme kullandıkça sürer.

04Sık sorulan sorular

AI agent eğitmek için kaç örnek gerekir?

Klasik fine-tuning için binlerce örnek gerekir; LoRA+DPO ile bu sayı 50-200 örneğe iner. Ilura'da ise sayı saymazsın — ilk günkü 5-10 onay/red bile agent'ın hafızasında davranışı şekillendirmeye başlar.

Eğitim verim cihazımdan çıkıyor mu?

Ilura'da hayır. Apple Intelligence cihaz-üstü çalışır; eğitim örneklerin, tercihlerin ve agent hafızan iPhone'unda durur. Verin işlenmek için buluta gitmez.

LoRA ile tam fine-tuning arasındaki fark nedir?

Tam fine-tuning modelin tüm ağırlıklarını günceller, GB'lar büyüklüğünde dosya üretir, GPU saatleri yer. LoRA modelin yanına küçük (10-100 MB) adapter dosyaları takar, orijinal modeli bozmaz, dakikalar/saatler içinde eğitim biter.

Direct Preference Optimization (DPO) nedir?

DPO bir tercih öğrenme yöntemi: modelin iki cevabı karşılaştırılır, kullanıcının tercih ettiği örnek ödüllendirilir, diğeri cezalandırılır. RLHF (reinforcement learning from human feedback) gibi karmaşık pipeline kurmak yerine doğrudan tercih çiftleri ile çalışır.

Hangi yerel modelleri öğrenci olarak kullanabilirim?

Ollama üzerinden çalışan tüm açık ağırlıklı modeller — Llama 3.1/3.2/3.3, Mistral, Qwen, Phi, Gemma. Seçim cihaz belleğine ve görev karmaşıklığına göre yapılır. Ilura'da bu kararı vermezsin; agent'ın Apple Intelligence ile cihaz-üstü düşünür.

Eğitim ne zaman tetiklenir?

Genel pratikte iki yol var: olgunluk eşiği geçilince otomatik fine-tuning ya da elle tetikleme. Ilura'da ayrı bir tetik yok — öğretmek süreklidir; her playbook ve her onay anında işlenir.

05İlgili sayfalar

yanındayım — Ilura

App Store'dan İndir