AI agent nasıl eğitilir?
AI agent eğitimi üç katmanda yürür: agent ilk kararını verir, kullanıcı onaylar veya reddeder, kararlar Bayesian profile ve LoRA adapter'a yazılır. Klasik dataset-toplama yerine teacher-student yöntemiyle frontier LLM öğretmen, yerel model öğrenci, kullanıcı mentor olur.
01Kimler için?
Eğitim akışını üç tip kullanıcı kullanır:
- Kendi tarzına uygun agent isteyen profesyoneller. Ben hangi maili önemli sayıyorum, hangisini geçiyorum — agent bunu öğrensin.
- Müşteri-yüzlü agent çıkaran küçük ekipler. Onay/red kararları markanın sesini şekillendirsin.
- Kompliyans önemli olan kullanıcılar. Agent'ın hangi kararı neden verdiği audit trail'de.
02Nasıl çalışır?
Modern agent eğitimi dört adıma indirgenebilir:
- Teacher-student. Frontier LLM (Claude, GPT, Gemini) öğretmen rolü oynar — zor problemleri çözer ve "ben şu mantıkla yaptım" açıklamasını da üretir. Yerel veya küçük açık ağırlıklı bir model (Ollama Llama, Mistral) öğrenci olur.
- Insan-onaylı yörünge. Her tool çağrısı önce sana gelir. Onayladığın kararlar pozitif örnek, reddettiklerin negatif örnek olur.
- Bayesian karar profili. Onay/red verilerin Beta dağılımları ve EMA (üstel hareketli ortalama) ile özetlenir. Agent "kullanıcı bu durumda hangi yöne meyilli" bilgisini istatistiksel olarak taşır.
- LoRA + DPO. LoRA (Low-Rank Adaptation) düşük parametrede fine-tuning sağlar; DPO (Direct Preference Optimization) tercih çiftleri ile modeli senin tercihine yaklaştırır. Tam yeniden eğitim yok — küçük adapter dosyaları.
03Ilura ile nasıl yapılır?
Ilura'da eğitim, ayrı bir dataset hazırlık adımı yoktur — kullanım kendisidir eğitim:
- Eğitim sırasında bekleyen ekran yok. Agent çalışırken her riskli kararı sana danışır. Onay verdikçe ilerler.
- Bayesian profil görünür. Settings ekranında agent'ın hangi kararlarda hangi yöne meyilli olduğu istatistiksel olarak gösterilir.
- LoRA adapter'ları yerel. Eğitim verin makinenden çıkmaz; adapter dosyaları SQLite'ta SHA-256 zincirle korunur.
- Yayınlandıktan sonra da öğrenmeye devam eder. Yaşayan tether ile her üretim çağrısı yeni eğitim sinyali üretebilir; sen review yaparsın, döngü kapanır.
04Sık sorulan sorular
AI agent eğitmek için kaç örnek gerekir?
Klasik fine-tuning için binlerce örnek gerekir; LoRA+DPO ile bu sayı 50-200 örneğe iner. Ilura'nın teacher-student yaklaşımında ilk gün 5-10 onay/red kararı bile davranışı şekillendirmeye yeterlidir — Bayesian güveni eşik geçtikten sonra LoRA tetiklenir.
Eğitim verim makineden çıkıyor mu?
Hayır. Ilura desktop uygulaması eğitim örneklerini, Bayesian profili ve LoRA adapter'ı yerel SQLite'ta tutar. Yalnızca lisans doğrulama ve isteğe bağlı yayın trafiği bulutla iletişim kurar.
LoRA ile tam fine-tuning arasındaki fark nedir?
Tam fine-tuning modelin tüm ağırlıklarını günceller, GB'lar büyüklüğünde dosya üretir, GPU saatleri yer. LoRA modelin yanına küçük (10-100 MB) adapter dosyaları takar, orijinal modeli bozmaz, dakikalar/saatler içinde eğitim biter. Ilura LoRA + DPO kullanır.
Direct Preference Optimization (DPO) nedir?
DPO bir tercih öğrenme yöntemi: modelin iki cevabı karşılaştırılır, kullanıcının tercih ettiği örnek ödüllendirilir, diğeri cezalandırılır. RLHF (reinforcement learning from human feedback) gibi karmaşık pipeline kurmak yerine doğrudan tercih çiftleri ile çalışır.
Hangi yerel modelleri öğrenci olarak kullanabilirim?
Ollama üzerinden çalışan tüm açık ağırlıklı modeller — Llama 3.1/3.2/3.3, Mistral, Qwen, Phi, Gemma. Ilura, model boyut + cihazın belleği + Bayesian olgunluğu eşiklerine bakarak öneri yapar.
Eğitim ne zaman tetiklenir?
Ilura'da iki tetikleme var: (1) maturity threshold — Bayesian profilin güven seviyesi eşik geçince otomatik LoRA çağrılır; (2) manual — Eğitim sayfasından "şimdi eğit" düğmesiyle elle başlatabilirsin. Default 5 dakikalık tick döngüsü her iki yolda da kontrol yapar.
05İlgili sayfalar
yanındayım — Ilura