Büyük dil modeli (LLM)
Diğer adlandırmalar: LLM , large language model , dil modeli
Tanım
Büyük dil modeli (İngilizce: large language model, kısaca LLM), milyarlarca parametreyle eğitilmiş bir nöral ağdır. Bir kelime dizisi alır, bir sonraki token’ı tahmin eder. Bu basit prensip üst üste yığılınca cümleler, paragraflar, kararlar ortaya çıkar.
Bir LLM düşünür. Karar verir, hesap verir, eyler — bunları yapamaz. Bunun için agent’a ihtiyaç var.
Üç sınıf
LLM’ler boyutuna göre üç sınıfta:
- Küçük (1-7B parametre) — Phi, Llama 3.2 3B. Yerel cihazlarda hızlı, bağlam takibi sınırlı.
- Orta (8-30B) — Llama 3.1 8B, Mistral, Qwen 2.5 14B. Yerel donanımda çalışır, çoğu görev için yeterli.
- Büyük (70B+) — Llama 3.3 70B, Claude Sonnet, GPT-4o. Bulut/güçlü donanım gerekir; karmaşık akıl yürütme.
Ilura’da küçük + orta yerel motor olarak, büyük bulut eğitmen olarak kullanılır. İki sınıf birlikte: yerelde veri, bulutta zekâ.
LLM ≠ AGI
Yapay genel zekâ (AGI) bir hipotezdir. LLM ise bugün çalıştırılan, sınırlı görevde uzmanlaşmış bir araç. LLM’ler etkileyici sonuçlar üretir ama:
- Hatalar yapar (uydurma)
- Bilmediği şeyi bilmez
- Gerçek dünyaya bağlı değildir (araçsız)
Bu sınırlar LLM’i agent katmanına ihtiyaç duyduran şeylerdir.
Yaygın yanılgılar
“Daha büyük LLM = her zaman daha iyi.” — Hayır. Görev küçükse 8B model 70B’den hızlı ve yeterli. Doğru iş için doğru boy.
“LLM internetten bilgi çeker.” — Hayır. Eğitildiği veri kümesini bilir. Güncel bilgi için notlara bakma (RAG) gerekir.
“LLM = ChatGPT.” — ChatGPT bir ürün, içinde bir LLM (GPT-4o) var. Aynı LLM farklı ürünlerde kullanılabilir; aynı ürün farklı LLM’lerle çalışabilir.