Token (parça)
Diğer adlandırmalar: parça , tokens
Tanım
Token, bir LLM’in saydığı en küçük birim. Bir kelime değil, kelime parçası:
"yetiştirme" → ["yet", "iştir", "me"] (3 token)
"agent" → ["agent"] (1 token)
"yetiştirilebilirsin" → ["yet", "iştir", "il", "ebil", "ir", "sin"] (6 token)
Tokenizer (parçalayıcı) bu işi yapar. Sıkça görülen kelimeler tek token, nadir kelimeler birkaç parça.
Token niye önemli?
İki sebep:
- Bağlam penceresi token cinsinden — 128K token = 128.000 parça. Türkçede ≈ 80.000 kelime.
- Maliyet token tabanlı — bulut API’ler input + output token başına ücretlendirir.
Ilura yerelde çalıştırırken token sayısı önemsiz (donanım gücüne göre hız). Eğitmene gönderirken sayı maliyet.
Türkçe token verimliliği
Türkçe agglutinative (eklemeli) bir dil. “yetiştirilebilirsin” tek bir kelime ama altı kavram içerir (yetiş + tir + il + ebil + ir + sin). Tokenizer ekleri ayrı parçalara böler:
- İngilizce: 1 kelime ≈ 0.75 token
- Türkçe: 1 kelime ≈ 1.5-2 token
Bu Türkçenin “pahalı” dil olduğu anlamına gelir. Aynı içerik İngilizcede %30-50 daha az token. Modern modeller (Claude, GPT-4o) Türkçeye iyi tokenize ediyor; eski modellerde fark çok daha büyüktü.
Token görmek
Tezgah’ta her konuşmada token sayacı var:
- Mesaj uzunluğu (gönderim öncesi)
- Cevap uzunluğu (gönderim sonrası)
- Toplam pencere kullanımı
Bu görünürlük maliyet kontrolü için önemli.
Yaygın yanılgılar
“1 token = 1 kelime.” — Hayır, ortalamada 0.5-0.7 kelime (dile bağlı).
“Token sayısı = karakter sayısı.” — Hayır, tokenizer karakter değil alt-kelime birimleri kullanır.
“Bütün modeller aynı tokenizer’ı kullanır.” — Hayır. Llama, Claude, GPT, Gemini ayrı tokenizer’lara sahip. Aynı metin farklı sayar.