Token (parça) — Ilura Sözlük

Tanım

Token, bir LLM’in saydığı en küçük birim. Bir kelime değil, kelime parçası:

"yetiştirme"  →  ["yet", "iştir", "me"]    (3 token)
"agent"       →  ["agent"]                  (1 token)
"yetiştirilebilirsin" → ["yet", "iştir", "il", "ebil", "ir", "sin"]  (6 token)

Tokenizer (parçalayıcı) bu işi yapar. Sıkça görülen kelimeler tek token, nadir kelimeler birkaç parça.

Token niye önemli?

İki sebep:

Bağlam penceresi token cinsinden — 128K token = 128.000 parça. Türkçede ≈ 80.000 kelime.
Maliyet token tabanlı — bulut API’ler input + output token başına ücretlendirir.

Ilura yerelde çalıştırırken token sayısı önemsiz (donanım gücüne göre hız). Eğitmene gönderirken sayı maliyet.

Türkçe token verimliliği

Türkçe agglutinative (eklemeli) bir dil. “yetiştirilebilirsin” tek bir kelime ama altı kavram içerir (yetiş + tir + il + ebil + ir + sin). Tokenizer ekleri ayrı parçalara böler:

İngilizce: 1 kelime ≈ 0.75 token
Türkçe: 1 kelime ≈ 1.5-2 token

Bu Türkçenin “pahalı” dil olduğu anlamına gelir. Aynı içerik İngilizcede %30-50 daha az token. Modern modeller (Claude, GPT-4o) Türkçeye iyi tokenize ediyor; eski modellerde fark çok daha büyüktü.

Token görmek

Tezgah’ta her konuşmada token sayacı var:

Mesaj uzunluğu (gönderim öncesi)
Cevap uzunluğu (gönderim sonrası)
Toplam pencere kullanımı

Bu görünürlük maliyet kontrolü için önemli.

Yaygın yanılgılar

“1 token = 1 kelime.” — Hayır, ortalamada 0.5-0.7 kelime (dile bağlı).

“Token sayısı = karakter sayısı.” — Hayır, tokenizer karakter değil alt-kelime birimleri kullanır.

“Bütün modeller aynı tokenizer’ı kullanır.” — Hayır. Llama, Claude, GPT, Gemini ayrı tokenizer’lara sahip. Aynı metin farklı sayar.

Sıkça sorulanlar

Türkçede 1 kelime kaç token?

Yaklaşık 1.5-2 token. Türkçe agglutinative; ekler ayrı tokenize edilir. ‘yetiştirilebilirsin’ yaklaşık 5-6 token. İngilizce 1 kelime ≈ 0.75 token.

Maliyet nasıl hesaplanır?

Bulut API'ler input + output token'a göre ücretlendirir. Claude Sonnet ~$3/M input, $15/M output. Yerelde token bedava (donanım + elektrik dışında).

Tokenizer model bağımlı mı?

Evet. Llama, Claude, GPT — her birinin tokenizer'ı farklı. Aynı metin farklı modellerde farklı token sayar. Tezgah bunu hesaba katarak token gösterir.