Gömme (embedding) — Ilura Sözlük

Tanım

Gömme (İngilizce: embedding), bir kelimenin/cümlenin sayılarla yazılmış hâli. Anlamı korur, ama matematiğe çevirir.

"agent yetiştirme"  →  [0.23, -0.81, 0.45, ..., 0.12]   (768 sayı)
"agent eğitme"      →  [0.21, -0.79, 0.48, ..., 0.14]   (yakın!)
"limon turtası"     →  [-0.55, 0.91, -0.12, ..., -0.34] (uzak!)

Yakın gömmeler yakın anlam demek. İki vektörün uzaklığını cosine similarity ile ölçeriz.

Niye gömme?

Klasik kelime arama sınırlıdır:

“fatura” arıyorsan “invoice” veya “hesap belgesi” kaçar.
“araba” arıyorsan “otomobil” kaçar.

Gömme bunu çözer çünkü anlam uzayında çalışır:

“araba” ve “otomobil” gömmeleri yakındır.
“araba” ve “taşıt” da yakındır.
“araba” ve “kahve” uzaktır.

Bu sayede arama anlam tabanlı olur.

Nereden gelir?

Gömme bir gömme modeli tarafından üretilir. Gömme modeli ön-eğitilmiş bir nöral ağ:

Yerel: nomic-embed-text, multilingual-e5
Bulut: OpenAI text-embedding-3, Cohere embed-multilingual, Voyage AI

Ilura yerel gömme modeliyle çalışır — veri makinende kalır.

Gömme + Vektör DB = anlam araması

Gömme tek başına sadece bir vektördür. Vektör veritabanı ile birleşince anlam aranabilir hâle gelir:

Tüm bellek kayıtları → gömme → DB’ye yaz
Sorgu → gömme → DB’de en yakın komşu ara
İlgili kayıtlar dön

Bu desene notlara bakma (RAG) denir.

Yaygın yanılgılar

“Gömme = LLM.” — Hayır. Gömme modeli ayrı bir model — daha küçük, sadece embedding üretir, cevap vermez.

“Daha çok boyut = daha iyi.” — Belli noktaya kadar. 768d ve 1024d arasında pratik fark az; 3072d depo maliyetini katlıyor. Görev için yeterli olanı seç.

“Aynı kelime farklı bağlamda aynı gömme.” — Yeni nesil modellerde hayır. Bağlama duyarlı gömmeler (BERT-tarzı) bağlama göre değişir. Eski Word2Vec sabit kelime gömmeleriydi.

Sıkça sorulanlar

Gömme kaç boyut?

Modele göre değişir: 384 (küçük), 768 (orta), 1024-1536 (büyük), 3072 (Voyage). Daha çok boyut = daha hassas anlam ayrımı, ama daha çok depo.

Gömme modelini değiştirebilir miyim?

Evet. Ama eski + yeni gömmeler karşılaştırılamaz — farklı uzayda yaşar. Değiştirirsen tüm bellek yeniden gömülmeli.

Hangi yerel gömme modeli iyi?

nomic-embed-text (768d, çok dilli) Türkçe için iyi. multilingual-e5-large alternatif. Tezgah varsayılan olarak nomic'i seçer.