Gömme (embedding)
Diğer adlandırmalar: embedding , vektör temsil
Tanım
Gömme (İngilizce: embedding), bir kelimenin/cümlenin sayılarla yazılmış hâli. Anlamı korur, ama matematiğe çevirir.
"agent yetiştirme" → [0.23, -0.81, 0.45, ..., 0.12] (768 sayı)
"agent eğitme" → [0.21, -0.79, 0.48, ..., 0.14] (yakın!)
"limon turtası" → [-0.55, 0.91, -0.12, ..., -0.34] (uzak!)
Yakın gömmeler yakın anlam demek. İki vektörün uzaklığını cosine similarity ile ölçeriz.
Niye gömme?
Klasik kelime arama sınırlıdır:
- “fatura” arıyorsan “invoice” veya “hesap belgesi” kaçar.
- “araba” arıyorsan “otomobil” kaçar.
Gömme bunu çözer çünkü anlam uzayında çalışır:
- “araba” ve “otomobil” gömmeleri yakındır.
- “araba” ve “taşıt” da yakındır.
- “araba” ve “kahve” uzaktır.
Bu sayede arama anlam tabanlı olur.
Nereden gelir?
Gömme bir gömme modeli tarafından üretilir. Gömme modeli ön-eğitilmiş bir nöral ağ:
- Yerel: nomic-embed-text, multilingual-e5
- Bulut: OpenAI text-embedding-3, Cohere embed-multilingual, Voyage AI
Ilura yerel gömme modeliyle çalışır — veri makinende kalır.
Gömme + Vektör DB = anlam araması
Gömme tek başına sadece bir vektördür. Vektör veritabanı ile birleşince anlam aranabilir hâle gelir:
- Tüm bellek kayıtları → gömme → DB’ye yaz
- Sorgu → gömme → DB’de en yakın komşu ara
- İlgili kayıtlar dön
Bu desene notlara bakma (RAG) denir.
Yaygın yanılgılar
“Gömme = LLM.” — Hayır. Gömme modeli ayrı bir model — daha küçük, sadece embedding üretir, cevap vermez.
“Daha çok boyut = daha iyi.” — Belli noktaya kadar. 768d ve 1024d arasında pratik fark az; 3072d depo maliyetini katlıyor. Görev için yeterli olanı seç.
“Aynı kelime farklı bağlamda aynı gömme.” — Yeni nesil modellerde hayır. Bağlama duyarlı gömmeler (BERT-tarzı) bağlama göre değişir. Eski Word2Vec sabit kelime gömmeleriydi.