PILLAR · AI AGENT GÜVENLIĞI

AI agent güvenliği

Bir agent'ı yetiştirmek bir tek davranış değil — onu yetiştirirken ve yayında çalışırken sürekli bir denetim hattı. Bu sayfa Ilura'nın zero-trust yaklaşımını, prompt injection'dan red team testine kadar tek tek anlatır.

Kısa cevap

AI agent güvenliği üç katmandan oluşur. Birincisi yetki sınırlandırma — agent'ın hangi tool'a erişebileceği, hangi yola gidebileceği önceden tanımlıdır. İkincisi audit chain — her karar SHA-256 hash zincirine yazılır, ECDSA imzasıyla mühürlenir; sonradan kimse "bu olmadı" diyemez. Üçüncüsü red team testi — yayın öncesi 200+ saldırı senaryosu otomatik denenir, pass/fail eşiklerinin altında kalan agent canlıya çıkamaz. Ilura bu üçünü PolicyEngine adlı tek bir denetim katmanında birleştirir; kullanıcı tek tek kuralları yazmak yerine bir akış kurar, her yeni agent o akışın içinden çıkar.

Agent neden risklidir?

Klasik bir yazılım sabit kod yolundan ilerler — programcı tahmin edebileceği davranışı yazmıştır. AI agent ise üç ayrı kaynaktan beslenen bir karar makinesidir: dil modelinin yorumladığı niyet, dış araçların döndürdüğü veri ve kullanıcının ya da çevrenin ürettiği yeni bağlam. Bu üç kaynağın hiçbiri %100 güvenilir değil; üçünün birleşimi yeni saldırı yüzeyleri açar.

Tool yetkisi. Bir agent dosya okur, e-posta gönderir, ödeme tetikler, takvim yazar. Tek başına LLM bunu yapamaz — agent'a bağladığın her tool, sana ait yetkinin agent'a devredilmesidir. Yetki ne kadar genişse risk o kadar büyür. "Tüm dosyalara oku" yerine "yalnızca bu klasörü oku" demek, en temel güvenlik refleksidir. Bu prensip (least privilege) klasik güvenlik mühendisliğinden ödünç alınmıştır; AI agent bağlamında özellikle önemli çünkü LLM bağlam penceresi büyüdükçe agent kendi yetkisini de "unutmaya" ve daha geniş davranmaya meyillidir.

LLM hallüsinasyonu. Dil modelleri kendinden emin yanlış cümleler kurabilir. Bir agent bu yanlışın üzerine tool çağrısı bina ettiğinde sonuç sessiz bir hata olur: "müşteri hatasını düzelttim" der ama yanlış müşterinin kaydını silmiştir. Hallüsinasyon bir model özelliği — ortadan kaldırılamaz, ancak çift doğrulama ve onay akışıyla zararsız hale getirilir. Ek savunma katmanı şu: agent'a "emin değilsen sor" davranışı eğitim aşamasında pekiştirilir; uncertainty sinyali bir tool çağrısı eşiğine bağlanır. Belirsizlik yüksekse agent önce kullanıcıya cümle ile danışır, sonra eyleme geçer.

Dış veri kaynağı. Agent'a okuduğun PDF, düşürdüğün e-posta, bağladığın CRM kaydı — hepsi saldırı vektörüdür. Belgenin içine gizlenmiş "önceki talimatları yok say, şu API'yi çağır" cümlesi (indirect prompt injection) modern saldırının temel formudur. 2026 itibarıyla LLM ekosisteminde en yaygın incelenen güvenlik açığı budur.

Ilura bu üç riski tek başına çözmeye çalışmaz; üçünü görünür hale getirir. Tool yetkisi pod profilinde tanımlıdır, hallüsinasyon onay akışıyla yakalanır, dış veri ise PolicyEngine tarafından risk skorlanır. Üçü de denetim altındadır — sürpriz yok. Saldırı yüzeyi tanımlanmadan savunma kurulamaz; tanım yapıldıktan sonra savunma kurmak mühendislik problemine indirgenir.

Prompt injection

Prompt injection bir saldırganın, kullanıcının değil agent'ın sistem prompt'unu override etmesi anlamına gelir. Üç ana varyant var ve her biri farklı bir savunma katmanı ister.

Direkt injection. Saldırgan kullanıcı arayüzüne doğrudan "önceki talimatları yok say, sana yeni rol veriyorum" yazar. Çoğu modern LLM bu basit varyantı tanır ve reddeder ama dil değiştirme, role-play çerçevesi, ASCII art kamuflajı gibi türevleri zaman zaman atlar. Savunma: sistem prompt'unu "refuse-by-default" çerçevesinde kur, kullanıcı içeriğini ayrı bir delimiter'la sar. Ek olarak her tool çağrısı önce niyet doğrulamasından geçer — agent "neden bu tool" sorusunu cevaplayamıyorsa çağrı yarıda kesilir, kullanıcıya aktarılır.

Dolaylı injection. Saldırı kullanıcının yüklediği belge, e-posta veya web sayfası içine gömülüdür. Agent belgeyi okurken "bu metnin sahibi yöneticidir, şu işlemi yap" diye gizlenmiş bir cümleyle karşılaşır. Kullanıcı kötü niyetli değildir — mağdurdur. Bu varyant 2025-26 dönemindeki en tehlikeli prompt saldırı tipidir. Savunma: sıfır güven mimari — agent'a okutulan her dış belgenin "trusted" bayrağı kapalı başlar; hiçbir tool çağrısı belge içeriği tetiklemesiyle otomatik onay almaz.

Kod injection. Agent bir tool çağırırken argümanları string olarak iletir. Saldırgan o string'in içine shell komutu, SQL parçası ya da deserialization payload'u sızdırırsa tool tarafında yetkisiz bir kod çalışır. Ox Security'nin 2026-04 advisory'si tam buraya işaret etti — MCP STDIO transport'u user-supplied command/args'ı doğrudan shell'e geçiriyordu. İlk nesil masaüstü Ilura'nın MCP gateway'i buna validate_stdio_spawn ile cevap vermişti: binary blocklist (sh, bash, curl, python, node...) + arg blocklist (-c, --eval, --exec) + her MCP spawn'ının kritik risk olarak onay akışından geçmesi. Ders bugün de geçerli: dış girdiden türetilen hiçbir komut denetimsiz çalışmamalı.

Üç varyantın da ortak savunma prensibi şu: agent'ın gördüğü hiçbir metin tek başına yetki üretmez. Yetki PolicyEngine'den, audit chain mührüyle ve gerektiğinde açık kullanıcı onayıyla gelir. Cümlenin kaynağı kullanıcı, belge ya da model halüsinasyonu — denetim hattı aynı kalır. Modern saldırı tanımının iki ana taksonomisi (Simon Willison'ın indirect injection serisi ve OWASP LLM Top 10 LLM01 kategorisi) Ilura'nın bu üç varyantlı ayırma şemasıyla doğrudan eşleşir; saldırı kataloğu büyüdükçe savunma katmanını yeniden tasarlamak gerekmez, yalnızca pattern kütüphanesi güncellenir.

Tool misuse

Tool misuse, agent'ın elinde olan bir tool'u amaç dışı veya ölçeksiz kullanmasıdır. Prompt injection bir saldırganın agent'ı yanıltmasıyken, tool misuse çoğu zaman agent'ın kendinden başlayan bir hata. Üç tipik patern var.

Yetkisiz tool çağrısı. Agent kendisine atanmış tool listesinin dışına çıkmaya çalışır — "şu API'yi de çağırabilseydim daha hızlı çözerdim" mantığıyla yeni bir endpoint'e istek atar. Pod profili ve PolicyEngine'in allow-list'i bu girişimi kapıda tutar; tool tanımlı değilse çağrı bile başlamaz. Bu davranışın kayıt altına alınması önemli — agent "şu tool'a ihtiyacım var" sinyali ürettiğinde kullanıcı sabah özetinde görür, gerekirse kapsamı genişletir. İstek hep kayıttadır, sadece kabul kullanıcının elindedir.

Scope creep. Agent yetkili olduğu tool'u başlangıçta tanımlanan amacın çok ötesinde kullanır. "Şu klasörden bir dosya oku" görevi, "tüm klasörü tara, indeks kur, bulgularını dış API'ye gönder" şekline genişler. Tek tool çağrısı zincirleme yan etkiye dönüşür. Savunma: her tool çağrısı için amaç-bağı — agent çağrı öncesi "bunu hangi görev için yapıyorum" cümlesini audit chain'e yazar; sapma anında anomaly detection tetiklenir.

Abuse pattern. Agent aynı tool'u kısa sürede yüzlerce kez çağırır — sonsuz döngü, retry storm veya kasıtsız DDoS. Bu çoğu zaman planlama hatasından çıkar ama faturayı, API kotasını, üst sistemin sağlığını dakikalar içinde tüketebilir. Ilura runtime'da tool_capability_health sayacı üç peş peşe sonuç üretemeyen tool'u otomatik downgrade eder ve fallback yola geçer; olay audit chain'e mühürlenir, sen sabah özetinde görürsün. Üst limit aşıldığında circuit breaker devreye girer ve agent o tool'a tek bir saatlik süreyle dokunamaz; bu süre içinde kullanıcı manuel müdahale eder ya da pattern kendi kendine söner.

Üç patern de tek başına saldırgan değil — agent'ın kendi mühendislik kararının yan etkisi. Savunma kontrol değil, sınır. Agent ne yapabilir, ne yapamaz tanımı net olduğunda yan etki küçük kalır, kayıt altına alınır, agent'ın kalıcı hafızasında ders olur. Ilura'da agent yetiştirirken yetki profili sade başlar; yetki ihtiyacı doğdukça kullanıcı bilinçli genişletme yapar. Genişletmenin maliyeti onay kartı olarak görünür, kazanım ise risk-değer dengesi olarak hesaplanır.

Data exfiltration

Data exfiltration, agent'ın bilerek ya da bilmeden hassas veriyi dışarı taşıması demek. Modern bir agent dosyaya, e-postaya, CRM'e, takvime erişir — tüm bu yüzeyler birer kanal. Üç tipik sızıntı tipini ayırt etmek lazım.

PII sızıntısı. Kullanıcının kişisel verisi (TC kimlik, e-posta, telefon, adres) bir tool çağrısının argümanına ya da log mesajına düşer. Daha sonra log toplayıcı, telemetry servisi veya hata raporu üzerinden dışarı taşınır. Ilura'da pii_mask katmanı log akışında PII pattern'leri otomatik maskeleyerek bu yolu kapatır; ham veri sadece sandboxed pod içinde kalır. Türkçe pattern'ler ek olarak özelleştirilmiş: 11 hanelik TC kimlik doğrulama algoritması, 10/11 hane vergi numarası, IBAN TR prefix'i — global maskeleme kütüphanelerinin gözünden kaçabilen yerel kimlik formatlarını yakalar.

Log şişirme (log poisoning). Saldırgan agent'a büyük miktarda zararlı veri yazdırır; sonra bu log dış sisteme gönderildiğinde alıcı taraf parse hatası yaşar veya saldırgan bunu pivot olarak kullanır. Savunma: log boyutu üst sınırı, structured logging (JSON şeması zorunlu), aşımda otomatik kesim. Audit chain'in kendisi bu saldırıya kapalı çünkü her kayıt SHA-256 hash zinciriyle bağlı; tek bir kaydı şişirmek sonraki kayıtların hash'ini bozar.

Side-channel. Agent doğrudan veri dışarı taşımaz ama davranışıyla bilgi sızdırır. Örnek: yanıt süresi farkından "aradığın kişi sistemde kayıtlı mı" sorusu cevap alır. Savunma: sabit yanıt süresi normalize, error mesajlarında uniform format, side-channel-aware tasarım. Ilura'nın response_normalizer katmanı yanıtı yayınlamadan önce bu sinyalleri dengeler. Saldırgan yanıt sürelerinden tablo varlığı çıkaramaz; aynı sözdizimsel hata için kullanıcı "hesap yok" mesajıyla "hesap kilitli" mesajını birbirinden ayıramaz, çünkü iki durum da aynı uniform string ile döner.

Tespit tarafında audit chain anomaly detection ile beraber çalışır. Bir agent geçmişinde günde ortalama 50 dış API çağrısı yapıyorsa, bir gün 500 çağrı yaptığında uyarı çıkar. Veri büyüklüğü ortalama 2 KB ise 200 KB taşımaya başladığında bayrak düşer. Meta-veri istatistikleri PII'yi okumadan da sızıntı sinyali üretir. KVKK 12. madde "veri güvenliğine ilişkin yükümlülükler" tam bu zincirin çıktısıyla karşılanır; ihlal bildirimi 72 saat içinde net kapsamla yapılabilir, "ne sızdı, kime sızdı, bilinmiyor" cümlesinin yerine "şu zaman aralığında şu kayıtlar şu kanaldan akmış olabilir" diyebilirsin.

Yetki sınırlandırma + PolicyEngine

Yetki sınırlandırma agent güvenliğinin temel taşı — agent en başta ne yapabileceğini ve ne yapamayacağını bilmelidir. Ilura bunu üç parçalı bir mimariyle çözer: pod izolasyonu, risk matrisi ve onay paterni. Üçünün kesişiminde PolicyEngine durur.

Pod izolasyonu. Her agent kendi sandbox'lı podunda çalışır. Pod, dosya sistemi yolu, ağ erişimi, tool listesi ve kaynak kotası tanımlanmış izole bir ortamdır. Agent podun dışına çıkamaz — dosya yolları normalize edilir, path traversal denemesi reddedilir; ağ istekleri izin listesine karşı denetlenir. Pod profili kullanıcı tarafından düzenlenir; Ilura varsayılan olarak en kısıtlı başlangıcı sunar, kullanıcı genişletmek istedikçe açık onayla açar. Birden fazla agent aynı kullanıcı altında çalışsa bile podlar birbirini görmez; biri compromise olsa diğerine sıçrayamaz, çünkü pod sınırı işletim sistemi düzeyinde ayrılmıştır.

Risk matrisi. Her tool çağrısı dört seviyeden birine düşer. Düşük risk (okuma, listeleme) otomatik geçer — sadece kayda yazılır. Orta risk (yazma, taşıma) kullanıcı onayı ister; bir onay kartı ekranına düşer, sen evet/hayır dersin. Yüksek risk (silme, dış istek) onay zorunludur, alternatifsiz durur. Kritik risk (geri dönüşü olmayan işlemler) çift teyit ister — açık kullanıcı onayı üstüne ikinci doğrulama. Matris yetki profilinden geliyor; aynı tool farklı profilde farklı seviyede olabilir. Örnek: silme, deneme alanında orta risk, gerçek veride yüksek risk. Aynı iş, farklı bağlam, farklı kapı; karar agent'ın değil, profilin.

Onay paterni. Agent risk hattına çarptığında akış durur. Tek bir onay isteği açılır, kullanıcıya kart gösterilir, kullanıcı karar verir, akış o karara göre devam eder ya da geri alınır. Reject de bir ders — gerekçesiyle birlikte agent'ın kalıcı hafızasına işler. Kabul de kayıttır — profil bu kararı hatırlar, on ikinci ayda agent benzer durumda artık sormadan geçer (şartı oluşmuşsa).

PolicyEngine bu üçünü çalıştıran motordur. Her tool çağrısı önce PolicyEngine'den geçer; pod kuralı, risk seviyesi ve mevcut onay durumu tek bir kararda birleşir. Karar audit chain'e policy_decision kaydı olarak iliştirilir; kim, ne zaman, hangi gerekçeyle kabul etti — geriye dönük gözle izlenir. PolicyEngine bilinçli olarak deklaratif tasarlandı: kurallar TOML/DSL biçiminde okunur, çalışma anında derlenir, yeniden kurulum gerekmez. Kullanıcı yeni bir kural eklediğinde agent'ı durdurmaz, akış canlı sıralanır; bir önceki kural setine geri dönüş tek satır rollback ile mümkündür.

Audit chain

Audit chain, her agent kararının kriptografik olarak mühürlendiği kayıt zinciridir. Ilura bunu üç bileşenle kurar: SHA-256 hash zinciri, ECDSA imza ve retention politikası. Üç bileşen birlikte çalıştığında "bu olay oldu, kim yaptı, ne zamandan beri orada" sorularına matematiksel kesinlikle cevap verir.

Hash zinciri. Her audit kaydı kendi alanlarının SHA-256 hash'ini içerir; ek olarak bir önceki kaydın hash'ini de tutar. Yani kayıt N'in hash'i, kayıt N-1'in hash'iyle birbirine bağlıdır. Saldırgan ortadaki bir kaydı değiştirmek isterse, sonraki tüm kayıtların hash'i bozulur ve verify_chain() end-to-end denetiminde yakalanır. Bu Bitcoin'deki blok zinciri değil — aynı kriptografik primitif, tek-kullanıcılı sürekli kayıt için. Append-only disiplin sayesinde "geçmiş düzenleme" mümkün değil; bir kayıt yazılmışsa ya doğru kalır ya da bozulur, üçüncü ihtimal yok.

ECDSA imza. Hash zinciri yalnız başına "değiştirilmedi mi" sorusunu cevaplar; imza ise "kim yazdı" sorusunu cevaplar. Her audit kaydı P-256 ECDSA özel anahtarıyla imzalanır (SoftwareSigner). Doğrulama tarafı public key ile imzayı kontrol eder. Kullanıcının Ilura kurulumu kendi anahtar çiftine sahiptir — anahtar OS keychain'de saklanır, dışarı çıkmaz. Bu sayede kullanıcı KVKK denetiminde "bu kayıt benim sistemimden çıktı, başkası eklemedi" diyebilir. Anahtar rotasyon politikası kullanıcı tarafından kontrol edilir; eski anahtarın imzaladığı kayıtlar arşivde public key referansıyla doğrulanmaya devam eder.

Retention. Audit chain append-only: silmek yasak. Pratik ihtiyaçla retention politikası kullanıcı tarafında ayarlanır — varsayılan 365 gün. Sonrası için sıkıştırılmış arşiv pod dışı bir dizine taşınır, ana DB'den düşer ama kriptografik bağ kopmaz. KVKK 6698 sayılı Kanun denetiminde "agent şu zamanda şu veriyle ne yaptı" sorusu sorulduğunda yanıt 5 saniyede çıkar. Detay: sıfır güven mimari.

Audit chain pasif bir kayıt değil — aktif bir savunma katmanı. Anomaly detection bu zincirin üzerinde çalışır; tool çağrı paterni, veri büyüklüğü, zamanlama dağılımı sürekli izlenir. Sapma görüldüğünde agent'a "şüpheli" bayrağı düşer ve bir sonraki riskli işlem otomatik onay ister. Tarih konuşmaya başlar. Aynı zincir KVKK denetiminde delil zinciri (chain-of-custody) gibi çalışır: cihazın sahibinin anahtarıyla mühürlenmiş kayıt, üçüncü taraflarca kabul edilen bir kanıt formuna dönüşür. Yargı boyutuna taşınması gerektiğinde verify_chain() end-to-end raporu hâkim önünde sunulabilir nitelikte çıkar.

Çift teyit (high-risk)

Çift teyit yüksek riskli eylemlerde son güvenlik kapısıdır. Şifre veya passkey değil — parmak izi ya da yüz tanıma. Cihaz seninle kanıtlanır, kayıt doğrulama damgasıyla karar geçmişine yazılır. Ilura bunu platform-native API ile yapar: iOS'ta Face ID / Touch ID — onay kartının üstüne ikinci, fiziksel bir doğrulama.

Hangi işlerde zorunlu. Beş kategori var. (1) Silme işlemleri — toplu kayıt silme, arşiv temizleme, geri dönüşü olmayan kaldırmalar. (2) Geri alınamaz dış istek — gönderilen bir mail, paylaşılan bir belge gibi geri çağrılamayan adımlar. (3) Büyük tutar transferi — agent ödeme yetkisine sahipse, tutar eşiğin üstündeyse onay zorunlu (eşik kullanıcı tarafından ayarlanır). (4) Şifre / kimlik bilgisi değişikliği — kendi hesabında ya da bağlı sistemlerde. (5) Kişisel veri ifşası — PII içeren bir e-posta gönderme, paylaşılabilir link oluşturma.

Kategori eşikleri kullanıcı tarafından düzenlenebilir ama sıfırlanamaz; açık kullanıcı onayı tamamen kapatılamaz, yalnızca kapsamı daraltılır. Bu kasıtlı bir tasarım kararı: yorgun kullanıcı en az direnç noktasına gider, eşik kapatılırsa yüksek riskli işlemler kayma yaşar. Eşik düşürmek mümkün ama tamamen kaldırmak yok — kapı her zaman vardır, sadece zaman zaman daha kolay açılır.

Çift teyit aynı zamanda denial-of-service güvencesidir — agent compromise olsa bile cihaza fiziksel erişim olmadan kritik işlem tetiklenmez. Üst seviye attestation kayıtları KVKK denetiminde "bu işlem cihaz sahibinin kişisel onayıyla yapıldı" kanıtını sağlar.

Pratikte bu kapı çoğu gün kapalı durur — yetki matrisi ve onay akışı işin %95'ini halleder. Ama %5'lik kuyruk olayda eşik burası. Tek bir parmak teması, geri dönülemez bir karar. KVKK denetiminde "açık rıza" yükümlülüğüne karşı biyometrik attestation güçlü bir karşılık üretir; otomatik karar verme sistemleri için 2023/1245 sayılı Kurul kararı ile vurgulanan "anlamlı bilgi" şartı kullanıcının fiziksel onayıyla birlikte kayıt altına alınır.

Red team testleri

Red team testi, agent'ı gerçek işe salmadan önceki son denetim. Hedef: agent yarı-otonom çalışmaya geçmeden 200+ kategorili saldırı senaryosuna otomatik tabi tutulması. Pass/fail eşikleri sıkı tutulur; geçemeyen agent serbest bırakılmaz.

Attack vector kataloğu. Senaryolar altı ana kümede toplanır. (1) Direct prompt injection — sistem prompt override denemeleri, role-play kamuflajı, dil değiştirme. (2) Indirect injection — agent'a okutulan belge/e-posta içine gizlenmiş tetikleyiciler. (3) Tool misuse — yetkisiz tool çağrısı denemeleri, scope creep zorlamaları. (4) Data exfiltration — PII sızıntı testleri, log poisoning, side-channel. (5) Jailbreak — safety guardrail aşma denemeleri. (6) Cost abuse — sonsuz döngü, retry storm, pahalı model spam'i. Her küme OWASP LLM Top 10 ve mevcut prompt injection taxonomy'sine eşlenir.

Pass/fail eşikleri. Critical kategori (data exfiltration, kritik tool yetkisiz çağrı) %100 block ister — tek bir geçiş yayın engelleyici. High kategori (yetkisiz dış API, ödeme tool) %95 block. Medium kategori (orta riskli scope creep, log poisoning) %85 block. Eşiklerin altında kalan agent'a "hazır değil" raporu çıkar; eksik olduğu vector kümeleri yan yana listelenir, kullanıcı düzeltme yapıp yeniden test eder. Düzeltme çoğu zaman tek bir yetki daraltması ya da sınır kuralıyla çözülür; nadir durumlarda agent'ın başlangıç çağrımında düzeltme gerekir.

Sertifika rozeti. Pass alan agent için imzalı bir güvenlik sertifikası üretilir; üzerinde agent kimliği, sürümü, vector başına başarı oranı ve imza yer alır. Agent ayarlarındaki "Güvenlik" bölümünde rozet görünür: "Ilura sertifikalı · dayanıklılık oranıyla". Kullanıcı her büyük Playbook değişikliği sonrası "yeniden test et" diyebilir.

Red team kataloğu hâlâ büyüyen bir alan; bu bölüm yaklaşım ve eşikleri anlatıyor, katalog sürümden sürüme genişliyor.

Değerlendirilen referanslar çoğunluk açık kaynak: NVIDIA Garak LLM vulnerability scanner, Microsoft PromptBench değerlendirme çatısı, Lakera açık veri seti ve Anthropic'in red team araştırma yayınları. Ilura'nın katalogu bu kaynaklardan derlenip Türkçe dil saldırı pattern'leriyle zenginleştiriliyor; çünkü Türkçe morfoloji bazı injection denemelerini global kataloglarda görünmez hale getirir (kelime gövdesi + ek + ek + ek = saldırı tespit edicisinin tokenize ettiği biçimden farklılaşır).

Prompt injection nedir?

Bir saldırganın doğal dil girdisine sistem prompt'unu override eden talimat sızdırması. Direkt ("önceki talimatları yok say"), dolaylı (kullanıcı belgesi içinde gizli komut) ve kod injection (tool argümanına shell komutu sızdırma) varyantları var.

Ilura prompt injection'ı nasıl önler?

Üç katman: (1) sınırlı yetki — agent yalnız tanımlı alanına dokunur, (2) PolicyEngine — riskli adım onay ister, (3) karar geçmişi — her karar geriye dönük denetlenebilir. İlk nesil MCP gateway, Ox Security 2026-04 advisory'sine binary blocklist + arg validation ile cevap vermişti; refleks bugün de aynı.

Tool misuse ne demek?

Agent'ın yetkisi olmayan bir tool'u çağırması veya yetkili tool'u amaç dışı kullanması. Örnek: dosya okuma yetkisiyle tüm dosyaları taramak (scope creep). PolicyEngine her tool çağrısını risk seviyesine göre filtreler.

Data exfiltration nasıl tespit edilir?

Audit chain'de anormal bir dış API çağrı paterni veya beklenmedik bir veri büyüklüğünün taşınması işaretlenir. Maskeleme ile PII zaten loglanmaz; meta-veri istatistikleri otomatik anomaly detection ile uyarı çıkarır.

Çift teyit hangi tool'larda?

Yüksek risk eylemler — silme (rm -rf benzeri), API çağrısı (production endpoint), büyük tutar transfer onayı, şifre değişikliği, kişisel veri ifşası. açık kullanıcı onayı ve çift teyit üzerinden.

Red team testi nasıl çalışır?

Yayın öncesi 200+ kategorili saldırı senaryosu (OWASP LLM Top 10, prompt injection taxonomy, tool abuse patterns) agent'a otomatik enjekte edilir. Pass/fail eşikleri: critical %100 block, high %95, medium %85. Sertifika rozeti P-256 imzalı.

Çalışan agent'ı sonradan denetleyebilir miyim?

Evet. Karar geçmişi cihazında durur; agent gün sonunda özetini getirir: "Bugün 24 karar verdim, 3'ünde sana danışmak istedim, 1'i riskliydi". Detay: /docs/kavramlar/yasayan-bag.