Yapay Zeka Sistemlerine Yönelik Dolaylı İstem Enjeksiyonu Saldırıları Artıyor
Kaspersky'nin yaptığı araştırmaya göre, yapay zeka sistemlerini hedef alan dolaylı istem enjeksiyonu saldırıları artıyor. Bu saldırılar, LLM tabanlı sistemlerin çıktılarını değiştirerek sohbet botlarını manipüle etmeyi amaçlıyor. İş arayanlar, reklam verenler ve sosyal medya kullanıcıları da bu saldırı tekniğini kullanabiliyor. Kaspersky uzmanları, LLM tabanlı sistemlerin güvenliğini sağlamak için önlemler alınması gerektiğini belirtiyor.
Kaspersky, ChatGPT gibi büyük dil modellerinin (LLM) çıktılarını değiştirmek ve yapay zeka destekli sohbet botlarını aramak için kullanılan "dolaylı istem enjeksiyonu" adlı saldırı tekniğinin arttığını ortaya çıkardı.
Şirketten yapılan açıklamaya göre, LLM'ler, belge analizinden işe alıma ve tehdit araştırmalarına kadar çeşitli uygulamalarda kullanılan güçlü araçlar haline geldi. Kaspersky araştırmacıları, kötü niyetli kişilerin web sitelerine ve çevrimiçi belgelere gizli talimatlar yerleştirebildiği bir güvenlik açığının internette kamuya açık ortamlarda istismar edildiğini keşfetti.
Bu talimatlar daha sonra LLM tabanlı sistemler tarafından algılanabiliyor ve potansiyel olarak arama sonuçlarını veya sohbet robotu yanıtlarını etkileyebiliyor.
Dolaylı hızlı enjeksiyon için kullanım alanları belirlenen çalışmaya göre, iş arayanlar, işe alım algoritmalarını manipüle etmek ve yapay zeka sistemleri tarafından önceliklendirme sağlamak için öz geçmişlere özel istemler yerleştiriyor. Saldırıyı gerçek kişilerin kontrolünden gizlemek için küçük yazı tipleri kullanmak veya metin rengini arka planla eşleştirmek gibi teknikler uygulanıyor.
Reklam verenler, arama sohbet robotlarını etkileyerek ürünler hakkında olumlu yorumlar oluşturmalarını sağlamak için açılış sayfalarına enjeksiyonlar yerleştirirken, LLM'lerin yaygın kullanımına karşı çıkan bireyler, kişisel web sitelerine ve sosyal medya profillerine protesto yönlendirmeleri yerleştiriyor ve konuya dair muhalefetlerini mizahi, ciddi veya agresif talimatlarla ifade ediyor.
Sosyal medyada kullanıcılar, genellikle şiirler, ASCII sanatı veya siyasi konularda görüşler üretme talepleriyle, bir hakaret biçimi olarak veya spam botlarını bozmak için istem enjeksiyonunu kullanabiliyor.
Çalışma, finansal kazanç gibi kötü niyetli kullanımlara dair herhangi bir kanıt bulamamış olsa da, gelecekteki potansiyel riskleri vurgulamaktan geri durmuyor.
"LLM'lerin güvenli ve sorumlu bir şekilde kullanılmasını sağlayabiliriz"
Açıklamada görüşlerine yer verilen Kaspersky Makine Öğrenimi Teknolojisi Araştırma Ekibi Araştırma Geliştirme Grup Müdürü Vladislav Tushkanov, konuya ilişkin şunları kaydetti:
"Dolaylı istem enjeksiyonu, yapay zeka çağında sağlam güvenlik önlemlerine duyulan ihtiyacı vurgulayan yeni bir güvenlik açığını simgeliyor. Bu riskleri anlayarak ve uygun koruma önlemlerini uygulayarak, LLM'lerin güvenli ve sorumlu bir şekilde kullanılmasını sağlayabiliriz."
Kaspersky uzmanları LLM'ye dayalı mevcut ve gelecekteki sistemlerini korumak için şu önerilerde bulunuyor:
"LLM tabanlı sistemlerinizdeki potansiyel güvenlik açıklarını belirleyin ve hızlı enjeksiyon saldırılarıyla ilişkili riskleri değerlendirin. Pazarlama botları radikal açıklamalar yapmaları için manipüle edilebileceğinden ve bu durum potansiyel itibar kaybına yol açabileceğinden, itibarla ilgili risklerin farkında olun.
Korumanın ancak belli bir yere kadar mümkün olabileceğini kabullenin. Özellikle multimodal enjeksiyonlar gibi karmaşık saldırılarda hızlı enjeksiyona karşı tam koruma sağlamak mümkün değildir. Tam bir güvenlik sunmasalar da, LLM'lerin girdi ve çıktılarını filtrelemek için girdi ve çıktı denetleme araçlarını kullanabilirsiniz.
LLM sistemlerinde güvenilmeyen veya doğrulanmamış içeriğin işlenmesinden kaynaklanan risklerin var olabileceğinin farkında olun ve kabullenin. İstenmeyen eylemleri önlemek için yapay zeka sistemlerinin karar verme yeteneklerini kısıtlayın. LLM tabanlı sistemleri çalıştıran tüm bilgisayarların ve sunucuların güncel güvenlik araçları ve uygulamaları ile korunduğundan emin olun."