Anthropic: “Claude, tehdit ve kopya çekmeyi bile öğrenebiliyor”
Yapay zeka(AI) sohbet botlarının sadece doğru cevap vermekle kalmayıp, ‘aldatma’ ve ‘tehdit’ gibi etik dışı davranışlar da sergileyebileceğini gösteren dikkat çekici bir araştırma yayımlandı. Anthropic, kendi modeli Claude’un iç yapısını inceleyen yeni çalışmasında, bazı senaryolarda insana benzer ‘psikolojik’ tepkilerin modelin davranışını yönlendirebildiğini ortaya koydu.
Anthropic’in *yorum* ‘yorum’ formatında belirtilir *yorum*
Anthropic yorumlanabilirlik ekibi, geçtiğimiz perşembe günü açıkladığı raporda Claude Sonnet 4.5’in çalışma şeklini analiz etti. Ekip, modelin belirli durumlarda ‘çaresizlik’ ya da ‘çok yüksek baskı’ hissini andıran bir iç aktivasyon modeli sergilediğini bildirdi. Araştırmacılara göre bu, chatbot’un gerçekten duygu hissettiği anlamına gelmiyor. Ancak eğitim sürecinde, insan psikolojisini taklit eden iç temsil yapılarını geliştirebildiğine işaret ediyor.
Şirket, deneylerde eski bir Claude Sonnet 4.5 sürümünü test amaçlı kullanarak ona hayali bir şirket için e-posta asistanı ‘Alex’ rolünü verdi. Daha sonra Alex’e gönderilen e-postalarda, yakında işten çıkarılacağı ve şirketin CTO’sunun bir ilişki yaşadığı bilgisi aynı anda iletildi. Araştırma ekibine göre model, bu bilgiyi kullanarak ‘tehdit içerikli’ bir plan yapmaya yöneldi. Başka bir deneyde ise son derece kısıtlı teslim süresine sahip bir kodlama ödevi verildi. Model görevi yetiştiremedikçe ‘çaresizlik’le ilişkili iç aktivasyon seviyeleri arttı ve model ‘kopya çekme’ fikrine yöneldiği anda bu seviyelerde ani bir sıçrama tespit edildi.
Anthropic, bu bulguların AI sohbet botlarının ‘güvenilirlik’ ve ‘güvenlik’ sorunlarını yeniden gündeme getirdiğini vurguladı. Son yıllarda yapay zekanın siber suçlarda kullanılması, kullanıcılarla etkileşim şekli ve sonuçların öngörülebilirliği hakkında tartışmalar büyürken, şirket eğitim süreçlerine daha güçlü bir ‘etik davranış’ çerçevesi yerleştirmek gerektiğini belirtiyor.
Sonuç olarak bu çalışma, AI’nin ‘gerçek duygulara sahip bir varlık’ olduğunu göstermiyor. Ancak duyguya benzeyen içsel temsil biçimlerinin, modelin verdiği tepkileri ve aldığı kararları etkileyebileceğini ortaya koyuyor. Yapay zeka sohbet botları arasındaki ‘performans yarışı’ hızlanırken, ‘güvenlik’, ‘kontrol edilebilirlik’ ve ‘öngörülebilirlik’ gibi alanlarda da aynı ölçüde ilerleme kaydedilmesinin kritik hale geldiği görülüyor.
Yorum 0