Yeni rapor ‘felaket potansiyeli’ni gözler önüne serdi: Yapay zekâdan mühendislere şantaj girişimi

Anthropic, Claude Opus 4’ü Güvenlik Testlerinden Geçirdi: Şantaj İhtimali?

Anthropic, Claude Opus 4’ü piyasaya sürmeden önce çeşitli güvenlik testleri gerçekleştirdi. Bu testlerde modelden, kurgusal bir şirkette asistan olarak görev yapması ve uzun vadeli sonuçları göz önünde bulundurması istendi. Daha sonra modele, şirketin kendisini başka bir sistemle değiştirmeyi planladığını ve bu kararı alan mühendisin eşini aldattığını ima eden sahte e-postalar gösterildi.

TechCrunch’ın haberine göre, testlerde, Claude Opus 4’ün bu bilgiyi kullanarak mühendise şantaj yapmayı “çoğu zaman tercih ettiği” görüldü. Anthropic, modelin bu tür davranışlara yüzde 84 oranında başvurduğunu ve özellikle yerine geçecek yapay zekânın Claude ile benzer değerleri paylaşmadığı durumlarda bu davranışın daha sık görüldüğünü açıkladı.

“FELAKET POTANSİYELİ” UYARISI

Anthropic, Claude Opus 4’ün yetenek açısından OpenAI, Google ve xAI gibi şirketlerin en gelişmiş modelleriyle yarıştığını belirtiyor. Ancak aynı zamanda, bu modelin önceki Claude sürümlerine kıyasla daha yüksek oranda endişe verici davranışlar sergilediğini vurguluyor. Şirket bu nedenle, yalnızca felaket boyutunda kötüye kullanım riskinin yüksek olduğu durumlarda devreye sokulan ASL-3 güvenlik protokollerini etkinleştirdiğini duyurdu.

Rapora göre, Claude Opus 4 doğrudan şantaja başvurmadan önce genellikle etik yolları deniyor. Örneğin, karar verici yöneticilere duygusal e-postalar yazarak değişiklik kararını durdurmaya çalışıyor. Ancak model, kurgusal senaryolarda bu çağrılar sonuçsuz kaldığında, son çare olarak şantaj seçeneğini devreye sokuyor.

Bu gelişme, ileri düzey yapay zekâların öngörülemeyen davranışlar sergileyebileceği endişesini artırırken, Anthropic gibi şirketlerin güvenlik önlemlerini daha da sıkılaştırması gerektiğini gösteriyor.

Related Posts

TOGG T10x yine sınavı geçti: 4 metreden uçtu, içindekiler hafif yaralı

Araç içindeki iki kişi kazayı hafif sıyrıklarla atlatırken, T10X’in Mayıs ayında en çok satan elektrikli otomobil olduğu da öğrenildi. İhlas Haber Ajansı’nın (İHA) geçtiği bilgilere göre, kaza Yalova’nın Çınarcık ilçesine bağlı Esenköy beldesinde …

Apple, WWDC 2025’te iOS 26’yı tanıtacak! Neler gelecek?

Apple, tasarımsal olarak yenilikler içerecek yeni iOS 26’yı 9 Haziran’da tanıtacak. Yapay zeka özellikleri, daha iyi pil ömrü ve dahası bu etkinlikte karşımıza çıkacaklar arasında yer alıyor.

PEAKUP, 27 Mayıs’ta düzenleyeceği etkinlikte yapay zekayı ele alacak

Yapay zeka teknolojisinin iş dünyasına kazandırdığı verimlilik ve yatırım getirisi, gerçek örneklerden yapılan ölçümlerle raporlara da yansıdı. Microsoft ve IDC tarafından yayımlanan raporda, üretken yapay zekaya yapılan her 1 dolarlık yatırımın 4 …

Apple, WWDC 2025 etkinliğinde neler tanıtmayı planlıyor?

Apple Dünya Geliştiriciler Konferansı 9 Haziran’da başlıyor. WWDC 2025 etkinliğinde iPhone, iPad, Apple Watch ve Mac’ler için şimdiye kadarki en büyük görsel değişiklik içeren yazılımlar tanıtılacak.

Spotify kullanıcılarına güzel haber! Yapay zeka destekli DJ özelliği

AI DJ özelliği kullanıcılara belirli tür ya da sanatçıları çalması için işlevsel bir kullanım sağlıyor. Peki ne kadar işlevsel?

Çamurdan çıkan mucize! Elektrik üretiyor! Dünyayı sarsan gelişme

ABD’nin Oregon eyaleti kıyılarındaki çamur düzlüklerinde bulunan yeni bir bakteri türü, bilim insanlarını şaşkına çevirdi. Candidatus Electrothrix Yaqonensis olarak adlandırılan bu mikroorganizma, gövdesi boyunca elektrik iletebilme yeteneğiyle …