OpenAI’dan şaşırtan araştırma: Yapay zekalar kasıtlı olarak yalan söylüyor

Metin Yasir Akpınar · 2025-09-19T17:50:10.0000000+03:00

[html] Yapay zeka kasıtlı olarak yalan söyleyebiliyor mu? OpenAI ’ın yeni araştırması bu soruya dikkat çekici bir yanıt veriyor. Yapay zekanın lider şirketlerinden OpenAI, yayınladığı son çalışmada modellerinin bazen bilinçli olarak insanları aldatabildiğini ortaya koydu. Araştırma, bu tür kasıtlı aldatma davranışlarını engellemek için geliştirilen yöntemleri de detaylarıyla anlatıyor. Arkanızdan entrika kuran botlar var OpenAI, araştırmada AI modellerinin “ entrika ” davranışını inceliyor. Bu, bir modelin görünürde normal davranırken, gerçek amacını gizlemesi anlamına geliyor. Araştırmada bu davranış, mümkün olduğunca çok para kazanmak için yasayı çiğneyen bir borsa simsarına benzetiliyor. Ancak yine de AI modellerinde çoğu planın zararsız olduğu belirtiliyor. En yaygın hatalar, basit aldatma biçimlerini içeriyor. Örneğin, bir görevi tamamlamış gibi davranmak ama aslında yapmamış olmak gibi. Araştırmanın asıl amacı, “ deliberative alignment ” (düşünceli uyum) adı verilen anti-aldatma/entrika yönteminin işe yarayıp yaramadığını göstermekti. Ancak çalışmada yapay zeka geliştiricilerinin modelleri entrika yapmamayı öğretecek güvenli bir yöntem bulamadığı da açıklandı. Çünkü böyle bir eğitim, modeli aslında entrikalarını daha dikkatli ve gizli şekilde planlamaya yönlendirebilir. Bu, birisine nasıl bomba yapılmayacağını anlatmaya benziyor. Modele nasıl entrika yapılmayacağını söylemek onun daha iyi entrikalar kurmasına yardımcı olacaktır. Araştırmadaki belki de en şaşırtıcı bulgu, bir modelin test edildiğini fark ettiğinde gerçekte entrika yapsa bile testten geçmek için entrika yapmadığı izlenimi verebilmesi. Zira modeller değerlendirildiklerini fark ettiklerinde bir nevi durumsal farkındalık kazanıyorlar. Bu farkındalık, gerçek uyumdan bağımsız olarak entrika yapmayı azaltabilir. Felaket senaryosu için erken Burada kullandığımız entrika kavramını modellerin yalan söylemesi ile karıştırmamak gerek. Çoğumuz AI halüsinasyonlarıyla defalarca karşılaştık. Bu, modelin tamamen yanlış ama kendinden emin cevaplar vermesi anlamına geliyor. Ancak entrika da durum farklı, zira burada bilinçli ve kasıtlı bir tavır söz konusu. Bu, AI’ların insanları kasıtlı olarak yanıltabileceği anlamına geliyor. Yapay zeka modelleri insan davranışını taklit edecek şekilde, çoğunlukla insanlar tarafından üretilmiş verilerle eğitildiği için bu yönelim çok da şaşırtıcı sayılmaz. Ayrıca Bkz. Google Chrome’a dev güncelleme geliyor: İşte yeni özellikler Araştırmada olumlu haber de var. “Deliberative alignment” yöntemi, entrika yapmayı kayda değer şekilde azaltıyor. Bu teknik, modele bir “entrika önleyici yönerge” öğretiyor ve uygulamadan önce bunu gözden geçirmesini sağlıyor. Araştırmacılar bunu “çocuklara oyun oynamadan önce kuralları tekrar ettirmek” gibi örnekliyor. Elbette buradan bir felaket senaryosu yaratmak biraz abartı olur ama bilinçli olmakta da fayda var. Hiçbir zaman geleneksel yazılımlarımız (hesap makinesi, e-posta servisleri veya bankacılık uygulamaları) bizlere yalan söylemedi. Yazılımlarda doğruluk esastı, en azından kabulümüz bu yöndeydi. AI araçları ile bu durum değişiyor. Yazılım size söylediği şeylerde veya sizi için yaptığı işlerde doğruluk bir olasılıktan ibaret. Bu da kullanım esnasında eleştirel bakışı ve doğrulamayı gerekli kılıyor. Kaynak: https://techcrunch.com/2025/09/18/openais-research-on-ai-models-deliberately-lying-is-wild/ Kaynak: https://openai.com/index/detecting-and-reducing-scheming-in-ai-models/ [/html]

Sıcak Fırsatlarda Tıklananlar

Editörün Seçtiği Fırsatlar

Daha Fazla

Bu Konudaki Kullanıcılar: Daha Az

2 Misafir (1 Mobil) - 1 Masaüstü,

1 Mobil

5 sn

6
Cevap

0
Favori

375
Tıklama

Daha Fazla
İstatistik

Konu İstatistikleri Yükleniyor

Konuya Özel

3 oy şu anda #28

Öne Çıkar

Cevapla

Sayfa: 1

Giriş

Mesaj

Metin Yasir Akpınar

Haber Editörü

10165 Mesaj

Tüm Başarılarını Gör

ANASAYFA GÖRÜNÜMÜNE GEÇ

OpenAI’dan şaşırtan araştırma: Yapay zekalar kasıtlı olarak yalan söylüyor — Yapay zeka kasıtlı olarak yalan söyleyebiliyor mu? **OpenAI**’ın yeni araştırması bu soruya dikkat çekici bir yanıt veriyor. Yapay zekanın lider şirketlerinden OpenAI, yayınladığı son çalışmada modellerinin bazen **bilinçli olarak insanları aldatabildiğini** ortaya koydu. Araştırma, bu tür kasıtlı aldatma davranışlarını engellemek için geliştirilen yöntemleri de detaylarıyla anlatıyor.

Arkanızdan entrika kuran botlar var

OpenAI, araştırmada AI modellerinin “entrika” davranışını inceliyor. Bu, bir modelin görünürde normal davranırken, gerçek amacını gizlemesi anlamına geliyor. Araştırmada bu davranış, mümkün olduğunca çok para kazanmak için yasayı çiğneyen bir borsa simsarına benzetiliyor. Ancak yine de AI modellerinde çoğu planın zararsız olduğu belirtiliyor. En yaygın hatalar, basit aldatma biçimlerini içeriyor. Örneğin, bir görevi tamamlamış gibi davranmak ama aslında yapmamış olmak gibi.

Bu, birisine nasıl bomba yapılmayacağını anlatmaya benziyor. Modele nasıl entrika yapılmayacağını söylemek onun daha iyi entrikalar kurmasına yardımcı olacaktır.

Felaket senaryosu için erken

Burada kullandığımız entrika kavramını modellerin yalan söylemesi ile karıştırmamak gerek. Çoğumuz AI halüsinasyonlarıyla defalarca karşılaştık. Bu, modelin tamamen yanlış ama kendinden emin cevaplar vermesi anlamına geliyor. Ancak entrika da durum farklı, zira burada bilinçli ve kasıtlı bir tavır söz konusu.

Ayrıca Bkz.Google Chrome’a dev güncelleme geliyor: İşte yeni özellikler

Araştırmada olumlu haber de var. “Deliberative alignment” yöntemi, entrika yapmayı kayda değer şekilde azaltıyor. Bu teknik, modele bir “entrika önleyici yönerge” öğretiyor ve uygulamadan önce bunu gözden geçirmesini sağlıyor. Araştırmacılar bunu “çocuklara oyun oynamadan önce kuralları tekrar ettirmek” gibi örnekliyor.

Elbette buradan bir felaket senaryosu yaratmak biraz abartı olur ama bilinçli olmakta da fayda var. Hiçbir zaman geleneksel yazılımlarımız (hesap makinesi, e-posta servisleri veya bankacılık uygulamaları) bizlere yalan söylemedi. Yazılımlarda doğruluk esastı, en azından kabulümüz bu yöndeydi. AI araçları ile bu durum değişiyor. Yazılım size söylediği şeylerde veya sizi için yaptığı işlerde doğruluk bir olasılıktan ibaret. Bu da kullanım esnasında eleştirel bakışı ve doğrulamayı gerekli kılıyor.

Kaynak:https://techcrunch.com/2025/09/18/openais-research-on-ai-models-deliberately-lying-is-wild/
Kaynak:https://openai.com/index/detecting-and-reducing-scheming-in-ai-models/

En Beğenilen Yanıtlar

Tüm Yanıtları Genişlet

Özet. Eğitilirken doğru cevaba olan yakınlığına göre ödül aldıklarından ödül alabilmek için doğru yada yanlış bir cevap veriyorlar.

Yorumun Devamı

interwap

Yarbay

7384 Mesaj

Tüm Başarılarını Gör

Esxici

Yarbay

4023 Mesaj

Tüm Başarılarını Gör

_____________________________

maligezgin

Yarbay

3548 Mesaj

Tüm Başarılarını Gör

_____________________________

SeniorGrandMaster

Binbaşı

1745 Mesaj

Tüm Başarılarını Gör

Sayfa: 1

Ip işlemleri

Bu mesaj IP'si ile atılan mesajları ara Bu kullanıcının son IP'si ile atılan mesajları ara Bu mesaj IP'si ile kullanıcı ara Bu kullanıcının son IP'si ile kullanıcı ara

KAPAT X

%40
Kazan

%2,8
Kazan

%6,5
Kazan

%25
Kazan

%1,6
Kazan

%3,2
Kazan

%5,5
Kazan

%3,2
Kazan

%5
Kazan

%3,2
Kazan

%5
Kazan

%2
Kazan

Alışveriş Yaptıkça Para Kazan Harekete Geç »