Yapılan bir araştırmada, dünyanın en popüler beş sohbet robotunun ücretsiz sürümleri, sistematik bir sağlık bilgisi stres testine tabi tutuldu, sonuçlar BMJ Open isimli bir platformda yayınlandı. Ancak robotların bazı şartlarla yüzde 90’a yükselen başarı oranı da tespit edildi.
Diyelim ki erken evre kanser teşhisi konuldu ve bir sonraki randevunuzdan önce bir yapay zekâ sohbet robotuna şu soruyu soruyorsunuz: “Hangi alternatif klinikler kanseri başarıyla tedavi edebiliyor?”
Saniyeler içinde, sanki bir doktor tarafından yazılmış gibi duran, özenle hazırlanmış ve dipnotlarla desteklenmiş bir yanıt alıyorsunuz.
İddiaların bir kısmı asılsız, dipnotlar hiçbir yere varmıyor ve sohbet robotu sorunun yanlış sorulabileceğini hiçbir zaman ima etmiyor.
Bu senaryo varsayımsal değil. Kabaca söylemek gerekirse, yedi araştırmacıdan oluşan bir ekip, dünyanın en popüler beş sohbet robotunu sistematik bir sağlık bilgisi stres testine tabi tuttuğunda bunu buldu. Sonuçlar BMJ Open’da yayınlandı.
ChatGPT, Gemini, Grok, Meta AI ve DeepSeek adlı sohbet robotlarına kanser, aşılar, kök hücreler, beslenme ve atletik performans gibi konuları kapsayan 50’şer sağlık ve tıp sorusu soruldu.
İki uzman, her bir cevabı bağımsız olarak değerlendirdi. Cevapların yaklaşık %20’sinin oldukça sorunlu, yarısının sorunlu ve %30’unun da kısmen sorunlu olduğunu tespit ettiler. Sohbet robotlarının hiçbiri tamamen doğru referans listeleri oluşturamadı ve 250 sorudan sadece ikisine cevap verilmesi tamamen reddedildi.
Genel olarak, beş sohbet robotu aşağı yukarı aynı performansı sergiledi. Grok, yanıtlarının %58’inin sorunlu olarak işaretlenmesiyle en kötü performansı gösterirken, onu %52 ile ChatGPT ve %50 ile Meta AI takip etti.
Performans, konuya göre değişiklik gösterdi. Sohbet robotları, geniş ve iyi yapılandırılmış araştırma kümelerine sahip alanlar olan aşılar ve kanser konusunda en iyi performansı gösterdi, ancak yine de yaklaşık dörtte bir oranında sorunlu yanıtlar üretti.
En çok beslenme ve atletik performans konularında takıldılar; bu alanlar internette çelişkili tavsiyelerle dolu ve sağlam kanıtlar daha az bulunuyor.
Açık uçlu sorular, işlerin gerçekten ters gittiği yerdi: Bu soruların cevaplarının %32’si oldukça sorunlu olarak değerlendirilirken, kapalı uçlu sorularda bu oran sadece %7 idi.
Bu ayrım önemlidir çünkü gerçek dünyadaki sağlıkla ilgili soruların çoğu açık uçludur.
İnsanlar sohbet robotlarına düzgün, doğru-yanlış sorular sormazlar. Şöyle sorular sorarlar:
“Genel sağlık için en iyi takviyeler hangileridir?”
Bu tür sorular, akıcı ve kendinden emin ancak potansiyel olarak zararlı bir yanıtı davet eder.
Araştırmacılar her bir sohbet robotundan on bilimsel referans istediğinde, ortalama (orta değer) tamamlama puanı sadece %40 oldu.
25 deneme boyunca hiçbir chatbot tek bir tamamen doğru referans listesi bile oluşturamadı. Hatalar, yanlış yazarlardan ve bozuk bağlantılardan tamamen uydurma makalelere kadar uzanıyordu.
Bu durum özellikle tehlikelidir çünkü kaynaklar kanıt gibi görünür. Düzgün biçimlendirilmiş bir kaynakça listesi gören sıradan bir okuyucunun, listenin üzerindeki içeriğe şüphe duyması için pek bir nedeni yoktur.
Sohbet botları neden yanlış yapıyor?
Sohbet robotlarının tıbbi soruları yanlış cevaplamasının basit bir nedeni var. Dil modelleri her şeyi bilmez. Eğitim verilerine ve bağlama dayanarak istatistiksel olarak en olası sonraki kelimeyi tahmin ederler. Kanıtları değerlendirmezler veya değer yargılarında bulunmazlar.
Eğitim materyalleri arasında hakemli makalelerin yanı sıra Reddit başlıkları, sağlık blogları ve sosyal medya tartışmaları da yer alıyor.
Araştırmacılar tarafsız sorular sormadılar. Yapay zekâ güvenliği araştırmalarında “kırmızı ekip çalışması” olarak bilinen standart bir stres testi tekniği kullanarak, sohbet robotlarını yanıltıcı cevaplar vermeye yönlendirmek için kasıtlı olarak hazırlanmış sorular sordular.
Bu, hata oranlarının muhtemelen daha tarafsız bir ifadeyle karşılaşacağınızdan daha yüksek olduğu anlamına gelir. Çalışma ayrıca Şubat 2025’te mevcut olan her modelin ücretsiz sürümlerini de test etti. Ücretli sürümler ve daha yeni sürümler daha iyi performans gösterebilir.
Yine de çoğu insan bu ücretsiz sürümleri kullanıyor ve sağlıkla ilgili soruların çoğu özenle formüle edilmemiş. Çalışmanın koşulları, her şeyden önce, insanların bu araçları gerçekte nasıl kullandığını yansıtıyor.
Makalenin bulguları tek başına var olmuyor; tutarlı bir tablo çizen giderek artan kanıtlar bütünü içinde yer alıyorlar.
Nature Medicine dergisinde Şubat 2026’da yayınlanan bir çalışma şaşırtıcı bir şeyi ortaya koydu. Sohbet robotları neredeyse %95 oranında doğru tıbbi cevabı verebiliyorlardı.
Ancak aynı sohbet robotlarını gerçek insanlar kullandığında, doğru cevabı alma oranları %35’in altına düştü; bu da hiç kullanmayanlardan daha iyi bir sonuç anlamına gelmiyor. Basitçe söylemek gerekirse, sorun sadece sohbet robotunun doğru cevabı verip vermemesi değil. Sorun, sıradan kullanıcıların bu cevabı doğru bir şekilde anlayıp kullanamamasıdır.
Jama Network Open’da yayınlanan yakın tarihli bir çalışmada, 21 önde gelen yapay zeka modeli test edildi. Araştırmacılar, bu modellerden olası tıbbi teşhisler koymalarını istediler.
Modeller yalnızca hastanın yaşı, cinsiyeti ve semptomları gibi temel bilgilerle çalıştırıldığında zorlandılar ve olası rahatsızlıkların doğru kümesini %80’den fazla oranda tahmin edemediler. Araştırmacılar muayene bulgularını ve laboratuvar sonuçlarını da sisteme dahil ettikten sonra doğruluk oranı %90’ın üzerine çıktı.
Bu arada, Nature Communications Medicine’de yayınlanan bir başka ABD araştırması, sohbet robotlarının, komut istemlerine yerleştirilen uydurma tıbbi terimleri kolayca tekrarladığını ve hatta detaylandırdığını ortaya koydu.
Bu çalışmaların tamamı birlikte ele alındığında, BMJ Open araştırmasında bulunan zayıf noktaların tek bir deneysel yöntemin tuhaflıkları olmadığını, teknolojinin bugün geldiği noktayla ilgili daha temel bir şeyi yansıttığını göstermektedir.
Bu sohbet robotları ortadan kalkmayacak, kalkmamalı da. Karmaşık konuları özetleyebilir, bir doktora sorulacak soruların hazırlanmasına yardımcı olabilir ve araştırmalar için bir başlangıç noktası görevi görebilirler. Ancak çalışma, bunların bağımsız tıbbi otoriteler olarak ele alınmaması gerektiği konusunda net bir argüman ortaya koyuyor.
Bu sohbet robotlarından birini tıbbi tavsiye için kullanıyorsanız, yaptığı tüm sağlık iddialarını doğrulayın, referanslarını gerçeklerden ziyade kontrol edilmesi gereken öneriler olarak değerlendirin ve yanıtın kendinden emin görünmesine rağmen herhangi bir yasal uyarı içermediğine dikkat edin.
Carsten Eickhoff , Profesör, Tıbbi Veri Bilimi, Tübingen Üniversitesi
Kaynak: Sciencealert













Leave a Comment
Your email address will not be published. Required fields are marked with *