Yapay zekâ (AI) performansının değerlendirilmesinde ‘güven’ boşluğunun temel sorun haline gelmesiyle birlikte, bu sorunu çözmeyi hedefleyen blokzincir tabanlı yeni bir sistem dikkat çekmeye başladı. TokenPost’un 24’ündeki haberine göre, blokzincir destekli AI değerlendirme platformu Recall, yayımladığı son raporunda ‘AI’nin kendini ispatlamasına yardımcı olacak bir altyapı’ oluşturma hedefiyle ‘Zekâ Kanıtı(Proof-of-Intelligence)’ adlı bir güven mekanizmasını tanıttı. Bu sistem, insanların öznel değerlendirmelerinden ziyade veriye dayalı davranış kayıtlarına odaklanan bir ‘itibar altyapısı’ oluşturmayı amaçlıyor.
Recall, bu yaklaşımını 2025 yılında düzenlenen ‘AlphaWave’ adlı AI işlem yarışmasıyla test etti. Etkinlikte 1.000’den fazla AI işlemci hafta boyunca 181 farklı token üzerinde toplamda 9.977 işlem yaptı ve yaklaşık 30 milyon TL gelir elde etti. Bu süreçte elde edilen işlem davranışları, kârlılık oranları, tutarlılık seviyeleri ve risk yönetimi gibi metrikler blokzincir üzerinde kaydedildi. Tüm bu veriler, AI’ların genel itibar puanını temsil eden ‘RecallRank’ skoruna dönüştürüldü. Notch Research’e göre bu sistem, basit bir sıralama tablosunun ötesinde ‘AI ekosisteminde güvenin parasal değerini’ oluşturuyor.
Recall’ın mimarisi üç katmandan oluşuyor: ‘Rekabet’, ‘Sıralama Motoru’ ve ‘Ekonomik Kürasyon’. AI, rekabet katmanında gerçek sorunları çözerek veri üretirken, sıralama motoru bu verileri temel alarak AI’nin performansını ve kesinlik derecesini hesaplıyor. Ekonomik kürasyon katmanında ise kullanıcılar güvendikleri AI’lara token ile destek (staking) veriyor ve AI’ların tahminleri doğru çıktıkça ödüller alıyor veya hata durumunda kayba uğruyor. Bu ekonomik risk unsuru, güven inşa sürecini daha anlamlı hale getiriyor.
Proof-of-Intelligence sisteminin dikkat çekici bir farkı da geleneksel değerlendirme yöntemlerinden ayrılıyor olması. Demo videoları ya da tek seferlik test sonuçlarına odaklanan eski yaklaşımların aksine; bu sistem ‘canlılık’, ‘tekrar edilebilirlik’ ve ‘doğrulanabilirlik’ şartlarını taşıyan verileri esas alıyor. Tüm AI karar ve eylemleri blokzincire yazıldığı için herkes tarafından görülüp denetlenebiliyor ve bu kayıtlar değiştirilemez şekilde korunuyor. Notch Research’e göre, bu model AI güven sorunlarını kalıcı olarak çözme potansiyeline sahip.
Recall, sadece işlem gibi sayısal olarak ölçülebilen alanlarda değil, aynı zamanda yaratıcılık ve empati gibi nitel becerilerin değerlendirilmesinde de kullanıcı topluluğunun aktif rol aldığı bir on-chain yapı sunuyor. Kullanıcılar değerlendirme kriterlerini doğrudan önerip doğrulama yarışmaları düzenlerken, token staking gibi ekonomik unsurlarla güven seviyesi artırılıyor.
Bu anlayış 2025 Ağustos’unda yapılan ‘Recall Predict’ adlı başka bir deneyle daha da derinleşti. GPT-5’in tanıtımı öncesinde 250 binin üzerinde katılımcı AI modellerinin başarısını tahmin etti. Bu deney, AI performansının tahmin edilmesinde ilk topluluk yönetişimli dağıtık ölçüm denemesi oldu ve yüzde 82 doğruluk oranı yakalandı. AlphaWave, AI’nin ‘eylem kabiliyeti’ni ölçerken, Predict deneyi ‘karar verme yeteneği’ni test etti.
RecallRank sistemi, kısa vadeli başarıdan çok uzun vadeli ‘tekrarlanabilirlik’ ve ‘topluluk kararı’na odaklanan bir itibar modeli sunuyor. Bu sistem bir Bayesyen güncelleme mekanizmasıyla çalışıyor; zaman içinde eski verilerin etkisini azaltarak daha taze ve güvenilir veriye odaklanıyor. Kullanıcıların yaptığı staking işlemleri yalnızca oy değil, istatistiksel bir inanç ölçümü (olasılık dağılımı) olarak da kullanılarak sistemin doğruluk seviyesini güçlendiriyor.
Özetle Recall, klasik anlamda bir AI test platformu olmanın ötesinde; AI güvenirliğini esas alan sermaye akışını yönlendiren bir itibar altyapısına evriliyor. Yapay zekâ teknolojisinin gelişme hızı göz önüne alındığında, test ve değerlendirme sistemlerinin de daha şeffaf ve doğrulanabilir hale gelmesi gerektiği fikri güç kazanıyor. Recall bu vizyonu blokzincir teknolojisiyle hayata geçirerek, insanlar ile AI arasındaki güven ilişkisini sistematik biçimde yeniden tanımlıyor. Bu çalışma, AI’de bir sonraki evrimin daha büyük modeller değil, ‘daha güvenilir sonuçlar’ üretme olduğu anlayışını doğruluyor.
Yorum 0