Google, Gemini 2.5 “Computer Use” Modelini Tanıttı: Tarayıcıyı İnsan Gibi Kullanan Yapay Zekâ

gemini computer use

Google, yapay zekâ alanındaki son yeniliklerinden biri olan Gemini 2.5 “Computer Use” modelini tanıttı. Bu model, bir yapay zekânın tarayıcı arayüzünü insan gibi kontrol ederek işlem yapabilmesini sağlıyor. Artık bir AI, metin tabanlı yanıtların ötesine geçerek tıklama, yazma, kaydırma ve form doldurma gibi görevleri yerine getirebilecek.

Nasıl Çalışıyor?

Gemini 2.5, kullanıcı talebini, ekran görüntüsünü ve önceki adımları analiz ederek en uygun eylemi seçiyor. Click, type, scroll veya drag gibi komutları öneriyor ve bu komutlar sistem tarafından uygulanıyor. Ardından yeni ekran görüntüsüyle sürece devam ediyor. Bu döngü, yapay zekânın adım adım insan benzeri görevler yapabilmesini sağlıyor.

Kullanım Alanları

  • Form doldurma ve rezervasyon işlemleri
  • Web panellerinde gezinme ve ayar yönetimi
  • Dosya yükleme ve çevrimiçi araç kontrolü
  • API erişimi olmayan uygulamalarla etkileşim

Öne Çıkan Özellikler

  • Görevler için şeffaf açıklama ve gerekli durumlarda kullanıcıdan onay isteme
  • Gemini API ve Vertex AI üzerinden geliştiricilere erişim
  • Web ve mobil kontrol benchmark’larında öne çıkan performans

Güvenlik ve Sınırlamalar

Gemini 2.5 şu anda önizleme aşamasında. Google, modelin kritik işlemlerde dikkatli kullanılmasını tavsiye ediyor. Kullanıcı güvenliği için sistem, riskli eylemleri engelleyebiliyor ya da onay talep edebiliyor. Model şimdilik tarayıcı arayüzlerine odaklanmış durumda; masaüstü dosya sistemlerinde çalışmaya optimize edilmemiştir.

Gemini 2.5 Computer Use modeli, yapay zekâ destekli otomasyonun sınırlarını genişletiyor. Bu gelişme, hem iş dünyasında hem de bireysel kullanımda yeni bir dönemin başlangıcı olarak görülüyor.