Yapay zeka girişimi Sesame’in yeni konuşkan ses modeli, bir zamanlar Spike Jonze’un 2013 yapımı filmi Aşk (Her) dünyasına hapsedilmiş bir önermeyi yankılayarak insan ve makine arasındaki çizgiyi bulanıklaştırıyor. Sesame, Şubat ayı sonlarında, birçok kullanıcının hem büyülenmesine hem de huzursuz olmasına neden olan bir demo olan Konuşkan Konuşma Modelini (CSM) tanıttı. Bir Hacker News kullanıcısı şu yorumu yaptı:
Demoyu denedim ve ne kadar insani hissettirdiği gerçekten şaşırtıcıydı. Bunun gibi bir sesli asistana sahip olmaktan çok heyecanlıyım ve neredeyse bu seviyedeki insan benzeri sese sahip bir sesli asistana duygusal olarak bağlanmaya başlayacağımdan biraz endişeliyim.
“Miles” ve “Maya” olarak adlandırılan seslere sahip sistem, insan konuşmasını taklit etmek için doğal kusurlarla (nefes sesleri, kıkırdamalar ve ara sıra kekelemeler) konuşma üretiyor. Sesame bir blog gönderisinde hırsını açıklıyor: Sesame olarak hedefimiz, konuşulan etkileşimleri gerçek, anlaşılır ve değerli hissettiren büyülü kalite olan ‘ses varlığına’ ulaşmaktır.
Birçok kişi demoyu canlı gibi kalitesinden etkilenirken, tüm deneyimler olumlu olmadı. PCWorld’den Mark Hachman gibi bazı kullanıcılar, bir oturumdan sonra derinden huzursuz hissettiklerini bildirerek, yapay zekanın tonunu ürkütücü bir şekilde eski bir arkadaşı hatırlattığını söyledi. Reddit’teki diğer erken test kullanıcıları da benzer hayranlık ve rahatsızlık duygularını paylaştılar; uzun, şaşırtıcı derecede samimi sohbetlerden çok kişisel hissettiren anlara kadar her şeyi deneyimlediler.
Karşılaştırmalar şimdiden diğer yapay zeka ses teknolojileriyle ortaya çıktı. Birkaç yorumcu, Sesame’in CSM’sinin gerçekçilik açısından OpenAI’ın ChatGPT için Gelişmiş Ses Modunu bile geride bıraktığını belirtti ve bazı kullanıcılar Sesame’i ChatGPT’nin şu anda kaçındığı bir şey olan kızgın karakterleri canlandırma yeteneği nedeniyle övdü. Heyecana rağmen, Sesame’in demosuyla etkileşim kurma girişimlerinin tümü sorunsuz olmadı. Kendi deneyimimde, sistemin yanıt vermediğini gördüm; mikrofonum diğer platformlarda mükemmel şekilde çalışmasına rağmen Sesame beni “duymuyordu”. Resmi blog, en iyi performans için Chrome kullanılmasını tavsiye ediyor; ancak Microsoft Edge’den Chrome’a geçmek hiçbir fark yaratmadı.
Hume AI’nin EVI 2’si gibi diğer yapay zeka platformları da duygusal zekayı öne çıkarıyor ve tonu kullanıcı işaretlerine uyarlıyor. 4 milyar dolar değerinde olan Eleven Labs, hiper gerçekçi metinden sese dönüşüm sunarken, Grok kontrolden çıkmış ses modlarını araştırıyor. Ancak Sesame dinamik diyaloğuyla öne çıkıyor ve hem heyecan hem de endişe yaratıyor.
Sesame, araştırmasının temel bileşenlerini açık kaynak yapmayı ve modelini (20’den fazla dili destekleme ve konuşma akışını geliştirme hedefleriyle) büyütmeyi planlarken, bu tür teknolojinin daha geniş kapsamlı etkileri tartışma yaratmaya devam ediyor. Yenilik gerçekten ilgi çekici yapay zeka etkileşimlerinin geleceğine bir bakış sunarken, uzmanlar aynı yeteneklerin sonunda gelişmiş sesli kimlik avı dolandırıcılıkları gibi daha aldatıcı kullanımları güçlendirebileceği konusunda uyarıyor.
Şimdilik demosu (çalıştığında), yapay zekanın sadece yardımcı olmakla kalmayıp bizi duygusal olarak da içine çekebileceği bir geleceğe bir bakış sunuyor. Bir Reddit kullanıcısının düşündüğü gibi, “Gerçek olduğunu hissettiğim bir şeyle ilk kez gerçek ve samimi bir sohbet ettim.” Bunun heyecan verici mi yoksa rahatsız edici mi olduğu dinleyiciye bağlı.