Google’ın Gemini 2.5, Gerçek Zamanlı Ses ve Özel Konuşma Araçları Ekliyor

Image by Firmbee.com, from Unsplash

Google’ın Gemini 2.5, Gerçek Zamanlı Ses ve Özel Konuşma Araçları Ekliyor

Okuma süresi: 2 dk.

Google, Gemini 2.5 modelinde yerel ses özelliklerini tanıttı, bu da gerçek zamanlı diyalog ve kontrol edilebilir metinden konuşmaya (TTS) desteğini genişletti.

Acelesi olanlar için hızlı bilgiler:

  • Kullanıcılar, ses veya uyarılar kullanarak tonu, aksanı ve duyguyu kontrol edebilir.
  • Metinden sese özellikleri, ifade edilen, çok dilli, çok konuşmacılı ses oluşturmayı sağlar.
  • Gemini, arka plan gürültüsünü görmezden gelebilir ve sadece ilgili olduğunda yanıt verir.

Google, kullanıcıların ve geliştiricilerin sözlü konuşmalar için AI kullanabileceğini ve 24’ten fazla dil seçeneği aracılığıyla sesli içerik üretebileceğini duyurdu.

Google, Gemini 2.5’in artık sesi doğrudan ses olarak üretip anladığını belirtiyor, bu da kullanıcıların daha hızlı ve doğal bir şekilde etkileşimde bulunmasını sağlıyor. Model, tonunu, aksanını ve stilini değiştirmek için doğal dil komutlarını kabul ederken, duraklamalar ve fısıltılar gibi sözsüz özellikler ekliyor.

Sistem, Google Arama ve özel API’ler aracılığıyla dış araç bağlantısını, ilgili bilgileri almak üzere konuşmalar boyunca sürdürüyor.

Bir özellik, bağlam farkındalığını geliştirmeyi amaçlamaktadır. Gemini 2.5 sistemi, arka plandaki konuşmayı veya gürültüyü algılar ve yalnızca uygun olduğunda yanıtlar verir. Sistem, video akışı hakkında analiz yapma ve yorum sağlama veya paylaşılan ekran içeriğini anlama yeteneği sağlayan sesli-video anlayışını destekler.

Metinden konuşmaya dönüştürme bileşeni de güncellendi. Kullanıcılar artık duygusal ton ayarlaması, tempo kontrolü, telaffuz özelleştirmesi ve çok hoparlörlü ses çıkışı gibi ileri özelliklerle ses oluşturmayı kontrol edebilirler. Bu özellikler, hikaye anlatma, duyurular ve podcastler de dahil olmak üzere farklı içerik türleriyle çalışır.

Google, geliştiricilere Google AI Studio veya Vertex AI aracılığıyla Gemini 2.5 Pro ve Flash önizlemeleri sunmaktadır. Flash önizleme, hızlı ve uygun fiyatlı kullanım için hizmet verirken, Pro karmaşık komutlar için gelişmiş işlevsellik sunar.

Google, şeffaflığı sağlamak ve güvenlik amaçları için risk değerlendirmeleri yapmak üzere geliştirme sırasında tüm AI tarafından üretilen seslerde SynthID aracılığıyla filigran uyguladı. Şirket, sistemi halka açmadan önce iç ve dış güvenlik değerlendirmeleri gerçekleştirdi. Google, bu özellikleri metin, resim, video, kod ve gelişmiş ses arasında çalışan çok modlu AI sistemlerini geliştirme girişiminin bir parçası olarak uygular.

Bu makaleyi beğendiniz mi?
Puan verin!
Hiç sevmedim Pek beğenmedim Fena değildi Gayet iyiydi! Bayıldım!

Çalışmamızı beğenmeniz bizi çok mutlu etti!

Değerli bir okuyucumuz olarak Trustpilot sitesinde bizi puanlamak ister miydiniz? Bu hemen halledilebilen bir işlemdir ve emin olun ki görüşünüz bizim için çok kıymetlidir. Desteğiniz için ne kadar teşekkür etsek az!

Trustpilot'ta bize puan ver
0 0 kullanıcı tarafından oy verildi
Başlık
Yorum
Geri bildiriminiz için teşekkür ederiz