Bilgisayara ses ile komut vermek!
Konuşmayı tanıma ve yazıya çevirme teknolojisi,
yakın geleceğimizdeki en önemli tekno-mobil gelişim olacak. Ses teknolojileri,
internet ile gelen dijital iletişim dünyamızın tamamlanması ve “dijitalize”
olmamız anlamında geliyor. Yeni ses teknolojileri programları, kendi içinde 3 kısma
ayrılıyor: sesli arama, sesli komut ile yönetme ve konuşma sesini yazıya
dönüştürme.
İngilizce’de voice dictation, speech recognition, speech to text gibi
isimlerle nitelenen bu yazılımlarla; sesli arama ve mesajlaşma, ses ile arama
motoru sorgulama, ses komutları ile işletim sistemini yöneltme, ses kaydını
metin formatına çevirme ve metin formatını ses dosyasına dönüştürme gibi
uygulamalar yapılabiliyor.
Konuşma tanıma ve yazıya dönüştürme (Speech Recognition – Speech to text) teknolojisi nedir?
Konuşmayı tanıma ve yazıya çevirme teknolojisi,
(Speech Recognition – Speech to text – Voice Dictation) klavyeyi
kullanmadan konuşarak komut verme ve konuşmalarınızı yazıya dönüştürme
teknolojisidir. Bu teknoloji ile yazılarınızı konuşarak yazabilir, işletim
sisteminizi sesle komuta edebilirsiniz. Konuşmayı yazıya dönüştürme teknolojileri,
insanlığın teknolojiden beklediği son evrimi müjdelemektedir. Bu beklenti
insanın en doğal iletişim biçimi olan konuşma ve dil yetisiyle, teknik araçların
hızlı ve kolay kullanımının sağlanmasıdır. Tabi ki yüzyıllardır özlemi çekilen
bu arayışın günümüzde geldiği nokta da, gelişim tamamlanmadı ama çok önemli
mesafe kat edildiğini görebiliyoruz.
Windows Speech Recognition İnceleme Videosu
SR, STT, VD, TS olarak tanımlanan konuşmayı tanıma programlarının
açılımlarına bakarsak;
SR – speech recognition, konuşma sesini anlama, yazı dönüştürme ve işletim sisteminin sesle komuta edilmesidir. SR yazılımları, görme ve fizik engelli insanların bilgisayar kullanımına olanak sağlamıştır. Yazılım, kişilere işletim sistemlerini konuşarak klavyesiz yönetme becerisi kazandırır.
STT – speech to text, sadece konuşmayı metne dönüştüren yazılımlardır.
VD – voice dictation, çoğunlukla mobil sistemleri sesle komuta etme uygulamalarıdır ve en popüler olanlarıdır. VD uygulamaları; sesli komutla arama motoru kullanabilme, sesle mesaj yazma ve mesajı gönderme, olanaklarını sunmaktadır.
TS - text to speech yazılımları ise, bir alt kategori olarak ses dosyalarını yazıya dönüştüren yazılımlardır. TS uygulamaları, daha çok medya çalışanlarının basın toplantısı ve röportaj gibi ses kayıtlarını hızlı bir şekilde yazıya döküp, deşifre etme ve ajanslara servis etme gibi alanlarda kullandığı bir önemli teknolojidir.
SR – speech recognition, konuşma sesini anlama, yazı dönüştürme ve işletim sisteminin sesle komuta edilmesidir. SR yazılımları, görme ve fizik engelli insanların bilgisayar kullanımına olanak sağlamıştır. Yazılım, kişilere işletim sistemlerini konuşarak klavyesiz yönetme becerisi kazandırır.
STT – speech to text, sadece konuşmayı metne dönüştüren yazılımlardır.
VD – voice dictation, çoğunlukla mobil sistemleri sesle komuta etme uygulamalarıdır ve en popüler olanlarıdır. VD uygulamaları; sesli komutla arama motoru kullanabilme, sesle mesaj yazma ve mesajı gönderme, olanaklarını sunmaktadır.
TS - text to speech yazılımları ise, bir alt kategori olarak ses dosyalarını yazıya dönüştüren yazılımlardır. TS uygulamaları, daha çok medya çalışanlarının basın toplantısı ve röportaj gibi ses kayıtlarını hızlı bir şekilde yazıya döküp, deşifre etme ve ajanslara servis etme gibi alanlarda kullandığı bir önemli teknolojidir.
En Popüler Ses Tanıma Yazılımlarının İngilizce Test Sonuçları
1. Dragon Naturally Speaking: 17 hata, 93% doğruluk
2. Windows Speech Recognition: 19 hata, 92% doğruluk
3. IBM ViaVoice: 11 hata, 90% doğruluk
4. MacSpeech
Dictate: 12 hata, 94% doğruluk
5. E-Speaking: 34 hata, 86% doğruluk
Uyarı: test bireysel denemedir, optimist yaklaşılmıştır, genelleme içeremez!
Uyarı: test bireysel denemedir, optimist yaklaşılmıştır, genelleme içeremez!
En Çok Kullanılan Uygulamalar: Google Voice Search Ve iOS Siri
Apple mobile iOS ve Linux tabanlı Google Android mobil işletim platformlarında
kullanabileceğiniz iki önemli uygulama var: Google Voice Search ve Siri. iOS tabanlı çalışan Siri uygulaması, yapay zekâ
üzerindeki çalışmalar sonucunda Apple şirketinin piyasaya sunduğu bir hizmettir.
Siri’nin lansman sürecinde “akıllı asistan/sekreter” olarak ön plana çıkarılması
tüm dünyada ilgiyi bu uygulamanın üzerine çekmişti. Hatta Siri, Apple
mucizesinin mobil ortamda göz bebeği olarak kabul edilmişti.
Siri: “Size Nasıl Yardımcı Olabilirim?”
“What can I help you with?" sloganı ile lanse edilen Siri, iPhone ile yapay zekâyı evimize değil, elimize getirmeyi vaat ediyordu. Siri
“İstekleriniz onun için bir emirdir” mottosu ile piyasaya sürüldü ve büyük ilgi
gördü, başta İngilizce ve kıta Avrupası dillerinde çok yüksek oranda kullanım
başarısı gösteren uygulama, Apple mucizeleri listesinde ilk sıralarda yer aldı, alıyor. Fakat Türkiye gibi Apple ürünlerine yoğun ilginin olduğu bir ülkede Siri uygulaması, Türkçe dil desteği henüz olmadığı için maalesef İngilizce
kullanılıyor.
Google Voice Search Uygulaması
Google Voice
Search, Google’ın 2010 yılında çıkardığı bir uygulamadır ve mobil-deskop tüm
sistemlere entegre edilmiştir. Google'ın telaffuz edilen kelimeleri, metin
haline çeviren konuşma tanıma teknolojisinden faydalanan Voice Search, Android
tabanlı olmasıyla özellikle İngilizce mobil ortamlarda çok başarı oldu.
Google’ın diğer dünya dillerini geliştirmedeki beceri ve birikimi sayesinde, bu
uygulama Türkçe olarak kısıtlı da olsa başarıyla kullanılıyor. Google Voice Search’un
başarısında, Google ekibinin ekstra çalışmaları da çok önemli etki göstermektedir. Google, dünyanın değişik yerlerinde var olan dilleri, veri olarak kütüphanesine dahil
ederken bir yandan farklı telaffuz örneklerini toplamaya devam ediyor ve şive farklılıklarını
sistemine entegre etmeye çalışıyor.
voice search with Google - Google ile sesli arama |
Google Voice Search ve iOS Siri Karşılaştırma Videosu
Bilişsel bir özlem olarak, metin ve konuşma sesinin kendi aralarında dijital
dönüşüm içermesi, insan doğasının online ve offline bütünleşmesinin son noktası olarak değerlendirebilir. Masaüstü-mobil yazılımlarla birlikte ses teknolojilerinin
hayatımızda girmesiyle birlikte, “kalem-defter” gibi analog araçlarımız artık
“retro teknikler” olarak kabul edilmeye başlanmış görünüyor.
Belki de çok yakın bir zamanda, ses komut teknolojileriyle, tüm dünyanın tek bir dilde (İngilizce) iletişime
girmesi mümkün olabilecek.
Ahmet Usta
Kaynak:
http://en.wikipedia.org/wiki/List_of_speech_recognition_software
http://www.google.com/intl/tr/insidesearch/features/voicesearch/index-chrome.html
http://www.apple.com/ios/siri/