Konuşmanın Yazıya Dönüşmesi
Konuşmayı tanıma teknolojisi yazılımları; mikrofon aracılığı ile alınan
veriyi, kullanılan akustik algoritmalar ile programın benzerlik havuzu
kütüphanesindeki kelimelerle karşılaştırır ve tanımlar. Bu alandaki
yazılım ve uygulamalar, verimlilik ve başarı göstermesi açısında tekil kullanıcı
deneyimine bağımlıdırlar. Kullanıcı tarafından yazılıma kişiselleştirme
yapılmadığı takdirde, İngilizce dilinde dahi yeterli verimlilik sağlanamaz.
Eğitim-training süreciyle kullanıcının; yazılımın anlama ve metne dönüştürme hataları düzeltilip, yeniden tanımlayarak yazılımın "recognition" yani tanıma kapasitesini ve akustik algoritmasını yükseltmesi gerekir. Daha da önemlisi, "kişisel telaffuz" ve fonetik değerlerin algoritmaya tanıtılması, format dönüştürme ve dikte edebilme performansını arttıracaktır. Kullanıcının yazılımı, eğitim-training ile kişiselleştirmesinin yanında, “kaliteli mikrofon ve kayıt ortamındaki çevre koşulları” da ayrıca önemli verimlilik etkenleridir.
Eğitim-training süreciyle kullanıcının; yazılımın anlama ve metne dönüştürme hataları düzeltilip, yeniden tanımlayarak yazılımın "recognition" yani tanıma kapasitesini ve akustik algoritmasını yükseltmesi gerekir. Daha da önemlisi, "kişisel telaffuz" ve fonetik değerlerin algoritmaya tanıtılması, format dönüştürme ve dikte edebilme performansını arttıracaktır. Kullanıcının yazılımı, eğitim-training ile kişiselleştirmesinin yanında, “kaliteli mikrofon ve kayıt ortamındaki çevre koşulları” da ayrıca önemli verimlilik etkenleridir.
Windows Konuşmayı Tanıma Yazılımı - Windows Speech Recognition |
Mobil uygulamalar ve medya çalışanları
Apple mobile iOS ve Linux tabanlı Google Android mobil işletim platformlarında
kullanabileceğiniz Speect To Tex - Speech Recognition uygulamaları mesleki
olarak “Not alma ve Yayıncılık” (Take Noting and Publishing) alanlarında da rahatlıkla kullanılıyor. Özellikle basın
açıklaması, toplantı notları ve röportaj ses kayıtlarını hızlı şekilde metne
çeviren başarılı mobil uygulamalar, şimdiden medya çalışanlarının hayatına
girdi. STT - TTS uygulamaları, gelişen ve hız kazanan mobil gazetecilik ve
online medya yayıncılık ortamındaki rekabet indeksinde vazgeçilmez ses
teknolojileri olarak kullanılıyor.
Kalem Ve Defter?
Konuşma sesinin, metin (text) haline dönüştürülmesiyle defter ve kalem,
yakında “Masumiyet Müzesi” sergi alanlarına taşınacak görünüyor. Konuşmayı yazıya çeviren program teknolojileri, gelecekte belki de okuma ve yazma süratimizi ve alışkanlığımızı belirleyecek. Arama motoru çubuğuna tam tanımlı cümleler yazmaya dahi
üşenen "dijital doğanların", gelişen uygulamalar sonucunda gelecekte "pasif okuma-yazama" alışkanlığı kazanacağı söylenebilir.
En Önemli Ücretsiz Yazılımlar (Free License - GPL)
VoxForge: Linux, Windows ve Mac üzerinde çalışan "açık
kodlu" ses tanıma motorlarında kullanılmak üzere ses kayıtları toplamak için
geliştirilmiş bir havuz sistemdir.
www.voxforge.org/
www.voxforge.org/
MARF (Modüler Ses Tanıma Çerçevesi): sesli
mesaj, ses, konuşma, yazı ve doğal dil işleme (NLP) algoritmalarından oluşan
Java programı dilinde yazılmış açık kaynak kodlu araştırma ortamıdır.
http://marf.sourceforge.net
http://marf.sourceforge.net
CMU Sphinx: http://cmusphinx.sourceforge.net
HTK: Microsoft lisanslı "açık kaynak" sistemdir, özellikle yapay zeka çalışmalarında kullanılmaktadır.
http://research.microsoft.com/en-us/groups/srg/downloads.aspx
Emacspeak: görme engelliler için bilgisayar ile konuşma ara yüzü olarak geliştirilmiştir.
http://emacspeak.sourceforge.net
eSpeak speech synthesizer: Linux ve Windows ortamlarında çalışan yazılım, "konuşma
sentezleyicisi" olarak işlem yapmaktadır.
http://espeak.sourceforge.net
http://espeak.sourceforge.net
iATROS: https://prhlt.iti.upv.es/page/projects/multimodal/idoc/iatros/download
SHoUT toolkit: http://shout-toolkit.sourceforge.net
Apple Siri: "Size Nasıl Yardımcı Olabilirim?”
Geleceğin
yapaya zekâsının en net uygulama örneği, Apple Siri’dir. Pratik olarak aldığı sesli
komutları anlamakla yetinmeyip, yapay zekâsı ile ilk cümlenin sentaks yapısına
uygun olarak, gelecek ikinci cümleyi/soruyu anlama ve cevap verme yeteneğine sahip bir uygulamadır.
İngilizce olarak değerlendirildiğinde, gerçekten başarılı bir kişisel asistandır
Siri.
Siri, kısaca yapay zekâsı gelişmiş bir voice dictation" uygulaması/app dir, diyebiliriz. “Siri, yarın sabah beni uyandır” dediğinizde “tabi ki efendim saat kaçta?” biçiminde semantik sorgulamalar yapabilmektedir ve İngilizce "speech recognition" kütüphanelerinin altyapısını kullanarak, geçmiş yılların bilim-kurgu filmlerindeki bazı sibernetik özlemleri şimdilik kısıtlı oranda karşılayabilmektedir.
Fakat şuanda Siri uygulamasının ciddi dil
sorunu bulunmaktadır. İngilizce, Almanca ve Fransızca dilleri dışında 2012 itibariyle başka
dillerden kullanılamıyor. Gelecek, tabii ki Siri ve benzeri uygulamaların
pratik kullanımları ile şekillenecektir. Dil paketleri ve semantik veri havuzunun
gelişmesiyle sesli komut uygulamalarının, bir işletim sistemi biçiminde
gelişip, cloud/bulut teknolojisiyle entegre olarak evrimleşmesi bekleniyor.
Tabi ki en büyük engel, yine insan ve onun konuşma pratikleri arasındaki
farklılıklar olacak gibi görünüyor.
Siri, kısaca yapay zekâsı gelişmiş bir voice dictation" uygulaması/app dir, diyebiliriz. “Siri, yarın sabah beni uyandır” dediğinizde “tabi ki efendim saat kaçta?” biçiminde semantik sorgulamalar yapabilmektedir ve İngilizce "speech recognition" kütüphanelerinin altyapısını kullanarak, geçmiş yılların bilim-kurgu filmlerindeki bazı sibernetik özlemleri şimdilik kısıtlı oranda karşılayabilmektedir.
Sir: "Size nasıl yardımcı olabilirim?" - "How I can help you with" |
Google Voice Search Uygulaması
Değişik dillerin
ve şive farklılıklarının çözümüne yönelen Google, Siri ile büyük bir çıkış
yakalayan Apple’in dünya dillerindeki yetersizliğine karşı bir çözüm
getirdi. Sonradan piyasaya girmesine rağmen Google, speech recognation
uygulamasında Apple’in önüne geçmeyi belli oranda başardı. Google Voice Search,
yerel dillere verdiği önem ile yapay zekâ içermese de, ses tanıma olarak şuanda
dünya genelinde kullanılıyor. Google ve Apple arasında rekabetin
sesli komut uygulamalarında da devam edeceği kesin görünüyor.
Google, Türkiye’yi
öncelikli ülkelerden biri olarak kabul ettiği için ikinci dil paketi
açılımında, Türkçe'yi "Voice Search" yapısına dahil etti. Google sesli arama için
dünyanın tüm yerel dillerini içine alan ar-ge çalışmalarına devam ediyor. Her dil için bir
milyonu aşan kelime ve telaffuz havuzları oluşturuyor. Ayrıca Google Voice Search,
Gmail kullanıcılarına Amerika ve Kanada sınırlarında ücretsiz telefon görüşmesi
hizmeti sunuyor.
Google sesli arama - Google voice search |
Konuşmayı Yazıya Çeviren Teknolojiler Ve Güvenlik-İstihbarat Birimleri
SR
yazılımları, ulusal güvenlik gerekçeli “yasal dinleme” çalışmalarında yıllardır
kullanıyor. Şüpheli isimler ve anahtar kelime tabanlı ses kayıtlarının
incelenmesi, takip ve tanımlama sürecinin tarafsız olarak bilgisayarlar
tarafından yapılmasını sağlıyor. Ulusal ve uluslararası güvenlik kurumlarının kullandığı
ses dinleme ve metne dönüştürme yazılımları, kamusal olmuş teknolojilerden her
zaman daha ileri seviyede olduğu için, daha yoğun ve verimli biçimde
kullanılıyor.
Güvenlik ve istihbarat birimleri ses tanıma teknolojilerini, daha iyi anlamlandırılmış kitle ve birey davranışları oluşturma ve kitle-birey ağını yönetme pratiğinde kullanmaktalar. Ulusal veya uluslararası güvenlik örgütleri de en çok bu teknoloji üzerinde çalışıyor ve tabi ki "gölge" yöntemlerle yetkin biçimde kullanıyorlar.
Güvenlik ve istihbarat birimleri ses tanıma teknolojilerini, daha iyi anlamlandırılmış kitle ve birey davranışları oluşturma ve kitle-birey ağını yönetme pratiğinde kullanmaktalar. Ulusal veya uluslararası güvenlik örgütleri de en çok bu teknoloji üzerinde çalışıyor ve tabi ki "gölge" yöntemlerle yetkin biçimde kullanıyorlar.
Speak to your phone |
Kişisel Deneme
Google arama
sekmesindeki mikrofon imlecini tıkladıktan sonra, mikrofonla sesli arama
denemesi yaptım. Cümlem şu idi: “Ben, güzele güzel demem, güzel benim olmayınca
“ Google sesli aramanın tanıması ve arama yapma cümlesi şu oldu: “ben, güzele
güzel demem, güzel beni olmayınca”. Çok başarılıydı, %90 doğru tanımlama,
semantik olarak ise sıfır hata! :))))
Gelecek günlerimizde “yazı uçacak ama söz kalıcı olacak” diyebilir ve sadece konuşabiliriz.
Gelecek günlerimizde “yazı uçacak ama söz kalıcı olacak” diyebilir ve sadece konuşabiliriz.
Kaynakça:
http://en.wikipedia.org/wiki/List_of_speech_recognition_software#External_links
http://tr.wikipedia.org/wiki/Ses_konu%C5%9Fma_tan%C4%B1mlay%C4%B1c%C4%B1_yaz%C4%B1l%C4%B1mlar
http://voice-recognition-software-review.toptenreviews.com/voice-recognition-software-dictation-test.html