Ses Tanıma Sistemlerinin Yapısı
Ses tanıma sistemlerinin
çalışma prensibi, insanlar arası sesli iletişim sürecinde dinleyicinin yaptığı
eylemi simüle etmeye (taklit etme) dayanır. Sistem, dinleyici olarak sesi
kayıt eder, sesin dil olarak kodlanması için sistemin algoritmalarıyla
eşleştirir ve karşılaştırıp, yorumlayamaya gider.
Ses Tanıma Ve Algılama (Speech Recognition)
Speech Recognition, bilgisayar tarafından sesin
algılanması, tanımlanması, metne dönüştürülüp yorumlanması eylemidir. Ses tanıma
teknolojisinden beklenen; ses komutları vererek bilgisayarı komuta etmek,
programları yönetmek, internette gezinmek ve bilgisayara konuşma sesi ile metin
yazdırmaktır. Bu alanda en büyük ihtiyaç sahibi kitle tabi ki, görme engelli
insanlardır.
Ses tanıması, uygun ortam şartlarında kayıt edilmiş
konuşmacı seslerinin makine tarafından kayıt edilip, işlenmesi ve veri tabanı
ile karşılaştırıp metin ve komut haline dönüştürmesi işlemidir. Bu teknoloji
kısaca, işitsel ses sinyallerinin linguistik ve anlamsal analiz teknolojisidir.
Son yıllardaki ses kayıt teknolojisi ve bilgisayar donanım güçlerinde
gelişmeler ile tanımlama sorunlarında büyük gelişme kaydedilmiştir.
ASR Teknolojisi (Automatic Speech Recognition)
İnsan sesinin, konuşmanın bilgisayar tarafından
tanınması için kullanılan algoritmalara, otomatik ses tanıması (Automatic
Speech Recognition) yani kısaca ASR teknolojisi de denmektedir.
Sesli tanıma tekniği, şu yöntemleri kullanmaktadır:
- Örüntü Tanıma,
- Hidden Markov Modeli
- Dinamik Zaman Sıkıştırması
- Sinir Ağları
Günümüze kadar “ses tanıma ve anlamlandırma” ile
ilgili yapılan çalışmalar, büyük oranda İngilizce dili gramer özelliklerini
temel almıştır. Geliştirim dili yani “kabuk dil” olarak İngilizcenin seçilmesi,
Türkçe ve benzeri farklı sektans yapılarına
sahip dillerin, bu teknoloji içinde kullanımın büyük oranda engellemektedir.
Microsoft SDK
Microsoft’un Speech Recognition (Ses Tanıma) açık
kaynak programı, .Net Framework 3.0 versiyonundaki kütüphane ortamında tüm
geliştiricilerin kullanımına açıktır. Microsoft firmasının sesli ifade
tanımayla ilgili yıllar önce “açık kaynak” olarak sunduğu “SDK” tüm
dünyada .Net geliştiricilerine açık olmasına rağmen, maalesef İngilizce gramer
yapısında işlem görmektedir.
GVZ: İlk Türkçe ses tanıma programı
Ülkemizde TÜBİTAK ve bazı üniversitelerde devam eden
projeler olmasına rağmen, son kullanıcı bazlı “ses tanıma ve sesli çeviri
yazılımı” çok fazla bulunmamaktadır. Özel sektörde ise, SesTek firması 2009 yılı itibariyle ilk yerli firma hizmeti olarak,
Türkçe ses tanıma yazılımı "GVZ"yi piyasaya sürmüştür.
Konuşmanın Yazıya Dönüşmesi
ASR programları ile
sesinizi kullanarak; hem bilgisayarınızın işletim sistemini yönetebilir
(commanding) hem de internet tarayıcınız üzerinden ses komutları ile sörf
yapabilirsiniz. Aynı zamanda mikrofon üzerinden konuşarak, klavye kullanmadan
Word dosyaları oluşturabilir (dictating), yazılar yazabilirsiniz.
İngilizce dilinde
hizmet veren global ASR programları ile dijital yaşamınızı yönlendirmek mümkün
iken, Türkçe gibi farklı ve sondan eklemeli dil grameri üzerinden ses tanıması
yapabilen global ve yüksek verimlilikte yazılım henüz bulunmamaktadır.
Mobil Ses Tanıma ve Siri
SR teknolojisinin basit versiyonu olarak, akıllı
telefonlardaki sesli arama (voice dictation - voice search) uygulamalarından
bahsedebiliriz. Aklı telefonlardaki sesli arama yazılımları, örneğin iPhone –
Siri uygulaması, ASR teknolojisi altyapısından faydalanan başarılı bir uygulamadır. ASR ve VD (voice dictation) yazılımlarının mobil uygulama ara
yüzlerinin eskiye göre çok kullanışlı olması, tüm dünyada kullanıcı bazında
büyük ilgi görmelerini sağlamaktadır.
Sibernetik Teknoloji ve Ses Tanıma
Sibernetik, İnsan ve makine
sistemlerinin ortak ve etkileşimli çalışma prensipleri üzerinde araştırmalar
yapan disiplinler arası faaliyet gösteren bilim dalıdır. Sibernetik
bilim çalışanlarının "bilgisayar ile konuşarak iletişim kurma" projeleri insan-robot uyumunun dil üzerinden ulaşacağı son noktadır. Aynı zamanda modern
dünyamızın insanı için, sesle makine kontrolü, çok uzun zamandır beklenen bir tekno-konfor,
özlemdir. Sibernetik bilimin önderliğinde, özellikle soğuk savaş döneminde
büyük araştırma ve yatırım yapılan ses tanıma teknolojisinde devlet kuruluşları
ve özel şirketler ortak faaliyetlerine devam etmektedirler.
Diğer yandan bu teknoloji, "insanı, insan yapan asli
unsur olan dil" üzerine faaliyet gösterdiği için insan sesi ve telaffuz işlemlerinde büyük
zorluklar içermektedir. Ses tanıma teknolojisi araştırmaları, çok sayıda bilimsel disiplin ve teknolojinin bir arada kullanılmasını
gerektirmektedir. Ayrıca bu teknoloji, dünyadaki dil çeşitliliği ve lehçe farklılıklarının tümünü tanıma ve analiz etme sürecinde henüz kesin başarıya ulaşamamıştır.
İnsanın işitme sisteminin makine tarafından simüle
edilmesi kolay iken, insan topluluklarının coğrafyaya göre değişen dil ve anlam yapısının psiko-fiziksel tanımlanma ve
anlamlandırmasını makine üzerinden simüle etmek, bilim ve teknolojinin zorlandığı
çalışma alanlarından biridir. Bilimsel anlamda üzerinde kesin kuralların konulamadığı “belirsiz” bir
alan olan konuşmayı "semantik" olarak çözümleme ve dijitalize etme, bu teknolojinin kesin başarısını şimdilik gölgelemektedir.
Ahmet
Usta