Sosyal Medya Macerası: Sosyal Ağlar, Sinema, İnternet, Sağlık

Ses Tanıma Sistemlerinin Yapısı

Ses tanıma sistemlerinin çalışma prensibi, insanlar arası sesli iletişim sürecinde dinleyicinin yaptığı eylemi simüle etmeye (taklit etme) dayanır. Sistem, dinleyici olarak sesi kayıt eder, sesin dil olarak kodlanması için sistemin algoritmalarıyla eşleştirir ve karşılaştırıp, yorumlayamaya gider.

Ses Tanıma Ve Algılama (Speech Recognition)

Speech Recognition, bilgisayar tarafından sesin algılanması, tanımlanması, metne dönüştürülüp yorumlanması eylemidir. Ses tanıma teknolojisinden beklenen; ses komutları vererek bilgisayarı komuta etmek, programları yönetmek, internette gezinmek ve bilgisayara konuşma sesi ile metin yazdırmaktır. Bu alanda en büyük ihtiyaç sahibi kitle tabi ki, görme engelli insanlardır.

Ses tanıması, uygun ortam şartlarında kayıt edilmiş konuşmacı seslerinin makine tarafından kayıt edilip, işlenmesi ve veri tabanı ile karşılaştırıp metin ve komut haline dönüştürmesi işlemidir. Bu teknoloji kısaca, işitsel ses sinyallerinin linguistik ve anlamsal analiz teknolojisidir. Son yıllardaki ses kayıt teknolojisi ve bilgisayar donanım güçlerinde gelişmeler ile tanımlama sorunlarında büyük gelişme kaydedilmiştir.

ASR Teknolojisi (Automatic Speech Recognition)

İnsan sesinin, konuşmanın bilgisayar tarafından tanınması için kullanılan algoritmalara, otomatik ses tanıması (Automatic Speech Recognition) yani kısaca ASR teknolojisi de denmektedir.

Sesli tanıma tekniği, şu yöntemleri kullanmaktadır:

Örüntü Tanıma,
Hidden Markov Modeli
Dinamik Zaman Sıkıştırması
Sinir Ağları

Günümüze kadar “ses tanıma ve anlamlandırma” ile ilgili yapılan çalışmalar, büyük oranda İngilizce dili gramer özelliklerini temel almıştır. Geliştirim dili yani “kabuk dil” olarak İngilizcenin seçilmesi, Türkçe ve benzeri farklı sektans yapılarına sahip dillerin, bu teknoloji içinde kullanımın büyük oranda engellemektedir.

Microsoft SDK

Microsoft’un Speech Recognition (Ses Tanıma) açık kaynak programı, .Net Framework 3.0 versiyonundaki kütüphane ortamında tüm geliştiricilerin kullanımına açıktır. Microsoft firmasının sesli ifade tanımayla ilgili yıllar önce “açık kaynak” olarak sunduğu “SDK” tüm dünyada .Net geliştiricilerine açık olmasına rağmen, maalesef İngilizce gramer yapısında işlem görmektedir.

GVZ: İlk Türkçe ses tanıma programı

Ülkemizde TÜBİTAK ve bazı üniversitelerde devam eden projeler olmasına rağmen, son kullanıcı bazlı “ses tanıma ve sesli çeviri yazılımı” çok fazla bulunmamaktadır. Özel sektörde ise, SesTek firması 2009 yılı itibariyle ilk yerli firma hizmeti olarak, Türkçe ses tanıma yazılımı "GVZ"yi piyasaya sürmüştür.

Konuşmanın Yazıya Dönüşmesi

ASR programları ile sesinizi kullanarak; hem bilgisayarınızın işletim sistemini yönetebilir (commanding) hem de internet tarayıcınız üzerinden ses komutları ile sörf yapabilirsiniz. Aynı zamanda mikrofon üzerinden konuşarak, klavye kullanmadan Word dosyaları oluşturabilir (dictating), yazılar yazabilirsiniz.

İngilizce dilinde hizmet veren global ASR programları ile dijital yaşamınızı yönlendirmek mümkün iken, Türkçe gibi farklı ve sondan eklemeli dil grameri üzerinden ses tanıması yapabilen global ve yüksek verimlilikte yazılım henüz bulunmamaktadır.

Mobil Ses Tanıma ve Siri

SR teknolojisinin basit versiyonu olarak, akıllı telefonlardaki sesli arama (voice dictation - voice search) uygulamalarından bahsedebiliriz. Aklı telefonlardaki sesli arama yazılımları, örneğin iPhone – Siri uygulaması, ASR teknolojisi altyapısından faydalanan başarılı bir uygulamadır. ASR ve VD (voice dictation) yazılımlarının mobil uygulama ara yüzlerinin eskiye göre çok kullanışlı olması, tüm dünyada kullanıcı bazında büyük ilgi görmelerini sağlamaktadır.

Sibernetik Teknoloji ve Ses Tanıma

Sibernetik, İnsan ve makine sistemlerinin ortak ve etkileşimli çalışma prensipleri üzerinde araştırmalar yapan disiplinler arası faaliyet gösteren bilim dalıdır. Sibernetik bilim çalışanlarının "bilgisayar ile konuşarak iletişim kurma" projeleri insan-robot uyumunun dil üzerinden ulaşacağı son noktadır. Aynı zamanda modern dünyamızın insanı için, sesle makine kontrolü, çok uzun zamandır beklenen bir tekno-konfor, özlemdir. Sibernetik bilimin önderliğinde, özellikle soğuk savaş döneminde büyük araştırma ve yatırım yapılan ses tanıma teknolojisinde devlet kuruluşları ve özel şirketler ortak faaliyetlerine devam etmektedirler.

Diğer yandan bu teknoloji, "insanı, insan yapan asli unsur olan dil" üzerine faaliyet gösterdiği için insan sesi ve telaffuz işlemlerinde büyük zorluklar içermektedir. Ses tanıma teknolojisi araştırmaları, çok sayıda bilimsel disiplin ve teknolojinin bir arada kullanılmasını gerektirmektedir. Ayrıca bu teknoloji, dünyadaki dil çeşitliliği ve lehçe farklılıklarının tümünü tanıma ve analiz etme sürecinde henüz kesin başarıya ulaşamamıştır.

İnsanın işitme sisteminin makine tarafından simüle edilmesi kolay iken, insan topluluklarının coğrafyaya göre değişen dil ve anlam yapısının psiko-fiziksel tanımlanma ve anlamlandırmasını makine üzerinden simüle etmek, bilim ve teknolojinin zorlandığı çalışma alanlarından biridir. Bilimsel anlamda üzerinde kesin kuralların konulamadığı “belirsiz” bir alan olan konuşmayı "semantik" olarak çözümleme ve dijitalize etme, bu teknolojinin kesin başarısını şimdilik gölgelemektedir.

Ahmet Usta

Sosyal Medya Macerası

Sayfalar

29 Ağustos 2013

Konuşmayı Tanıma Ve Yazıya Çevirme Teknolojisi - 4