google-site-verification: google7dbf1f4d96c506c2.html Sosyal Medya Macerası: Sosyal Ağlar, Sinema, İnternet, Sağlık
Text to Speech etiketine sahip kayıtlar gösteriliyor. Tüm kayıtları göster
Text to Speech etiketine sahip kayıtlar gösteriliyor. Tüm kayıtları göster

2 Kasım 2013

Konuşmayı Tanıma Ve Yazıya Çevirme Teknolojisi - 5




ASR Teknolojisinin Kullandığı Bilimsel Teknikler


ASR  (Automatic Speech Recognition) teknolojisi bir takım teknik modelleri bir arada kullanır. Ses tanımada kullanılan temel modeller şunlardır:

Örüntü Tanıma
            Gizli Markov (Hidden Markov) Modeli
            Dinamik Zaman Sıkıştırması
      Sinir Ağları

SR ve TTS uygulamaları arasındaki fark


Makine ile konuşarak iletişim kurmak, yüksek teknolojinin yıllardır hedefidir. Bu hedef doğrultusunda “konuşma tanıma” (speech recognition) teknolojisi doğmuştur. Konuşmayı tanıma teknolojisi; yapay zekâ, makine öğrenmesi, matematik ve dilbilimin entegre olarak kullanıldığı işlevsel bir disiplindir. ASR teknolojisi ikiye ayrılır. Ses tanıma ve algılama sistemleri (Speech Recognition) bilgisayar tarafından insan sesinin tanınmasıdır.  Text to Speech ise, yazılı metnin (text) bilgisayar tarafından dijitalize edilip ses fonetiği olarak dönüştürülmesidir. Yeni nesil cep telefonlarındaki sesli arama (voice call) uygulamaları, aslında “text to speech” teknolojisinin altyapısı üzerine kuruludur.


Ses Tanıma Sistemlerinin İşleyişi


1-Ses Tanıma

Ses tanıma, mikrofon ile alınmış sinyalin kelimelere çevrilmesidir. Tabi ki, bu tanımlamanın gerçekleşmesi için ses kaydının, ortam gürültüsünden asgari izole edilmesi ve sonrasında sistemin algoritmasındaki ses değerlerine eşlenebilmesi gerekir. Kayıt edilen ses biriminin doğru işlenebilmesi için sistem, veri havuzundaki “eşleştirme veritabanı”nı kullanmaktadır. Eşleştirme işlemi, İngilizce’de %90’ların üzerinde başarı gösterirken, semantik ve gramer yapısı farklı dillerde doğruluk oranı düşmektedir.

2- İfadenin saptanması

Sesi tanımlamada ikinci önemli işlem, kayıt edilen ses sinyali öbeği içindeki seslerin, tekil parçalar olarak bitiş ve başlangıç noktalarının belirlenmesidir. Bu aşamada; ses verilerinin kayıt koşullarının optimal değerlerde ulaşması gerekir.

“Ortam gürültüsü” ve “toplu insan kalabalığı sesi” gibi ses sinyalleri, ses dalgasının başlangıç ve bitiş noktalarını belirsizleştireceği için sistem tarafından verimli olarak işlenemez. Bu sebeple, sistem yazılımı ile birlikte özel olarak geliştirilmiş ses kartı, işlemci ve mikrofon ürünleri kullanılarak, kayıt değerleri optimize edilmelidir.

3- Sesin işlenmesi

Tanınmış ve algoritma olarak saptanmış ses verisi, üçüncü aşamada sistem tarafından ASR algoritmalarıyla değerlendirilir. Bu aşamada, bir dizi algoritma ile eşleştirme, normalleştirme ve frekans analizleri gerçekleştirilir. ASR sürecinde, sesin ön tanımlarla uyumu ve tanımlanması amacıyla birçok teknik kullanılır. (filtreler bankası, delta modülasyonu spektrum analizleri, algısal düzlem öngörümü v.b.)

4-Karsılaştırma ve Gizli Markov Modeli

Karşılaştırma aşamasında sistem, işlenmiş olan ses verisini “kaynak ortamlar” ve veri tabanındaki ses dataları ile karşılaştırıp, doğruluk değerlendirmesi yapar. Ses tanımlamanın en önemli aşaması olan karşılaştırma ve doğruluk işlemlerinde, çok fazla teknik bulunmaktadır. Bu tekniklerden en önemlisi Gizli Markov Modeli olarak bilinen “Hidden Markov Mode” (HMM) tekniğidir.

Markov Modeli, tüm dünyada ses tanıma teknolojisinin temel modelidir. Bu model ayrıca, “Dynamic Time Warping (DTW) gibi bir dizi lineer cebir tekniklerini ek olarak işlemlerinde kullanmaktadır. Markov doğrulama teknikleri, bir taraftan “olasılık” ihtimallerini değerlendirirken, diğer taraftan çözümleme amacıyla “normalleştirme” yöntemlerini içerir.

5- İşlemin Sonuçlanması

Ses tanıma sürecinde en son aşama, sonuçlandırmadır. Sonuç aşamadaki işlem; kullanılan yazılım,  veri tabanı ve algoritma tekniklerine göre değişiklik gösterecektir. Örneğin, platform bir “Dikte” yazılımı ise, tanımlanan sesin eşleştiği kelime, metin düzenleyicisine metin (tex)  olarak işlenir veya başka dile çevrilir. Eğer kullanıcı, “Speech Recognition” bir yazılım ile PC kullanıyor ise, işlem sonucunda tanımlanan komut ile işletim sistemini yönetilir ya da web tarayıcısını ses ile komuta edebilir. Ya da “Voice Dictationbir uygulama ise, internet araması, sesli mesaj atma veya ses ile ajanda kaydına ulaşma benzeri işlemler yapacaktır.

Gizli Markov Modeli ile Konuşmayı Tanıma


Saklı Markov Modeli, Markov zincir modellerinin bütününü ifade eder. HMM; işaretlenmiş sesi işleme, tanıma ve sınıflandırma çalışmalarında kullanılmaktadır. HMM modeli ile yapılan çalışmalarda, çoklu katılım ile geliştirilmiş HMMTK (Hidden Markov Model Tool Kit) aracı kullanılır. HMMTK sistemi, ses sentezi, karakter tanıma ve sıralaması alanlarında kullanılır.

HMM ilk olarak Cambridge Üniversitesi Makine Zekâsı Laboratuarı (Machine Intelligence Laboratory)  tarafından geliştirilmiş, 1999 yılında Microsoft tarafından satın alınmıştır. Modelde, kullanıcı tarafından girilen ses verisinin ilk önce HMM aracı kullanılarak akustik özellikleri çıkarılır. Akustik sesler, daha sonra önceden eğitilmiş ve ön tanımlı Saklı Markov Modelleri sayesinde kelime olarak tanınır ve metne dönüştürülür.

Sonuç Olarak: Yapay Sinir Ağları Tekniği

Normalleştirme ve kesinlik işlemlerinin, olasılık farklarını “görmezden” geldiği bilindiği için son yıllarda Markov Modeli ile birlikte “Yapay Sinir Ağları” tekniği kullanılmaya başlanmıştır. Yapay sinir ağları, sibernetik gelişimin en son halkası olarak semantik yapıdaki insan bilincine ve diline “en yakın eşleştirme” amacı ile geliştirilmiş karma tekniklerdir.

“Markov Modeli ” ile birlikte kullanılan  “Yapay Sinir Ağları” tekniği ile yaratılan “Hibrit Modeller” sayesinde, istatistik ve “ortalama değerler” gibi normalizasyon işlemlerinin getirdiği hatalar en aza indirilmektedir. Yapay Sinir Ağları tekniği, ses tanıma teknolojisinin “gerçek” anlamda verimliliğini ve işlevini sağlayacak modeldir. Makine algısının dil karşısında yetersizliğini kapatacak ve gelecek yıllarda tüm dünyada bu teknolojinin kullanım penetrasyonunu arttıracak asıl model, Yapay Sinir Ağları olacaktır.

Bu konudaki diğer yazılarımı aşağıdaki için linklerden okuyabilirsiniz


Konuşmayı Tanıma ve Yazıya Çevirme Teknolojisi - 1
Konuşmayı Tanıma ve Yazıya Çevirme Teknolojisi - 2
Konuşmayı Tanıma ve Yazıya Çevirme Teknolojisi - 3
Konuşmayı Tanıma ve Yazıya Çevirme Teknolojisi - 4

Ahmet Usta