ASR Teknolojisinin Kullandığı Bilimsel Teknikler
ASR (Automatic Speech Recognition) teknolojisi
bir takım teknik modelleri bir arada kullanır. Ses tanımada kullanılan temel
modeller şunlardır:
Örüntü Tanıma
Gizli
Markov (Hidden Markov) Modeli
Dinamik
Zaman Sıkıştırması
Sinir
Ağları
SR ve TTS uygulamaları arasındaki fark
Makine
ile konuşarak iletişim kurmak, yüksek teknolojinin yıllardır hedefidir. Bu
hedef doğrultusunda “konuşma tanıma” (speech recognition) teknolojisi doğmuştur. Konuşmayı
tanıma teknolojisi; yapay zekâ, makine öğrenmesi, matematik ve dilbilimin
entegre olarak kullanıldığı işlevsel bir disiplindir. ASR teknolojisi ikiye
ayrılır. Ses tanıma ve algılama sistemleri (Speech Recognition) bilgisayar
tarafından insan sesinin tanınmasıdır.
Text to Speech ise, yazılı metnin (text) bilgisayar tarafından
dijitalize edilip ses fonetiği olarak dönüştürülmesidir. Yeni nesil cep
telefonlarındaki sesli arama (voice call) uygulamaları, aslında “text to speech”
teknolojisinin altyapısı üzerine kuruludur.
Ses Tanıma Sistemlerinin İşleyişi
1-Ses Tanıma
Ses tanıma, mikrofon ile alınmış
sinyalin kelimelere çevrilmesidir. Tabi ki, bu tanımlamanın gerçekleşmesi için
ses kaydının, ortam gürültüsünden asgari izole edilmesi ve sonrasında sistemin
algoritmasındaki ses değerlerine eşlenebilmesi gerekir. Kayıt edilen ses
biriminin doğru işlenebilmesi için sistem, veri havuzundaki “eşleştirme
veritabanı”nı kullanmaktadır. Eşleştirme işlemi, İngilizce’de %90’ların
üzerinde başarı gösterirken, semantik ve gramer yapısı farklı dillerde doğruluk
oranı düşmektedir.
2- İfadenin
saptanması
Sesi tanımlamada ikinci önemli işlem,
kayıt edilen ses sinyali öbeği içindeki seslerin, tekil parçalar olarak bitiş
ve başlangıç noktalarının belirlenmesidir. Bu aşamada; ses verilerinin kayıt
koşullarının optimal değerlerde ulaşması gerekir.
“Ortam gürültüsü” ve “toplu insan kalabalığı sesi” gibi ses sinyalleri,
ses dalgasının başlangıç ve bitiş noktalarını belirsizleştireceği için sistem
tarafından verimli olarak işlenemez. Bu
sebeple, sistem yazılımı ile birlikte özel olarak geliştirilmiş ses kartı,
işlemci ve mikrofon ürünleri kullanılarak, kayıt değerleri optimize
edilmelidir.
3- Sesin işlenmesi
Tanınmış ve
algoritma olarak saptanmış ses verisi, üçüncü aşamada sistem tarafından ASR algoritmalarıyla
değerlendirilir. Bu aşamada, bir dizi algoritma ile eşleştirme, normalleştirme
ve frekans analizleri gerçekleştirilir. ASR sürecinde, sesin ön tanımlarla
uyumu ve tanımlanması amacıyla birçok teknik kullanılır. (filtreler bankası, delta modülasyonu spektrum analizleri, algısal
düzlem öngörümü v.b.)
4-Karsılaştırma ve Gizli Markov Modeli
Karşılaştırma aşamasında sistem,
işlenmiş olan ses verisini “kaynak ortamlar” ve veri tabanındaki ses dataları
ile karşılaştırıp, doğruluk değerlendirmesi yapar. Ses tanımlamanın en önemli
aşaması olan karşılaştırma ve doğruluk işlemlerinde, çok fazla teknik
bulunmaktadır. Bu tekniklerden en önemlisi Gizli Markov Modeli olarak bilinen “Hidden
Markov Mode” (HMM) tekniğidir.
Markov Modeli, tüm dünyada ses tanıma
teknolojisinin temel modelidir. Bu model ayrıca, “Dynamic Time Warping (DTW)
gibi bir dizi lineer cebir tekniklerini ek olarak işlemlerinde kullanmaktadır. Markov
doğrulama teknikleri, bir taraftan “olasılık” ihtimallerini değerlendirirken,
diğer taraftan çözümleme amacıyla “normalleştirme” yöntemlerini içerir.
5- İşlemin Sonuçlanması
Ses tanıma sürecinde en son aşama, sonuçlandırmadır. Sonuç aşamadaki işlem;
kullanılan yazılım, veri tabanı ve algoritma
tekniklerine göre değişiklik gösterecektir. Örneğin, platform bir “Dikte”
yazılımı ise, tanımlanan sesin eşleştiği kelime, metin düzenleyicisine metin
(tex) olarak işlenir veya başka dile
çevrilir. Eğer kullanıcı, “Speech Recognition” bir yazılım ile PC kullanıyor
ise, işlem sonucunda tanımlanan komut ile işletim sistemini yönetilir ya da web
tarayıcısını ses ile komuta edebilir. Ya da “Voice Dictation” bir uygulama ise,
internet araması, sesli mesaj atma veya ses ile ajanda kaydına ulaşma benzeri işlemler
yapacaktır.
Gizli Markov Modeli ile Konuşmayı Tanıma
Saklı
Markov Modeli, Markov zincir modellerinin bütününü ifade eder. HMM; işaretlenmiş
sesi işleme, tanıma ve sınıflandırma çalışmalarında kullanılmaktadır. HMM
modeli ile yapılan çalışmalarda, çoklu katılım ile geliştirilmiş HMMTK (Hidden
Markov Model Tool Kit) aracı kullanılır. HMMTK sistemi, ses sentezi, karakter
tanıma ve sıralaması alanlarında kullanılır.
HMM ilk
olarak Cambridge Üniversitesi Makine Zekâsı Laboratuarı (Machine Intelligence
Laboratory) tarafından geliştirilmiş,
1999 yılında Microsoft tarafından satın alınmıştır. Modelde, kullanıcı tarafından
girilen ses verisinin ilk önce HMM aracı kullanılarak akustik özellikleri
çıkarılır. Akustik sesler, daha sonra önceden eğitilmiş ve ön tanımlı Saklı
Markov Modelleri sayesinde kelime olarak tanınır ve metne dönüştürülür.
Sonuç Olarak: Yapay Sinir Ağları Tekniği
Normalleştirme ve kesinlik
işlemlerinin, olasılık farklarını “görmezden” geldiği bilindiği için son
yıllarda Markov Modeli ile birlikte “Yapay Sinir Ağları” tekniği kullanılmaya
başlanmıştır. Yapay
sinir ağları, sibernetik gelişimin en son halkası olarak semantik yapıdaki
insan bilincine ve diline “en yakın eşleştirme” amacı ile geliştirilmiş karma tekniklerdir.
“Markov
Modeli ” ile birlikte kullanılan “Yapay
Sinir Ağları” tekniği ile yaratılan “Hibrit Modeller” sayesinde, istatistik ve
“ortalama değerler” gibi normalizasyon işlemlerinin getirdiği hatalar en aza
indirilmektedir. Yapay Sinir Ağları
tekniği, ses tanıma teknolojisinin “gerçek” anlamda verimliliğini ve işlevini
sağlayacak modeldir. Makine
algısının dil karşısında yetersizliğini kapatacak ve gelecek yıllarda tüm
dünyada bu teknolojinin kullanım penetrasyonunu arttıracak asıl model, Yapay
Sinir Ağları olacaktır.
Konuşmayı Tanıma ve Yazıya Çevirme Teknolojisi - 1
Konuşmayı Tanıma ve Yazıya Çevirme Teknolojisi - 2
Konuşmayı Tanıma ve Yazıya Çevirme Teknolojisi - 3
Konuşmayı Tanıma ve Yazıya Çevirme Teknolojisi - 4
Bu konudaki diğer yazılarımı aşağıdaki için linklerden okuyabilirsiniz
Konuşmayı Tanıma ve Yazıya Çevirme Teknolojisi - 1
Konuşmayı Tanıma ve Yazıya Çevirme Teknolojisi - 2
Konuşmayı Tanıma ve Yazıya Çevirme Teknolojisi - 3
Konuşmayı Tanıma ve Yazıya Çevirme Teknolojisi - 4
Ahmet Usta
Hiç yorum yok:
Yorum Gönder
Not: Yalnızca bu blogun üyesi yorum gönderebilir.