Sosyal Medya Macerası: Sosyal Ağlar, Sinema, İnternet, Sağlık

Ses Tanıma etiketine sahip kayıtlar gösteriliyor. Tüm kayıtları göster

2 Kasım 2013

Konuşmayı Tanıma Ve Yazıya Çevirme Teknolojisi - 5

ASR Teknolojisinin Kullandığı Bilimsel Teknikler

ASR (Automatic Speech Recognition) teknolojisi bir takım teknik modelleri bir arada kullanır. Ses tanımada kullanılan temel modeller şunlardır:

Örüntü Tanıma

Gizli Markov (Hidden Markov) Modeli

Dinamik Zaman Sıkıştırması

Sinir Ağları

SR ve TTS uygulamaları arasındaki fark

Makine ile konuşarak iletişim kurmak, yüksek teknolojinin yıllardır hedefidir. Bu hedef doğrultusunda “konuşma tanıma” (speech recognition) teknolojisi doğmuştur. Konuşmayı tanıma teknolojisi; yapay zekâ, makine öğrenmesi, matematik ve dilbilimin entegre olarak kullanıldığı işlevsel bir disiplindir. ASR teknolojisi ikiye ayrılır. Ses tanıma ve algılama sistemleri (Speech Recognition) bilgisayar tarafından insan sesinin tanınmasıdır. Text to Speech ise, yazılı metnin (text) bilgisayar tarafından dijitalize edilip ses fonetiği olarak dönüştürülmesidir. Yeni nesil cep telefonlarındaki sesli arama (voice call) uygulamaları, aslında “text to speech” teknolojisinin altyapısı üzerine kuruludur.

Ses Tanıma Sistemlerinin İşleyişi

1-Ses Tanıma

Ses tanıma, mikrofon ile alınmış sinyalin kelimelere çevrilmesidir. Tabi ki, bu tanımlamanın gerçekleşmesi için ses kaydının, ortam gürültüsünden asgari izole edilmesi ve sonrasında sistemin algoritmasındaki ses değerlerine eşlenebilmesi gerekir. Kayıt edilen ses biriminin doğru işlenebilmesi için sistem, veri havuzundaki “eşleştirme veritabanı”nı kullanmaktadır. Eşleştirme işlemi, İngilizce’de %90’ların üzerinde başarı gösterirken, semantik ve gramer yapısı farklı dillerde doğruluk oranı düşmektedir.

2- İfadenin saptanması

Sesi tanımlamada ikinci önemli işlem, kayıt edilen ses sinyali öbeği içindeki seslerin, tekil parçalar olarak bitiş ve başlangıç noktalarının belirlenmesidir. Bu aşamada; ses verilerinin kayıt koşullarının optimal değerlerde ulaşması gerekir.

“Ortam gürültüsü” ve “toplu insan kalabalığı sesi” gibi ses sinyalleri, ses dalgasının başlangıç ve bitiş noktalarını belirsizleştireceği için sistem tarafından verimli olarak işlenemez. Bu sebeple, sistem yazılımı ile birlikte özel olarak geliştirilmiş ses kartı, işlemci ve mikrofon ürünleri kullanılarak, kayıt değerleri optimize edilmelidir.

3- Sesin işlenmesi

Tanınmış ve algoritma olarak saptanmış ses verisi, üçüncü aşamada sistem tarafından ASR algoritmalarıyla değerlendirilir. Bu aşamada, bir dizi algoritma ile eşleştirme, normalleştirme ve frekans analizleri gerçekleştirilir. ASR sürecinde, sesin ön tanımlarla uyumu ve tanımlanması amacıyla birçok teknik kullanılır. (filtreler bankası, delta modülasyonu spektrum analizleri, algısal düzlem öngörümü v.b.)

4-Karsılaştırma ve Gizli Markov Modeli

Karşılaştırma aşamasında sistem, işlenmiş olan ses verisini “kaynak ortamlar” ve veri tabanındaki ses dataları ile karşılaştırıp, doğruluk değerlendirmesi yapar. Ses tanımlamanın en önemli aşaması olan karşılaştırma ve doğruluk işlemlerinde, çok fazla teknik bulunmaktadır. Bu tekniklerden en önemlisi Gizli Markov Modeli olarak bilinen “Hidden Markov Mode” (HMM) tekniğidir.

Markov Modeli, tüm dünyada ses tanıma teknolojisinin temel modelidir. Bu model ayrıca, “Dynamic Time Warping (DTW) gibi bir dizi lineer cebir tekniklerini ek olarak işlemlerinde kullanmaktadır. Markov doğrulama teknikleri, bir taraftan “olasılık” ihtimallerini değerlendirirken, diğer taraftan çözümleme amacıyla “normalleştirme” yöntemlerini içerir.

5- İşlemin Sonuçlanması

Ses tanıma sürecinde en son aşama, sonuçlandırmadır. Sonuç aşamadaki işlem; kullanılan yazılım, veri tabanı ve algoritma tekniklerine göre değişiklik gösterecektir. Örneğin, platform bir “Dikte” yazılımı ise, tanımlanan sesin eşleştiği kelime, metin düzenleyicisine metin (tex) olarak işlenir veya başka dile çevrilir. Eğer kullanıcı, “Speech Recognition” bir yazılım ile PC kullanıyor ise, işlem sonucunda tanımlanan komut ile işletim sistemini yönetilir ya da web tarayıcısını ses ile komuta edebilir. Ya da “Voice Dictation” bir uygulama ise, internet araması, sesli mesaj atma veya ses ile ajanda kaydına ulaşma benzeri işlemler yapacaktır.

Gizli Markov Modeli ile Konuşmayı Tanıma

Saklı Markov Modeli, Markov zincir modellerinin bütününü ifade eder. HMM; işaretlenmiş sesi işleme, tanıma ve sınıflandırma çalışmalarında kullanılmaktadır. HMM modeli ile yapılan çalışmalarda, çoklu katılım ile geliştirilmiş HMMTK (Hidden Markov Model Tool Kit) aracı kullanılır. HMMTK sistemi, ses sentezi, karakter tanıma ve sıralaması alanlarında kullanılır.

HMM ilk olarak Cambridge Üniversitesi Makine Zekâsı Laboratuarı (Machine Intelligence Laboratory) tarafından geliştirilmiş, 1999 yılında Microsoft tarafından satın alınmıştır. Modelde, kullanıcı tarafından girilen ses verisinin ilk önce HMM aracı kullanılarak akustik özellikleri çıkarılır. Akustik sesler, daha sonra önceden eğitilmiş ve ön tanımlı Saklı Markov Modelleri sayesinde kelime olarak tanınır ve metne dönüştürülür.

Sonuç Olarak: Yapay Sinir Ağları Tekniği

Normalleştirme ve kesinlik işlemlerinin, olasılık farklarını “görmezden” geldiği bilindiği için son yıllarda Markov Modeli ile birlikte “Yapay Sinir Ağları” tekniği kullanılmaya başlanmıştır. Yapay sinir ağları, sibernetik gelişimin en son halkası olarak semantik yapıdaki insan bilincine ve diline “en yakın eşleştirme” amacı ile geliştirilmiş karma tekniklerdir.

“Markov Modeli ” ile birlikte kullanılan “Yapay Sinir Ağları” tekniği ile yaratılan “Hibrit Modeller” sayesinde, istatistik ve “ortalama değerler” gibi normalizasyon işlemlerinin getirdiği hatalar en aza indirilmektedir. Yapay Sinir Ağları tekniği, ses tanıma teknolojisinin “gerçek” anlamda verimliliğini ve işlevini sağlayacak modeldir. Makine algısının dil karşısında yetersizliğini kapatacak ve gelecek yıllarda tüm dünyada bu teknolojinin kullanım penetrasyonunu arttıracak asıl model, Yapay Sinir Ağları olacaktır.

Bu konudaki diğer yazılarımı aşağıdaki için linklerden okuyabilirsiniz

Konuşmayı Tanıma ve Yazıya Çevirme Teknolojisi - 1
Konuşmayı Tanıma ve Yazıya Çevirme Teknolojisi - 2
Konuşmayı Tanıma ve Yazıya Çevirme Teknolojisi - 3
Konuşmayı Tanıma ve Yazıya Çevirme Teknolojisi - 4

Ahmet Usta

29 Ağustos 2013

Konuşmayı Tanıma Ve Yazıya Çevirme Teknolojisi - 4

Ses Tanıma Sistemlerinin Yapısı

Ses tanıma sistemlerinin çalışma prensibi, insanlar arası sesli iletişim sürecinde dinleyicinin yaptığı eylemi simüle etmeye (taklit etme) dayanır. Sistem, dinleyici olarak sesi kayıt eder, sesin dil olarak kodlanması için sistemin algoritmalarıyla eşleştirir ve karşılaştırıp, yorumlayamaya gider.

Ses Tanıma Ve Algılama (Speech Recognition)

Speech Recognition, bilgisayar tarafından sesin algılanması, tanımlanması, metne dönüştürülüp yorumlanması eylemidir. Ses tanıma teknolojisinden beklenen; ses komutları vererek bilgisayarı komuta etmek, programları yönetmek, internette gezinmek ve bilgisayara konuşma sesi ile metin yazdırmaktır. Bu alanda en büyük ihtiyaç sahibi kitle tabi ki, görme engelli insanlardır.

Ses tanıması, uygun ortam şartlarında kayıt edilmiş konuşmacı seslerinin makine tarafından kayıt edilip, işlenmesi ve veri tabanı ile karşılaştırıp metin ve komut haline dönüştürmesi işlemidir. Bu teknoloji kısaca, işitsel ses sinyallerinin linguistik ve anlamsal analiz teknolojisidir. Son yıllardaki ses kayıt teknolojisi ve bilgisayar donanım güçlerinde gelişmeler ile tanımlama sorunlarında büyük gelişme kaydedilmiştir.

ASR Teknolojisi (Automatic Speech Recognition)

İnsan sesinin, konuşmanın bilgisayar tarafından tanınması için kullanılan algoritmalara, otomatik ses tanıması (Automatic Speech Recognition) yani kısaca ASR teknolojisi de denmektedir.

Sesli tanıma tekniği, şu yöntemleri kullanmaktadır:

Örüntü Tanıma,
Hidden Markov Modeli
Dinamik Zaman Sıkıştırması
Sinir Ağları

Günümüze kadar “ses tanıma ve anlamlandırma” ile ilgili yapılan çalışmalar, büyük oranda İngilizce dili gramer özelliklerini temel almıştır. Geliştirim dili yani “kabuk dil” olarak İngilizcenin seçilmesi, Türkçe ve benzeri farklı sektans yapılarına sahip dillerin, bu teknoloji içinde kullanımın büyük oranda engellemektedir.

Microsoft SDK

Microsoft’un Speech Recognition (Ses Tanıma) açık kaynak programı, .Net Framework 3.0 versiyonundaki kütüphane ortamında tüm geliştiricilerin kullanımına açıktır. Microsoft firmasının sesli ifade tanımayla ilgili yıllar önce “açık kaynak” olarak sunduğu “SDK” tüm dünyada .Net geliştiricilerine açık olmasına rağmen, maalesef İngilizce gramer yapısında işlem görmektedir.

GVZ: İlk Türkçe ses tanıma programı

Ülkemizde TÜBİTAK ve bazı üniversitelerde devam eden projeler olmasına rağmen, son kullanıcı bazlı “ses tanıma ve sesli çeviri yazılımı” çok fazla bulunmamaktadır. Özel sektörde ise, SesTek firması 2009 yılı itibariyle ilk yerli firma hizmeti olarak, Türkçe ses tanıma yazılımı "GVZ"yi piyasaya sürmüştür.

Konuşmanın Yazıya Dönüşmesi

ASR programları ile sesinizi kullanarak; hem bilgisayarınızın işletim sistemini yönetebilir (commanding) hem de internet tarayıcınız üzerinden ses komutları ile sörf yapabilirsiniz. Aynı zamanda mikrofon üzerinden konuşarak, klavye kullanmadan Word dosyaları oluşturabilir (dictating), yazılar yazabilirsiniz.

İngilizce dilinde hizmet veren global ASR programları ile dijital yaşamınızı yönlendirmek mümkün iken, Türkçe gibi farklı ve sondan eklemeli dil grameri üzerinden ses tanıması yapabilen global ve yüksek verimlilikte yazılım henüz bulunmamaktadır.

Mobil Ses Tanıma ve Siri

SR teknolojisinin basit versiyonu olarak, akıllı telefonlardaki sesli arama (voice dictation - voice search) uygulamalarından bahsedebiliriz. Aklı telefonlardaki sesli arama yazılımları, örneğin iPhone – Siri uygulaması, ASR teknolojisi altyapısından faydalanan başarılı bir uygulamadır. ASR ve VD (voice dictation) yazılımlarının mobil uygulama ara yüzlerinin eskiye göre çok kullanışlı olması, tüm dünyada kullanıcı bazında büyük ilgi görmelerini sağlamaktadır.

Sibernetik Teknoloji ve Ses Tanıma

Sibernetik, İnsan ve makine sistemlerinin ortak ve etkileşimli çalışma prensipleri üzerinde araştırmalar yapan disiplinler arası faaliyet gösteren bilim dalıdır. Sibernetik bilim çalışanlarının "bilgisayar ile konuşarak iletişim kurma" projeleri insan-robot uyumunun dil üzerinden ulaşacağı son noktadır. Aynı zamanda modern dünyamızın insanı için, sesle makine kontrolü, çok uzun zamandır beklenen bir tekno-konfor, özlemdir. Sibernetik bilimin önderliğinde, özellikle soğuk savaş döneminde büyük araştırma ve yatırım yapılan ses tanıma teknolojisinde devlet kuruluşları ve özel şirketler ortak faaliyetlerine devam etmektedirler.

Diğer yandan bu teknoloji, "insanı, insan yapan asli unsur olan dil" üzerine faaliyet gösterdiği için insan sesi ve telaffuz işlemlerinde büyük zorluklar içermektedir. Ses tanıma teknolojisi araştırmaları, çok sayıda bilimsel disiplin ve teknolojinin bir arada kullanılmasını gerektirmektedir. Ayrıca bu teknoloji, dünyadaki dil çeşitliliği ve lehçe farklılıklarının tümünü tanıma ve analiz etme sürecinde henüz kesin başarıya ulaşamamıştır.

İnsanın işitme sisteminin makine tarafından simüle edilmesi kolay iken, insan topluluklarının coğrafyaya göre değişen dil ve anlam yapısının psiko-fiziksel tanımlanma ve anlamlandırmasını makine üzerinden simüle etmek, bilim ve teknolojinin zorlandığı çalışma alanlarından biridir. Bilimsel anlamda üzerinde kesin kuralların konulamadığı “belirsiz” bir alan olan konuşmayı "semantik" olarak çözümleme ve dijitalize etme, bu teknolojinin kesin başarısını şimdilik gölgelemektedir.