Sosyal Medya Macerası: Sosyal Ağlar, Sinema, İnternet, Sağlık

konuşmayı tanıma etiketine sahip kayıtlar gösteriliyor. Tüm kayıtları göster

2 Kasım 2013

Konuşmayı Tanıma Ve Yazıya Çevirme Teknolojisi - 5

ASR Teknolojisinin Kullandığı Bilimsel Teknikler

ASR (Automatic Speech Recognition) teknolojisi bir takım teknik modelleri bir arada kullanır. Ses tanımada kullanılan temel modeller şunlardır:

Örüntü Tanıma

Gizli Markov (Hidden Markov) Modeli

Dinamik Zaman Sıkıştırması

Sinir Ağları

SR ve TTS uygulamaları arasındaki fark

Makine ile konuşarak iletişim kurmak, yüksek teknolojinin yıllardır hedefidir. Bu hedef doğrultusunda “konuşma tanıma” (speech recognition) teknolojisi doğmuştur. Konuşmayı tanıma teknolojisi; yapay zekâ, makine öğrenmesi, matematik ve dilbilimin entegre olarak kullanıldığı işlevsel bir disiplindir. ASR teknolojisi ikiye ayrılır. Ses tanıma ve algılama sistemleri (Speech Recognition) bilgisayar tarafından insan sesinin tanınmasıdır. Text to Speech ise, yazılı metnin (text) bilgisayar tarafından dijitalize edilip ses fonetiği olarak dönüştürülmesidir. Yeni nesil cep telefonlarındaki sesli arama (voice call) uygulamaları, aslında “text to speech” teknolojisinin altyapısı üzerine kuruludur.

Ses Tanıma Sistemlerinin İşleyişi

1-Ses Tanıma

Ses tanıma, mikrofon ile alınmış sinyalin kelimelere çevrilmesidir. Tabi ki, bu tanımlamanın gerçekleşmesi için ses kaydının, ortam gürültüsünden asgari izole edilmesi ve sonrasında sistemin algoritmasındaki ses değerlerine eşlenebilmesi gerekir. Kayıt edilen ses biriminin doğru işlenebilmesi için sistem, veri havuzundaki “eşleştirme veritabanı”nı kullanmaktadır. Eşleştirme işlemi, İngilizce’de %90’ların üzerinde başarı gösterirken, semantik ve gramer yapısı farklı dillerde doğruluk oranı düşmektedir.

2- İfadenin saptanması

Sesi tanımlamada ikinci önemli işlem, kayıt edilen ses sinyali öbeği içindeki seslerin, tekil parçalar olarak bitiş ve başlangıç noktalarının belirlenmesidir. Bu aşamada; ses verilerinin kayıt koşullarının optimal değerlerde ulaşması gerekir.

“Ortam gürültüsü” ve “toplu insan kalabalığı sesi” gibi ses sinyalleri, ses dalgasının başlangıç ve bitiş noktalarını belirsizleştireceği için sistem tarafından verimli olarak işlenemez. Bu sebeple, sistem yazılımı ile birlikte özel olarak geliştirilmiş ses kartı, işlemci ve mikrofon ürünleri kullanılarak, kayıt değerleri optimize edilmelidir.

3- Sesin işlenmesi

Tanınmış ve algoritma olarak saptanmış ses verisi, üçüncü aşamada sistem tarafından ASR algoritmalarıyla değerlendirilir. Bu aşamada, bir dizi algoritma ile eşleştirme, normalleştirme ve frekans analizleri gerçekleştirilir. ASR sürecinde, sesin ön tanımlarla uyumu ve tanımlanması amacıyla birçok teknik kullanılır. (filtreler bankası, delta modülasyonu spektrum analizleri, algısal düzlem öngörümü v.b.)

4-Karsılaştırma ve Gizli Markov Modeli

Karşılaştırma aşamasında sistem, işlenmiş olan ses verisini “kaynak ortamlar” ve veri tabanındaki ses dataları ile karşılaştırıp, doğruluk değerlendirmesi yapar. Ses tanımlamanın en önemli aşaması olan karşılaştırma ve doğruluk işlemlerinde, çok fazla teknik bulunmaktadır. Bu tekniklerden en önemlisi Gizli Markov Modeli olarak bilinen “Hidden Markov Mode” (HMM) tekniğidir.

Markov Modeli, tüm dünyada ses tanıma teknolojisinin temel modelidir. Bu model ayrıca, “Dynamic Time Warping (DTW) gibi bir dizi lineer cebir tekniklerini ek olarak işlemlerinde kullanmaktadır. Markov doğrulama teknikleri, bir taraftan “olasılık” ihtimallerini değerlendirirken, diğer taraftan çözümleme amacıyla “normalleştirme” yöntemlerini içerir.

5- İşlemin Sonuçlanması

Ses tanıma sürecinde en son aşama, sonuçlandırmadır. Sonuç aşamadaki işlem; kullanılan yazılım, veri tabanı ve algoritma tekniklerine göre değişiklik gösterecektir. Örneğin, platform bir “Dikte” yazılımı ise, tanımlanan sesin eşleştiği kelime, metin düzenleyicisine metin (tex) olarak işlenir veya başka dile çevrilir. Eğer kullanıcı, “Speech Recognition” bir yazılım ile PC kullanıyor ise, işlem sonucunda tanımlanan komut ile işletim sistemini yönetilir ya da web tarayıcısını ses ile komuta edebilir. Ya da “Voice Dictation” bir uygulama ise, internet araması, sesli mesaj atma veya ses ile ajanda kaydına ulaşma benzeri işlemler yapacaktır.

Gizli Markov Modeli ile Konuşmayı Tanıma

Saklı Markov Modeli, Markov zincir modellerinin bütününü ifade eder. HMM; işaretlenmiş sesi işleme, tanıma ve sınıflandırma çalışmalarında kullanılmaktadır. HMM modeli ile yapılan çalışmalarda, çoklu katılım ile geliştirilmiş HMMTK (Hidden Markov Model Tool Kit) aracı kullanılır. HMMTK sistemi, ses sentezi, karakter tanıma ve sıralaması alanlarında kullanılır.

HMM ilk olarak Cambridge Üniversitesi Makine Zekâsı Laboratuarı (Machine Intelligence Laboratory) tarafından geliştirilmiş, 1999 yılında Microsoft tarafından satın alınmıştır. Modelde, kullanıcı tarafından girilen ses verisinin ilk önce HMM aracı kullanılarak akustik özellikleri çıkarılır. Akustik sesler, daha sonra önceden eğitilmiş ve ön tanımlı Saklı Markov Modelleri sayesinde kelime olarak tanınır ve metne dönüştürülür.

Sonuç Olarak: Yapay Sinir Ağları Tekniği

Normalleştirme ve kesinlik işlemlerinin, olasılık farklarını “görmezden” geldiği bilindiği için son yıllarda Markov Modeli ile birlikte “Yapay Sinir Ağları” tekniği kullanılmaya başlanmıştır. Yapay sinir ağları, sibernetik gelişimin en son halkası olarak semantik yapıdaki insan bilincine ve diline “en yakın eşleştirme” amacı ile geliştirilmiş karma tekniklerdir.

“Markov Modeli ” ile birlikte kullanılan “Yapay Sinir Ağları” tekniği ile yaratılan “Hibrit Modeller” sayesinde, istatistik ve “ortalama değerler” gibi normalizasyon işlemlerinin getirdiği hatalar en aza indirilmektedir. Yapay Sinir Ağları tekniği, ses tanıma teknolojisinin “gerçek” anlamda verimliliğini ve işlevini sağlayacak modeldir. Makine algısının dil karşısında yetersizliğini kapatacak ve gelecek yıllarda tüm dünyada bu teknolojinin kullanım penetrasyonunu arttıracak asıl model, Yapay Sinir Ağları olacaktır.

Bu konudaki diğer yazılarımı aşağıdaki için linklerden okuyabilirsiniz

Konuşmayı Tanıma ve Yazıya Çevirme Teknolojisi - 1
Konuşmayı Tanıma ve Yazıya Çevirme Teknolojisi - 2
Konuşmayı Tanıma ve Yazıya Çevirme Teknolojisi - 3
Konuşmayı Tanıma ve Yazıya Çevirme Teknolojisi - 4

Ahmet Usta

10 Mart 2013

Konuşmayı Tanıma ve Yazıya Çevirme Teknolojisi - 3

Konuşma Tanıma Nedir? - What is Speech Recognition?

Konuşma Tanıma, masaüstü veya mobil bilgisayarda mikrofon ile gelen insan sesini tanımlamak ve anlamı komutlara çevirmek için kullanılan teknolojidir. Uzun yıllardır ticari kuruluşların ve üniversitelerin çalışma yaptığı bu alanda, nihai hedef olan %100 doğruluk aşamasına henüz ulaşılamamıştır.

Konuşmayı tanıma yazılımları, sizin bilgisayarınız ile konuşarak iletişim kurmanızı amaçlar. Ses kayıt ortamı ve kullanıcının yazılımı kişiselleştirip yönlendirmesiyle teknoloji, şuanda anadili olan İngilizce’de %90 civarında başarı göstermektedir.

Konuşmayı Tanıma Teknolojisi - Genel Tanımlar

Bu teknoloji, birbiri içine girmiş hizmetler olarak sunulmaktadır; Kısaca, alt segmentleri şunlardır:

(SP - speech recognition): ses ile işletim sistemini komuta etme ve ses ile metin yazma

(STT - speech to text/ TTS- text to speech): Konuşma sesini metine çevirme ya da metini ses dosyasına dönüştürme

(VC - voice dictation): Ses komutu ile mobil-akıllı telefonlarda arama yapma ve mesaj gönderme

(VS - voice search): Ses komutu ile arama motoru kullanma ve e-posta gönderme

(STTT – speech to text and translate): farklı dillerdeki konuşma sesini metine çevirme ya da metini ses dosyasına çevirme

Konuşmayı tanıma teknolojisi nedir? ve Google Voice Search - iOS Siri karşılaştırmaları hakkındaki diğer yazımı bu linkten okuyabilirsiniz. Konuşmayı tanıma teknolojisi 1. yazı

Windows Speech Recognition - Tanıtım videosu

http://www.microsoft.com/enable/demos/windowsvista/speechdemo.aspx

Konuşmayı Tanıma Teknolojisinin Genel Kullanım Alanları

Masaüstü: Ses komutları ile işletim sitemini yönetme, konuşarak klavyesiz metin yazma, ses komutları ile web browser komuta etme, konuşma ses dosyasını metine dönüştürme, ses ve metin dosyaları arasında farklı dillerde çeviri yapma.

Mobil: Sesli arama, sesli mesajlaşma, mobil ortamlarda ses ile çeviri hizmeti alma, ses ile harita (map) uygulamaları kullanma

Medya ve müşteri hizmetleri: Röportaj, basın toplantısı ve lansman gibi açıklamaların yazıya dönüştürmesi veya faklı dillere çevrilmesi; call center hizmeti alma, call center destek sistemleri sunma, ses verisi ile müşteri tanımlama, sesli soru-cevap formları ve çözümler sunma, CRM hizmetleri

Hukuk ve sağlık sektörü: Tutanak, ilam benzeri hukuki kayıtları sesli okumalar ile dokümante etme, sağlık teşhislerinin ve raporlarının sesli kayıt ile dokümana dönüştürülmesi.

Askeri ve gizli servisler: askeri ve kamusal güvenlik adına ulusal ve uluslararası ses tanıma ve konuşma dinlemeleri yapma, anahtar kelime ve kimlikler üzerinde raporlama ve veritabanı oluşturma.

Bu teknolojinin getirdiği yenilikler ve ücretsiz yazılım kaynakları hakkında bir başka yazımı bu linkten okuyabilirisiniz. Konuşmayı tanıma teknolojisi 2.yazı

En Popüler Lisanslı Ürünler

Microsoft Windows Speech Recognition: Windows işletim sistemini sesle komuta etme (speech recognition) yazılımıdır ve 6 dil şeçeneği bulunmaktadir, İngilizce’de oldukça başarılıdır.
http://www.microsoft.com/enable/products/windowsvista/speech.aspx

Dragon Naturally Speaking Pro: "Nuance Communications" firmasına ait, konuşmayı yazıya çevirme (turn talk ınto text) teknolojisi yazılımıdır. En popüler lisanslı üründür, Pc ve Mac versiyonları bulunmaktadır, İngilizce ana dil olmak üzere 6 dil seçeneği vardır.
http://www.nuance.com/dragon/index.htm

E-Speaking: Microsoft .Net altyapısını kullanan başarılı bir ses ile PC yönetme yazılımıdır.
http://www.e-speaking.com/

Talking Deskop: Popüler ve lisanslı ürün olarak yüksek başarı gösteren sesli yönetim yazılımıdır.(Abasoft license)
http://www.talkingdesktop.com/index.htm

SpeechMagic: Dünya medikal sektöründe yıllardır yoğun olarak kullanılan bir yazılımdır.
http://www.myspeech.com/index.asp?id=506

konuşmayı tanımlama algoritmasının temel grafik düzeni

Konuşmayı Tanıma Teknolojisinin İşlevselliği

Konuşmayı tanıma teknolojisi, birçok bilim disiplinin ortaklaşa çalışmasının ürünüdür. Bu bağlamda, yapay zekâ (artificial ıntelligence), makine öğrenmesi (machine learning), matematik, kavrama (cognition) ve dil bilimi (linguistics) gibi farklı disiplinlerin iç içe geçmesi ile oluşan bir bilim alanıdır. Bu teknolojinin bilimsel olarak ilerlemesinin yanında, elektroniğin ve donanımın (mikrofon, ses kartı, işlemci hızı) son yıllardaki kazandığı büyük gelişme işlevselliğini arttırmıştır. Diğer yandan yerel dil ve ses özelliklerini biriktiren ve internet veri ağını kullanan Dağınık Konuşma Tanıma (DKT) ile başarı oranı her geçen gün optimize edilmektedir.

Konuşmayı tanıma teknolojisi, fiziksel temas kullanmadan doğal iletişim aracımız dil ile makine-insan arası iletişimi amaçlayan çok önemli bir teknolojidir. (speech recognition – speech to text – voice dictation) Yazılım ve uygulamaların bir kısmı yukarıdaki tüm özellikleri desteklerken, bir kısmı ise tek uygulama (sesli arama) özelliği gösterebilmektedir. Teknoloji-bilişim ile insanın gündelik pratiği arasındaki son engelin kalkması demek olan bu teknoloji, aynı zamanda insan sesinin tanımlanmasındaki fizik-elektronik handikaplar nedeniyle en zor işlevsel teknoloji sahalarından biridir.

1950 yıllardan beri, savaş sonrası fütüristik beklentiler ile üzerine çalışılan insan sesini tanıma ve dönüştürme faaliyetleri, uzun yıllar içinde büyük gelişim ve işlevsellik kazanmasına rağmen ana diller (İngilizce, Almanca, Fransızca) dışında, karmaşık yapısından dolayı kitlesel kullanım alanı tam olarak bulamamaktadır.

Türkçe bağlamında konuşmayı tanıma teknolojisi, maalesef henüz kullanılır seviyeye ulaşamamıştır.