Sosyal Medya Macerası: Sosyal Ağlar, Sinema, İnternet, Sağlık

Konuşma Tanıma Nedir? - What is Speech Recognition?

Konuşma Tanıma, masaüstü veya mobil bilgisayarda mikrofon ile gelen insan sesini tanımlamak ve anlamı komutlara çevirmek için kullanılan teknolojidir. Uzun yıllardır ticari kuruluşların ve üniversitelerin çalışma yaptığı bu alanda, nihai hedef olan %100 doğruluk aşamasına henüz ulaşılamamıştır.

Konuşmayı tanıma yazılımları, sizin bilgisayarınız ile konuşarak iletişim kurmanızı amaçlar. Ses kayıt ortamı ve kullanıcının yazılımı kişiselleştirip yönlendirmesiyle teknoloji, şuanda anadili olan İngilizce’de %90 civarında başarı göstermektedir.

Konuşmayı Tanıma Teknolojisi - Genel Tanımlar

Bu teknoloji, birbiri içine girmiş hizmetler olarak sunulmaktadır; Kısaca, alt segmentleri şunlardır:

(SP - speech recognition): ses ile işletim sistemini komuta etme ve ses ile metin yazma

(STT - speech to text/ TTS- text to speech): Konuşma sesini metine çevirme ya da metini ses dosyasına dönüştürme

(VC - voice dictation): Ses komutu ile mobil-akıllı telefonlarda arama yapma ve mesaj gönderme

(VS - voice search): Ses komutu ile arama motoru kullanma ve e-posta gönderme

(STTT – speech to text and translate): farklı dillerdeki konuşma sesini metine çevirme ya da metini ses dosyasına çevirme

Konuşmayı tanıma teknolojisi nedir? ve Google Voice Search - iOS Siri karşılaştırmaları hakkındaki diğer yazımı bu linkten okuyabilirsiniz. Konuşmayı tanıma teknolojisi 1. yazı

Windows Speech Recognition - Tanıtım videosu

http://www.microsoft.com/enable/demos/windowsvista/speechdemo.aspx

Konuşmayı Tanıma Teknolojisinin Genel Kullanım Alanları

Masaüstü: Ses komutları ile işletim sitemini yönetme, konuşarak klavyesiz metin yazma, ses komutları ile web browser komuta etme, konuşma ses dosyasını metine dönüştürme, ses ve metin dosyaları arasında farklı dillerde çeviri yapma.

Mobil: Sesli arama, sesli mesajlaşma, mobil ortamlarda ses ile çeviri hizmeti alma, ses ile harita (map) uygulamaları kullanma

Medya ve müşteri hizmetleri: Röportaj, basın toplantısı ve lansman gibi açıklamaların yazıya dönüştürmesi veya faklı dillere çevrilmesi; call center hizmeti alma, call center destek sistemleri sunma, ses verisi ile müşteri tanımlama, sesli soru-cevap formları ve çözümler sunma, CRM hizmetleri

Hukuk ve sağlık sektörü: Tutanak, ilam benzeri hukuki kayıtları sesli okumalar ile dokümante etme, sağlık teşhislerinin ve raporlarının sesli kayıt ile dokümana dönüştürülmesi.

Askeri ve gizli servisler: askeri ve kamusal güvenlik adına ulusal ve uluslararası ses tanıma ve konuşma dinlemeleri yapma, anahtar kelime ve kimlikler üzerinde raporlama ve veritabanı oluşturma.

Bu teknolojinin getirdiği yenilikler ve ücretsiz yazılım kaynakları hakkında bir başka yazımı bu linkten okuyabilirisiniz. Konuşmayı tanıma teknolojisi 2.yazı

En Popüler Lisanslı Ürünler

Microsoft Windows Speech Recognition: Windows işletim sistemini sesle komuta etme (speech recognition) yazılımıdır ve 6 dil şeçeneği bulunmaktadir, İngilizce’de oldukça başarılıdır.
http://www.microsoft.com/enable/products/windowsvista/speech.aspx

Dragon Naturally Speaking Pro: "Nuance Communications" firmasına ait, konuşmayı yazıya çevirme (turn talk ınto text) teknolojisi yazılımıdır. En popüler lisanslı üründür, Pc ve Mac versiyonları bulunmaktadır, İngilizce ana dil olmak üzere 6 dil seçeneği vardır.
http://www.nuance.com/dragon/index.htm

E-Speaking: Microsoft .Net altyapısını kullanan başarılı bir ses ile PC yönetme yazılımıdır.
http://www.e-speaking.com/

Talking Deskop: Popüler ve lisanslı ürün olarak yüksek başarı gösteren sesli yönetim yazılımıdır.(Abasoft license)
http://www.talkingdesktop.com/index.htm

SpeechMagic: Dünya medikal sektöründe yıllardır yoğun olarak kullanılan bir yazılımdır.
http://www.myspeech.com/index.asp?id=506

konuşmayı tanımlama algoritmasının temel grafik düzeni

Konuşmayı Tanıma Teknolojisinin İşlevselliği

Konuşmayı tanıma teknolojisi, birçok bilim disiplinin ortaklaşa çalışmasının ürünüdür. Bu bağlamda, yapay zekâ (artificial ıntelligence), makine öğrenmesi (machine learning), matematik, kavrama (cognition) ve dil bilimi (linguistics) gibi farklı disiplinlerin iç içe geçmesi ile oluşan bir bilim alanıdır. Bu teknolojinin bilimsel olarak ilerlemesinin yanında, elektroniğin ve donanımın (mikrofon, ses kartı, işlemci hızı) son yıllardaki kazandığı büyük gelişme işlevselliğini arttırmıştır. Diğer yandan yerel dil ve ses özelliklerini biriktiren ve internet veri ağını kullanan Dağınık Konuşma Tanıma (DKT) ile başarı oranı her geçen gün optimize edilmektedir.

Konuşmayı tanıma teknolojisi, fiziksel temas kullanmadan doğal iletişim aracımız dil ile makine-insan arası iletişimi amaçlayan çok önemli bir teknolojidir. (speech recognition – speech to text – voice dictation) Yazılım ve uygulamaların bir kısmı yukarıdaki tüm özellikleri desteklerken, bir kısmı ise tek uygulama (sesli arama) özelliği gösterebilmektedir. Teknoloji-bilişim ile insanın gündelik pratiği arasındaki son engelin kalkması demek olan bu teknoloji, aynı zamanda insan sesinin tanımlanmasındaki fizik-elektronik handikaplar nedeniyle en zor işlevsel teknoloji sahalarından biridir.

1950 yıllardan beri, savaş sonrası fütüristik beklentiler ile üzerine çalışılan insan sesini tanıma ve dönüştürme faaliyetleri, uzun yıllar içinde büyük gelişim ve işlevsellik kazanmasına rağmen ana diller (İngilizce, Almanca, Fransızca) dışında, karmaşık yapısından dolayı kitlesel kullanım alanı tam olarak bulamamaktadır.

Türkçe bağlamında konuşmayı tanıma teknolojisi, maalesef henüz kullanılır seviyeye ulaşamamıştır.

Ahmet Usta

Kaynakça:

Ses Kontrollü Web Tarayıcı - Hüseyin Çakır, Bekir Okutan – Bilişim Teknolojileri Dergisi Ocak 2011

http://en.wikipedia.org/wiki/List_of_speech_recognition_software#External_links

http://voice-recognition-software-review.toptenreviews.com/voice-recognition-software-dictation-test.html

http://www.google.com/intl/tr/insidesearch/features/voicesearch/index-chrome.html

Sosyal Medya Macerası

Sayfalar

10 Mart 2013

Konuşmayı Tanıma ve Yazıya Çevirme Teknolojisi - 3