Konuşma Tanıma Nedir? - What is Speech Recognition?
Konuşma
Tanıma, masaüstü veya mobil bilgisayarda mikrofon ile gelen insan sesini
tanımlamak ve anlamı komutlara çevirmek için kullanılan teknolojidir. Uzun
yıllardır ticari kuruluşların ve üniversitelerin çalışma yaptığı bu
alanda, nihai hedef olan %100 doğruluk
aşamasına henüz ulaşılamamıştır.
Konuşmayı tanıma
yazılımları, sizin bilgisayarınız ile konuşarak iletişim kurmanızı amaçlar. Ses
kayıt ortamı ve kullanıcının yazılımı kişiselleştirip yönlendirmesiyle
teknoloji, şuanda anadili olan İngilizce’de %90 civarında başarı
göstermektedir.
Konuşmayı Tanıma Teknolojisi - Genel Tanımlar
Bu teknoloji,
birbiri içine girmiş hizmetler olarak sunulmaktadır; Kısaca, alt segmentleri şunlardır:
(SP - speech
recognition): ses
ile işletim sistemini komuta etme ve ses ile metin yazma
(STT - speech to text/
TTS- text to speech): Konuşma
sesini metine çevirme ya da metini ses dosyasına dönüştürme
(VC - voice
dictation): Ses
komutu ile mobil-akıllı telefonlarda arama yapma ve mesaj gönderme
(VS - voice search): Ses komutu ile arama motoru
kullanma ve e-posta gönderme
(STTT – speech to text
and translate): farklı
dillerdeki konuşma sesini metine çevirme ya da metini ses dosyasına çevirme
Konuşmayı tanıma teknolojisi nedir? ve Google Voice Search - iOS Siri karşılaştırmaları hakkındaki diğer yazımı bu linkten okuyabilirsiniz. Konuşmayı tanıma teknolojisi 1. yazı
Windows Speech
Recognition - Tanıtım videosu
http://www.microsoft.com/enable/demos/windowsvista/speechdemo.aspx
http://www.microsoft.com/enable/demos/windowsvista/speechdemo.aspx
Konuşmayı Tanıma Teknolojisinin Genel Kullanım Alanları
Masaüstü: Ses komutları ile işletim sitemini
yönetme, konuşarak klavyesiz metin yazma, ses komutları ile web browser komuta etme, konuşma ses dosyasını metine dönüştürme, ses ve metin dosyaları arasında
farklı dillerde çeviri yapma.
Mobil: Sesli arama, sesli mesajlaşma,
mobil ortamlarda ses ile çeviri hizmeti alma, ses ile harita (map) uygulamaları
kullanma
Medya ve müşteri
hizmetleri: Röportaj,
basın toplantısı ve lansman gibi açıklamaların yazıya dönüştürmesi veya
faklı dillere çevrilmesi; call center hizmeti alma, call center destek sistemleri sunma, ses verisi ile
müşteri tanımlama, sesli soru-cevap formları ve çözümler sunma, CRM hizmetleri
Hukuk ve sağlık
sektörü: Tutanak,
ilam benzeri hukuki kayıtları sesli okumalar ile dokümante etme, sağlık teşhislerinin
ve raporlarının sesli kayıt ile dokümana dönüştürülmesi.
Askeri ve gizli servisler: askeri ve kamusal güvenlik adına
ulusal ve uluslararası ses tanıma ve konuşma dinlemeleri yapma, anahtar kelime
ve kimlikler üzerinde raporlama ve veritabanı oluşturma.
Bu teknolojinin getirdiği yenilikler ve ücretsiz yazılım kaynakları hakkında bir başka yazımı bu linkten okuyabilirisiniz. Konuşmayı tanıma teknolojisi 2.yazı
En Popüler Lisanslı Ürünler
http://www.microsoft.com/enable/products/windowsvista/speech.aspx
Dragon Naturally Speaking Pro: "Nuance Communications" firmasına ait, konuşmayı yazıya çevirme (turn talk ınto text) teknolojisi yazılımıdır. En popüler lisanslı üründür, Pc ve Mac versiyonları bulunmaktadır, İngilizce ana dil olmak üzere 6 dil seçeneği vardır.
http://www.nuance.com/dragon/index.htm
E-Speaking: Microsoft .Net altyapısını kullanan başarılı bir ses ile PC yönetme yazılımıdır.
http://www.e-speaking.com/
Talking Deskop: Popüler ve lisanslı ürün olarak yüksek başarı gösteren sesli yönetim yazılımıdır.(Abasoft license)
http://www.talkingdesktop.com/index.htm
SpeechMagic: Dünya medikal sektöründe yıllardır yoğun olarak kullanılan bir yazılımdır.
http://www.myspeech.com/index.asp?id=506
konuşmayı tanımlama algoritmasının temel grafik düzeni |
Konuşmayı Tanıma Teknolojisinin İşlevselliği
Konuşmayı tanıma teknolojisi, birçok bilim
disiplinin ortaklaşa çalışmasının ürünüdür. Bu bağlamda, yapay zekâ (artificial
ıntelligence), makine öğrenmesi (machine learning), matematik,
kavrama (cognition) ve dil bilimi (linguistics) gibi farklı disiplinlerin iç içe
geçmesi ile oluşan bir bilim alanıdır.
Bu teknolojinin bilimsel olarak ilerlemesinin yanında, elektroniğin ve donanımın (mikrofon,
ses kartı, işlemci hızı) son yıllardaki kazandığı büyük gelişme işlevselliğini arttırmıştır.
Diğer yandan yerel dil ve ses özelliklerini biriktiren ve internet veri ağını
kullanan Dağınık Konuşma Tanıma (DKT) ile başarı oranı her geçen gün optimize
edilmektedir.
Konuşmayı tanıma teknolojisi, fiziksel temas kullanmadan doğal iletişim aracımız dil ile makine-insan arası iletişimi
amaçlayan çok önemli bir teknolojidir. (speech recognition – speech to text – voice dictation) Yazılım
ve uygulamaların bir kısmı yukarıdaki
tüm özellikleri desteklerken, bir kısmı ise tek uygulama (sesli arama)
özelliği gösterebilmektedir. Teknoloji-bilişim ile insanın gündelik pratiği arasındaki son engelin kalkması
demek olan bu teknoloji, aynı zamanda insan sesinin tanımlanmasındaki fizik-elektronik
handikaplar nedeniyle en zor işlevsel teknoloji sahalarından biridir.
1950 yıllardan
beri, savaş sonrası fütüristik beklentiler ile üzerine çalışılan insan sesini
tanıma ve dönüştürme faaliyetleri, uzun yıllar içinde büyük gelişim ve
işlevsellik kazanmasına rağmen ana diller (İngilizce, Almanca, Fransızca)
dışında, karmaşık yapısından dolayı kitlesel kullanım alanı tam olarak
bulamamaktadır.
Türkçe bağlamında konuşmayı tanıma teknolojisi, maalesef henüz kullanılır seviyeye ulaşamamıştır.
Türkçe bağlamında konuşmayı tanıma teknolojisi, maalesef henüz kullanılır seviyeye ulaşamamıştır.
Ahmet Usta
Kaynakça:
Ses Kontrollü Web Tarayıcı - Hüseyin Çakır, Bekir Okutan – Bilişim Teknolojileri Dergisi Ocak 2011
http://en.wikipedia.org/wiki/List_of_speech_recognition_software#External_links
http://voice-recognition-software-review.toptenreviews.com/voice-recognition-software-dictation-test.html
http://www.google.com/intl/tr/insidesearch/features/voicesearch/index-chrome.html