google-site-verification: google7dbf1f4d96c506c2.html Sosyal Medya Macerası: Sosyal Ağlar, Sinema, İnternet, Sağlık
speech recognition etiketine sahip kayıtlar gösteriliyor. Tüm kayıtları göster
speech recognition etiketine sahip kayıtlar gösteriliyor. Tüm kayıtları göster

2 Kasım 2013

Konuşmayı Tanıma Ve Yazıya Çevirme Teknolojisi - 5




ASR Teknolojisinin Kullandığı Bilimsel Teknikler


ASR  (Automatic Speech Recognition) teknolojisi bir takım teknik modelleri bir arada kullanır. Ses tanımada kullanılan temel modeller şunlardır:

Örüntü Tanıma
            Gizli Markov (Hidden Markov) Modeli
            Dinamik Zaman Sıkıştırması
      Sinir Ağları

SR ve TTS uygulamaları arasındaki fark


Makine ile konuşarak iletişim kurmak, yüksek teknolojinin yıllardır hedefidir. Bu hedef doğrultusunda “konuşma tanıma” (speech recognition) teknolojisi doğmuştur. Konuşmayı tanıma teknolojisi; yapay zekâ, makine öğrenmesi, matematik ve dilbilimin entegre olarak kullanıldığı işlevsel bir disiplindir. ASR teknolojisi ikiye ayrılır. Ses tanıma ve algılama sistemleri (Speech Recognition) bilgisayar tarafından insan sesinin tanınmasıdır.  Text to Speech ise, yazılı metnin (text) bilgisayar tarafından dijitalize edilip ses fonetiği olarak dönüştürülmesidir. Yeni nesil cep telefonlarındaki sesli arama (voice call) uygulamaları, aslında “text to speech” teknolojisinin altyapısı üzerine kuruludur.


Ses Tanıma Sistemlerinin İşleyişi


1-Ses Tanıma

Ses tanıma, mikrofon ile alınmış sinyalin kelimelere çevrilmesidir. Tabi ki, bu tanımlamanın gerçekleşmesi için ses kaydının, ortam gürültüsünden asgari izole edilmesi ve sonrasında sistemin algoritmasındaki ses değerlerine eşlenebilmesi gerekir. Kayıt edilen ses biriminin doğru işlenebilmesi için sistem, veri havuzundaki “eşleştirme veritabanı”nı kullanmaktadır. Eşleştirme işlemi, İngilizce’de %90’ların üzerinde başarı gösterirken, semantik ve gramer yapısı farklı dillerde doğruluk oranı düşmektedir.

2- İfadenin saptanması

Sesi tanımlamada ikinci önemli işlem, kayıt edilen ses sinyali öbeği içindeki seslerin, tekil parçalar olarak bitiş ve başlangıç noktalarının belirlenmesidir. Bu aşamada; ses verilerinin kayıt koşullarının optimal değerlerde ulaşması gerekir.

“Ortam gürültüsü” ve “toplu insan kalabalığı sesi” gibi ses sinyalleri, ses dalgasının başlangıç ve bitiş noktalarını belirsizleştireceği için sistem tarafından verimli olarak işlenemez. Bu sebeple, sistem yazılımı ile birlikte özel olarak geliştirilmiş ses kartı, işlemci ve mikrofon ürünleri kullanılarak, kayıt değerleri optimize edilmelidir.

3- Sesin işlenmesi

Tanınmış ve algoritma olarak saptanmış ses verisi, üçüncü aşamada sistem tarafından ASR algoritmalarıyla değerlendirilir. Bu aşamada, bir dizi algoritma ile eşleştirme, normalleştirme ve frekans analizleri gerçekleştirilir. ASR sürecinde, sesin ön tanımlarla uyumu ve tanımlanması amacıyla birçok teknik kullanılır. (filtreler bankası, delta modülasyonu spektrum analizleri, algısal düzlem öngörümü v.b.)

4-Karsılaştırma ve Gizli Markov Modeli

Karşılaştırma aşamasında sistem, işlenmiş olan ses verisini “kaynak ortamlar” ve veri tabanındaki ses dataları ile karşılaştırıp, doğruluk değerlendirmesi yapar. Ses tanımlamanın en önemli aşaması olan karşılaştırma ve doğruluk işlemlerinde, çok fazla teknik bulunmaktadır. Bu tekniklerden en önemlisi Gizli Markov Modeli olarak bilinen “Hidden Markov Mode” (HMM) tekniğidir.

Markov Modeli, tüm dünyada ses tanıma teknolojisinin temel modelidir. Bu model ayrıca, “Dynamic Time Warping (DTW) gibi bir dizi lineer cebir tekniklerini ek olarak işlemlerinde kullanmaktadır. Markov doğrulama teknikleri, bir taraftan “olasılık” ihtimallerini değerlendirirken, diğer taraftan çözümleme amacıyla “normalleştirme” yöntemlerini içerir.

5- İşlemin Sonuçlanması

Ses tanıma sürecinde en son aşama, sonuçlandırmadır. Sonuç aşamadaki işlem; kullanılan yazılım,  veri tabanı ve algoritma tekniklerine göre değişiklik gösterecektir. Örneğin, platform bir “Dikte” yazılımı ise, tanımlanan sesin eşleştiği kelime, metin düzenleyicisine metin (tex)  olarak işlenir veya başka dile çevrilir. Eğer kullanıcı, “Speech Recognition” bir yazılım ile PC kullanıyor ise, işlem sonucunda tanımlanan komut ile işletim sistemini yönetilir ya da web tarayıcısını ses ile komuta edebilir. Ya da “Voice Dictationbir uygulama ise, internet araması, sesli mesaj atma veya ses ile ajanda kaydına ulaşma benzeri işlemler yapacaktır.

Gizli Markov Modeli ile Konuşmayı Tanıma


Saklı Markov Modeli, Markov zincir modellerinin bütününü ifade eder. HMM; işaretlenmiş sesi işleme, tanıma ve sınıflandırma çalışmalarında kullanılmaktadır. HMM modeli ile yapılan çalışmalarda, çoklu katılım ile geliştirilmiş HMMTK (Hidden Markov Model Tool Kit) aracı kullanılır. HMMTK sistemi, ses sentezi, karakter tanıma ve sıralaması alanlarında kullanılır.

HMM ilk olarak Cambridge Üniversitesi Makine Zekâsı Laboratuarı (Machine Intelligence Laboratory)  tarafından geliştirilmiş, 1999 yılında Microsoft tarafından satın alınmıştır. Modelde, kullanıcı tarafından girilen ses verisinin ilk önce HMM aracı kullanılarak akustik özellikleri çıkarılır. Akustik sesler, daha sonra önceden eğitilmiş ve ön tanımlı Saklı Markov Modelleri sayesinde kelime olarak tanınır ve metne dönüştürülür.

Sonuç Olarak: Yapay Sinir Ağları Tekniği

Normalleştirme ve kesinlik işlemlerinin, olasılık farklarını “görmezden” geldiği bilindiği için son yıllarda Markov Modeli ile birlikte “Yapay Sinir Ağları” tekniği kullanılmaya başlanmıştır. Yapay sinir ağları, sibernetik gelişimin en son halkası olarak semantik yapıdaki insan bilincine ve diline “en yakın eşleştirme” amacı ile geliştirilmiş karma tekniklerdir.

“Markov Modeli ” ile birlikte kullanılan  “Yapay Sinir Ağları” tekniği ile yaratılan “Hibrit Modeller” sayesinde, istatistik ve “ortalama değerler” gibi normalizasyon işlemlerinin getirdiği hatalar en aza indirilmektedir. Yapay Sinir Ağları tekniği, ses tanıma teknolojisinin “gerçek” anlamda verimliliğini ve işlevini sağlayacak modeldir. Makine algısının dil karşısında yetersizliğini kapatacak ve gelecek yıllarda tüm dünyada bu teknolojinin kullanım penetrasyonunu arttıracak asıl model, Yapay Sinir Ağları olacaktır.

Bu konudaki diğer yazılarımı aşağıdaki için linklerden okuyabilirsiniz


Konuşmayı Tanıma ve Yazıya Çevirme Teknolojisi - 1
Konuşmayı Tanıma ve Yazıya Çevirme Teknolojisi - 2
Konuşmayı Tanıma ve Yazıya Çevirme Teknolojisi - 3
Konuşmayı Tanıma ve Yazıya Çevirme Teknolojisi - 4

Ahmet Usta

29 Ağustos 2013

Konuşmayı Tanıma Ve Yazıya Çevirme Teknolojisi - 4


Ses Tanıma Sistemlerinin Yapısı

Ses tanıma sistemlerinin çalışma prensibi, insanlar arası sesli iletişim sürecinde dinleyicinin yaptığı eylemi simüle etmeye (taklit etme) dayanır. Sistem, dinleyici olarak sesi kayıt eder, sesin dil olarak kodlanması için sistemin algoritmalarıyla eşleştirir ve karşılaştırıp, yorumlayamaya gider.

Ses Tanıma Ve Algılama (Speech Recognition)

Speech Recognition, bilgisayar tarafından sesin algılanması, tanımlanması, metne dönüştürülüp yorumlanması eylemidir. Ses tanıma teknolojisinden beklenen; ses komutları vererek bilgisayarı komuta etmek, programları yönetmek, internette gezinmek ve bilgisayara konuşma sesi ile metin yazdırmaktır. Bu alanda en büyük ihtiyaç sahibi kitle tabi ki, görme engelli insanlardır.

Ses tanıması, uygun ortam şartlarında kayıt edilmiş konuşmacı seslerinin makine tarafından kayıt edilip, işlenmesi ve veri tabanı ile karşılaştırıp metin ve komut haline dönüştürmesi işlemidir. Bu teknoloji kısaca, işitsel ses sinyallerinin linguistik ve anlamsal analiz teknolojisidir. Son yıllardaki ses kayıt teknolojisi ve bilgisayar donanım güçlerinde gelişmeler ile tanımlama sorunlarında büyük gelişme kaydedilmiştir.

ASR Teknolojisi (Automatic Speech Recognition)

İnsan sesinin, konuşmanın bilgisayar tarafından tanınması için kullanılan algoritmalara, otomatik ses tanıması (Automatic Speech Recognition) yani kısaca ASR teknolojisi de denmektedir.

Sesli tanıma tekniği, şu yöntemleri kullanmaktadır:

  • Örüntü Tanıma,
  • Hidden Markov Modeli
  • Dinamik Zaman Sıkıştırması
  • Sinir Ağları

Günümüze kadar “ses tanıma ve anlamlandırma” ile ilgili yapılan çalışmalar, büyük oranda İngilizce dili gramer özelliklerini temel almıştır. Geliştirim dili yani “kabuk dil” olarak İngilizcenin seçilmesi, Türkçe ve benzeri farklı sektans yapılarına sahip dillerin, bu teknoloji içinde kullanımın büyük oranda engellemektedir.

Microsoft SDK

Microsoft’un Speech Recognition (Ses Tanıma) açık kaynak programı, .Net Framework 3.0 versiyonundaki kütüphane ortamında tüm geliştiricilerin kullanımına açıktır. Microsoft firmasının sesli ifade tanımayla ilgili yıllar önce “açık kaynak” olarak sunduğu “SDK” tüm dünyada .Net geliştiricilerine açık olmasına rağmen, maalesef İngilizce gramer yapısında işlem görmektedir.

GVZ: İlk Türkçe ses tanıma programı

Ülkemizde TÜBİTAK ve bazı üniversitelerde devam eden projeler olmasına rağmen, son kullanıcı bazlı “ses tanıma ve sesli çeviri yazılımı” çok fazla bulunmamaktadır. Özel sektörde ise, SesTek firması 2009 yılı itibariyle ilk yerli firma hizmeti olarak, Türkçe ses tanıma yazılımı "GVZ"yi piyasaya sürmüştür.

Konuşmanın Yazıya Dönüşmesi

ASR programları ile sesinizi kullanarak; hem bilgisayarınızın işletim sistemini yönetebilir (commanding) hem de internet tarayıcınız üzerinden ses komutları ile sörf yapabilirsiniz. Aynı zamanda mikrofon üzerinden konuşarak, klavye kullanmadan Word dosyaları oluşturabilir (dictating) yazılar yazabilirsiniz.

İngilizce dilinde hizmet veren global ASR programları ile dijital yaşamınızı yönlendirmek mümkün iken, Türkçe gibi farklı ve sondan eklemeli dil grameri üzerinden ses tanıması yapabilen global ve yüksek verimlilikte yazılım henüz bulunmamaktadır.

Mobil Ses Tanıma ve Siri

SR teknolojisinin basit versiyonu olarak, akıllı telefonlardaki sesli arama (voice dictation - voice search) uygulamalarından bahsedebiliriz. Aklı telefonlardaki sesli arama yazılımları, örneğin iPhone – Siri uygulaması, ASR teknolojisi altyapısından faydalanan başarılı bir uygulamadır. ASR ve VD (voice dictation) yazılımlarının mobil uygulama ara yüzlerinin eskiye göre çok kullanışlı olması, tüm dünyada kullanıcı bazında büyük ilgi görmelerini sağlamaktadır.  

Sibernetik Teknoloji  ve Ses Tanıma

Sibernetik, İnsan ve makine sistemlerinin ortak ve etkileşimli çalışma prensipleri üzerinde araştırmalar yapan disiplinler arası faaliyet gösteren bilim dalıdır. Sibernetik bilim çalışanlarının "bilgisayar ile konuşarak iletişim kurma" projeleri insan-robot uyumunun dil üzerinden ulaşacağı son noktadır. Aynı zamanda modern dünyamızın insanı için, sesle makine kontrolü, çok uzun zamandır beklenen bir tekno-konfor, özlemdir. Sibernetik bilimin önderliğinde, özellikle soğuk savaş döneminde büyük araştırma ve yatırım yapılan ses tanıma teknolojisinde devlet kuruluşları ve özel şirketler ortak faaliyetlerine devam etmektedirler.

Diğer yandan bu teknoloji, "insanı, insan yapan asli unsur olan dil" üzerine faaliyet gösterdiği için insan sesi ve telaffuz işlemlerinde büyük zorluklar içermektedir. Ses tanıma teknolojisi araştırmaları, çok sayıda bilimsel disiplin ve teknolojinin bir arada kullanılmasını gerektirmektedir. Ayrıca bu teknoloji, dünyadaki dil çeşitliliği ve lehçe farklılıklarının tümünü tanıma ve analiz etme sürecinde henüz kesin başarıya ulaşamamıştır.

İnsanın işitme sisteminin makine tarafından simüle edilmesi kolay iken, insan topluluklarının coğrafyaya göre değişen  dil ve anlam yapısının psiko-fiziksel tanımlanma ve anlamlandırmasını makine üzerinden simüle etmek, bilim ve teknolojinin zorlandığı çalışma alanlarından biridir. Bilimsel anlamda üzerinde kesin kuralların konulamadığı “belirsiz” bir alan olan konuşmayı "semantik" olarak çözümleme ve dijitalize etme, bu teknolojinin kesin başarısını şimdilik gölgelemektedir.

Ahmet Usta

10 Mart 2013

Konuşmayı Tanıma ve Yazıya Çevirme Teknolojisi - 3



Konuşma Tanıma Nedir? - What is Speech Recognition?


Konuşma Tanıma, masaüstü veya mobil bilgisayarda mikrofon ile gelen insan sesini tanımlamak ve anlamı komutlara çevirmek için kullanılan teknolojidir. Uzun yıllardır ticari kuruluşların ve üniversitelerin çalışma yaptığı bu alanda, nihai hedef olan %100 doğruluk aşamasına henüz ulaşılamamıştır.

Konuşmayı tanıma yazılımları, sizin bilgisayarınız ile konuşarak iletişim kurmanızı amaçlar. Ses kayıt ortamı ve kullanıcının yazılımı kişiselleştirip yönlendirmesiyle teknoloji, şuanda anadili olan İngilizce’de %90 civarında başarı göstermektedir.


Konuşmayı Tanıma Teknolojisi - Genel Tanımlar


Bu teknoloji, birbiri içine girmiş hizmetler olarak sunulmaktadır; Kısaca, alt segmentleri şunlardır:

(SP - speech recognition): ses ile işletim sistemini komuta etme ve ses ile metin yazma
(STT - speech to text/ TTS- text to speech): Konuşma sesini metine çevirme ya da metini ses dosyasına dönüştürme
(VC - voice dictation): Ses komutu ile mobil-akıllı telefonlarda arama yapma ve mesaj gönderme
(VS - voice search): Ses komutu ile arama motoru kullanma ve e-posta gönderme
(STTT – speech to text and translate): farklı dillerdeki konuşma sesini metine çevirme ya da metini ses dosyasına çevirme

Konuşmayı tanıma  teknolojisi nedir? ve Google Voice Search - iOS Siri karşılaştırmaları hakkındaki diğer yazımı bu linkten okuyabilirsiniz. Konuşmayı tanıma teknolojisi 1. yazı


Windows Speech Recognition  - Tanıtım videosu

http://www.microsoft.com/enable/demos/windowsvista/speechdemo.aspx



Konuşmayı Tanıma Teknolojisinin Genel Kullanım Alanları


Masaüstü: Ses komutları ile işletim sitemini yönetme, konuşarak klavyesiz metin yazma, ses komutları ile web browser komuta etme,  konuşma ses dosyasını metine dönüştürme, ses ve metin dosyaları arasında farklı dillerde çeviri yapma.

Mobil: Sesli arama, sesli mesajlaşma, mobil ortamlarda ses ile çeviri hizmeti alma, ses ile harita (map) uygulamaları kullanma

Medya ve müşteri hizmetleri: Röportaj, basın toplantısı ve lansman gibi açıklamaların yazıya dönüştürmesi veya faklı dillere çevrilmesi; call center hizmeti alma, call center destek sistemleri sunma, ses verisi ile müşteri tanımlama, sesli soru-cevap formları ve çözümler sunma, CRM hizmetleri

Hukuk ve sağlık sektörü: Tutanak, ilam benzeri hukuki kayıtları sesli okumalar ile dokümante etme, sağlık teşhislerinin ve raporlarının sesli kayıt ile dokümana dönüştürülmesi.

Askeri ve gizli servisler: askeri ve kamusal güvenlik adına ulusal ve uluslararası ses tanıma ve konuşma dinlemeleri yapma, anahtar kelime ve kimlikler üzerinde raporlama ve veritabanı oluşturma.

Bu teknolojinin  getirdiği yenilikler ve ücretsiz yazılım kaynakları hakkında bir başka yazımı bu linkten okuyabilirisiniz. Konuşmayı tanıma teknolojisi 2.yazı


En Popüler Lisanslı Ürünler


Microsoft Windows Speech Recognition: Windows işletim sistemini sesle komuta etme (speech recognition) yazılımıdır ve 6 dil şeçeneği bulunmaktadir, İngilizce’de oldukça başarılıdır.
http://www.microsoft.com/enable/products/windowsvista/speech.aspx

Dragon Naturally Speaking Pro: "Nuance Communications" firmasına ait,  konuşmayı yazıya çevirme (turn talk ınto text) teknolojisi yazılımıdır. En popüler lisanslı üründür, Pc ve Mac versiyonları bulunmaktadır, İngilizce ana dil olmak üzere 6 dil seçeneği vardır.
http://www.nuance.com/dragon/index.htm

E-Speaking: Microsoft .Net altyapısını kullanan başarılı bir ses ile PC yönetme yazılımıdır.
http://www.e-speaking.com/

Talking Deskop: Popüler ve lisanslı ürün olarak yüksek başarı gösteren sesli yönetim yazılımıdır.(Abasoft license)
http://www.talkingdesktop.com/index.htm

SpeechMagic: Dünya medikal sektöründe yıllardır yoğun olarak kullanılan bir yazılımdır.
http://www.myspeech.com/index.asp?id=506

konuşmayı tanımlama algoritmasının temel grafik düzeni



Konuşmayı Tanıma Teknolojisinin İşlevselliği


Konuşmayı tanıma teknolojisi, birçok bilim disiplinin ortaklaşa çalışmasının ürünüdür. Bu bağlamda, yapay zekâ (artificial ıntelligence), makine öğrenmesi (machine learning), matematik, kavrama (cognition) ve dil bilimi (linguistics) gibi farklı disiplinlerin iç içe geçmesi ile oluşan bir bilim alanıdır. Bu teknolojinin bilimsel olarak  ilerlemesinin yanında, elektroniğin ve donanımın (mikrofon, ses kartı, işlemci hızı) son yıllardaki  kazandığı büyük gelişme işlevselliğini arttırmıştır. Diğer yandan yerel dil ve ses özelliklerini biriktiren ve internet veri ağını kullanan Dağınık Konuşma Tanıma (DKT) ile başarı oranı her geçen gün optimize edilmektedir.

Konuşmayı tanıma teknolojisi, fiziksel temas kullanmadan doğal iletişim aracımız dil ile makine-insan arası iletişimi amaçlayan çok önemli bir teknolojidir. (speech recognition – speech to text – voice dictation) Yazılım ve uygulamaların bir kısmı yukarıdaki tüm özellikleri desteklerken, bir kısmı ise tek uygulama (sesli arama) özelliği gösterebilmektedir. Teknoloji-bilişim ile insanın gündelik pratiği arasındaki son engelin kalkması demek olan bu teknoloji, aynı zamanda insan sesinin tanımlanmasındaki fizik-elektronik handikaplar nedeniyle en zor işlevsel teknoloji sahalarından biridir. 

1950 yıllardan beri, savaş sonrası fütüristik beklentiler ile üzerine çalışılan insan sesini tanıma ve dönüştürme faaliyetleri, uzun yıllar içinde büyük gelişim ve işlevsellik kazanmasına rağmen ana diller (İngilizce, Almanca, Fransızca) dışında, karmaşık yapısından dolayı kitlesel kullanım alanı tam olarak bulamamaktadır. 

Türkçe bağlamında konuşmayı tanıma teknolojisi, maalesef henüz kullanılır seviyeye ulaşamamıştır.

Ahmet Usta

Kaynakça:

Ses Kontrollü Web Tarayıcı - Hüseyin Çakır, Bekir Okutan – Bilişim Teknolojileri Dergisi Ocak 2011
http://en.wikipedia.org/wiki/List_of_speech_recognition_software#External_links
http://voice-recognition-software-review.toptenreviews.com/voice-recognition-software-dictation-test.html
http://www.google.com/intl/tr/insidesearch/features/voicesearch/index-chrome.html


7 Ocak 2013

Konuşmayı Tanıma Ve Yazıya Çevirme Teknolojisi - 2


Konuşmanın Yazıya Dönüşmesi

Konuşmayı tanıma teknolojisi yazılımları; mikrofon aracılığı ile alınan veriyi, kullanılan akustik algoritmalar ile programın benzerlik havuzu kütüphanesindeki kelimelerle karşılaştırır ve tanımlar. Bu alandaki yazılım ve uygulamalar, verimlilik ve başarı göstermesi açısında tekil kullanıcı deneyimine bağımlıdırlar. Kullanıcı tarafından yazılıma kişiselleştirme yapılmadığı takdirde, İngilizce dilinde dahi yeterli verimlilik sağlanamaz. 

Eğitim-training süreciyle kullanıcının; yazılımın anlama ve metne dönüştürme hataları düzeltilip, yeniden tanımlayarak yazılımın "recognition" yani tanıma kapasitesini ve akustik algoritmasını yükseltmesi gerekir. Daha da önemlisi, "kişisel telaffuz" ve fonetik değerlerin algoritmaya tanıtılması, format dönüştürme ve dikte edebilme performansını arttıracaktır. Kullanıcının yazılımı, eğitim-training ile kişiselleştirmesinin yanında, “kaliteli mikrofon ve kayıt ortamındaki çevre koşulları” da ayrıca önemli verimlilik etkenleridir. 


Windows Konuşmayı Tanıma Yazılımı - Windows Speech Recognition


Mobil uygulamalar ve medya çalışanları

Apple mobile iOS ve Linux tabanlı Google Android mobil işletim platformlarında kullanabileceğiniz Speect To Tex - Speech Recognition uygulamaları mesleki olarak “Not alma ve Yayıncılık” (Take Noting and Publishing) alanlarında da rahatlıkla kullanılıyor. Özellikle basın açıklaması, toplantı notları ve röportaj ses kayıtlarını hızlı şekilde metne çeviren başarılı mobil uygulamalar, şimdiden medya çalışanlarının hayatına girdi. STT - TTS uygulamaları, gelişen ve hız kazanan mobil gazetecilik ve online medya yayıncılık ortamındaki rekabet indeksinde vazgeçilmez ses teknolojileri olarak kullanılıyor.

Kalem Ve Defter?

Konuşma sesinin, metin (text) haline dönüştürülmesiyle defter ve kalem, yakında “Masumiyet Müzesi” sergi alanlarına taşınacak görünüyor. Konuşmayı yazıya çeviren program teknolojileri, gelecekte belki de okuma ve yazma süratimizi ve alışkanlığımızı belirleyecek. Arama motoru çubuğuna tam tanımlı cümleler yazmaya dahi üşenen "dijital doğanların", gelişen uygulamalar sonucunda gelecekte "pasif okuma-yazama" alışkanlığı kazanacağı söylenebilir.

En Önemli Ücretsiz Yazılımlar (Free License - GPL)

VoxForge: Linux, Windows ve Mac üzerinde çalışan "açık kodlu" ses tanıma motorlarında kullanılmak üzere ses kayıtları toplamak için geliştirilmiş bir havuz sistemdir. 
www.voxforge.org/
MARF (Modüler Ses Tanıma Çerçevesi): sesli mesaj, ses, konuşma, yazı ve doğal dil işleme (NLP) algoritmalarından oluşan Java programı dilinde yazılmış açık kaynak kodlu araştırma ortamıdır. 
http://marf.sourceforge.net
CMU Sphinxhttp://cmusphinx.sourceforge.net
HTK: Microsoft lisanslı "açık kaynak" sistemdir, özellikle yapay zeka çalışmalarında kullanılmaktadır.
http://research.microsoft.com/en-us/groups/srg/downloads.aspx
Emacspeak: görme engelliler için bilgisayar ile konuşma ara yüzü olarak geliştirilmiştir.
http://emacspeak.sourceforge.net
eSpeak speech synthesizer: Linux ve Windows ortamlarında çalışan yazılım, "konuşma sentezleyicisi" olarak işlem yapmaktadır.
http://espeak.sourceforge.net
iATROShttps://prhlt.iti.upv.es/page/projects/multimodal/idoc/iatros/download
SHoUT toolkit: http://shout-toolkit.sourceforge.net


Apple Siri: "Size Nasıl Yardımcı Olabilirim?”


Geleceğin yapaya zekâsının en net uygulama örneği, Apple Siri’dir. Pratik olarak aldığı sesli komutları anlamakla yetinmeyip, yapay zekâsı ile ilk cümlenin sentaks yapısına uygun olarak, gelecek ikinci cümleyi/soruyu anlama ve cevap verme yeteneğine sahip bir uygulamadır. İngilizce olarak değerlendirildiğinde, gerçekten başarılı bir kişisel asistandır Siri. 

Siri, kısaca yapay zekâsı gelişmiş bir voice dictation" uygulaması/app dir, diyebiliriz. “Siri, yarın sabah beni uyandır” dediğinizde  “tabi ki efendim saat kaçta?” biçiminde semantik sorgulamalar yapabilmektedir ve İngilizce "speech recognition" kütüphanelerinin altyapısını kullanarak, geçmiş yılların bilim-kurgu filmlerindeki bazı sibernetik özlemleri şimdilik kısıtlı oranda karşılayabilmektedir.


Sir: "Size nasıl yardımcı olabilirim?" - "How I can help you with"

Fakat şuanda Siri uygulamasının ciddi dil sorunu bulunmaktadır. İngilizce, Almanca ve Fransızca dilleri dışında 2012 itibariyle başka dillerden kullanılamıyor. Gelecek, tabii ki Siri ve benzeri uygulamaların pratik kullanımları ile şekillenecektir. Dil paketleri ve semantik veri havuzunun gelişmesiyle sesli komut uygulamalarının, bir işletim sistemi biçiminde gelişip, cloud/bulut teknolojisiyle entegre olarak evrimleşmesi bekleniyor. Tabi ki en büyük engel, yine insan ve onun konuşma pratikleri arasındaki farklılıklar olacak gibi görünüyor.

Google Voice Search Uygulaması

Değişik dillerin ve şive farklılıklarının çözümüne yönelen Google, Siri ile büyük bir çıkış yakalayan Apple’in dünya dillerindeki yetersizliğine karşı bir çözüm getirdi. Sonradan piyasaya girmesine rağmen Google, speech recognation uygulamasında Apple’in önüne geçmeyi belli oranda başardı. Google Voice Search, yerel dillere verdiği önem ile yapay zekâ içermese de, ses tanıma olarak şuanda dünya genelinde kullanılıyor. Google ve Apple arasında rekabetin sesli komut uygulamalarında da devam edeceği kesin görünüyor.
Google sesli arama - Google voice search
Google, Türkiye’yi öncelikli ülkelerden biri olarak kabul ettiği için ikinci dil paketi açılımında, Türkçe'yi "Voice Search" yapısına dahil etti. Google sesli arama için dünyanın tüm yerel dillerini içine alan ar-ge çalışmalarına devam ediyor. Her dil için bir milyonu aşan kelime ve telaffuz havuzları oluşturuyor. Ayrıca Google Voice Search, Gmail kullanıcılarına Amerika ve Kanada sınırlarında ücretsiz telefon görüşmesi hizmeti sunuyor.  

Konuşmayı Yazıya Çeviren Teknolojiler Ve Güvenlik-İstihbarat Birimleri

SR yazılımları, ulusal güvenlik gerekçeli “yasal dinleme” çalışmalarında yıllardır kullanıyor. Şüpheli isimler ve anahtar kelime tabanlı ses kayıtlarının incelenmesi, takip ve tanımlama sürecinin tarafsız olarak bilgisayarlar tarafından yapılmasını sağlıyor. Ulusal ve uluslararası güvenlik kurumlarının kullandığı ses dinleme ve metne dönüştürme yazılımları, kamusal olmuş teknolojilerden her zaman daha ileri seviyede olduğu için, daha yoğun ve verimli biçimde kullanılıyor. 

Güvenlik ve istihbarat birimleri ses tanıma teknolojilerini, daha iyi anlamlandırılmış kitle ve birey davranışları oluşturma ve kitle-birey ağını yönetme pratiğinde kullanmaktalar. Ulusal veya uluslararası güvenlik örgütleri de en çok bu teknoloji üzerinde çalışıyor ve tabi ki "gölge" yöntemlerle yetkin biçimde kullanıyorlar.
Speak to your phone

Kişisel Deneme

Google arama sekmesindeki mikrofon imlecini tıkladıktan sonra, mikrofonla sesli arama denemesi yaptım. Cümlem şu idi: “Ben, güzele güzel demem, güzel benim olmayınca “ Google sesli aramanın tanıması ve arama yapma cümlesi şu oldu: “ben, güzele güzel demem, güzel beni olmayınca”. Çok başarılıydı, %90 doğru tanımlama, semantik olarak ise sıfır hata! :))))

Gelecek günlerimizde “yazı uçacak ama söz kalıcı olacak” diyebilir ve sadece konuşabiliriz. 

Ahmet Usta

Kaynakça:
http://en.wikipedia.org/wiki/List_of_speech_recognition_software#External_links
http://tr.wikipedia.org/wiki/Ses_konu%C5%9Fma_tan%C4%B1mlay%C4%B1c%C4%B1_yaz%C4%B1l%C4%B1mlar
http://voice-recognition-software-review.toptenreviews.com/voice-recognition-software-dictation-test.html

29 Aralık 2012

Konuşmayı Tanıma Ve Yazıya Çevirme Teknolojisi - 1


Bilgisayara ses ile komut vermek!


Konuşmayı tanıma ve yazıya çevirme teknolojisi, yakın geleceğimizdeki en önemli tekno-mobil gelişim olacak. Ses teknolojileri, internet ile gelen dijital iletişim dünyamızın tamamlanması ve “dijitalize” olmamız anlamında geliyor. Yeni ses teknolojileri programları, kendi içinde 3 kısma ayrılıyor: sesli arama, sesli komut ile yönetme ve konuşma sesini yazıya dönüştürme.

İngilizce’de voice dictation, speech recognition, speech to text gibi isimlerle nitelenen bu yazılımlarla; sesli arama ve mesajlaşma, ses ile arama motoru sorgulama, ses komutları ile işletim sistemini yöneltme, ses kaydını metin formatına çevirme ve metin formatını ses dosyasına dönüştürme gibi uygulamalar yapılabiliyor.
mobil uygulamalar  ve sosyal medya - mobile applications and social media


Konuşma tanıma ve yazıya dönüştürme (Speech Recognition – Speech to text) teknolojisi nedir?


Konuşmayı tanıma ve yazıya çevirme teknolojisi, (Speech Recognition – Speech to text – Voice Dictation) klavyeyi kullanmadan konuşarak komut verme ve konuşmalarınızı yazıya dönüştürme teknolojisidir. Bu teknoloji ile yazılarınızı konuşarak yazabilir, işletim sisteminizi sesle komuta edebilirsiniz. Konuşmayı yazıya dönüştürme teknolojileri, insanlığın teknolojiden beklediği son evrimi müjdelemektedir. Bu beklenti insanın en doğal iletişim biçimi olan konuşma ve dil yetisiyle, teknik araçların hızlı ve kolay kullanımının sağlanmasıdır. Tabi ki yüzyıllardır özlemi çekilen bu arayışın günümüzde geldiği nokta da, gelişim tamamlanmadı ama çok önemli mesafe kat edildiğini görebiliyoruz.

Windows  Speech Recognition İnceleme Videosu



SR, STT, VD, TS olarak tanımlanan konuşmayı tanıma programlarının açılımlarına bakarsak;

SR – speech recognition, konuşma sesini anlama, yazı dönüştürme ve işletim sisteminin sesle komuta edilmesidir. SR yazılımları, görme ve fizik engelli insanların bilgisayar kullanımına olanak sağlamıştır. Yazılım, kişilere işletim sistemlerini konuşarak klavyesiz yönetme becerisi kazandırır. 

STT – speech to text, sadece konuşmayı metne dönüştüren yazılımlardır. 

VD – voice dictation, çoğunlukla mobil sistemleri sesle komuta etme uygulamalarıdır ve en popüler olanlarıdır. VD uygulamaları; sesli komutla arama motoru kullanabilme, sesle mesaj yazma ve mesajı gönderme, olanaklarını sunmaktadır. 

TS - text to speech yazılımları ise, bir alt kategori olarak ses dosyalarını yazıya dönüştüren yazılımlardır. TS uygulamaları, daha çok medya çalışanlarının basın toplantısı ve röportaj gibi ses kayıtlarını hızlı bir şekilde yazıya döküp, deşifre etme ve ajanslara servis etme gibi alanlarda kullandığı bir önemli teknolojidir.

En Popüler Ses Tanıma Yazılımlarının İngilizce Test Sonuçları


1. Dragon Naturally Speaking: 17 hata, 93% doğruluk
2. Windows  Speech Recognition: 19 hata, 92% doğruluk
3. IBM ViaVoice: 11 hata, 90% doğruluk
4. MacSpeech Dictate: 12 hata, 94% doğruluk
5. E-Speaking: 34 hata, 86% doğruluk

Uyarı: test bireysel denemedir, optimist yaklaşılmıştır, genelleme içeremez!

En Çok Kullanılan Uygulamalar: Google Voice Search Ve iOS Siri


Apple mobile iOS ve Linux tabanlı Google Android mobil işletim platformlarında kullanabileceğiniz iki önemli uygulama var: Google Voice Search ve Siri. iOS tabanlı çalışan Siri uygulaması, yapay zekâ üzerindeki çalışmalar sonucunda Apple şirketinin piyasaya sunduğu bir hizmettir. Siri’nin lansman sürecinde “akıllı asistan/sekreter” olarak ön plana çıkarılması tüm dünyada ilgiyi bu uygulamanın üzerine çekmişti. Hatta Siri, Apple mucizesinin mobil ortamda göz bebeği olarak kabul edilmişti.

Siri: “Size Nasıl Yardımcı Olabilirim?”


“What can I help you with?" sloganı ile lanse edilen Siri, iPhone ile yapay zekâyı evimize değil, elimize getirmeyi vaat ediyordu. Siri “İstekleriniz onun için bir emirdir” mottosu ile piyasaya sürüldü ve büyük ilgi gördü, başta İngilizce ve kıta Avrupası dillerinde çok yüksek oranda kullanım başarısı gösteren uygulama, Apple mucizeleri listesinde ilk sıralarda yer aldı, alıyor. Fakat Türkiye gibi Apple ürünlerine yoğun ilginin olduğu bir ülkede Siri uygulaması, Türkçe dil desteği henüz olmadığı için maalesef İngilizce kullanılıyor.
Siri:"What can I help you with " - "Sana nasıl yardım edebilirim"

Google Voice Search Uygulaması


Google Voice Search, Google’ın 2010 yılında çıkardığı bir uygulamadır ve mobil-deskop tüm sistemlere entegre edilmiştir. Google'ın telaffuz edilen kelimeleri, metin haline çeviren konuşma tanıma teknolojisinden faydalanan Voice Search, Android tabanlı olmasıyla özellikle İngilizce mobil ortamlarda çok başarı oldu. Google’ın diğer dünya dillerini geliştirmedeki beceri ve birikimi sayesinde, bu uygulama Türkçe olarak kısıtlı da olsa başarıyla kullanılıyor. Google Voice Search’un başarısında, Google ekibinin ekstra çalışmaları da çok önemli etki göstermektedir. Google, dünyanın değişik yerlerinde var olan dilleri, veri olarak kütüphanesine dahil ederken bir yandan farklı telaffuz örneklerini toplamaya devam ediyor ve şive farklılıklarını sistemine entegre etmeye çalışıyor.
voice search with Google - Google ile sesli arama


Google Voice Search ve iOS Siri  Karşılaştırma Videosu



Bilişsel bir özlem olarak, metin ve konuşma sesinin kendi aralarında dijital dönüşüm içermesi, insan doğasının online ve offline bütünleşmesinin son noktası olarak değerlendirebilir. Masaüstü-mobil yazılımlarla birlikte ses teknolojilerinin hayatımızda girmesiyle birlikte, “kalem-defter” gibi analog araçlarımız artık “retro teknikler” olarak kabul edilmeye başlanmış görünüyor.

Belki de çok yakın bir zamanda, ses komut teknolojileriyle, tüm dünyanın tek bir dilde (İngilizce) iletişime girmesi mümkün olabilecek. 

Ahmet Usta

Kaynak:
http://en.wikipedia.org/wiki/List_of_speech_recognition_software
http://www.google.com/intl/tr/insidesearch/features/voicesearch/index-chrome.html
http://www.apple.com/ios/siri/