Yüksek Lisans Adayı: Atıl İleriaalkan
EABD: Çokluortam Bilişimi
Tarih: 02.09.2019 / 11:00
Yer: A-212
Özet: Konuşmadan çıkarılan akustik özellikler, biyometrik konuşmacı tanımlama veya birinci şahıs etkinlik tespiti gibi problemlerde yaygın olarak kullanılır. Ancak, konuşma verilerinin kullanımı, konuşma içeriğinin açık bir şekilde kullanılabilir olması nedeniyle gizlilik konusundaki endişeleri artırmaktadır. Bu tezde sadece nefes verilerini kullanarak konuşma ve duruş sınıflandırması için bir yöntem öneriyoruz. Akustik anlık yan bilgi, Hilbert-Huang dönüşümü kullanılarak nefes örneklerinden çıkarıldı. Anlık frekans, büyüklük ve faz özellikleri, içsel kip işlevleri kullanılarak çıkarıldı ve bunların farklı kombinasyonları, sınıflandırma için CNN-LSTM ağımıza beslendi. Ayrıca, hem bu tezdeki deneylerimiz hem de gelecekteki çalışmalarımız için halka açık nefes veri setimizi, BreathBase'i oluşturduk. Veri setimiz, önceden hazırlanmış rastgele sözler içeren metinleri 4 farklı mikrofonla 5 farklı duruşla okuyan 20 katılımcının kayıtlarında tespit edilen 4600'den fazla nefes örneği içermektedir. Konuşmanın nefes bölümlerinden elde edilen yan bilgileri kullanarak, bu yöntemle 15 konuşmacı arasında \% 56 konuşmacı sınıflandırma ve \% 96 duruş sınıflandırma doğruluğu elde edildi. Ağımız ayrıca SVM, LSTM ve kNN-DTW tekniklerinin kombinasyonu gibi diğer çeşitli yöntemlerden daha iyi performans gösterdi.