АНАЛИЗ ВЛИЯНИЯ ДЛИНЫ АУДИОФАЙЛА НА ТОЧНОСТЬ КЛАССИФИКАЦИИ ДИКТОРОВ
Main Article Content
Аңдатпа
Бұл мақалада аудиофайл ұзындығының дикторларды автоматты түрде саралау дәлдігіне әсері қарастырылады. Зерттеу Common Voice ашық корпусына негізделіп, ұзақтығы әртүрлі — 1 секундтан 10 секундқа дейінгі аудиожазбалар қолданылды. Ерекшелік ретінде MFCC коэффициенттері пайдаланылып, саралау үшін k-NN және SVM модельдері қолданылды. Нәтижелер көрсеткендей, жазба ұзақтығы артқан сайын саралау дәлдігі едәуір өседі, бірақ белгілі бір межеден кейін бұл әсер айқын болмай қалады. Алынған қорытындылар уақыт жағынан шектеулі аудиокірістермен жұмыс істейтін дауыс биометриялық жүйелерін жобалауда пайдалы болуы мүмкін.
Article Details
##submission.citations##
Vibha, T. (2010). MFCC and Its Applications in Speaker Recognition. International Journal on Emerging Technologies;
Speaker Identification Using Pitch and MFCC. MathWorks Documentation, 2022.
Rutowski, T., Harati, A. & Lu, Y. & Shriberg, E. (2019). Optimizing Speech-Input Length for Speaker-Independent Depression Classification. 3023-3027. 10.21437/Interspeech.2019-3095;
Janybekova, S., Sarsembayev, A. & Tolganbayeva, G. (2023). Comparing Machine Learning Models to Determine the Effect of Speech Duration on Speaker Identification within Kazakh Speech Corpus. Procedia Computer Science, 231, 727-733, https://doi.org/10.1016/j.procs.2023.12.146;
Cavalcanti, J., Rodrigues R., Eriksson, A. & Barbosa, P. (2024). Exploring the performance of automatic speaker recognition using twin speech and deep learning-based artificial neural networks. Frontiers in Artificial Intelligence, 7, https://doi.org/10.3389/frai.2024.1287877;
Marylou, P., Karen P. & Harry H. (1989). The effects of sample duration and timing on speaker identification accuracy by means of long-term spectra. Journal of Phonetics. 17, 327-338, https://doi.org/10.1016/S0095-4470(19)30448-6;
Kumar, S., Buddi, S., Sarawgi, U., Garg, V., Ranjan, S., Ognjen, Rudovic & Hussen, A. (2024). Comparative Analysis of Personalized Voice Activity Detection Systems: Assessing Real-World Effectiveness. 10.48550/arXiv.2406.09443;
Speaker Recognition using MFCC and Deep Learning. GitHub Repository.
Nagrani, A., Joon, C. & Andrew, Z. (2017). VoxCeleb: a large-scale speaker identification dataset. 10.48550/arXiv.1706.08612;
Nagrani, A., Joon, C. & Andrew, Z. (2018). VoxCeleb2: Deep Speaker Recognition. 10.48550/arXiv.1806.05622;
Common Voice Dataset. Mozilla and PapersWithCode.
Antonio, A., Napoleão, N. & Vasco F. (2024). Enhancing speaker identification in criminal investigations through clusterization and rank-based scoring. Forensic Science International: Digital Investigation, 49, https://doi.org/10.1016/j.fsidi.2024.301765;
Xie, W., Nagrani, A., Chung, J. & Zisserman, A. (2019). Utterance-level Aggregation For Speaker Recognition In The Wild. 10.48550/arXiv.1902.10107;
Sharma, A. (2020). Speaker Recognition Using Machine Learning Techniques. San José State University.