Comparative Analysis of Speech Rhythm Measures for Persian Speaker Identification: Duration vs. Intensity (مقاله علمی وزارت علوم)
درجه علمی: نشریه علمی (وزارت علوم)
آرشیو
چکیده
Previous studies have demonstrated the efficacy of speech rhythm measures in speaker identification across various languages with different phonotactic structures. In Persian language, in particular, two categories of speech rhythm metrics were examined: duration-based and intensity-based metrics. Building upon these prior works, the current study delves deeper into the discrimination capabilities of the mentioned measurement types—duration-based versus intensity-based—in the context of Persian speakers. To achieve this, a multinomial logistic regression model was employed on a dataset comprising 20 male Persian speakers, each reciting 100 sentences at a normal speaking pace. Findings revealed that, when distinguishing between Persian speakers, duration-based measures outperform intensity-based ones, however, this excellence is very slight. This observation is significant, as it sheds light on the suitability of specific rhythm metrics for Persian speaker identification. I postulate that this discrepancy in performance may be attributed to the simple syllable structure of Persian and the lesser reliance on intensity as a primary indicator of lexical stress. This research contributes valuable insights into the choice of rhythm metrics for optimal Persian speaker identification and underscores the importance of considering linguistic features when developing speaker recognition systems.Top of Formبررسی مقایسه ای پارامترهای ریتم گفتار در تشخیص هویت گویندگان فارسی زبان: دیرش در برابر شدت
پژوهش های پیشین نشان داده اند که پارامترهای ریتم گفتار می توانند گویندگان زبان های گوناگون با ساختارهای واج آرایی متفاوت را از هم تشخیص دهند. به طور خاص، در زبان فارسی تاکنون دو دسته از پارامترهای ریتم گفتار یعنی پارامترهای مبتنی بر دیرش و پارامترهای مبتنی بر شدت بررسی شده اند. با توجه به پژوهش های پیشین، برآنیم تا در پژوهش حاضر بررسی گسترده تری پیرامون قابلیت های فردویژه این پارامترها انجام دهیم. به این منظور، با استفاده از مدل آماری رگرسیون لجستیک چنداسمی، پارامترهای مختلف ریتم گفتار را در پیکره ای متشکل از ۲۰ گویشور مرد فارسی زبان که هر کدام ۱۰۰ جمله فارسی را با سرعت عادی بیان کرده بودند، بررسی کردیم. یافته ها نمایانگر آن بود که پارامترهای مبتنی بر دیرش نسبت به پارامترهای مبتنی بر شدت عملکرد نسبتاً بهتری داشته اند. این احتمال وجود دارد که دلیل برتری این پارامترها به سبب ساختار هجایی ساده زبان فارسی و نیز اتکای بیشتر آن به دیرش برای بازنمایی تکیه واژگانی باشد. یافته های این پژوهش از این جهت اهمیت دارد که از یک سو به درک پارامترهای مناسب تر در تشخیص هویت گوینده های فارسی زبان کمک می کند و از سویی دیگر، بر این نکته نیز همزمان تأکید می کند که ویژ گی های زبان ویژه در مطالعات تشخیص هویت گوینده بایستی مورد توجه قرار گرفته شوند.