مرتضی رضایی شریف آبادی

مرتضی رضایی شریف آبادی

مطالب

فیلتر های جستجو: فیلتری انتخاب نشده است.
نمایش ۱ تا ۱ مورد از کل ۱ مورد.
۱.

تهیهٔ فهرست بسامدی واژگان علمی فارسی با بهره گیری از پیکرهٔ علمی(مقاله علمی وزارت علوم)

تعداد بازدید : 802 تعداد دانلود : 917
واژه های علمی واژه هایی هستند که در طیف وسیعی از رشته های علمی بسامد بالایی دارند و بسامدشان در متون علمی بسیار بیشتر از بسامدشان در سایر متون است. دسترسی به فهرستی بسامدی از واژه های علمی می تواند به یادگیری سریع تر زبان علمی کمک کند. پیش نیاز تهیه چنین فهرستی، ایجاد پیکره ای متوازن از متون علمی فارسی است. برای این منظور، متون علمی منتشرشده در نشریات علمی فارسی با برنامه نویسی رایانه ای و توسعه خزنده وب جمع آوری شد. در نهایت پیکره ای شامل بیش از ۵۱ میلیون واژه با حجم متوازنی از داده در چهار حوزه موضوعی شامل «علوم پایه و فنی و مهندسی»، «علوم انسانی و هنر و معماری»، «پزشکی و دامپزشکی» و «کشاورزی و منابع طبیعی» ساخته شد. در این پژوهش پس از بررسی ملاحظات مربوط به توسعه فهرست های بسامدی علمی، فهرستی از واژه های علمی فارسی تهیه شد که شامل ۳۰۷ بن واژه است که در متون علمی بسامد بالایی دارند، بسامدشان در متون علمی به مراتب بیش از متون عمومی است و پراکندگی مناسبی در موضوعات مختلف علمی دارند. نتایج ارزیابی فهرست بسامدی تهیه شده نشان دهنده پوشش بیش از ۱۶ درصدی فهرست روی متون علمی است که این درصد با پوشش فهرست های جمع آوری شده برای زبان های دیگر مطابقت دارد. همچنین توزیع مناسب واژه های فهرست جمع آوری شده در چهار حوزه موضوعی پیکره باعث شده است که میزان پوشش در هر یک از این حوزه های موضوعی نیز عددی قابل قبول بین ۱۲ تا ۱۸ درصد باشد. فهرست واژه های علمی استخراج شده می تواند برای اهداف مختلف آموزشی و پژوهشی مورداستفاده قرار گیرد. همچنین پیکره علمی تهیه شده نیز منبع ارزشمندی برای مطالعات حوزه زبان شناسی پیکره ای و پژوهش های مرتبط با پردازش زبان است.

کلیدواژه‌های مرتبط

پدیدآورندگان همکار

تبلیغات

پالایش نتایج جستجو

تعداد نتایج در یک صفحه:

درجه علمی

مجله

سال

زبان