نشانه گذاری داده

۱.

تحلیل پیکره بنیان متون فارسی میانه بر مبنای پایگاه داده پارسیگ(مقاله علمی وزارت علوم)

نویسنده: فرزانه گشتاسب مسعود قیومی نادیا حاجی پور

منبع: زبانشناخت سال دوازدهم بهار و تابستان ۱۴۰۰ شماره ۱ (پیاپی ۲۳) 255-280

کلیدواژه‌ها: زبان پهلوی زبان شناسی پیکره ای پایگاه داده نشانه گذاری داده

حوزه‌های تخصصی:

حوزه‌های تخصصی زبان شناسی

تعداد بازدید : ۶۰۷ تعداد دانلود : ۴۳۱

رویکرد نوین در مطالعات زبان شناختی یا یک پدیده زبانی بر اصل وجود مجموعه ای از داده های زبانی گردآوری شده نهادینه شده است؛ بنابراین به تهیه یک پیکره زبانی نیاز است که از تولیدات واقعی گویشوران و نه براساس شمّ زبانیِ فردی گردآوری شده است. این شیوه پژوهشی برای بررسی داده های زبانی تاریخی که جزء زبان های مرده است و اکنون هیچگونه گویشوری ندارد از اهمیت به سزایی برخوردار است. هدف از انجام این پژوهش، تهیه پیکره زبان پهلوی ساسانی (فارسی میانه) و ساماندهی آن در یک پایگاه است. برای هر واژه، شش لایه اطلاعاتی، اعم از حرف نویسی متن پهلوی، آوانویسی واژه ها به همراه ترجمه فارسی آنها، تعیین مقوله دستوری دانه ریز واژه ها، بن واژه سازی واژه ها و تعیین هزوارش بودن آنها، تعریف شده است. برای مقوله دستوری دانه ریز واژه ها، مجموعه برچسب مقولات دستوری فارسی معاصر تهیه شده توسط بی جن خان و همکاران (2011) و ساختارمندشده توسط قیومی (2014) باتوجه به نیازهای زبان پهلوی جرح و تعدیل شده است و از مجموعه جدید برای برچسب گذاری واژه های پهلوی استفاده شده است. پس از نشانه گذاری واژه ها و ساماندهی اطلاعات، امکان استخراج اطلاعات آماری وجود دارد که می تواند بینش عمیق تری از محتوای متن منتقل نماید. ازاین رو، اطلاعات آماری از پیکره به دست آمده استخراج شده و توضیح داده می شود تا دورنمای کلی نسبت به منابع تشکیل دهنده این پیکره به دست آید.