آرشیو

آرشیو شماره‌ها:
۳۸

چکیده

در سند نقشه جامع علمی کشور، به ارتقای جایگاه زبان فارسی در مقام زبان علم در بین زبان های بین المللی علمی اشاره شده است. یکی از راه کارهای رسیدن به این هدف کلان، گسترش زبان فارسی ذکر شده است. برای رسیدن به این هدف که می تواند در حوزه سیاستگذاری های مربوط به زبان فارسی مطرح شود، به درک بیشتر از محتوای زبانی نیاز است. از این منظور، کتاب های درسی دانش آموزان که با مفاهیم پایه آموزش می بینند اهمیت زیادی پیدا می کند. توصیف این ویژگی ها می تواند به هنگام تهیه محتوای زبانی مد نظر قرار گیرد. در این پژوهش، پیکره ای از متون درسی کلاس های اول تا ششم ابتدایی به حجمی در حدود 208هزار واژه تهیه شده و برچسب گذاری شده است. این دروس شامل فارسی، علوم، مطالعات اجتماعی و هدیه های آسمانی است. تمام جملات دروس مختلف به تفکیک پایه و درس، در فایل های متنی ساده حروف نگاری شده و پس از هنجارسازی در فرایند پیش پردازش، در چهار سطح آوایی، بن واژه-ای، مقوله دستوری و تجزیه سازه ای نحوی برچسب گذاری شده و بررسی شده است. نتایج حاصل از این می تواند به شناخت بیشتر از محتوای کتاب های درسی کمک کند و در حوزه آموزش و سیاستگذاری در این حوزه مفید باشد.

An Account on the Annotated Corpus Developed from Textbooks of Grades 1 to 6

In the comprehensive scientific roadmap of the country (Iran), the promotion of Persian language as a science language among other international science languages is taken into consideration. One of the ways to reach this goal is suggested as expanding the usage of the Persian language. To achieve the goal, which can be raised in the field of Persian language policy making, it is necessary to understand more about the linguistic content properties and the basic concepts that are taught in the textbooks to students. The description of these features can be considered when preparing the language content. In this research, a corpus of textbooks from grades 1 to 6 (the primary school period) is developed that contains around 208,000 words and annotated. These courses include Farsi, Experimental Sciences, Social Studies and Heavenly Gifts. All the sentences of different courses are written in plain text files, separated by grade and course, and after normalization in the pre-processing process, they are annotated automatically at four levels: broad transliteration, lemmatization, part-of-speech and syntactic constituency parsing. The results of this research can help to know more about the content of textbooks and to be useful in the fields of education and policy making in language planning.

تبلیغات