خلاصه سازی متون فارسی با استفاده از رویکرد کدگذاری تنک و بازنمایی عصبی جملات(مقاله علمی وزارت علوم)
حوزه های تخصصی:
امروزه گستردگی و تنوع اطلاعات متنی باعث پیچیدگی فرایند یافتن دانش و الگو های مورد نظر از میان آن ها گردیده است. یکی از گام های موثر برای کاهش این مشکل خلاصه سازی متون می باشد. در چند دهه گذشته، مسئله خلاصه سازی با توجه به نمونه های گوناگون از جهات و ابعاد مختلف بررسی شده است. خلاصه سازی فرآیندی هوشمند است که انجام آن حتی برای انسان ها ساده نمی باشد و هر فردی با توجه به دیدگاهش می تواند نتیجه متفاوتی ارائه دهد. یک خلاصه مناسب باید دارای سه ویژگی پوشش، تنک بودن و تنوع باشد. بدین منظور در این پژوهش برای در نظر گرفتن این ویژگی ها یک روش بر مبنای کدگذاری تنک ارائه می گردد. با استفاده از این روش جملاتی به عنوان خلاصه نهایی انتخاب می گردند که حداقل خطا را در بازسازی جملات متن ورودی داشته باشند. سپس با استفاده از روش های عصبی در بازنمایی معنایی کلمات و همچنین متون به بهبود روش پیشنهادی پرداخته می شود. برای ارزیابی روش پیشنهادی از مجموعه دادگان پاسخ استفاده شده است و نشان داده می شود که روش پیشنهادی عملکرد بهتری نسبت به سایر پژوهش های انجام شده بر روی این دادگان در زبان فارسی دارد. مدل پیشنهادی توانسته است به میزان 10.02% و 8.65% به ترتیب در معیار F روژ-1[1] و روژ-2[2] بهبود حاصل نماید. [1] Rouge-1 [2] Rouge-2