آزاده محبی

آزاده محبی

مطالب

فیلتر های جستجو: فیلتری انتخاب نشده است.
نمایش ۱ تا ۴ مورد از کل ۴ مورد.
۱.

بهبود الگوریتم RAKE برای استخراج کلیدواژه از متون علمی فارسی؛ مطالعه موردی: پایان نامه ها و رساله های فارسی(مقاله علمی وزارت علوم)

کلید واژه ها: استخراج کلید واژه الگوریتم RAKE برچسب گذاری دستوری پردازش زبان طبیعی مستندات علمی فارسی

حوزه های تخصصی:
تعداد بازدید : 794 تعداد دانلود : 387
کلمات کلیدی زیر مجموعه ای از کلمات یا عبارات یک سند هستند که می توانند معنای سند را توصیف کنند و در فرایند بازیابی اطلاعات نقش مهمی ایفا کنند. از آنجا که عملیات استخراج کلیدواژه یا عبارات کلیدی از متون تخصصی و علمی کاری تخصصی و زمان بر بوده و حجم اسناد علمی که نیاز به کلیدواژه دارند روزافزون است، الگوریتم های مختلفی برای استخراج تخصصی و خودکار کلیدواژه و عبارات کلیدی به اسناد طراحی و پیاده سازی شده اند. RAKE یک الگوریتم پرکاربرد برای استخراج کلمات کلیدی از متون است. اساس کار الگوریتم RAKE ، کلمات کلیدی و عموماً حاوی چندین کلمه (یعنی عبارت کلیدی) هستند، ولی علائم نگارشی یا کلمات بی معنا یا ایست واژه ها را شامل نمی شوند. در این الگوریتم از برچسب گذاری دستوری کلمات به عنوان ابزاری برای تعیین ضریب اهمیت آن ها در جملات استفاده می شود. کلید واژه ها مجموعه ای از توالی های چندکلمه ای یا تک کلمه ای هستند که طبق معیار های خاصی امتیاز دهی می شوند. در این پژوهش، یک نسخه بهبود یافته از الگوریتم استخراج خودکار کلیدواژه ( RAKE ) ارائه شده است. در نسخه بهبودیافته سعی شده با ایجاد تغییراتی در معیارهای امتیازدهی عبارات کاندید، دقت و بازخوانی عبارات کلیدی استخراج شده افزایش یابد. راهکار ارائه شده برای بهبود الگوریتم RAKE با در نظر گرفتن ضعف های موجود در رویکرد های وزن دهی دراین الگوریتم به ویژه برای زبان فارسی و مستندات علمی پیشنهاد شده است. برای بررسی نقاط ضعف الگوریتم RAKE و ارائه راهکار پیشنهادی از مجموعه ای از فراداده های پایان نامه و رساله های فارسی استفاده شده است. راهکار پیشنهادی روی این داده ها آزمایش و ارزیابی شده و باعث افزایش دقت، بازخوانی و معیار F شده است.
۲.

همانندجویی در متون فارسی بازنویسی شده با استفاده از روش های معنایی و احتمالاتی(مقاله علمی وزارت علوم)

کلید واژه ها: تشخیص سرقت علمی همانندجویی معنایی همانندجویی احتمالاتی متون بازنویسی شده

حوزه های تخصصی:
تعداد بازدید : 542 تعداد دانلود : 528
همانندجویی ابزاری است که از آن برای تشخیص سرقت علمی/ادبی استفاده می شود. در یک روش همانندجویی، هدف تشخیص تمام قسمت های همانند موجود در یک متن مشکوک با توجه به تعدادی متن منبع احتمالی است. روش های زیادی برای همانندجویی ارائه شده اما از یک طرف، استفاده از روش های همانندجوی موجود برای سایر زبان ها به منظور همانندجویی در زبان فارسی مناسب نیست و از طرف دیگر، اغلب روش های ارائه شده برای همانندجویی در زبان فارسی قادر به تشخیص متون بازنویسی شده نیستند. با توجه به این مهم، در این مقاله دو روش همانندجویی جدید با هدف تشخیص متون فارسی بازنویسی شده ارائه خواهد شد. روش شناسی پژوهش براساس مطالعه منابع و مستندات معتبر علمی در این خصوص و روش کتابخانه ای است. روش اول پیشنهادی روشی معنایی است و از لغت نامه جهت بررسی همانندی جملات متون استفاده می کند. روش دوم پیشنهادی روشی احتمالاتی است و از اطلاعات آماری به دست آمده از پیکره ای عظیم از متون برای همانندجویی استفاده می کند. روش معنایی پیشنهادی در مقاسیه با روش های معنایی موجود از معیارهای جدیدتری برای بررسی همانندی متون استفاده کرده و روش احتمالاتی پیشنهادی اولین روش همانندجویی احتمالاتی ارائه شده برای زبان فارسی است. علاوه بر این، درحالیکه در سایر روش های موجود، همانندی هر دو جمله از متون موردنظر به صورت مستقل بررسی می شود، در روش های پیشنهادی همانندی جملات همسایه نیز در بررسی همانندی دو جمله در نظر گرفته شده است. نتایج پیاده سازی و آزمایشات صورت گرفته بر روی روش های پیشنهادی نشان می دهد که در حالیکه هر دو روش از کیفیت مناسب و تقریبا یکسانی برخوردار هستند، روش همانندجوی احتمالاتی پیشنهادی بسیار کاراتر بوده و زمان موردنیاز برای همانندجویی با استفاده از آن به طور متوسط برابر با 3.8% زمان موردنیاز توسط الگوریتم همانندجوی معنایی پیشنهادی است
۳.

ارائه یک معماری پیشنهادی برای مدیریت دانش در بنگاه2.0 با تمرکز بر رویکرد نوآوری باز(مقاله علمی وزارت علوم)

کلید واژه ها: معماری مدیریت دانش جریان دانش بنگاه 2 0 نوآوری باز نظریه داده بنیاد

حوزه های تخصصی:
تعداد بازدید : 968 تعداد دانلود : 87
امروزه یکی از مسائل مهم در کسب وکارهای بنگاه 2.0 ، چگونگی بهره برداری هدفمند و نظام مند از دانش های نوآورانه کاربران و مشتریان و دستیابی به سودمندی از طریق ورود این دانش در فرآیندهای سازمانی است. بهره گیری از رویکرد نوآوری باز که سبب بهبود جریان های دانشی بنگاه ها می شود می تواند به تحقق این امر کمک کند. با این وجود، تا به امروز یک معماری مدیریت دانش مشخص برای مدیریت جریان دانش مبتنی بر رویکرد نوآوری باز، در بنگاه 2.0 ارائه نشده است. در این پژوهش، یک معماری جدید برای مدیریت دانش در بنگاه 2.0 پیشنهاد شده که از رویکرد نوآوری باز بهره گرفته شده است. برای پیشنهاد این معماری از روش کیفی نظریه داده بنیاد با تاکید بر تحلیل محتوای اسناد و متون استفاده شده است. نتایج تحلیل محتوی نشان داده است که نقطه اشتراک مدیریت دانش، بنگاه 2.0 و نوآوری باز، مدیریت جریان دانش است. بر همین اساس، با استفاده از خصیصه های جریان دانش ورودی و خروجی، یک معماری مدیریت دانش پنج لایه ای با هفده مولفه پیشنهاد شده است. این لایه ها عبارتند از لایه منطق کسب وکار، ارائه و رابط، فرایند و جریان دانش، زیرساخت و زمینه. در معماری پیشنهادی، هر یک از این لایه ها دارای مولفه هایی هستند که با یکدیگر و برخی از مولفه های سایر لایه ها در ارتباط هستند. معماری پیشنهادی با دو نمونه اصلی مشابه در مطالعات پیشین نیز مقایسه شده است.
۴.

بهبود خلاصه سازی خودکار متون فارسی با استفاده از روش های پردازش زبان طبیعی و گراف شباهت(مقاله علمی وزارت علوم)

کلید واژه ها: خلاصه سازی استخراجی پردازش زبان طبیعی برچسب گذاری دستوری کلمات گراف شباهت

حوزه های تخصصی:
تعداد بازدید : 481 تعداد دانلود : 544
بخش قابل توجهی از اطلاعات قابل دسترس در پایگاه داده های متنی ذخیره شده است که شامل مجموعه بزرگی از اسناد و منابع مختلف (مانند مقالات خبری، کتاب ها، ایمیل ها و صفحات وب) است. افزایش چشمگیر این نوع اطلاعات، وجود ابزارهایی برای ارزیابی خودکار منابع متنی را بیش از هر زمان دیگری آشکار می کند. در این میان خلاصه سازی خودکار متون یکی از راهکارهایی است که از اتلاف وقت کاربران می کاهد. خلاصه سازی استخراجی به معنای انتخاب مهمترین جملات یک متن با هدف کوتاه نمودن آن است به شکلی که اطلاعات مهم متن ورودی را در بر داشته باشد. در این پژوهش با بکارگیری و ترکیب روش های پردازش زبان طبیعی دقت خلاصه های استخراجی بهبود می یابد و و روشی برای اصلاح الگوریتم ها و معیارهای امتیازدهی به جملات، ارائه می شود. در روش پیشنهادی برای امتیازدهی به کلمات، از برچسب نقش دستوری کلمات در جمله به عنوان ضریب اهمیت کلمات استفاده می شود که در نتیجه با انتخاب بهتر کلمات و جملاتی که بار محتوایی بیشتری دارند، باعث دقت خلاصه سازی افزایش می یابد. علاوه برآن، برای انتخاب جملات مناسب از متن، ازروش های مبتنی بر گراف شباهت بکارگرفته می شود به گونه ای که با تغییر وزن جملات انتخاب شده در پیمایش گراف، در هر گام چالش افزونگی اطلاعات برطرف می شود.در نهایت نتایج بدست آمده با معیارهای استانداردی مانند «بازخوانی» و «دقت» و بر روی یک پیکره متنی استاندارد فارسی نیز ارزیابی می شود.

پالایش نتایج جستجو

تعداد نتایج در یک صفحه:

درجه علمی

مجله

سال

حوزه تخصصی

زبان