سهیلا کرباسی

سهیلا کرباسی

مطالب

فیلتر های جستجو: فیلتری انتخاب نشده است.
نمایش ۱ تا ۴ مورد از کل ۴ مورد.
۱.

تکنیک های خلاصه سازی چندسندی خودکار متون فارسی مبتنی بر الگوریتم های فرااکتشافی(مقاله علمی وزارت علوم)

کلید واژه ها: خلاصه سازی خودکار متن خلاصه استخراجی الگوریتم های فرااکتشافی الگوریتم ژنتیک الگوریتم جستجوی فاخته ابزار ارزیابی Rouge

حوزه های تخصصی:
تعداد بازدید : ۱۰۳۸ تعداد دانلود : ۴۶۶
هدف: ارائه الگوی خلاصه سازی استاندارد متون فارسی با رویکرد تبدیل مسئله خلاصه سازی به مسئله بهینه سازی توسط الگوریتم های فرااکتشافی سازگار. روش شناسی: در این پژوهش از اسناد استاندارد پیکره چندسندی «پاسخ» که شامل 50 موضوع مختلف از انواع گونه های خبری از خبرگزاری های پرببینده ایران، برای ارزیابی استفاده شده است. هر موضوع حاوی 20 سند و همچنین 5 خلاصه چکیده ای و 5 خلاصه استخراجی است. ابتدا عملیات پیش پردازش روی متون ورودی انجام و خلاصه های اولیه تولید شدند. این کار به کمک معیار TF-ISF، معیارهای خوانایی و انسجام جملات، ویژگی شباهت با عنوان، ویژگی موقعیت جمله در متن، و ویژگی طول جمله انجام شد. با توجه به هر یک از این معیارها، وزنی به هر یک از جملات خلاصه اختصاص داده و ماتریس شباهت ایجاد شد. سپس، خروجی سیستم استخراج توسط دو الگوریتم فرااکتشافی ژنتیک و جستجوی فاخته برای رسیدن به خلاصه نهایی پردازش شد. درنهایت، خروجی به دست آمده از مرحله قبل به کمک ابزار ارزیابی Rouge و مقایسه با خلاصه های انسانی تحلیل شدند. یافته ها: میانگین همه مقادیر به دست آمده از ابزار ارزیابی Rouge در محاسبه میزان هم پوشانی نمونه های مشترک خلاصه های انسانی و خلاصه ماشینی توسط الگوریتم جستجوی فاخته بیشتر از مقادیر به دست آمده توسط الگوریتم ژنتیک و همچنین سامانه خلاصه ساز برخط ایجاز بودند. از میان هشت معیار موجود در این ابزار، دو معیار ارزیابی طولانی ترین زیررشته مشترک با مقدار 0.33 و تعداد لغات مشابه در متن با مقدار 0.40 نتایج بهتری نسبت به بقیه معیارها داشتند. نتیجه گیری: نتایج حاصل از مقایسه دو الگوریتم به کاررفته، حاکی از عملکرد بهتر الگوریتم جستجوی فاخته در هر یک از معیارهای ابزار Rouge است. از طرفی مقایسه زمانی نتایج نشان می دهد که میانگین زمانی محاسبه شده برای خلاصه سازی توسط سیستم پیشنهادی با الگوریتم جستجوی فاخته کمتر است.
۲.

تأثیر تکنیک های خلاصه سازی بر دسته بندی متون فارسی(مقاله علمی وزارت علوم)

کلید واژه ها: دسته بندی متون فارسی خلاصه ساز TF-ISF الگوریتم های دسته بندی معیارهای ارزیابی دسته بندی

حوزه های تخصصی:
تعداد بازدید : ۳۷۴ تعداد دانلود : ۳۳۹
هدف این پژوهش، استفاده از ترکیب تکنیک های دسته بندی و خلاصه سازی و بررسی تاثیر افزایش تعداد اسناد می باشد که تأثیر پارامترهای خلاصه سازی TF وISF و چهار تکنیک دسته بندی بیزین، درخت تصمیم، قانون و بردار پشتیبان و سه معیار ارزیابی دقت، صحت و فراخوان بر روی 1000 سند متن اصلی و خلاصه محاسبه و تفاوت ها بررسی شدند. نتیجه ی این پژوهش حاکی از برتری اسناد 1000 تایی، روش خلاصه ساز ISF نسبت به TF، روش های دسته بندی بیزین و بردار پشتیان نسبت به روش قانون و درخت تصمیم، متن اصلی نسبت به متن خلاصه می باشد که بیشترین مقدار %96.67 از معیار صحت در دسته بندی SVM و اسناد 1000 تایی متن اصلی از تکنیک خلاصه ساز ISF حاصل شد.
۳.

Identifying Abnormal Behavior of Users in Recommender Systems

تعداد بازدید : ۱۰۳ تعداد دانلود : ۸۷
Nowadays, we deal with a large volume of information that we may have wrong choices without appropriate guidance. To this end, recommender systems are proposed which are a type of information filtering system that acts as a filter and displays information that is useful and close to the user's interests. They reduce the volume of the retrieved information and help users to select relevant products from millions of choices available on the internet. However, since these systems use explicitly and implicitly collected information about the user's interests for different items to predict the user's favorite items, the adversaries due to their openness nature might attack them. Therefore, identifying them is essential to improve the quality of the recommendations. For this purpose, in this paper, a method based on two criteria of a maximum number of users with the equal length and the degree of novelty of their profiles is presented and finally, the DBSCAN clustering algorithm is used to distinguish genuine users from fake users. In order to improve the DBSCAN algorithm, we proposed a new method to determine the values of Eps and MinPts automatically. The results of the proposed method are compared with a new comparative study on shilling detection methods for trustworthy recommendations, which shows that the proposed method independent of the type of attack can identify fake users in most cases with accuracy close to 1.
۴.

ارزیابی عملکرد مدل های پایگاه داده در سیستم های شبکه های اجتماعی(مقاله علمی وزارت علوم)

کلید واژه ها: شبکه های اجتماعی پایگاه داده مدل داده های بزرگ مقیاس پذیری

حوزه های تخصصی:
تعداد بازدید : ۵۴ تعداد دانلود : ۳۶
در این پژوهش مدل های داده محبوبترین شبکه های اجتماعی به همراه مزایا و معایب مربوط به آنها و همچنین مواردی که برای ذخیره سازی و بازیابی داده های شبکه های اجتماعی مهم و حائز اهمیت هستند بررسی و ارائه شده است. کاربردهای شبکه های اجتماعی در چند سال گذشته رشد چشمگیری داشته اند که نتیجه این رشد، تولید حجم زیادی داده می باشد. از طرفی ذخیره سازی و تجزیه و تحلیل داده های شبکه های اجتماعی برای انواع کسب و کارهای امروزه به طور موثر ضروری می باشند. انواع روش های ذخیره سازی رایج بر اساس مدل داده رابطه ای برای حجم بالای اطلاعات مقیاس پذیر نبوده و بنابراین بهینه و کارآمد نمی باشند. در نتیجه استفاده از روش های ذخیره سازی مبتنی بر مدل های غیررابطه ای به همراه مدل رابطه ای بسیار مرسوم شده اند. در این تحقیق، مجموعه داده حجیمی از داده های شبکه اجتماعی توییتر که شامل 15811468 توییت از پست های ارسالی توسط 300000 کاربر فارسی زبان این شبکه اجتماعی می باشد در سه پایگاه داده MySQL، MongoDB وRedis ذخیره شده و عملکرد هر یک از آنها با اجرای پرس وجوهای مختلف بررسی و مقایسه شده است. علاوه بر اندازه گیری زمان صرف شده برای اجرای عملیات بر روی داده ها، میزان فضای اشغال شده توسط پایگاه های داده نیز بررسی شدند. با توجه به مزایا و محدودیت های مرتبط با ساختار هر سه پایگاه داده، از مقادیر به دست آمده می توان نتیجه گرفت که اگر داده ها دارای ساختار مشخصی هستند، پایگاه داده رابطه ای مانند MySQL انتخاب خوبی است. اگر داده ها بدون ساختار و یا ساختاریافته با پتانسیل رشد سریع باشند، مدل های NoSQL کارایی بهتری خواهند داشت. ضمن اینکه نگهداری داده ها به صورت موقت و با سرعت زیاد در پایگاه های داده کلید- مقدار مانند Redis که داده ها را در حافظه نگهداری می کنند، مناسب تر هستند. همچنین از نظر زمان اجرا، MongoDB با صرف زمان کمتری در مقایسه با MySQL و Redis پرس و جوها را اجرا می کند که این اثباتی است بر اینکه پایگاه های داده NoSQL عملکرد و مقیاس پذیری بهتری را برای اکثر عملیات در مجموعه داده های بزرگ نشان می دهند.

پالایش نتایج جستجو

تعداد نتایج در یک صفحه:

درجه علمی

مجله

سال

حوزه تخصصی

زبان