آزاده محبی

آزاده محبی

مطالب

فیلتر های جستجو: فیلتری انتخاب نشده است.
نمایش ۱ تا ۵ مورد از کل ۵ مورد.
۱.

بهبود خلاصه سازی خودکار متون فارسی با استفاده از روش های پردازش زبان طبیعی و گراف شباهت(مقاله علمی وزارت علوم)

کلید واژه ها: خلاصه سازی استخراجی پردازش زبان طبیعی برچسب گذاری دستوری کلمات گراف شباهت

حوزه های تخصصی:
تعداد بازدید : ۱۷۰۴ تعداد دانلود : ۵۶۷
بخش قابل توجهی از اطلاعات قابل دسترس در پایگاه داده های متنی ذخیره شده است که شامل مجموعه بزرگی از اسناد و منابع مختلف (مانند مقالات خبری، کتاب ها، ایمیل ها و صفحات وب) است. افزایش چشمگیر این نوع اطلاعات، وجود ابزارهایی برای ارزیابی خودکار منابع متنی را بیش از هر زمان دیگری آشکار می کند. در این میان خلاصه سازی خودکار متون یکی از راهکارهایی است که از اتلاف وقت کاربران می کاهد. خلاصه سازی استخراجی به معنای انتخاب مهمترین جملات یک متن با هدف کوتاه نمودن آن است به شکلی که اطلاعات مهم متن ورودی را در بر داشته باشد. در این پژوهش با بکارگیری و ترکیب روش های پردازش زبان طبیعی دقت خلاصه های استخراجی بهبود می یابد و و روشی برای اصلاح الگوریتم ها و معیارهای امتیازدهی به جملات، ارائه می شود. در روش پیشنهادی برای امتیازدهی به کلمات، از برچسب نقش دستوری کلمات در جمله به عنوان ضریب اهمیت کلمات استفاده می شود که در نتیجه با انتخاب بهتر کلمات و جملاتی که بار محتوایی بیشتری دارند، باعث دقت خلاصه سازی افزایش می یابد. علاوه برآن، برای انتخاب جملات مناسب از متن، ازروش های مبتنی بر گراف شباهت بکارگرفته می شود به گونه ای که با تغییر وزن جملات انتخاب شده در پیمایش گراف، در هر گام چالش افزونگی اطلاعات برطرف می شود.در نهایت نتایج بدست آمده با معیارهای استانداردی مانند «بازخوانی» و «دقت» و بر روی یک پیکره متنی استاندارد فارسی نیز ارزیابی می شود.
۲.

بهبود الگوریتم RAKE برای استخراج کلیدواژه از متون علمی فارسی؛ مطالعه موردی: پایان نامه ها و رساله های فارسی(مقاله علمی وزارت علوم)

کلید واژه ها: استخراج کلید واژه الگوریتم RAKE برچسب گذاری دستوری پردازش زبان طبیعی مستندات علمی فارسی

حوزه های تخصصی:
تعداد بازدید : ۵۱۳ تعداد دانلود : ۱۶۷
کلمات کلیدی زیر مجموعه ای از کلمات یا عبارات یک سند هستند که می توانند معنای سند را توصیف کنند و در فرایند بازیابی اطلاعات نقش مهمی ایفا کنند. از آنجا که عملیات استخراج کلیدواژه یا عبارات کلیدی از متون تخصصی و علمی کاری تخصصی و زمان بر بوده و حجم اسناد علمی که نیاز به کلیدواژه دارند روزافزون است، الگوریتم های مختلفی برای استخراج تخصصی و خودکار کلیدواژه و عبارات کلیدی به اسناد طراحی و پیاده سازی شده اند. RAKE یک الگوریتم پرکاربرد برای استخراج کلمات کلیدی از متون است. اساس کار الگوریتم RAKE ، کلمات کلیدی و عموماً حاوی چندین کلمه (یعنی عبارت کلیدی) هستند، ولی علائم نگارشی یا کلمات بی معنا یا ایست واژه ها را شامل نمی شوند. در این الگوریتم از برچسب گذاری دستوری کلمات به عنوان ابزاری برای تعیین ضریب اهمیت آن ها در جملات استفاده می شود. کلید واژه ها مجموعه ای از توالی های چندکلمه ای یا تک کلمه ای هستند که طبق معیار های خاصی امتیاز دهی می شوند. در این پژوهش، یک نسخه بهبود یافته از الگوریتم استخراج خودکار کلیدواژه ( RAKE ) ارائه شده است. در نسخه بهبودیافته سعی شده با ایجاد تغییراتی در معیارهای امتیازدهی عبارات کاندید، دقت و بازخوانی عبارات کلیدی استخراج شده افزایش یابد. راهکار ارائه شده برای بهبود الگوریتم RAKE با در نظر گرفتن ضعف های موجود در رویکرد های وزن دهی دراین الگوریتم به ویژه برای زبان فارسی و مستندات علمی پیشنهاد شده است. برای بررسی نقاط ضعف الگوریتم RAKE و ارائه راهکار پیشنهادی از مجموعه ای از فراداده های پایان نامه و رساله های فارسی استفاده شده است. راهکار پیشنهادی روی این داده ها آزمایش و ارزیابی شده و باعث افزایش دقت، بازخوانی و معیار F شده است.
۳.

همانندجویی در متون فارسی بازنویسی شده با استفاده از روش های معنایی و احتمالاتی(مقاله علمی وزارت علوم)

کلید واژه ها: تشخیص سرقت علمی همانندجویی معنایی همانندجویی احتمالاتی متون بازنویسی شده

حوزه های تخصصی:
تعداد بازدید : ۴۸۰ تعداد دانلود : ۲۹۲
همانندجویی ابزاری است که از آن برای تشخیص سرقت علمی/ادبی استفاده می شود. در یک روش همانندجویی، هدف تشخیص تمام قسمت های همانند موجود در یک متن مشکوک با توجه به تعدادی متن منبع احتمالی است. روش های زیادی برای همانندجویی ارائه شده اما از یک طرف، استفاده از روش های همانندجوی موجود برای سایر زبان ها به منظور همانندجویی در زبان فارسی مناسب نیست و از طرف دیگر، اغلب روش های ارائه شده برای همانندجویی در زبان فارسی قادر به تشخیص متون بازنویسی شده نیستند. با توجه به این مهم، در این مقاله دو روش همانندجویی جدید با هدف تشخیص متون فارسی بازنویسی شده ارائه خواهد شد. روش شناسی پژوهش براساس مطالعه منابع و مستندات معتبر علمی در این خصوص و روش کتابخانه ای است. روش اول پیشنهادی روشی معنایی است و از لغت نامه جهت بررسی همانندی جملات متون استفاده می کند. روش دوم پیشنهادی روشی احتمالاتی است و از اطلاعات آماری به دست آمده از پیکره ای عظیم از متون برای همانندجویی استفاده می کند. روش معنایی پیشنهادی در مقاسیه با روش های معنایی موجود از معیارهای جدیدتری برای بررسی همانندی متون استفاده کرده و روش احتمالاتی پیشنهادی اولین روش همانندجویی احتمالاتی ارائه شده برای زبان فارسی است. علاوه بر این، درحالیکه در سایر روش های موجود، همانندی هر دو جمله از متون موردنظر به صورت مستقل بررسی می شود، در روش های پیشنهادی همانندی جملات همسایه نیز در بررسی همانندی دو جمله در نظر گرفته شده است. نتایج پیاده سازی و آزمایشات صورت گرفته بر روی روش های پیشنهادی نشان می دهد که در حالیکه هر دو روش از کیفیت مناسب و تقریبا یکسانی برخوردار هستند، روش همانندجوی احتمالاتی پیشنهادی بسیار کاراتر بوده و زمان موردنیاز برای همانندجویی با استفاده از آن به طور متوسط برابر با 3.8% زمان موردنیاز توسط الگوریتم همانندجوی معنایی پیشنهادی است
۴.

ارائه یک معماری پیشنهادی برای مدیریت دانش در بنگاه2.0 با تمرکز بر رویکرد نوآوری باز(مقاله علمی وزارت علوم)

کلید واژه ها: معماری مدیریت دانش جریان دانش بنگاه 2 0 نوآوری باز نظریه داده بنیاد

حوزه های تخصصی:
تعداد بازدید : ۴۲۴ تعداد دانلود : ۳۴۹
امروزه یکی از مسائل مهم در کسب وکارهای بنگاه 2.0 ، چگونگی بهره برداری هدفمند و نظام مند از دانش های نوآورانه کاربران و مشتریان و دستیابی به سودمندی از طریق ورود این دانش در فرآیندهای سازمانی است. بهره گیری از رویکرد نوآوری باز که سبب بهبود جریان های دانشی بنگاه ها می شود می تواند به تحقق این امر کمک کند. با این وجود، تا به امروز یک معماری مدیریت دانش مشخص برای مدیریت جریان دانش مبتنی بر رویکرد نوآوری باز، در بنگاه 2.0 ارائه نشده است. در این پژوهش، یک معماری جدید برای مدیریت دانش در بنگاه 2.0 پیشنهاد شده که از رویکرد نوآوری باز بهره گرفته شده است. برای پیشنهاد این معماری از روش کیفی نظریه داده بنیاد با تاکید بر تحلیل محتوای اسناد و متون استفاده شده است. نتایج تحلیل محتوی نشان داده است که نقطه اشتراک مدیریت دانش، بنگاه 2.0 و نوآوری باز، مدیریت جریان دانش است. بر همین اساس، با استفاده از خصیصه های جریان دانش ورودی و خروجی، یک معماری مدیریت دانش پنج لایه ای با هفده مولفه پیشنهاد شده است. این لایه ها عبارتند از لایه منطق کسب وکار، ارائه و رابط، فرایند و جریان دانش، زیرساخت و زمینه. در معماری پیشنهادی، هر یک از این لایه ها دارای مولفه هایی هستند که با یکدیگر و برخی از مولفه های سایر لایه ها در ارتباط هستند. معماری پیشنهادی با دو نمونه اصلی مشابه در مطالعات پیشین نیز مقایسه شده است.
۵.

توسعه سیستم پیشنهاددهنده بر مبنای استدلال نمونه محور برای نمایه سازی مستندات علمی فارسی(مقاله علمی وزارت علوم)

کلید واژه ها: سیستم های پیشنهاددهنده استدلال نمونه محور روش بازنمایی کلمه-به-بردار بازیابی اطلاعات یادگیری ماشین نمایه سازی

حوزه های تخصصی:
تعداد بازدید : ۸۰ تعداد دانلود : ۵۴
استخراج کلیدواژه یکی از مهمترین قدم های فرآیند نمایه سازی مستندات است. کلیدواژه ها توصیفگرهای مفهومی هستند که می توانند در جستجو و بازیابی اطلاعات و نیز اشاعه آنها بکارگرفته شوند. در پایگاه های دربردارنده اسناد علمی مانند پایگاه علمی گنج پژوهشگاه علوم و فناوری اطلاعات ایران، کلیدواژه ها نقش مهمتری دارند و تخصیص کلیدواژه های تخصصی چالش برانگیزتر است چرا که این پایگاه ها دربرگیرنده اسناد تخصصی با حوزه های علمی مختلفی هستند. فرآیند نمایه-سازی دستی بسیار زمان بر است و با توجه به افزایش حجم تولید و ثبت مستندات علمی، نیاز است که این فرایند با سرعت بیشتری صورت گیرد. لذا استفاده از روش های ماشینی هوشمند برای پیشنهاد و تخصیص کلیدواژه ضروری است. تحلیل آماری و معنایی اسناد و استفاده از روش های یادگیری ماشین از جمله روش های پرکاربرد در بسیاری از پایگاه های اطلاعات علمی دنیا است. بر همین اساس، در این پژوهش روشی برای پیشنهاد کلیدواژه به مستندات علمی فارسی بر مبنای روش های هوشمند پردازش متن و یادگیری ماشین ارائه شده است. این روش بر مبنای سیستم های پیشنهاددهنده و استدلال نمونه محور است که براساس آن، مجموعه ای از کلیدواژه های مرتبط با یک سند به نمایه ساز پیشنهاد می شود تا او سریعتر بتواند کلیدواژه های مناسب را انتخاب کند. به بیانی دیگر، ابتدا اسناد مشابه با سند جدید براساس روش های TFIDFو روش های بازنمایی کلمه-به-بردار، بازیابی شده و سپس کلیدواژه های کاندید از بین اسناد مشابه براساس یک تابع رتبه بندی انتخاب می شوند. روش پیشنهادی بر مجموعه ای از اسناد پایگاه گنج در سه حوزه فنی و مهندسی، هنر و ادبیات، و علوم انسانی، پیاده سازی و نتایج آن با معیارهایی نظیر دقت، فراخوانی و نظرات متخصصین ارزیابی شده است.

پالایش نتایج جستجو

تعداد نتایج در یک صفحه:

درجه علمی

مجله

سال

حوزه تخصصی

زبان