جلال الدین نصیری

جلال الدین نصیری

مطالب

فیلتر های جستجو: فیلتری انتخاب نشده است.
نمایش ۱ تا ۶ مورد از کل ۶ مورد.
۱.

تجزیه متون استنادی در زبان فارسی با استفاده از ماشین بُردار پشتیبان(مقاله علمی وزارت علوم)

کلید واژه ها: تجزیه متون استنادی دسته بندی دسته بندی چند دسته ای ماشین بردار پشتیبان ساخت خودکار شبکه های استنادی

حوزه های تخصصی:
تعداد بازدید : ۳۸۵ تعداد دانلود : ۱۹۳
یک متن استنادی را می توان به عنوان مجموعه ای از مولفه ها مانند نام نویسندگان، عنوان، محل نشر، سال نشر، شماره صفحات و ... در نظر گرفت. در حالیکه تجزیه متون استنادی موجود در انتهای یک مدرک علمی توسط کاربر انسانی به راحتی انجام پذیر است، تنوع موجود در شیوه های استناددهی در کنار اشتباهات رخ داده توسط نویسندگان در نگارش این متون، خودکارسازی انجام این عملیات را دشوار نموده است. روش های زیادی برای خودکارسازی تجزیه متون استنادی ارائه شده اما، این روش ها وابسته به زبان بوده و امکان استفاده از یک روش ارائه شده برای یک زبان در زبانی دیگر منجر به نتایجی اشتباه می شود. تحقیقات صورت گرفته بیان گر این است که تاکنون هیچ روشی برای خودکارسازی تجزیه متون استنادی در زبان فارسی ارائه نشده است. با توجه به این مهم و نقش گسترده این مسئله در ساخت خودکار شبکه های استنادی مدارک علمی و فرایندهای بازیابی اطلاعات، در این مقاله به این مسئله پرداخته شده و با استفاده از روش یادگیری ماشین بردار پشتیبان به عنوان یک دسته بند چند دسته ای، یک روش هوشمند برای مسئله تجزیه متون استنادی در زبان فارسی ارائه شده است. با توجه به اهمیت انتخاب ویژگی های مناسب برای استفاده در دسته بند ماشین بردار پشتیبان، در این پژوهش این مهم با توجه به ویژگی های استفاده شده در زبان انگلیسی و ویژگی های زبان فارسی و ارجاع دهی در این زبان انجام شده است. نتایج پیاده سازی و آزمایش روش پیشنهادی با استفاده از مجموعه داده ای ایجاد شده در این پژوهش نشانگر مقدار ۰.۹۵ برای پارامترهای دقت، فراخوانی و اف-۱ است.
۲.

ارائه روشی برای برچسب زدن تصاویر موجود در متون علمی فارسی با استفاده از روش های پردازش متن(مقاله علمی وزارت علوم)

کلید واژه ها: برچسب زدن تصویر نشانه گذاری تصویر بازیابی تصویر پردازش متن استخراج فراداده فناوری اطلاعات

حوزه های تخصصی:
تعداد بازدید : ۳۳۱ تعداد دانلود : ۱۳۲
در این مقاله یک روش جدید برای برچسب گذاری تصاویر موجود در متون علمی فارسی معرفی می شود. در اسناد و مقالات علمی، تصاویر حاوی اطلاعلات مهمی هستند و در بسیاری از موارد به تنهایی با بررسی آن ها می توان به ایده اصلی و یا نتایج مهم مقاله علمی پی برد، بدون اینکه لازم باشد کل مقاله را مطالعه کرد. به خاطر رشد روزافزون داده های تصویری، بازیابی تصاویر از اسناد علمی توجه زیادی را به خود جلب کرده و به یک موضوع روبه رشد در ادبیات تبدیل شده است. اولین قدم در بازیابی تصاویر تخصیص برچسب های توصیف کننده به هر تصویر است. در اینجا برای استخراج برچسب تصویر از متن سندی که تصویر به آن تعلق دارد، استفاده شده است. زیرنویس و قسمتی از متن سند که در آن به تصویر مورد نظر اشاره شده است، در نظر گرفته می شود. عبارات اسمی در متنِ همراه تصویر با استفاده از پنج روش متفاوتِ فراوانی عبارات در سند، معکوس فراوانی سند، فراوانی کلمه-معکوس فراوانی سند، شباهت کسینوسی عبارات با زیرنویس، و ترکیب روش فراوانی کلمه-معکوس فراوانی سند و شباهت کسینوسی با زیرنویس رتبه بندی می شوند. در هر روش، برچسب های انتخابی برای تصویر، عبارات اسمی با رتبه بالاتر در آن روش است. روش های معرفی شده با استفاده از داده آزمایشی از پایگاه اطلاعات علمی ایران (گنج) که منبع اصلی اسناد علمی فارسی است، ارزیابی می شوند. طبق نتایج به دست آمده در این تحقیق روش فراوانی کلمه-معکوس فراوانی سند بهترین روش برای برچسب زدن تصاویرموجود در اسناد علمی است.
۳.

استخراج هوشمند مرز فراداده و متن در پایان نامه های فارسی با رویکرد BA_SVM(مقاله علمی وزارت علوم)

کلید واژه ها: استخراج فراداده استخراج اطلاعات ماشین بردار پشتیبان الگوریتم فرامکاشفهای الگوریتم خفاش

حوزه های تخصصی:
تعداد بازدید : ۲۰۳ تعداد دانلود : ۳۴۲
استخراج فراداده باعث تسهیل در فرایند نمایه سازی و بهبود در بازیابی اطلاعات است. از سوی دیگر، خودکارسازی این فرایند سبب افزایش کارایی نسبت به استخراج دستی فراداده هاست. نام دانشجو، نام اساتید، عنوان، رشته و مقطع تحصیلی، چکیده، و کلمات کلیدی نمونه ای از فراداده های پایان نامه است. هدف در این مقاله شناسایی خودکار مرز فراداده و بدنه اصلی در پایان نامه های فارسی است. بدین منظور، 250 پایان نامه ثبت شده در سامانه «ایرانداک» جمع آوری شده است. ویژگی های مد نظر از هر پاراگراف استخراج شده و سپس، پاراگراف های پایان نامه با روش ماشین بردار پشتیبان به دو کلاس فراداده و بدنه طبقه بندی شد. در این پژوهش برای تنظیم پارامترهای الگوریتم ماشین بردار پشتیبان، الگوریتم فرامکاشفه ای خفاش به کار گرفته شده است. نتایج نشان می دهد که روش پیشنهادی با دقت 6/96 درصد نوع پاراگراف را تشخیص می دهد.
۴.

استخراج کلیدواژگان پایان نامه فارسی با استفاده از ویژگی آماری و دسته بند بیز(مقاله علمی وزارت علوم)

کلید واژه ها: استخراج کلیدواژگان دسته بند بیز ویژگی های آماری پیش پردازش پس پردازش

حوزه های تخصصی:
تعداد بازدید : ۲۷۸ تعداد دانلود : ۱۲۷
هدف اصلی استخراج کلمات کلیدی انتخاب مجموعه ای از لغات در متن است که می تواند موضوع اصلی متن را بازگو کند. استخراج کلیدواژگان در بازیابی اطلاعات، سیستم های پیشنهاددهنده متنی و دسته بندی متون، نقش مهم را ایفا می کند. در زبان فارسی باتوجه به پیچیدگی ذاتی زبان فارسی استخراج کلیدواژگان به مراتب دشوارتر شده است. در این پژوهش سعی شده است با رویکرد نوین ترکیبی آماری و یادگیری ماشین به استخراج کلیدواژگان پرداخته شود. ابتدا باتوجه به ساختار زبان فارسی پیش پردازهای لازم برای حذف کلمات و علائم نگارشی صورت می گیرد. سپس با استفاده از سه نوع ویژگی آماری و دسته بند بیز سیستم به صورت خودکار الگوی کلمات کلیدی با کلمات عادی را آموزش می بیند. همچنین پس پردازش کارا برای کم کردن کلمات مثبت کاذب در چارچوب پیشنهادی طراحی شده است. گفتنی است که مدل ساخته شده قادر به شناسایی تعداد حداکثر 20 کلیدواژه در هر پایان نامه است و این کلمات با کلیدواژگان نوشته شده در هر متن مقایسه و ارزیابی می شوند. نتایج ارزیابی های متنوع نشان می دهد روش پیشنهادی با دقت مناسبی توانسته است کلمات کلیدی نوشتارهای فارسی علمی (پایان نامه و رساله) را استخراج کند.
۵.

طراحی مدل کیفیت فراداده: موردکاوی سامانه ثبت پایان نامه/رساله در پژوهشگاه علوم و فناوری اطلاعات ایران(مقاله علمی وزارت علوم)

کلید واژه ها: فراداده کنترل کیفیت طرح کیفیت سامانه های اطلاعاتی تحقیقاتی سامانه ثبت پایان نامه/ رساله

حوزه های تخصصی:
تعداد بازدید : ۳۵۴ تعداد دانلود : ۵۸۷
پژوهش های اخیر نشان می دهد داده بعنوان یکی از ارزشمندترین منابع هر سازمان شناخته می شود. ازسوی دیگر امروزه داده های علم و فناوری در رشد و توسعه هر کشور به پایه و عنصری کلیدی تبدیل شده است. سامانه گنج نقشی کلیدی در اشاعه علم و فناوری در کشور و ارائه خدمات به پژوهشگران در راستای انجام پژوهش های اثربخش و کارا برعهده دارد. بر این اساس، کیفیت عملکرد این سامانه یکی از عوامل تاثیرگذار در این ماموریت محسوب می گردد. از سوی دیگر، بخش عمده مشکلات کیفی مشاهده شده در حوزه اشاعه اطلاعات از سوی این سامانه، بصورت ریشه ای به خروجی سامانه دیگری با عنوان سامانه ثبت برمی گردد که در مرحله آغازین کلان فرایند ثبت، سازماندهی و اشاعه اطلاعات قرار دارد. تعیین وضعیت (یا سطح کیفیت) مطلوب در هر فیلد از فراداده از جنبه های کیفی مختلف مانند دقت، صحت، نامتناقض بودن، کامل بودن و ... یکی از حیاتی ترین اقدامات در حوزه کیفیت سامانه ثبت به حساب می آید. در پژوهش حاضر پس از بررسی مدل های استاندارد مدیریت کیفیت داده، چارچوبی جامع بمنظور تعیین ابعاد کیفیت سامانه ثبت ایجاد شد. مدل مدیریت کیفیت جامع داده ( TDQM ) بعنوان یکی از پرکاربردترین مدل های کیفیت داده بمنظور ارزیابی اجزاء سامانه از چهاربعد اصلی ذاتی، دسترس پذیری، زمینه ای و نمایشگری انتخاب شد. سپس در قالب طرح کیفیت سامانه ثبت عوامل کلیدی در کنترل کیفیت سامانه ثبت تعیین خواهد شد. طرح کیفیت داده ارائه شده پس از اعتبارسنجی توسط کارگروه خبرگان بعنوان مرجع تعیین عدم انطباق های آتی داده ها قرار گرفت. در انتهای پژوهش حاضر اقدامات کاربردی بمنظور ارتقاء کیفیت این سامانه نیز ارائه شد .
۶.

ارائه سیستم خلاصه ساز متون فارسی برمبنای ویژگی های زبان شناختی و رگرسیون(مقاله علمی وزارت علوم)

کلید واژه ها: خلاصه سازی تک سندی زبان فارسی ویژگی های زبان شناختی متن رگراسیون خطی ارزشیابی خلاصه ساز

حوزه های تخصصی:
تعداد بازدید : ۱۵۰۸ تعداد دانلود : ۳۹۹
گسترش روزافزون داده های متنی فارسی در فضای اینترنت و پیچیدگی جستجو در میان انبوه این اسناد، خلاصه سازی خودکار متون فارسی را به یکی از زمینه های تحقیقاتی مورد توجه تبدیل کرده است. در این مقاله روشی کارا برای خلاصه سازی خودکار متون فارسی ارائه شده است. روش پیشنهادی که به صورت انتخابی و تک سندی است، خلاصه سازی را بر اساس رتبه بندی جملات و انتخاب مهم ترین آنها انجام می دهد. اهمیت هر جمله از متن با ترکیب خطی مقادیر هفت ویژگی زبان شناختی مستخرج از سند برای هر جمله بدست می آید. وزن بهینه هر ویژگی در این ترکیب از روش رگرسیون خطی و با استفاده از پیکره آموزشی پاسخ محاسبه شده است. پس از محاسبه اهمیت جملات متن، در هر مرحله از الگوریتم، یک جمله با اهمیت بیشتر تا رسیدن به نرخ فشرده سازی مورد نظر انتخاب می شود. این جمله علاوه بر اینکه دارای بیشترین اهمیت است، دارای کمترین میزان شباهت با جملات انتخاب شده در مراحل قبلی نیز است. نتایج بدست آمده از مقایسه الگوریتم پیشنهادی با دو سیستم خلاصه ساز ایجاز و فارسی سام با استفاده از پیکره پاسخ، نشان می دهد در بیشتر معیارهای ارزیابی پیشرفت قابل توجهی حاصل شده است.

پالایش نتایج جستجو

تعداد نتایج در یک صفحه:

درجه علمی

مجله

سال

حوزه تخصصی

زبان