پژوهشنامه پردازش و مدیریت اطلاعات (علوم و فناوری اطلاعات سابق)

پژوهشنامه پردازش و مدیریت اطلاعات (علوم و فناوری اطلاعات سابق)

پژوهشنامه پردازش و مدیریت اطلاعات دوره 35 زمستان 1398 شماره 2 (پیاپی 100)

مقالات

۱.

به کارگیری متدولوژی سیستم های نرم در آموزش علم اطّلاعات و دانش شناسی و ارائه الگوی جایگزین مبتنی بر هستان نگاری

تعداد بازدید : ۳۹ تعداد دانلود : ۳۴
بازخوانی متون متأخّر و معتبر حوزه علم اطّلاعات و دانش شناسی، از وجود برخی مسائل بنیادین در فرایند آموزش این رشته حکایت دارد. از آنجاکه عوامل مختلفی از جمله اساتید، دانشجویان، گروه های آموزشی و متن و محتوا در این فرایند نقش ایفا می کنند، تصمیم گیری جهت رفع موانع موجود از مسائل پیچیده به شمار می رود. از این رو در فاز اوّل پژوهش حاضر از متدولوژی سیستم های نرم، که تکنیک حل مسائل پیچیده محسوب می گردد، بهره گرفته شد. متدولوژی سیستم های نرم از روش های تحقیق در عملیات (اقدام پژوهی) به شمار می رود و از لحاظ رویکرد پژوهش، روش کیفی است. در فاز اول پژوهش، بر اساس هفت گام چک لند، ابتدا شرایط مسأله ساز شناسایی شد، تصویر گویا بر اساس الگوی عمومی آموزش گیج و برلاینر شکل گرفت. تعاریف ریشه ای در قالب مؤلفه های CATWOE بدست آمد. مدل مفهومی ترسیم و با استفاده از نظرات خبرگان اعتبارسنجی شد. سپس مدل مفهومی با شرایط واقعی تطبیق داده شده و در آخر پیشنهادات لازم جهت اعمال تغییر تبیین ارائه گردید. با بهره مندی از مراحل هفت گانه متدولوژی سیستم های نرم، ابتدا تصویر روشنی از فرایند آموزش رشته و مسائل مبتلابه در اکوسیستم مربوطه به نمایش درآمد و مدل نهایی حاصل از تجمیع سه هستان نگاری فراگیر، مدرّس و محتوای آموزشی حاصل شد. در پایان مدل پیشنهادی با ضریب توافق کاپا بالای 90 درصد مورد تأیید خبرگی قرار گرفت. به منظور اجرایی نمودن مدل کلان حاصل شده، الگوی معنایی مبتنی بر هستان نگاری طراّحی و با زبان OWL 2 پیاده سازی شد. مدل مفهومی بدست آمده از متدولوژی سیستم های نرم با تایید و توافق خبرگی، نتنها قادر خواهد بود مسائل مطرح در آموزش علم اطّلاعات و دانش شناسی را پاسخ دهد بلکه می تواند به عنوان مبنایی برای پژوهش های آتی در جهت طراحی و پیاده سازی نظام آموزش معنایی در رشته های مختلف نیز قرار گیرد. مدل معنایی آموزش، مفهومی با ابعاد و مؤلفه های گوناگون است که کاملاً عملیاتی و قابل پیاده سازی بوده و می تواند مورد توجّه سیاستگذاران، طراحان و بازیگران حوزه آموزش علم اطلاعات و دانش شناسی در طراحی و ارزیابی نظام های یادگیری-یاددهی قرار گیرد.
۲.

واکاوی مؤلفه های شناختی در فراگرد رفتار اطلاع یابی درمانگران با استفاده از ابزارهای پژوهشی علوم عصب شناختی

تعداد بازدید : ۳۸ تعداد دانلود : ۴۰
این پژوهش بر آن است تا مؤلفه های شناختی رفتار اطلاع یابی درمانگران در تشخیص و درمان اختلال های روانی را مورد واکاوی قرار دهد. بر این اساس با توجه به توان بالای ابزارهای علوم عصب شناختی در واکاوی مولفه های شناختی در لحظه، از روش الکتروآنسفالوگرافی کمی استفاده شد. در ادامه پنج نفر از درمانگران به صورت نمونه گیری انتخابی که تنوع مدنظر پژوهشگران را داشتند انتخاب شده و در فرایند پژوهش قرار گرفتند. برای گردآوری داده ها علاوه بر الکتروآنسفالوگرافی کمی از نرم افزار مورائه استفاده شد. یافته های پژوهش نشان داد که امواج مغزی درمانگران در مراحل اول کولثاو بیانگر فعالیت های گسترده شناختی است. هر چه درمانگران به سمت مراحل انتهایی حرکت کردند، از شدت این فعالیت ها کاسته و جنبه هیجانات مغز غالب شد. برمبنای یافته ها، بهترین مرحله جهت مداخله کتابدار برای راهنمایی و کمک به درمانگران در جهت ارائه اطلاعات، مرحله 3 کولثاو است. در نهایت یافته های پژوهش نشان داد رفتار اطلاع یابی درمانگران در بخش کنش های شناختی با مدل فراگرد جست وجوی اطلاعات کولثاو مطابقت دارد. در نتیجه به نظر می رسد با تکیه بر ابزارهای نوین تولید شده در چند دهه اخیر در حوزه علوم اعصاب و تکنولوژی اطلاعات بتوان شناخت بهتری از لحظه لحظه فراگرد رفتار اطلاع یابی درمانگران پیدا کرد و با کمک سامانه های هوشمند و شخصی سازی شده در لحظه مناسب، اطلاعات مناسب را به کاربران ارائه داد. این تحول می تواند گامی بلند در ارتقاء رفتار اطلاع یابی و پیشرفتی در حصول اطلاعات مورد نیاز برای کاربران در لحظه باشد.
۳.

نمایه سازی ماشینی مدارک حوزه بازیابی اطلاعات با استفاده از متن کاوی در نرم افزار «رپیدماینر»

تعداد بازدید : ۴۷ تعداد دانلود : ۵۷
سازگاری کدهای رده بندی و اصطلاحات نمایه سازی از یک اصطلاحنامه مدون با عبارات و کلماتی که به طور خودکار استخراج شده با استفاده از نمایه سازی ماشینی ایجاد می شود. در طراحی نظام نمایه سازی خودکار، کامپیوتر به طور کامل جایگزین انسان می شود. این پژوهش با هدف اس تخراج کلم ات کلی دی و شناسایی گرایش های موضوعی مقالات نمونه آماری در حوزه بازیابی اطلاعات و تخصص موضوعی نویسنده هر مقاله با روش متن کاوی و دسته بندی آنها با استفاده از هم رخدادی واژگان صورت گرفته است. روش این پژوهش از نوع کاربردی است و براساس مدل کریسپ [1] از مدل های فرآیند داده کاوی و الگوریتم های متن کاوی انجام گرفته است. جامعه پژوهش، 313 مقاله حوزه بازیابی اطلاعات نمایه شده در پایگاه نورمگز است. پس از نرمال سازی متن مقالات با نرم افزار ویراستیار، طی متن کاوی مقالات با نسخه 7.1 نرم افزار رپیدماینر، واژگان کلیدی از طریق محاسبه وزن آنها استخراج و داده ها با استفاده از دو الگوریتم کلاسیک دسته بندی یعنی ک.ان.ان. [2] و نایوبیز [3] تجزیه و تحلیل شدند. در پژوهش حاضر، کامپیوتر با کمک ابزارهای متن کاوی نرم افزار رپدماینر، متن ماشین خوان را با استفاده از بسامد واژه ها به طور خودکار نمایه سازی کرده است. بدین منظور با کمک عملگرهای ان-گرام [4] و محاسبه وزن کلمات براساس روش تی.اف ای.دی.اف . [5] ، اصطلاحات و مفاهیم کلیدی و تخصص موضوعی نویسنده هر مقاله در قالب 16 دسته بندی استخراج شده است. سرانجام برتری مدل ک.ان.ان. در دسته بندی موضوعات هسته مقالات این پژوهش با دقت 85 درصدی نسبت به مدل نایوبیز تایید شد . مشاهده نتایج محاسبه دقت های ماخوذه مدل ها، گواه کارایی قابل قبول نرم افزار رپیدماینر در نمایه سازی ماشینی متون است. نمایه سازی متون با استفاده از این روش، می تواند به بهبود نتایج بازیابی اطلاعات و جلوگیری از ریزش کاذب اطلاعات در پایگاه های اطلاعاتی کمک کند.
۴.

کاربردپذیری اصطلاحات غیرموضوعی مورد استفاده در نمایه سازی منابع علوم اسلامی در فرایند بازیابی اطلاعات

تعداد بازدید : ۲۶ تعداد دانلود : ۳۲
هدف از پژوهش حاضر، تبیین کاربردپذیری اصطلاحات غیرموضوعی (عمومی) مورد استفاده در نمایه سازی منابع علوم اسلامی در فرایند بازیابی اطلاعات بود. ج امعه پژوهش را که با روش پیمایشی- تحلیلی انجام شد، کاربران نهایی پایگاه مدیریت اطلاعات علوم اسلامی طراحی شده توسط پژوهشکده مدیریت اطلاعات و مدارک اسلامی تشکیل می دادند. در میان این جامعه، 50 نفر از پژوهشگران بر پایه نمونه گیری در دسترس از نوع هدفمند که با پایگاه مدیریت اطلاعات علوم اسلامی آشنایی مناسبی داشتند و از آن استفاده می نمودند، انتخاب شدند. ابزار گردآوری داده ها در این پژوهش، سه پرسشنامه طراحی شده توسط پژوهشگران بود. این پرسشنامه ها عبارت بودند از: نخست، پرسشنامه مربوط به میزان تجربه کاربران نهایی در استفاده از پایگاه مورد بررسی، دیگر، پرسشنامه تشریحی جهت دریافت بازخورد کاربران نهایی نسبت به فرایند بازیابی، و دو دیگر، پرسشنامه ای با پرسش های بسته برای ارزیابی نتایج جستجو بود که روایی آن ها توسط متخصصان ذخیره و بازیابی اطلاعات، و پایایی آن ها بر اساس آزمون آلفای کرونباخ مورد تأیید قرار گرفت. برای تجزیه و تحلیل داده ها از شاخص های آمار استنباطی در جهت آزمون فرضیه های پژوهش استفاده شد. یافته های پژوهش حاکی از آن است که استفاده از اصطلاحات غیرموضوعی (عمومی) برای بسط جستجو در پایگاه مدیریت اطلاعات علوم اسلامی نتایج مطلوبی در بر داشته است. با این وجود، به گسترش اصطلاحات غیرموضوعی بر اساس نظرات و پیشنهادات کاربران نهایی عضو جامعه پژوهش نیاز است. همچنین همخوان با پاسخ کاربران به پرسش ها، بین اصطلاحات غیرموضوعی برگزیده و ناگزیده، روابط هم ارز مناسبی برقرار شده است. نتایج حاصل از این پژوهش بیان می دارد که توجه به کاربردپذیری اصطلاحات غیرموضوعی در فرایند بازیابی اطلاعات، نیز برقراری روابط هم ارز بین آن ها، افزون بر بهره گیری از اصطلاحات موضوعی (تخصصی)، می تواند نتایج مطلوب و مرتبطی را در زمان بازیابی اطلاعات به همراه داشته باشد.
۵.

ارزیابی رضایت کاربران موتور کاوشِ پایان نامه ها و رساله ها در پایگاه اطلاعات علمی ایران (گنج): بر پایه مدل «ای کوال»

تعداد بازدید : ۳۴ تعداد دانلود : ۲۹
رشد روزافزون کاربرد وب، اهمیت موتورهای کاوش و ارزیابی کیفیت آن ها را در پاسخ به نیازهای کاربران، بیش از پیش نمایان ساخته است. یکی از رویکردهای ارزیابی کیفیت، رضایت کاربران است. کاربرد یک موتور کاوش در گرو رضایت کاربران از آن است که معیاری برای کیفیت موتور کاوش به شمار می رود. در ایران نیز موتورهای کاوش بسیاری ساخته شده اند. برخی از این موتورها کاربردی همگانی دارند و برای جست وجوی اطلاعات در وب به کار می روند و برخی نیز برای جست وجو در یک پایگاه داده پدید آمده اند. پایگاه اطلاعات علمی ایران (گنج) یکی از پایگاه هایی است که موتور کاوش ویژه خود را دارد. این پایگاه نزدیک به 530 هزار پایان نامه و رساله را در بر دارد و از پایگاه های اطلاعات علمی کلیدی در کشور با کاربران بسیار است. از این رو، ارزیابی میزان رضایت کاربران این سامانه با توجه به انبوه مخاطبان آن امری حیاتی است. در قالب این پژوهش شاخص هایی برپایه مدل ای کوآل جهت ارزیابی رضایت کاربران سامانه «گنج» توسعه داده شد. شاخص های توسعه داده شده برپایه روش دلفی غربال سازی و بمنظور ارزیابی رضایت کاربران سامانه «گنج» بومی سازی شد. همچنین ارزیابی سطح رضایت کاربران به کمک پرسشنامه مبتنی بر ایکوال صورت گرفت. نتایج تحلیل داده های 156 پرسش نامه گردآوری شده، نشان می دهند که کاربردپذیری، اطلاعات و تعامل سرویس به ترتیب بعنوان عوامل اصلی رضایت کاربران از سامانه «گنج» هستند. در بُعد کاربردپذیری، میزان آسانی کار با «گنج» در بالاترین اولویت قرار دارد. به همین ترتیب راحتی تعامل با سامانه و جذابیت ظاهری سامانه بعنوان عوامل اصلی معرفی شدند.
۶.

معماری سامانه گراف دانش زبان فارسی

تعداد بازدید : ۴۳ تعداد دانلود : ۱۸
گراف دانش به عنوان یکی از بسترهای مهم جهت ورود به عرصه وب معنایی و توسعه ابزارهای پردازش زبان طبیعی شناخته می شود. تا کنون پایگاه های دانش مختلفی در زبان های متعدد ایجاد شده است اما فقدان چنین پایگاهی مختص به زبان فارسی در کاربردهای پژوهشی و صنعتی کاملا مشهود است. در این مقاله جامع ترین پایگاه دانش زبان فارسی به صورت عمومی و چند دامنه ای مشتمل بر ۵۰۰ هزار موجودیت و ۷ میلیون رابطه میان آن ها با عنوان فارس بیس ارائه می گردد که به صورت متن باز در دسترس است. منابع اطلاعاتی فارس بیس عبارتند از: اطلاعات ساخت یافته ویکی پدیا مانند جعبه های اطلاعاتی، جداول وب و همچنین اطلاعاتی که توسط ماژول استخراج گر رابطه از متن خام استخراج شده اند. موجودیت های گراف دانش در یک هستان شناسی برگرفته از دی بی پدیا و سفارشی شده برای فارس بیس، سازمان دهی شده است. به منظور پیوند جعبه های اطلاعاتی ویکی پدیا به هستان شناسی بیش از ۷۰۰۰ نگاشت میان الگوها و خصیصه های ویکی پدیا با هستان شناسی برقرار شده است. همچنین با روش های یادگیری ماشین و با نظارت خبرگان، قسمتی از هستان شناسی و تعدادی از موجودیت ها به فارس نت متصل شده اند. مدل داده ای گراف دانش فارسی بر اساس استاندارد وب معنایی و به صورت RDF پیاده سازی شده است بنابراین داده ها به صورت سه تایی در پایگاه دانش ذخیره شده و می توان از طریق زبان SPARQL پرس وجوهای معنایی را بیان نمود. در حال حاضر اطلاعات متنوعی به صورت ساخت یافته راجع به اشخاص مشهور، مکان های مهم، سازمان ها و شرکت ها، آثار ادبی و هنری، گونه های زیستی شامل گیاهان و حیوانات، رویدادها، زیست شناسی و اخترشناسی در این گراف قابل دسترسی است. به منظور خدمت رسانی به موتورهای جستجو یک سامانه جستجو روی موجودیت ها و گزاره های آن پیاده سازی شده است. فارس بیس از چهار جنبه صحت، فراخوانی، پوشش و تازگی اطلاعات مورد ارزیابی قرار گرفته که نتایج به دست آمده حکایت از غنی بودن آن دارد. بستر گراف دانش می تواند در کاربردهای بسیاری نظیر موتورهای جستجو، سامانه پرسش و پاسخ، بازیابی اطلاعات، پردازش زبان طبیعی، تشخیص موجودیت، مشابهت یابی متن و هر کاربردی که نیازمند موجودیت های فارسی و ارتباط میان آن هاست مورد استفاده قرار گیرد
۷.

راهکاری جدید برای انجام پرس وجوهای فازی بر روی پایگاه داده های گرافی NoSQL

تعداد بازدید : ۳۵ تعداد دانلود : ۱۹
امروزه به دلیل حجم انبوه اطلاعات از پایگاه داده های NoSQL برای محاسبه ی داده های پیچیده استفاده می شود. این پایگاه داده ها با قابلیت ذخیره داده های نیمه ساختاریافته [1] و بدون ساختار [2] برای مدیریت داده های بزرگ [3] مورد استفاده قرار می گیرند. در این مقاله پرس وجوهای فازی توسط کاربران بر روی اطلاعات ذخیره شده در پایگاه داده ی گراف Neo4j انجام شده است که منجر به نمایش نتایج به صورت غیرفازی می شود. برای ارزیابی کارایی روش پیشنهادی، با در نظر گرفتن یک پایگاه داده از داده های مربوط به شرکت قطعه سازی، دو متفیر قیمت و کیفیت با ویژگی فازی در نظر گرفته شد و از آن ها برای تعریف و اجرای پرسش های فازی استفاده شد که نتایج می تواند صحت عملکرد روش پیشنهادی را تائید کند. علاوه براین، یک مشاور که دارای اطلاعات در مورد داده ها می باشد، اصطلاح های فازی [4] ، توابع عضویت [5] و جدول قوانین فازی [6] را تعریف می کند. یکی از فرآیندهای مهم در این روش یافتن مرکزثقل به منظور غیرفازی سازی نتیجه نهایی است که به این منظور الگوریتمی با زبان برنامه نویسی C# پیاده سازی شده است. بیشترین زمان پرس وجو مربوط به یافتن مرکزثقل است و پیچیدگی مسائل فازی سربار زمانی بیشتری تحمیل نخواهد کرد. نتایج ارزیابی نشان می دهد که افزایش زمان پرس وجو با استفاده از رویکرد پیشنهادی مبتنی بر منطق فازی نسبت به زمان پرس وجو با زبان Cypher ، با در نظر گرفتن پیچیدگی بیشتر مفاهیم فازی قابل قبول می باشد؛ در نتیجه راهکار پیشنهادی گزینه مناسبی برای بهره گیری پرس وجوهای مبهم درون پایگاه داده های بزرگ خواهد بود.
۸.

ارائه یک معماری پیشنهادی برای مدیریت دانش در بنگاه2.0 با تمرکز بر رویکرد نوآوری باز

تعداد بازدید : ۳۴ تعداد دانلود : ۳۲
امروزه یکی از مسائل مهم در کسب وکارهای بنگاه 2.0 ، چگونگی بهره برداری هدفمند و نظام مند از دانش های نوآورانه کاربران و مشتریان و دستیابی به سودمندی از طریق ورود این دانش در فرآیندهای سازمانی است. بهره گیری از رویکرد نوآوری باز که سبب بهبود جریان های دانشی بنگاه ها می شود می تواند به تحقق این امر کمک کند. با این وجود، تا به امروز یک معماری مدیریت دانش مشخص برای مدیریت جریان دانش مبتنی بر رویکرد نوآوری باز، در بنگاه 2.0 ارائه نشده است. در این پژوهش، یک معماری جدید برای مدیریت دانش در بنگاه 2.0 پیشنهاد شده که از رویکرد نوآوری باز بهره گرفته شده است. برای پیشنهاد این معماری از روش کیفی نظریه داده بنیاد با تاکید بر تحلیل محتوای اسناد و متون استفاده شده است. نتایج تحلیل محتوی نشان داده است که نقطه اشتراک مدیریت دانش، بنگاه 2.0 و نوآوری باز، مدیریت جریان دانش است. بر همین اساس، با استفاده از خصیصه های جریان دانش ورودی و خروجی، یک معماری مدیریت دانش پنج لایه ای با هفده مولفه پیشنهاد شده است. این لایه ها عبارتند از لایه منطق کسب وکار، ارائه و رابط، فرایند و جریان دانش، زیرساخت و زمینه. در معماری پیشنهادی، هر یک از این لایه ها دارای مولفه هایی هستند که با یکدیگر و برخی از مولفه های سایر لایه ها در ارتباط هستند. معماری پیشنهادی با دو نمونه اصلی مشابه در مطالعات پیشین نیز مقایسه شده است.
۹.

بررسی بلوغ سازمانی فناوری اطلاعات با رویکرد همسویی کسب و کار و فناوری اطلاعات با استفاده از دو روش مدل بلوغ توانمندی یکپارچه و به روشهای کتابخانه زیرساخت فناوری اطلاعات مطالعه موردی: شرکت توزیع نیروی برق استان کرمانشاه

تعداد بازدید : ۳۵ تعداد دانلود : ۲۰
برنامه ریزی راهبردی در حوزه فناوری اطلاعات، یکی از دغدغه های سازمانهای امروزی است. هدف این تحقیق بررسی بلوغ فناوری اطلاعات در راستای تدوین برنامه راهبردی فناوری اطلاعات در شرکت توزیع نیروی برق استان کرمانشاه است. براساس دیدگاه مشترک در تمامی مدلهای برنامه ریزی راهبردی، یکی از مراحل مهم، تعیین وضعیت موجود سازمان در حوزه موردنظر می باشد. با توجه به ابلاغ اسناد بالادستی مانند سند چشم انداز فناوری اطلاعات توانیر و سند دولت الکترونیک که برای شرکت توزیع نیروی برق لازم الاجرا هستند و همچنین رویکرد مبتنی بر حاکمیت فناوری اطلاعات در این اسناد، از همین رویکرد در حوزه خدمات، به عنوان چشم انداز شرکت توزیع نیروی برق استان کرمانشاه استفاده شده است. براساس چشم انداز تعیین شده، از روشهای مدل بلوغ توانمندی یکپارچه و به روشهای کتابخانه زیرساخت فناوری اطلاعات برای بررسی وضعیت جاری در حوزه فناوری اطلاعات استفاده شده است. برای دستیابی به هدف این مقاله، 4 فاز در نظر گرفته شده است: در فاز اول که همان فاز شناخت می باشد، فرآیندهای کسب و کار شناسایی می شوند. فاز دوم تطبیق فرآیندهای کسب و کار با فرآیندهای استاندارد کتابخانه زیرساخت فناوری اطلاعات است. برای این منظور، ابتدا فرآیندهای کسب و کار از دیدگاه معماری اطلاعاتی مورد بررسی قرار گرفت و سپس با انجام مصاحبه های تخصصی براساس فرآیند، تطبیق مورد نظر انجام شد. در فاز بعد، تعیین بلوغ سازمانی با دو روش انجام می شود. در روش اول، ابتدا با استخراج ویژگی های به روشهای مرتبط با هر یک از فرآیندهای کتابخانه زیرساخت فناوری اطلاعات، عبارات توصیفی به ازای هر فرآیند استخراج و در قالب 27 نوع پرسش نامه به ازای 27 فرآیند، آماده شد و جهت تکمیل به مسئولان فرآیندها تحویل شد. در روش دوم که یک پرسش نامه استاندارد برای آن وجود دارد، این پرسش نامه به ازای تمامی فرآیندها تکمیل شد. نتایج حاصل از بررسی وضعیت موجود، سطح بلوغ فرآیندها را براساس درصد نشان می دهد و قابلیت مقایسه دو روش را فراهم می سازد. به علاوه براساس تحلیل و بررسی مقایسه ای این دو روش، نقاط ضعف و قوت فرآیندهای سازمانی تطبیق یافته با فرآیندهای کتابخانه زیرساخت فناوری اطلاعات، تعیین شد و برخی توصیه و پیشنهادات برای تحقیقات آتی در این حوزه ارائه شده است. نتایج بدست آمده نشان می دهد که فرآیندهای میز خدمت، مدیریت واقعه، انجام درخواست، مدیریت پیکربندی و مدیریت پیمانکار به عنوان نقاط قوت سازمانی و فرآیندهای مدیریت تغییر، مدیریت دانش، مدیریت امنیت اطلاعات، مدیریت نشر و استقرار به عنوان نقاط ضعف سازمانی قابل بررسی می باشند و در مورد سایر فرآیندها مانند فرآیندهای مدیریت سطح خدمت، مدیریت تقاضا، مدیریت ظرفیت روند منظمی قابل مشاهده نبود.
۱۰.

ارائه مدل دسته بندی موضوعی تولیدات علمی حوزه سلامت با استفاده از روش های متن کاوی

تعداد بازدید : ۷۳ تعداد دانلود : ۳۳
با گسترش اینترنت و رشد سریع و روزافزون مقالات الکترونیکی، دسته بندی متون به یکی از ابزارهای کلیدی و مهم برای سازماندهی و مدیریت داده تبدیل شده است. در دسته بندی متون، یک مجموعه دانش اولیه در اختیار سامانه قرار می گیرد تا با یادگیری از این مجموعه، اسناد جدید ورودی به یکی از گروه های موضوعی، ملحق گردد. در متون سلامت به علت تنوع زیاد موضوعات، آماده کردن چنین مجموعه آموزش اولیه عملی بسیار زمان بر و هزینه بر است. هدف از مقاله ارائه مدلی ترکیبی از یادگیری (با نظارت و بدون نظارت) برای دسته بندی موضوعی تولیدات علمی حوزه سلامت است که بدون نیاز به مجموعه برچسب خورده اولیه عمل دسته بندی را انجام دهد. برای استخراج مدل موضوعی متون تولیدات علمی سلامت طی سال های 2009 تا 2019 در پایگاه پابمد، با استفاده از روش آمیخته داده کاوی، شامل متن کاوی و یادگیری ماشینی انجام گرفت. بر اساس مدل موضوعی تخصیص پنهان دیریکله، دادها تحلیل و سپس برای دسته بندی متون، از مدل ماشین بردار پشتیبان استفاده شد. در یافته های این پژوهش، مدل دسته بندی متون سلامت در سه گام اصلی معرفی شد. در گام اول پیش پردازش های لازم بر روی مجموعه داده به دلیل حذف کلمات کم تکرار و غیرضروری از مجموعه داده و افزایش دقت مدل پیشنهادی انجام گرفت. در گام دوم موضوعات موجود در متون به کمک روش احتمالاتی تخصیص پنهان دیریکله استخراج و به عنوان یک مجموعه آموزش اولیه در گام سوم به الگوریتم دسته بندی ماشین بردار پشتیبان داده و عمل یادگیری دسته بند به کمک این موضوعات انجام گرفت. درنهایت به کمک دسته بند، موضوع هر سند مشخص گردید. نتایج نشان داد که مدل پیشنهادی می تواند، یک دسته بندی بهتر با استفاده از ترکیب کردن خواص بدون نظارت خوشه بندی و دانش پیشین نمونه ها بسازد. انجام دادن خوشه بندی روی نمونه های برچسب دار با یک معیار شباهت مشخص، متن های مرتبط را باهم ادغام و یک دانش پیشین ایجاد کرده، سپس الگوریتم یادگیری، دسته بندی را با روشی نظارتی آموزش می دهد. ترکیب دسته بندی و خوشه بندی می تواند دقت دسته بندی متون سلامت را افزایش دهد.

آرشیو

آرشیو شماره ها:
۱۰۳