پژوهشنامه پردازش و مدیریت اطلاعات (علوم و فناوری اطلاعات سابق)
پژوهشنامه پردازش و مدیریت اطلاعات دوره 36 زمستان 1399 شماره 2 (پیاپی 104) (مقاله علمی وزارت علوم)
مقالات
حوزه های تخصصی:
هدف پژوهش حاضر، شناسایی روند موضوعی مقالات ایرانیان در حوزه علم اطلاعات دانش شناسی با استفاده از الگوریتم های مدل سازی موضوعی LDA و مدل رگرسیون خطی است. جامعه پژوهش شامل 709 مقاله دارای چکیده و نمایه شده در پایگاه اسکوپوس در بازه زمانی 2008- 2019 است. به منظور دستیابی به اهداف پژوهش، داده ها با استفاده از الگوریتم های متن کاوی و به طور خاص الگوریتم های مدل سازی موضوعی LDA با استفاده از نرم افزار R مورد تحلیل قرار گرفت. نتایج حاصل از بررسی داده ها نشان داد که موضوع های داغ که از میزان محبوبیت پژوهشی بیشتری برخوردارند، شامل خدمات کتابخانه ای در شبکه های اجتماعی، مدل های پژوهش، سرمایه اجتماعی، پایگاه های اطلاعاتی پزشکی، داده کاوی، روند تولید علمی، موضوعات بین رشته ای، الگوریتم های فضای مجازی، مدیریت دانش، مطالعات شبکه های اجتماعی، رویکردهای پژوهشی و آینده پژوهی و موضوعات سرد که از میزان محبوبیت پژوهشی کمتری برخوردارند به حوزه های منابع الکترونیکی، سیستم مدیریت اطلاعات، موتورهای جستجو، خدمات امانت، خدمات از راه دور، یادگیری الکترونیکی، دولت الکترونیک، شاخص های ارزیابی مجلات، ارزیابی منابع وبی و کتابخانه های دیجیتال است. نتایج نشان داد که پژوهش های موضوعی رشته علم اطلاعات و دانش شناسی در ایران، همگام با رشد فناوری ها و موضوعات جهانی توسعه یافته و ارتباط حوزه موضوعی علم اطلاعات و دانش شناسی را با زمینه های نوین داده کاوی، هوش مصنوعی، بازیابی معنایی، هستی شناسی، معماری اطلاعات، نشر دیجیتال، شبکه های اجتماعی و پایگاه های اطلاعاتی برقرار نموده اند.
بررسی شیوه های مدیریت و نیازمندی های داده های پژوهشی در پژوهشگران علم اطلاعات در ایران(مقاله علمی وزارت علوم)
حوزه های تخصصی:
مدیریت داده های پژوهشی شامل تمام فرایندها و اقداماتی است که اطمینان حاصل می کند که داده های پژوهش به خوبی سازماندهی، مستند، حفظ، ذخیره، پشتیبان گیری، در دسترس، موجود و قابل استفاده مجدد شوند.هدف از این پژوهش ارزیابی نحوه مدیریت، شناسایی مشکلات و نیازمندی های داده های پژوهش در فرایند پژوهش در بین محققان علم اطلاعات و دانش شناسی کشور از پنج منظر، تولید و جمع آوری ، ضبط و پردازش، حفظ و تهیه پشتیبان، انتشار و به اشتراک گذاری داده ها می باشد.گردآوری داده ها از طریق یک پرسشنامه انجام شد. جامعه آماری پژوهش 96 نفر از محققان، استادان و دانشجویان تحصیلات تکمیلی در رشته علم اطلاعات و دانش شناسی دانشگاه های ایران می باشند. از نرم افزار Excel برای تجزیه و تحلیل آماری هر سوال استفاده شد و روند تجمیع و پراکندگی داده ها بصورت فراوانی و درصد نشان داده شده اند.نتایج نشان می دهد در روند تولید و جمع آوری داده ها، رایج ترین نوع داده های تولید شده داده های تجربی، بیشترین داده های تولید شده در قالب داده های متنی و داده های پردازش شده از نرم افزار ها، فراوانی تولید داده ها در طول پژوهش برای محققان بسیار بالا و بصورت ماهانه بوده است و حجم داده های تولید شده برای هر پاسخگو بطور متوسط در سطح نسبتا بالایی می باشد. در بعد ضبط و پردازش داده ها، رایج ترین روش ضبط داده ها بصورت اسناد الکترونیکی است. نرم افزارهای پردازش داده متفاوتی مورد استفاده واقع می شوند، نرم افزارهای Excel و SPSS و سپس Word بیشترین استفاده را داشته اند. برای نگهداری و تهیه نسخه پشتیبان از داده ها، اکثر پاسخ دهندگان از رایانه شخصی استفاده می کنند. مشخص شد اکثر پاسخ دهندگان از هیچ برنامه مدیریت داده های پژوهشی مناسب استفاده نمی کرده اند. جهت انتشار و به اشتراک گذاری داده ها، اکثر پاسخ دهندگان شناخت کافی از منابع بخصوص مجلات حوزه کاری خود ندارند. همچنین آنها دیدگاههای متفاوتی در زمینه ثبت داده ها توسط مجلات دارند، اما در واقع آن را اقدام خیلی خوبی می دانند این در حالیست که از مخازن و شرایط نگهداری داده ها شناخت خوبی ندارند و بیشترین آشنایی آنها روش دسترسی آزاد می باشد . در مقوله نیاز به خدمات اشتراک گذاری و مدیریت داده های پژوهشی، متفق القول به مشکلاتی نظیر عدم اشتراک گذاری داده ها، از بین رفتن داده ها، ذخیره سازی، انتشار و امنیت داده ها اشاره دارند. همچنین کتابخانه ها و مراکز پژوهشی را مناسب ترین سازمان جهت مدیریت داده ها می دانند و خدماتی نظیر سیاست گذاری، تدوین استانداردها جهت جمع آوری، ذخیره، انتشار، اشتراک و امنیت داده ها را الزامی می دانند. در نهایت، روش های خدمات ارجاعی و پاسخگویی، برگزاری کارگاه های آموزشی، شیکه های اجتماعی و برپایی سمینارها جهت تقویت مدیریت داده های پژوهشی و اشتراک گذاری داده ها را مناسب می دانند. اگرچه این نظرسنجی در رشته علم اطلاعات و دانش شناسی انجام شده است، اما می تواند الهامی برای طراحی مجموعه ای از خدمات کتابخانه ای برای رشته های دیگر، به خصوص در ارتقاء، مشاوره و آموزش مدیریت داده ها و به اشتراک گذاری پژوهشات و ذخیره سازی داده های پژوهشی، فراهم آورد .
توسعه راهکارهایی برای دسترسی آزاد به تمام متن پایان نامه ها/ رساله ها در بافت موسسات آموزشی و پژوهشی ایران(مقاله علمی وزارت علوم)
حوزه های تخصصی:
دانشجویان به عنوان پژوهشگران به منابع ارزشمند مرتبط با رشته هایشان نظیر پایان نامه ها و رساله ها نیاز دارند. مؤسسات آموزشی و پژوهشی باید از دسترسی آزاد حمایت نمایند تا اطلاعات به آسانی برای پژوهشگران، دانشمندان و دانشجویان در دسترس باشند. با این وجود، برخی از مراکز آموزشی و پژوهشی از دردسترس قراردادن پایان نامه ها و رساله های خود خودداری می کنند و دلایل متنوعی را برای این عدم دسترسی اعلام می دارند. این پژوهش، با شناسایی این دلایل سعی در رفع آنها دارد. بدین منظور ابتدا با توجه به نتایج پژوهش های پیشین سیاهه ای از عواملی که بر دسترسی آزاد بر پایان نامه و رساله ها تاثیر گذار هستند استخراج می شود. سپس، به منظور تکمیل و نهایی نمودن سیاهه مذکور، میزان تأثیر این عوامل توسط روش دلفی و با ابزار پرسشنامه مورد بررسی قرار گرفته است. پانل دلفی در این پژوهش متشکل از 14 عضو هیأت علمی مؤسسات آموزشی و پژوهشی شهر تهران است که به روش نمونه گیری هدفمند انتخاب شده اند. نتایج این پژوهش نشان می دهد که عواملی نظیر قوانین و مقررات، تاثیر اجتماعی، فناوری اطلاعات، اعتبار نویسنده، مشاهده پذیری، آگاهی ادراکی، نگرش نسبت به دسترسی آزاد، خودباوری در انتشار دانش، کنتر ل پذیری، سازگاری ادراکی و فرهنگ بر دسترسی آزاد به پایان نامه ها و رساله ها تأثیر دارند.
مدل علّی پذیرش و استفاده از فناوری اطلاعات و ارتباطات دانشجویان دانشگاه علوم پزشکی تبریز در اهداف آموزشی و پژوهشی بر اساس مدل UTAUT(مقاله علمی وزارت علوم)
حوزه های تخصصی:
فناوری اطلاعات و ارتباطات همچون الگوواره جدیدی در گستره آموزش و یادگیری مورد توجه است. این تحقیق با هدف بررسی مدل علّی پذیرش و استفاده از فناوری اطلاعات و ارتباطات دانشجویان دانشگاه علوم پزشکی تبریز در اهداف آموزشی و پژوهشی بر اساس مدل UTAUT انجام شده است. این تحقیق بر اساس ماهیت و ویژگی کلی، تحقیق کمی؛ بر اساس هدف، تحقیق کاربردی و بر اساس روش تحقیق، تحقیق توصیفی از نوع همبستگی بر پایه مدل معادلات ساختاری ( SEM ) است. جامعه آماری، کلیه دانشجویان تحصیلات تکمیلی دانشگاه علوم پزشکی تبریز به حجم 1500 نفر است. نمونه آماری 306 نفر است که به روش نمونه گیری تصادفی طبقه ای متناسب انتخاب شده است. ابزار جمع آوری داده ها، ترجمه و ترکیب پرسش نامه استاندارد ونکاتش و همکاران (2003) و اکبر (2013) است؛ که بر اساس نظریه UTAUT به وسیله پژوهشگر اصلاح شده است. روایی پرسش نامه بر اساس روایی محتوایی، صوری و سازه تأیید شده است. ضریب پایایی پرسش نامه، بر اساس ضریب آلفای کرونباخ برابر با 86/0 به دست آمده است. داده ها با استفاده از روش های آمار توصیفی و استنباطی (تحلیل مسیر مدل معادلات ساختاری) با استفاده از نرم افزارهای SPSS و LISREL تجزیه و تحلیل شده است. نتایج بیانگر آن است که انتظار عملکرد، نگرش نسبت به فناوری، تأثیر اجتماعی، شرایط تسهیل گر و خودکارآمدی با نقش واسطه ای قصد رفتاری، اثر علّی مثبت و معناداری بر رفتار استفاده از فناوری دانشجویان دارند. انتظار تلاش با نقش واسطه ای قصد رفتاری، اثری بر رفتار استفاده از فناوری دانشجویان ندارد. اضطراب با نقش واسطه ای قصد رفتاری، اثر علّی معکوس و معناداری بر رفتار استفاده از فناوری دانشجویان دارد.
استفاده از مدل LRFM برای خوشه بندی کاربران براساس تحلیل رفتار جستجو (مورد مطالعه: پایگاه اطلاعات علمی ایران (گنج))(مقاله علمی وزارت علوم)
حوزه های تخصصی:
پایگاه اطلاعاتی گنج پژوهشگاه علوم و فناوری اطلاعات با برخورداری از نزدیک به یک میلیون رکورد علمی، امکان جستجو در پایان نامه ها، نشریات علمی داخلی، مقالات، همایش ها، طرح های پژوهشی وگزارش های دولتی را فراهم می کند. روزانه تعداد زیادی از پژوهشگران نیازهای منابع علمی و پژوهشی خود را از پایگاه گنج تامین می کنند. نیازها و رفتارهای کاربران مختلف این پایگاه متنوع بوده و شناخت دقیق تر آن موجب خواهد شد تا مدیران این پایگاه بتوانند استراتژی های متناسب با هر یک از گروه های کاربران را به منظور مدیریت بهتر پایگاه و ارائه خدمات کاراتر اتخاذ نمایند. یکی از راه های شناخت کاربران، خوشه بندی آن ها و شناخت ویژگی های هر خوشه است. هدف این پژوهش، خوشه بندی کاربران براساس تحلیل رفتار جستجوی آن ها با استفاده از مدل LRFM است. در این پژوهش، داده های لاگ جستجوی کاربران پایگاه گنج به مدت سه ماه جمع آوری و مورد استفاده قرار گرفت. با استفاده از داده های لاگ رفتار جستجوی کاربران، شاخص های مدل LRFM ، محاسبه شد و سپس الگوریتم K-means بر روی آن ها اعمال شد. تعداد خوشه بهینه بر اساس معیارهای مختلف محاسبه شد. نتایج بدست آمده از خوشه بندی براساس ماتریس ارزش مشتری، کاربران را در چهار گروه بهره مند، مشکوک، نامطمئن و متناوب قرار می دهد و بر اساس ماتریس وفاداری، کاربران در چهار گروه وفادار، بالقوه، نامطمئن و تازه وارده ارزیابی می شوند.
اولویت بندی مولفه های کاربردپذیری در سامانه های مدیریت نشریات ادواری دانشگاه های علوم پزشکی ایران(مقاله علمی وزارت علوم)
حوزه های تخصصی:
مقاله حاضر با هدف بررسی رتبه بندی مولفه های کاربردپذیری در سامانه های مدیریت نشریات او جی اس، سیناوب، یکتاوب و نئواسکرایبر3، و نیز میزان رعایت هرمولفه را به تفکیک در هر سامانه مورد ارزیابی قرار میدهد. جامعه پژوهش پیمایشی حاضر کاربران 4 سامانه پرکاربرد از بین 13 سامانه مدیریت نشریات دانشگاه های علوم پزشکی ایران بود. ارزیابی هر رابط کاربری بر اساس 4 لایه سردبیری، داوری، نویسنده و کاربر عادی بود که برای هر سامانه 4 لایه و برای هر لایه در هر سامانه 5 نفر انتخاب شدند و در کل 80 نفر پرسشنامه تحقیق را تکمیل نمودند. داده ها با استفاده از آزمون های آماری توصیفی و استنباطی توسط نرم افزار اس پی اس اس، تجزیه و تحلیل شدند. یافته ها نشان داد حیطه ثبات در سامانه سیناوب از سامانه های یکتاوب، اوجی اس و نئواسکرایبر3 کمتر است در حالی که در سه سیستم دیگر تفاوت معنی داری نداشت. میانگین انعطاف پذیری رابط همه سیستم ها کمتر از حد متوسط، میانگین راهنمای کاربر سامانه ها نیز در حد متوسط و سایر حیطه ها بیشتر از حد متوسط ارزیابی شدند. همچنین نتایج نشان داد که به لحاظ میانگین حیطه ثبات، به ترتیب از بیشتر به کمتر، یکتاوب، نئواسکرایبر3، او جی اس و در نهایت سیناوب بوده است. همچنین در سایر حیطه ها شامل انطباق پذیری، انعطاف پذیری، قابلیت یادگیری، حداقل فعالیت، حداقل بار حافظه و محدودیت ادراکی بین 4 سامانه تفاوت معنی داری نداشتند. به نظر می رسد که از نظر کاربران، مهمترین معیار از معیارهای کاربردپذیری متعلق به حیطه های انطباق پذیری و ثبات و کمترین اقبال متعلق به حیطه های انعطاف پذیری و راهنمای کاربران در بین سامانه های مدیریت نشریه مورد بررسی است. در این پژوهش ابزار معرفی شده جهت تعیین نقاط قوت و ضعف سامانه ها، باعث می شود که انتخاب سامانه های مناسب برای سازمان ها و مراکز علمی دیگر تسهیل یابد. همچنین نقاط ضعف می تواند توسط مدیران و تیم های فنی سیستم ها مرتفع گردند تا سامانه ها کاربردپذیری مطلوب را کسب و راه های جلب توجه مجلات سایر کشورها و نیز بین المللی شدن را طی نمایند.
کشف و دیداری سازی الگوهای برجسته، روابط پنهان و گرایش های موضوعی سازماندهی دانش(مقاله علمی وزارت علوم)
حوزه های تخصصی:
هدف پژوهش حاضر کشف و دیداری سازی الگوهای برجسته و روابط پنهان و گرایش های موضوعی سازمان دهی دانش در جهان است . نوع پژوهش کاربردی با رویکرد تحلیلی و با روش تحلیل هم رخدادی واژگان انجام شده است . جامعه این پژوهش را کلیدواژه های مقالاتی هستند که در بازه زمانی 1975-2018 با موضوع سازماندهی دانش در وبگاه علم نمایه شده اند. تعداد کلیدواژه های به دست آمده از مقالات 27124 است. در این پژوهش از نرم افزارهای بایب اکسل، یوسی نت، نت درا، ووس ویوِئر و اس پی اس اس به منظور یکدست سازی و تحلیل داده ها استفاده گردید. یافته های پژوهش نشان داد در بازه زمانی (1975-1999) کلیدواژه " Information Technology " و در بازه زمانی (2000-2018) کلیدواژه " Information Literacy " بیشترین فراوانی را کسب کرده اند. همچنین یافته های حاصل از محاسبه نمره تراکم و مرکزیت حاکی از آن است که در دوره زمانی نخست، خوشه 5 (مدیریت دانش) با مقدار 500/5 بیشترین مرکزیت و خوشه 7 (برنامه ریزی استراتژیک) با مقدار 4804/0 بالاترین تراکم و در دوره زمانی 2000-2018 خوشه 1 (آموزش کاربران) دارای بالاترین مرکزیت (258/6) و تراکم (6954/0) در بین خوشه ها است. نتایج حاکی از آن است که با کم رنگ شدن موضوعاتی نظیر فهرست نویسی و نمایه سازی و ارتقاء رتبه کلیدواژه هایی نظیر فناوری اطلاعات، هستی شناسی و دولت الکترونیک، می توان گفت در گذار از دوره زمانی نخست به دوم، کلیدواژه هایی که موضوع های قدیمی دارند کم رنگ شده و موضوع های جدید جایگزین شده اند. نتایج حاصل از محاسبه شاخص دربردارندگی نشان داد که 32 درصد از موضوعات دوره زمانی دوم، در دوره زمانی نخست نیز حضورداشته اند. نتایج بخش ترسیم نمودار راهبردی در بازه زمانی نخست بیانگر آن است که خوشه های (بازیابی اطلاعات، نظام خبره بازیابی اطلاعات، آموزش کاربران و مدیریت سیستم های اطلاعاتی)، موضوعات اصلی هستند و خوشه های (آموزش کاربران، عدم قطعیت در رفتار اطلاعات سلامت، رفتار اطلاعاتی، مطالعات سنجشی، رده بندی و نمایه سازی، فهرست نویسی رایانه ای و داده کاوی) که هم پوشانی زیادی نیز باهم دارند خوشه های اصلی دوره دوم به حساب می آیند. تمرکز بر سازماندهی دانش به عنوان مهمترین رکن علم اطلاعات، بازه زمانی مورد بررسی، کلیدواژه ها و راهبرد جستجو که حاصل مشورت با متخصصان بود و نیز یافته های مهم، همگی بخشی از نوآوری های این مقاله است.
تجربه کاربر در وبگاه سازمان اسناد و کتابخانه ملی ایران(مقاله علمی وزارت علوم)
حوزه های تخصصی:
هدف: پژوهش حاضر با هدف بررسی تجربه کاربری در محتوای وب کتابخانه ملی ایران، انتظارات و نیازهای کاربران را هنگام استفاده از محتوای وب کتابخانه ملی ایران شناسائی و بررسی کرده است. روش: برای بررسی تجربه کاربری از روش های «پرس وجوی بافتی » و تکمیل جمله استفاده شده است و برای تکمیل و تأیید برخی نتایج به داده های تحلیلی وبگاه (برگرفته از سایت سیمیلاروب) ارجاع شده است. «پرس وجوی بافتی» یک رویکرد کیفی و تفسیری است که در قالب مصاحبه نیم ساختاریافته و به صورت مکالمه با کاربر در محیط واقعی کار وی انجام می شود. روش تکمیل جمله، جملاتی است که مشابه پرسشنامه برخط روی وبگاه سازمان اسناد و کتابخانه ملی ایران قرار گرفته و توسط کاربران تکمیل شده است. یافته: نتایج بدست آمده نه مقوله کلی و چهل و هشت مقوله فرعی در خصوص انتظارات و تجربه های کاربران در وبگاه کتابخانه ملی ایران بدست داد که مقوله های کلی عبارت از جستجو، پژوهش و دانش افزایی، شخصی سازی و بومی سازی، موقعیت یابی در فضای کتابخانه، دستیابی به منبع، تعامل، رویدادها، معماری اطلاعات، طراحی و ظاهر است. نتیجه گیری: نتایج بدست آمده پیشنهادهایی است که می تواند مبنای مناسبی برای توسعه وبگاه کتابخانه ملی ایران یا حتی وبگاه ها و نرم افزارهایی با بافت های مشابه قرار بگیرد. این نتایج علاوه بر پیشنهادهایی که برای بهبود تجربه کاربری وبگاه کتابخانه ملی ارائه کرده است برای کارآفرینان و علاقه مندان به راه اندازی کسب و کار و طراحی اپلیکیشن نیز ایده های مناسبی مبتنی بر انتظارات و نیازهای واقعی کاربران بدست می دهد.
بازنمایی صفات و روابط میان موجودیت های آثار خلاقانه فرانمای تولید داده های ساختارمند مبتنی بر الگوی مرجع کتابخانه ای (ال آر ام)(مقاله علمی وزارت علوم)
حوزه های تخصصی:
پژوهش حاضر با هدف بهبود کارکردپذیری صفات و روابط میان موجودیت های آثار خلاقانه «فرانمای تولید داده های ساختارمند» با بازنمایی آن ها در الگوی مرجع کتابخانه ای (ال آر ام) بر اساس روش تحلیل محتوا انجام شد. جامعه پژوهش را صفات (ویژگی ها و روابط) موجودیت کتاب از مجموعه موجودیت های آثار خلاقانه فرانمای تولید داده های ساختارمند تشکیل می دادند. برای گردآوری داده ها، از ابزار سیاهه وارسی مبتنی بر موجودیت ها، ویژگی ها و روابط الگوی مرجع کتابخانه ای (ال آر ام) برای بررسی میزان همخوانی با صفات موجودیت کتاب در فرانمای تولید داده های ساختارمند، و روش مشاهده طراحی شده استفاده شد. برای این منظور هر یک از صفات موجودیت کتاب در فرانمای تولید داده های ساختارمند با ویژگی ها و روابط موجودیت های مرتبط در «ال آر ام» مقایسه، و ویژگی ها و روابط همخوان شناسایی و استخراج شدند. یافته های پژوهش نشان می دهد که برای صفت های « نویسنده»، «قالب فایل»، «بستر نحوی رمزگذاری» و «رسانه مرتبط» در صفت های فرانمای تولید داده های ساختارمند در موجودیت «آثار خلاقانه» و صفت های «درخواست کننده» و «جنسیت» در موجودیت «شخص» در این فرانما هیچ رابطه یا ویژگی ای در الگوی «ال آرام» مطابقت نداشت. به این دلیل که «ال آرام» یک الگوی مفهومی و سطح بالاست و به موجودیت های بافت کتابشناختی و ویژگی ها و روابط آن ها در بالاترین سطح و بدون توجه به چهار گروه استانداردهای حوزه سازماندهی دانش یعنی استانداردهای محتوایی، فراداده ای، قالب بندی و تبادل داده ها به عنوان بستر بازنمون آن ها می پردازد، بنابراین این گونه صفات باید در استانداردهای فراداده ای و محتوایی لحاظ شوند. در «ال آر اِم»، نقش های پدیدآورندگان، معادل ندارند و دلیل آن مستقل بودن الگو از این چهار گروه استاندارد است و امکان افزودن نقش ها بر اساس خط مشی سازماندهی هر مرکز اطلاعاتی و کتابخانه وجود دارد. در سایر موجودیت های «کتاب»، «شیء» و «سازمان» تمامی صفت ها با ویژگی ها یا روابط در «ال آر ام» همخوانی داشتند، و الگوی «ال آرام» با وجود نگرش جامع و کلی همه را پوشش می داد. «ال آرام» نسبت به روابط بین موجودیت ها دید کاملی داشته، روابط بین موجودیت ها در آن گویاسازی شده ، و متناسب با بافت کتابشناختی شناسایی و کشف شده اند. در حالیکه در فرانمای تولید داده های ساختارمند بسیاری از روابط بین موجودیت های داده ای متناسب با بافت هدف تعیین نشده است. این فرانما باید صفاتی را برای توصیف موجودیت ها درنظر بگیرد که روابط را متناسب با هر بافت پوشش دهد. با رعایت توصیه های الگوهای مفهومی بافت میراث فرهنگی در تعیین و توسعه ویژگی ها بخصوص روابط میان موجودیت های داده ای از سوی طراحان فرانمای تولید داده های ساختارمند، کاستی های کارکردپذیری این فرانما در محیط های داده ای رفع می شود و نیز کاربردپذیری آن بهبود می یابد.
استخراج کلمات و عبارات کلیدی از متون فارسی(مروری بر پژوهش های صورت گرفته)(مقاله علمی وزارت علوم)
حوزه های تخصصی:
استخراج کلمات/ عبارات کلیدی متن، پیش نیاز بسیاری دیگر از وظایف حوزه پردازش زبان طبیعی است. اما بررسی متون فارسی و انگلیسی این حوزه نشان می دهد، تلاش های انگشت شماری برای استخراج کلمات/ عبارات کلیدی از متون فارسی صورت گرفته است. لذا، این مقاله، با هدف تعیین موقعیت کنونی پردازش زبان طبیعی فارسی و به طور خاص استخراج کلمات/ عبارات کلیدی از متون فارسی، به مرور خلاصه ای از مقالات فارسی و انگلیسی منتشر شده در این حوزه که از متون فارسی برای آزمودن ایده هایشان استفاده کرده اند ، می پردازد؛ سپس هر مقاله را از نظر روش شناسی، نحوه اجرا و پیاده سا زی، روش ارزیابی و معیارهای آن مورد تعمق قرار داده و به چالش می کشد . در مجموع 14 مقاله فارسی و 6 مقاله انگلیسی به استخراج کلمات و عبارات کلیدی از متون فارسی پرداخته اند . روش بیشتر این مقالات، استفاده از اطلاعات آماری و زبان شناختی بوده است. اکثر این مقالات یا در روش شناسی انتخاب شده ایراد دارند و یا نویسندگان نتوانسته اند ایده پیشنهادی شان را به وضوح برای خواننده تبیین نمایند. در بسیاری از مقالات، از مجموعه داده استانداردی برای ارزیابی سیستم استفاده نشده و نحوه محاسبه معیارهای ارزیابی مبهم یا دارای اشکال است . در مجموع، به جز 3 مقاله که روش اجرا شده را به نحو نسبتاً قابل قبولی گزارش کرده اند ، سایر مقالات قابلیت تکرار پذیری و تعمیم ندارند. لذا نمی توان از آن ها به عنوان معیار پایه ای برای ارزیابی سیستم های آینده استفاده کرد یا از ایده مطرح شده در آن ها با اطمینان در ساخت و توسعه نرم افزارهای کاربردی و عملی در حوزه استخراج کلمات کلیدی استفاده نمود .