مطالب مرتبط با کلیدواژه
۱.
۲.
۳.
۴.
۵.
۶.
۷.
۸.
۹.
۱۰.
۱۱.
۱۲.
۱۳.
۱۴.
۱۵.
۱۶.
۱۷.
۱۸.
۱۹.
۲۰.
پردازش زبان طبیعی
حوزههای تخصصی:
هدف این تحقیق بررسی تاثیر پیش ویرایش بر کیفیت خروجی ماشین ترجمه پدیده است. ابتدا متن های خروجی نرم افزار پدیده جهت مشخص کردن مشکلات متداول زبانی این نرم افزار مورد بررسی قرار گرفت؛ سپس با توجه به مشکلات عمده، پیش ویرایش مناسب تعریف شد. پس از اعمال پیش ویرایش، کیفیت خروجی ماشین ترجمه پدیده قبل و بعد از پیش ویرایش با استفاده مدل ارزیابی کارول از لحاظ قابلیت فهم و صحت مورد ارزیابی قرار گرفت. نتایج تحقیق نشان داد که پیش ویرایش، بهبود قابل ملاحظه ای در کیفیت خروجی ماشین ترجمه پدیده به دست نمی دهد.
نظام نمایهسازی وورداسمیت در شبکهء کتابشناختی
حوزههای تخصصی:
رشد سریع اطلاعات الکترونیکی در عصر حاضر، زمینهساز ایجاد انواع متعدد شبکههای کتابشناختی گردیده است. دستیابی به اطلاعات الکترونیکی مستلزم استفاده از روش موثر در نمایهسازی و تشخیص کلیدواژههای مهم بیانگر محتوای یک مدرک است. در همین راستا، (او.سی.ال.سی)1 که بزرگترین شبکه کتابشناختی جهان محسوب میشود به منظور فراهم آوردن تسهیلات لازم برای دستیابی سریع وموثر به اطلاعات، اقدام به ساخت سیستمنمایهسازی خودتحت عنوان وورد اسمیت نموده است. مبنای کار این سیستم، تشخیص خودکار مفاهیم، کلمات و عبارات کلیدی در متن ماشینخوان، براساس »پردازش زبان طبیعی« است. به این ترتیب شبکه (او.سی.ال.سی) با استفاده از تئوریهای زبانشناسی محاسباتی و معنائی-که مورد تأکید پردازش زبان طبیعی است-و نیز با بکارگیری تئوریهای اطلاعرسانی و مدلهای آماری، سعی در ساخت نمایهای داشته است که علاوه بر همخوانی با حجم عظیم دادههای این شبکه، از کارآئی و توانائی کافی و لازم در بازیابی سریع و موثر اطلاعات از محیط شبکه نیز برخوردار باشد.
بررسی کارآمدی روشهای موجود در بازیابی اطلاعات بین زبانی فارسی- انگلیسی با استفاده از واژهنامه دوزبانه ماشینخوان(مقاله علمی وزارت علوم)
حوزههای تخصصی:
در این پژوهش میزان تأثیر انجام پردازشهای زبان طبیعی بر روی ترجمه عبارتهای جستجو با آزمون فرضیههای پژوهش مشخص گردید. فنون پردازش زبان طبیعی که برای پردازش عبارتهای جستجو به کار گرفته شد شامل قطعهبندی متن، شناخت گونههای زبانشناختی، حذف سیاهه بازدارنده، تحلیل مورفولوژیک، و برچسبزنی انواع نقش دستوری بود. آزمون فرضیه اول نشان داد که استفاده از روش ترجمه اولین برابرنهاده در مقایسه با شیوه انتخاب همه برابرنهادهها موجب کارآمدی بیشتر در بازیابی میگردد. آزمون فرضیه دوم نشان داد که اگرچه تحلیل مورفولوژیک واژههایی که به وسیله واژهنامه ترجمه نشدند باعث افزایش ضریب دقت بازیافت میگردد، اما تفاوت معناداری با عدم انجام این تحلیل ایجاد نمی نماید. بررسی فرضیه سوم نیز نشان داد که ترجمه عبارتی در مقایسه با ترجمه واژه به واژه باعث کارآمدی بیشتر میگردد. یافتههای دیگر این پژوهش نیز نشان داد که دگرنویسی واژههای فارسی ترجمهناپذیر با حروف انگلیسی و قرار دادن آنها در عبارت جستجوی نهایی در مقایسه با حذف آنها از عبارتهای جستجو، میتواند منجر به افزایش کارآمدی گردد.
تحلیل زبان آذری مبتنی بر تقطیع به کمک گرامر پیوندی(مقاله علمی وزارت علوم)
حوزههای تخصصی:
انواع مختلفی از نظریه ها درباره مشکل تقطیع نحوی و ایجاد دستور زبان های مربوط به زبان های طبیعی وجود دارند. این مقاله یک دستور زبان نحوی برمبنای صورت بندی دستور زبان رابطه ای برای زبان ترکی (آذری) که جزو زبان های پیوندی می باشد، ارائه می کند. در صورت بندی دستور زبان رابطه ای، کلمات یک جمله بر طبق نقش های نحوی که دارند به یکدیگر متصل می گردند. زبان ترکی (آذری) دارای ساخت واژه ای صرفی و اشتقاقی پیچیده می باشد و تکواژهای صرفی و اشتقاقی، نقش های نحوی مهمی در جملات بازی می کنند. به منظور طراحی نرم افزار دستور زبان رابطه ای برای زبان ترکی (آذری)، بخش های لغوی در بازنمایی ساخت واژه ای کلمات ترکی حذف شده اند و یال ها بر مبنای نشانه های ادات سخن و تکواژهای تصریفی در کلمات ایجاد می شوند. کلمات مشتق شده توسط مرزهای اشتقاقی از دیگر کلمات جدا می شوند . یک صورت بندی منحصربه فرد دستور زبان رابطه ای تطابق یافته با زبان ترکی، دارای انعطاف پذیری لازم برای ایجاد ساخت های اتصال می باشد و در نهایت با استفاده از زبان برنامه نویسی دلفی، نرم افزار دستور زبان رابطه ای برای زبان آذری طراحی و اجرا گردید و سپس با انتخاب 250 جمله تصادفی، این نرم افزار مورد بررسی و آزمون قرارگرفت. برای 31/84% از جملات، نتیجه تقطیع کننده شامل تقطیع کننده های صحیح بود.
نگاهی به مسأله واژگان در ماشین ترجمه(مقاله علمی وزارت علوم)
حوزههای تخصصی:
دریافتِ چگونگیِ دسترسیِ ذهنِ انسان به عناصرِ واژگانیِ ذخیره در واژگانِ ذهنی و آگاهی از شیوه بازنماییِ دانش کمک زیادی به طراحی سیستم های پردازشِ زبانِ طبیعی می کند. در این مقاله سعی شده است تا پس از بررسیِ مسأله واژگان در ماشینِ ترجمه، با استفاده از شیوه بازنماییِ مفهومیِ نوعی سیستمِ بازنماییِ واژگان به کمکِ مفاهیم و روابط پیشنهاد شود که می تواند جهتِ بهبودِ عمل کردِ ماشینِ ترجمه به کار رود. درنهایت عمل کردِ این شیوه در زمینه رفعِ ابهامِ واژگانی، در قالبِ نمودارهای مفهومی، نشان داده شده است.
بهبود خلاصه سازی خودکار متون فارسی با استفاده از روش های پردازش زبان طبیعی و گراف شباهت(مقاله علمی وزارت علوم)
حوزههای تخصصی:
بخش قابل توجهی از اطلاعات قابل دسترس در پایگاه داده های متنی ذخیره شده است که شامل مجموعه بزرگی از اسناد و منابع مختلف (مانند مقالات خبری، کتاب ها، ایمیل ها و صفحات وب) است. افزایش چشمگیر این نوع اطلاعات، وجود ابزارهایی برای ارزیابی خودکار منابع متنی را بیش از هر زمان دیگری آشکار می کند. در این میان خلاصه سازی خودکار متون یکی از راهکارهایی است که از اتلاف وقت کاربران می کاهد. خلاصه سازی استخراجی به معنای انتخاب مهمترین جملات یک متن با هدف کوتاه نمودن آن است به شکلی که اطلاعات مهم متن ورودی را در بر داشته باشد. در این پژوهش با بکارگیری و ترکیب روش های پردازش زبان طبیعی دقت خلاصه های استخراجی بهبود می یابد و و روشی برای اصلاح الگوریتم ها و معیارهای امتیازدهی به جملات، ارائه می شود. در روش پیشنهادی برای امتیازدهی به کلمات، از برچسب نقش دستوری کلمات در جمله به عنوان ضریب اهمیت کلمات استفاده می شود که در نتیجه با انتخاب بهتر کلمات و جملاتی که بار محتوایی بیشتری دارند، باعث دقت خلاصه سازی افزایش می یابد. علاوه برآن، برای انتخاب جملات مناسب از متن، ازروش های مبتنی بر گراف شباهت بکارگرفته می شود به گونه ای که با تغییر وزن جملات انتخاب شده در پیمایش گراف، در هر گام چالش افزونگی اطلاعات برطرف می شود.در نهایت نتایج بدست آمده با معیارهای استانداردی مانند «بازخوانی» و «دقت» و بر روی یک پیکره متنی استاندارد فارسی نیز ارزیابی می شود.
سیستم شناسایی و طبقه بندی موجودیت های اسمی در متون زبان فارسی بر پایه شبکه عصبی(مقاله علمی وزارت علوم)
حوزههای تخصصی:
شناسایی موجودیت های اسمی به عنوان یک وظیفه پایه ای در حوزه پردازش زبان طبیعی و به طور کلی زیر مجموعه ای از استخراج اطلاعات است. در فرآیند شناسایی موجودیت های اسمی به دنبال مکان یابی عناصر اسمی در متن و دسته بندی آن ها به رده هایی از پیش تعیین شده از قبیل اسامی اشخاص، سازمان ها، مکان ها، عبارت های زمانی، و غیره هستیم. هرچند پژوهش هایی گسترده در توسعه سیستم های شناسایی موجودیت های اسمی در حوزه زبان انگلیسی درطی سال های پیشین انجام گرفته است، متاسفانه با توجه به مشکلات موجود، مانند نبود پیکره های متنی نشانه گذاری شده استاندارد در زبان فارسی، پژوهش های بسیار محدودی در زبان فارسی وجود دارد. در این مقاله با بررسی پژوهش های انجام گرفته در دیگر زبان ها و با بهره گیری از روش های تازه در این حوزه همانند استفاده از نمایش بردارهای عددی برای کلمات، به توسعه سیستمی برای شناسایی موجودیت های اسمی بر پایه شبکه عصبی پرداخته شده است. نتایج بدست آمده از مدل پیشنهادی نشان دهنده این واقعیت است که استفاده از مدل های نمایش بردارهای عددی برای کلمات در زبان فارسی، افزون بر مرتفع کردن مشکل انتخاب ویژگی ها، می تواند به توسعه سیستمی کارآمد منجر شود که کم ترین وابستگی را نیز به دامنه دارد.
ارائة یک روش مبتنی بر مدل زبانی برای واحدسازی پیکرۀ فارسی(مقاله علمی وزارت علوم)
حوزههای تخصصی:
متن نگاشته شدۀ فارسی دو مشکل ساده ولی مهم دارد. مشکل اول واژه های چندواحدی هستند که از اتصال یک واژه به واژه های بعدی حاصل می شوند. مشکل دیگر واحدهای چندواژه ای هستند که از جداشدگی واژه هایی که با هم یک واحد واژگانی تشکیل می دهند حاصل می گردند. این مقاله الگوریتمی را معرفی می کند که بتواند به طور خودکار این دو مشکل را در متن نوشتاریِ فارسی بکاهد و یک متن معیار را به دست آورد. الگوریتمِ معرفی شده سه مرحله دارد. در مرحلۀ اول، واژه های چندواحدی از هم جدا می شوند و واحدهای چندواژه ای به یکدیگر متصل می شوند. برای این مرحله، یک الگوریتم پایۀ مبتنی بر مدل زبانی معرفی شده است که کار تفکیک واژه های چندواحدی به واژه های مستقل را انجام می دهد. این الگوریتم باتوجه به چالش های پیش آمده بهبود می یابد تا کارایی آن افزایش یابد. همچنین این مرحله از یک تحلیل گرِ صرفی برای بررسی وندِ تصریفی و اشتقاقی و روش انطباق فهرست واژه برای رفع مشکل واحدهای چندواژه ای استفاده می کند. در مرحلۀ دوم، از روش انطباق برای بررسیِ چندواژگیِ افعال استفاده می شود. مرحلة سوم تکرار مرحلة اول است تا مشکلات جدید ایجادشده در متن بعداز اجرای مرحلة دوم مرتفع شود. الگوریتم معرفی شده برای واحدسازی دادۀ زبانیِ پایگاه داده های زبان فارسی استفاده شده است. با استفاده از این الگوریتم، 04/72 درصد خطای نگارشی واژه های دادة آزمون تصحیح شده است. دقت این تصحیح در دادۀ آزمون 80/97 درصد و خطای نگارشی ایجادشده توسط این الگوریتم در دادۀ آزمون 02/0 درصد است.
تعیین خودکار معنای واژه های فارسی با استفاده از تعبیه معنایی واژه(مقاله علمی وزارت علوم)
حوزههای تخصصی:
واژه کوچکترین واحد زبان است که دارای «صورت» و «معنا» است. واژه ممکن است بیش از یک معنا داشته باشد که باتوجه به کاربرد واژه در بافت زبانی، معنی دقیق آن مشخص می شود. گردآوری تمام معانی یک واژه به صورت دستی کار بسیار پرزحمت و زمان بر است. افزون بر آن، ممکن است معانی واژه با گذشت زمان دچار تغییر شود به این صورت که معانی موجود واژه کم کاربرد شود یا معانی جدید به آن اضافه شود. یکی از روش هایی که می توان برای تعیین معنای واژه استفاده کرد به کارگیری روش های رایانشی برای تعیین معنای واژه باتوجه به بافت زبانی است. در پژوهش حاضر تلاش می شود با ارائه یک الگوریتم محاسباتی، معانی واژه های هم نگاره فارسی باتوجه به بافت زبانی به صورت خودکار و بدون نیاز به ناظر انسانی تعیین شود. برای رسیدن به این هدف، از روش تعبیه معنای واژه در یک مدل فضای برداری استفاده می گردد. برای ساخت بردار واژه، از یک رویکرد مبتنی بر شبکه عصبی استفاده می شود تا اطلاعات بافت جمله به خوبی در بردار واژه گنجانده شود. در گام بعدی مدل پیشنهادی، برای ساخت بردار متن و تعیین معنای واژه، دو حالت جمله بنیان و بافت بنیان معرفی می شود. در حالت جمله بنیان، تمام واژه های جمله ای که واژه هدف در آن وجود دارد در ساخت بردار نقش دارد؛ ولی در حالت بافت بنیان فقط تعداد محدودی از واژه های اطرافِ واژه هدف برای ساخت بردار در نظر گرفته می شود. دو نوع شیوه ارزیابی درونی و برونی برای ارزیابی کارایی الگوریتم خوشه بندی به کار گرفته می شود. معیار ارزیابی درونی که محاسبه مقدار تراکم داده در هر خوشه است برای دو حالت جمله بنیان و بافت بنیان محاسبه می گردد. ارزیابی برونی به داده استاندارد طلایی نیاز دارد که برای این هدف، یک مجموعه داده شامل ۲۰ واژه هدف فارسی و تعداد ۱۰۰ جمله نشانه گذاری شده برای هر یک از این واژه ها تهیه شده است. براساس نتایج به دست آمده از ارزیابی درونی، تراکم خوشه ای حالت جمله بنیان با تفاوت معناداری بالاتر از حالت بافت بنیان است. با درنظرگرفتن دو شاخص V و F در ارزیابی برونی، مدل بافت بنیان به صورت معنادار کارایی بالاتری را نسبت به جمله بنیان و مدل های پایه به دست آورده است.
ارتقای بازیابی معنایی اطلاعات با استفاده از برچسب گذاری و هستان شناسی(مقاله علمی وزارت علوم)
حوزههای تخصصی:
هدف: بهینه سازی بازیابی معنایی اطلاعات با استفاده از روش های برچسب گذاری و هستان شناسی. روش شناسی: این پژوهش کاربردی با رویکرد تحلیل محتوا انجام شده است. 313 مقاله فارسی در موضوع بازیابی اطلاعات در یک پایگاه اطلاعاتی با قابلیت های جستجوی موضوعی برای دو گروه پیش آزمون و پس آزمون گردآوری شد . پس از برچسب گذاری 5700 واژه به کمک نرم افزار پردازش زبان طبیعی دانشگاه فردوسی مشهد، هستان شناسی مفاهیم و روابط معنایی آنها در محیط پروتژ طراحی و پیاده سازی شد. دقت نتایج بازیابی شده در دو مرحله پیش و پس آزمون سنجیده شد. یافته ها: سطح معنا داری آزمون Z ، به لحاظ آماری و اطمینان 99/0 ، تفاوت معنا داری را میان میزان دقت نتایج مرتبط بازیابی شده در دو گروه پیش آزمون و پس آزمون نشان داد. بنابراین، این ابزارها کارایی پذیرفتنی دارند. نتیجه گیری: دو روش پردازش زبان طبیعی و هستان شناسی به ارتقای بازیابی معنایی اطلاعات منجر می شود.
سنجش شباهت نظرات داوری آزاد و محتوای مقالات علمی به روش پردازش زبان طبیعی(مقاله علمی وزارت علوم)
حوزههای تخصصی:
هدف : شناسایی قابلیت داوری های آزاد در بازشناخت مقالات پزشکی براساس شباهت آنها به مقالات مربوط. روش شناسی: آزمونی متشکل از 2212 مقاله اف هزار ریسرچ و نظر ات داوری آنها ساخته شد. 100 مقاله به عنوان مدرک پایه به صورت تصادفی انتخاب شد. شباهت نظرات داوری و محتواهای مدارک براساس سنجه شباهت کسینوسی مقادیر <span lang="X-NONE" dir="LTR">TF-IDF در سطح تک واژه ها و دوواژه ها محاسبه شد. شباهت محتوا و نظرات با تحلیل همبستگی اسپیرمن تحلیل شد. صحت پیش بینی شباهت محتوای مقالات براساس شباهت نظرات دریافت شده به کمک منحنی مشخصه عملکرد سامانه آزمون شد. یافته ها : توان نظرات داوران در بازشناخت مقالات مشابه تأیید شد. میان محتوا و نظرات، همبستگی معنادار وجود دارد. منحنی های تحلیل عملکرد سامانه نیز نشان داد شباهت نظرات داوری، خواه در سطح تک واژه ها و خواه دوواژه ای ها توانایی شناسایی مقالات با محتوای مشابه را دارد. نتیجه گیری : اعتبار نظرات داوران ریشه در توان تخصصی و شناختی آنان دارد. بنابراین، نظرات می توانند در شبکه مدارک، در زمره منابع مرتبط اثربخش در بازشناخت مدارک به شمار آیند. این یافته راه را برای پژوهش در کاربرد نظرات کاربران در حوزه های بازیابی، ارزیابی، یا طبقه بندی متون هموار می کند که شباهت محتوایی در آنها اهمیت دارد.
پرکاربردترین عملکردهای پردازش زبان طبیعی در حوزه علوم کتابداری و اطلاع رسانی
منبع:
مطالعات دانش شناسی سال ششم تابستان ۱۳۹۹ شماره ۲۳
113 - 144
حوزههای تخصصی:
هدف از پژوهش حاضر، بررسی پرکاربردترین کارکردهای پردازش زبان طبیعی در حوزه علوم کتابداری و اطلاع رسانی بوده است. پژوهش حاضر به روش تحلیل اسنادی یا کتابخانه ای و با مداقه و بررسی و تحلیل متون انجام شده است. یافته ها نشان داد که تاکنون کاربردهای مهمی از پردازش زبان طبیعی در حوزه های مختلف انجام شده است. در این پژوهش پرکاربردترین کارکردهای پردازش زبان طبیعی در حوزه علوم کتابداری و اطلاع رسانی عبارت بودند از: نمایه سازی خودکار، استخراج خودکار اطلاعات یا خلاصه سازی خودکار، بازیابی اطلاعات، بازیابی اطلاعات بین زبانی (نظام بازبین)، بازیابی اطلاعات موسیقیایی، رده بندی خودکار و سیستم های پرسش و پاسخ. نتایج نشان داد که پردازش زبان طبیعی، همچنان دارای قابلیت های خوب و مفیدی در حوزه های مختلف و ازجمله در رشته علوم کتابداری و اطلاع رسانی است که باید با برشمردن مزایا و هزینه ها، نسبت به ادغام پردازش زبان طبیعی در حوزه های موضوعی مختلف اقدام نمود.
استخراج کلمات و عبارات کلیدی از متون فارسی(مروری بر پژوهش های صورت گرفته)(مقاله علمی وزارت علوم)
حوزههای تخصصی:
استخراج کلمات/ عبارات کلیدی متن، پیش نیاز بسیاری دیگر از وظایف حوزه پردازش زبان طبیعی است. اما بررسی متون فارسی و انگلیسی این حوزه نشان می دهد، تلاش های انگشت شماری برای استخراج کلمات/ عبارات کلیدی از متون فارسی صورت گرفته است. لذا، این مقاله، با هدف تعیین موقعیت کنونی پردازش زبان طبیعی فارسی و به طور خاص استخراج کلمات/ عبارات کلیدی از متون فارسی، به مرور خلاصه ای از مقالات فارسی و انگلیسی منتشر شده در این حوزه که از متون فارسی برای آزمودن ایده هایشان استفاده کرده اند ، می پردازد؛ سپس هر مقاله را از نظر روش شناسی، نحوه اجرا و پیاده سا زی، روش ارزیابی و معیارهای آن مورد تعمق قرار داده و به چالش می کشد . در مجموع 14 مقاله فارسی و 6 مقاله انگلیسی به استخراج کلمات و عبارات کلیدی از متون فارسی پرداخته اند . روش بیشتر این مقالات، استفاده از اطلاعات آماری و زبان شناختی بوده است. اکثر این مقالات یا در روش شناسی انتخاب شده ایراد دارند و یا نویسندگان نتوانسته اند ایده پیشنهادی شان را به وضوح برای خواننده تبیین نمایند. در بسیاری از مقالات، از مجموعه داده استانداردی برای ارزیابی سیستم استفاده نشده و نحوه محاسبه معیارهای ارزیابی مبهم یا دارای اشکال است . در مجموع، به جز 3 مقاله که روش اجرا شده را به نحو نسبتاً قابل قبولی گزارش کرده اند ، سایر مقالات قابلیت تکرار پذیری و تعمیم ندارند. لذا نمی توان از آن ها به عنوان معیار پایه ای برای ارزیابی سیستم های آینده استفاده کرد یا از ایده مطرح شده در آن ها با اطمینان در ساخت و توسعه نرم افزارهای کاربردی و عملی در حوزه استخراج کلمات کلیدی استفاده نمود .
نقدی بر کتاب پردازش زبان طبیعی و بازیابی اطلاعات(مقاله علمی وزارت علوم)
کتاب «پردازش زبان طبیعی و بازیابی اطلاعات» کتابی است گردآورده و ترجمه شده که نویسنده مشخّصی ندارد و ترجمه جعفر مهراد و مریم ناصری است. اگر بپذیریم که بازیابی، قلب رشته علم اطّلاعات و دانش شناسی است آن گاه می توانیم بگوییم که اگر این بازیابی با زبان طبیعی انجام شود، نتیجه برای او بسیار سودمندتر خواهد بود. پس کتابی که پیرامون «پردازش زبان طبیعی و بازیابی اطّلاعات» باشد می تواند برای رشته و حرفه از ارزش بالایی برخوردار باشد. افزون بر این، در گرایش «بازیابی اطلاعات و دانش» دوره دکترای علم اطّلاعات و دانش شناسی، از سال 1391 درسی تخصّصی الزامی با عنوان «پردازش زبان طبیعی» ارائه شده که با توجّه به کمبود (و شاید هم نبود) منابعی برای این درس، وجود کتابی با محتوای پردازش زبان طبیعی می تواند فی نفسه سودمند باشد. امّا در کتاب، ایرادهایی وجود دارد که در تحلیل و ارزیابی محتوایی اثر با تفصیل بیشتری پیرامون آن ها بحث خواهد شد. درباره رعایت اصول علمی ارجاع دهی در درون متن و کتاب نامه ها که در پایان هر فصل آمده اند نیز در تحلیل و ارزیابی محتوایی اثر مطالبی ارائه خواهند شد. رابطه میان اصطلاحات ترجمه شده در متن، واژه نامه و نمایه نیز در کتاب مورد نقد، با استفاده از جدول هایی بررسی خواهد شد.
خلاصه سازی متون فارسی با استفاده از رویکرد کدگذاری تنک و بازنمایی عصبی جملات(مقاله علمی وزارت علوم)
حوزههای تخصصی:
امروزه گستردگی و تنوع اطلاعات متنی باعث پیچیدگی فرایند یافتن دانش و الگو های مورد نظر از میان آن ها گردیده است. یکی از گام های موثر برای کاهش این مشکل خلاصه سازی متون می باشد. در چند دهه گذشته، مسئله خلاصه سازی با توجه به نمونه های گوناگون از جهات و ابعاد مختلف بررسی شده است. خلاصه سازی فرآیندی هوشمند است که انجام آن حتی برای انسان ها ساده نمی باشد و هر فردی با توجه به دیدگاهش می تواند نتیجه متفاوتی ارائه دهد. یک خلاصه مناسب باید دارای سه ویژگی پوشش، تنک بودن و تنوع باشد. بدین منظور در این پژوهش برای در نظر گرفتن این ویژگی ها یک روش بر مبنای کدگذاری تنک ارائه می گردد. با استفاده از این روش جملاتی به عنوان خلاصه نهایی انتخاب می گردند که حداقل خطا را در بازسازی جملات متن ورودی داشته باشند. سپس با استفاده از روش های عصبی در بازنمایی معنایی کلمات و همچنین متون به بهبود روش پیشنهادی پرداخته می شود. برای ارزیابی روش پیشنهادی از مجموعه دادگان پاسخ استفاده شده است و نشان داده می شود که روش پیشنهادی عملکرد بهتری نسبت به سایر پژوهش های انجام شده بر روی این دادگان در زبان فارسی دارد. مدل پیشنهادی توانسته است به میزان 10.02% و 8.65% به ترتیب در معیار F روژ-1[1] و روژ-2[2] بهبود حاصل نماید. [1] Rouge-1 [2] Rouge-2
بهبود الگوریتم RAKE برای استخراج کلیدواژه از متون علمی فارسی؛ مطالعه موردی: پایان نامه ها و رساله های فارسی(مقاله علمی وزارت علوم)
حوزههای تخصصی:
کلمات کلیدی زیر مجموعه ای از کلمات یا عبارات یک سند هستند که می توانند معنای سند را توصیف کنند و در فرایند بازیابی اطلاعات نقش مهمی ایفا کنند. از آنجا که عملیات استخراج کلیدواژه یا عبارات کلیدی از متون تخصصی و علمی کاری تخصصی و زمان بر بوده و حجم اسناد علمی که نیاز به کلیدواژه دارند روزافزون است، الگوریتم های مختلفی برای استخراج تخصصی و خودکار کلیدواژه و عبارات کلیدی به اسناد طراحی و پیاده سازی شده اند. RAKE یک الگوریتم پرکاربرد برای استخراج کلمات کلیدی از متون است. اساس کار الگوریتم RAKE ، کلمات کلیدی و عموماً حاوی چندین کلمه (یعنی عبارت کلیدی) هستند، ولی علائم نگارشی یا کلمات بی معنا یا ایست واژه ها را شامل نمی شوند. در این الگوریتم از برچسب گذاری دستوری کلمات به عنوان ابزاری برای تعیین ضریب اهمیت آن ها در جملات استفاده می شود. کلید واژه ها مجموعه ای از توالی های چندکلمه ای یا تک کلمه ای هستند که طبق معیار های خاصی امتیاز دهی می شوند. در این پژوهش، یک نسخه بهبود یافته از الگوریتم استخراج خودکار کلیدواژه ( RAKE ) ارائه شده است. در نسخه بهبودیافته سعی شده با ایجاد تغییراتی در معیارهای امتیازدهی عبارات کاندید، دقت و بازخوانی عبارات کلیدی استخراج شده افزایش یابد. راهکار ارائه شده برای بهبود الگوریتم RAKE با در نظر گرفتن ضعف های موجود در رویکرد های وزن دهی دراین الگوریتم به ویژه برای زبان فارسی و مستندات علمی پیشنهاد شده است. برای بررسی نقاط ضعف الگوریتم RAKE و ارائه راهکار پیشنهادی از مجموعه ای از فراداده های پایان نامه و رساله های فارسی استفاده شده است. راهکار پیشنهادی روی این داده ها آزمایش و ارزیابی شده و باعث افزایش دقت، بازخوانی و معیار F شده است.
شناسایی قابلیت های سیستم های خبره و چت بات ها در کتابخانه ها: مرور نظام مند(مقاله علمی وزارت علوم)
حوزههای تخصصی:
هدف: همواره در سطح جهان، بر تعداد کتابخانه هایی که برای ارائه خدمات مختلف از رایانه و نرم افزارهای هوشمند استفاده می کنند، افزوده می شود و کتابداران و اطلاع رسانان نیز کوشیده اند که با به کارگیری فناوری های هوش مصنوعی مانند سیستم های خبره، چت بات ها و دیگر سرویس های هوشمند به بهبود و ارتقا کیفیت و کمیت خدمات بپردازند. لذا پژوهش حاضر با هدف معرفی قابلیت های سیستم های خبره و چت بات ها، به تفیکیک خدمات مختلف کتابخانه ها انجام شده است. روش شناسی: این مطالعه به روش مرور نظام مند و با فرآیند هفت مرحله ای رایت و همکاران اجرا شده است. این مراحل در روش نظام مند عبارتند از: تعیین سوال پژوهش، تعیین قرارداد انجام کار، جستجوی متون، استخراج داده ها، ارزیابی کیفیت، تحلیل داده ها و ارائه نتایج و درنهایت تفسیر نتایج. کلیدواژه های این حوزه در هر سه پایگاه استنادی (خارجی) «وب آو ساینس»، «اسکوپوس» و «گوگل اسکالر» و در سه پایگاه اطلاعاتی داخلی «بانک اطلاعات نشریات کشور»، «پایگاه مرکز اطلاعات علمی جهاد دانشگاهی» و «مرجع دانش»، بدون در نظر گرفتن بازه زمانی، بررسی شد. در نهایت ۳۴ مقاله گزینش شد. یافته ها: مرور ۳۴ مطالعه مرتبط نشان داد که سیستم های خبره، در سه نوع خدمات فنی، عمومی و مدیریتی کتابخانه ها کاربرد دارند اما با توجه به ماهیت چت بات ها که در مکالمات و ارتباطات هوشمند از جنس تعاملات انسانی کاربرد دارند؛ مشخص شد که تاکنون پژوهش های گوناگون، کاربردهای این بات های مکالمه را تنها در بخش خدمات عمومی کتابخانه ها و به طور خاص تر در خدمات و مصاحبه مرجع شناسایی و معرفی کرده اند. نتیجه گیری: در پایان انتظار می رود که کتابداران ضمن آشنایی با قابلیت ها و کاربردهای سیستم های خبره و چت بات ها، از همان مراحل طراحی تا به کارگیری این نظام های هوشمند برای کتابخانه ها، مشارکت داشته باشند. همچنین پیشنهاد می شود که در مطالعات آینده نقش و کاربرد چت بات ها در خدمات فنی و مدیریتی کتابخانه ها بررسی شود تا در ادامه زمینه طراحی این سرویس های هوشمند برای تمامی خدمات کتابخانه فراهم شود.
بررسی تکوین مباحث مقالات فارسی زبان و زبان شناسی با کمک رایانه(مقاله علمی وزارت علوم)
منبع:
زبان و زبان شناسی دوره ۱۷ بهار و تابستان ۱۴۰۰ شماره ۳۳
99 - 130
حوزههای تخصصی:
از زمان پیدایش اینترنت تاکنون، با حجم زیادی از داده هایی مواجه هستیم که در این بستر قرار گرفته است. این امر سبب شده است تا شیوه مطالعه داده ها و بررسی سیر تحول آنها از روش دستی به خودکار تغییر کند. هدف از انجام این پژوهش، استخراج موضوعات مطرح شده در مقالات رشته زبان شناسی و روندشناسی تحول موضوعات در طول زمان با کمک الگوریتم مدل سازی موضوعی است. برای این هدف از الگوریتم تخصیص پنهان دیریشله استفاده می شود. پیکره این پژوهش ازطریق خزش به دست آمده و پس از پالایش و پیش پردازش داده ها، تعداد ۵، ۱۰ و ۱۵ موضوع از مقالات استخراج شده و براساس واژه های هر موضوع به صورت دستی برچسب گذاری شده است. توزیع مقالات از سال ۱۳۰۶ تا ۱۳۹۹ سبب شد تا این مدت به ۵ مقطع زمانی تقسیم و موضوعات مربوط به هر برش زمانی پس از فرایند برچسب گذاری مشخص شود. رشد و افول موضوعات استخراج شده از مقالات در پردازش های با تعداد ۵، ۱۰ و ۱۵ موضوع در بازه های زمانی قابل مشاهده است. دستاورد کاربردی این پژوهش سیاست گذاری در حوزه علم است که علاوه بر مطرح کردن یک روش شناسی فناورانه کاربردی در پژوهش، می توان موضوعات داغ میان پژوهشگران یک رشته علمی را مشخص کرد و خلأهای موضوعات پژوهشی را یافت و بر متنوع سازی و متوازن سازی موضوعات پژوهشی اهتمام ورزید.
درباره «موضوع» و «تحلیل موضوعی»: نکته ها و چشم اندازها(مقاله علمی وزارت علوم)
حوزههای تخصصی:
هدف: با توجه به اهمیت بازیابی موضوعات منابع اطلاعاتی و جستجوی موضوعی کاربران ، در این پژوهش چیستی«موضوع» و چگونگی تحلیل و استخراج موضوعات در فرایند تعیین کلیدواژه های موضوعی، و مسائل و راه حل های ممکن مورد بحث قرار می گیرند. روش پژوهش: این مقاله پژوهشی مفهومی است که با روش کتابخانه ای- سندی مفاهیم «موضوع» و «تحلیل موضوعی» را در گزیده ای از متون شاخص علم اطلاعات و دانش شناسی با نگاهی بر مفاهیم متناظر در حوزه پردازش زبان طبیعی بررسی می کند. یافته ها: «موضوع» یا «دربارگی» منابع و تحلیل موضوعی عبارت است از شناسایی موضوعات و مفاهیم مندرج در منبع اطلاعاتی با قوای فکری نیروی انسانی، با الگوریتم های کامپیوتری، یا ترکیب این دو. تعدد ابزارهای تحلیل موضوعی و انتساب کلیدواژه ها، میزان پایین کاربرد طرح های استاندارد توصیف، عدم همگونی در تحلیل موضوعی، عدم همخوانی عبارت های جستجوی کاربران با کلیدواژه های انتساب داده شده، و روزآمد نبودن توصیف منابع از نقاط ضعف رویکرد تحلیل موضوعی توسط انسان است. روش های خودکار هوش مصنوعی و پردازش زبان طبیعی توان افزایش سرعت و یکدستی در فرایندهای مختلف توصیف و سازماندهی اطلاعات و از جمله استخراج کلیدواژه های موضوعی را دارند، اما ارزیابی کارآمدی خروجی این روش ها، به تنهایی، یا در مقایسه با کلیدواژه های تولید انسان، و از دیدگاه های مختلف ضروری است. نتیجه گیری: کتابخانه ها و مراکز اطلاع رسانی می توانند به دور از شتابزدگی، از روش های پردازش زبان طبیعی و هوش مصنوعی در تحلیل موضوعی و انتساب یا استخراج کلیدواژه-های موضوعی استفاده کنند و نیروی انسان را در ارتقاء کیفیت خدمات و فرایندها به کارگیرند.
پیکره ساخت های فعل سبک زبان فارسی(مقاله علمی وزارت علوم)
حوزههای تخصصی:
پیکره زبانی مجموعه ای بزرگ از داده های زبانی مبتنی بر کاربرد سخنوران زبان هاست که الگوهای واقعی کاربرد زبانی را در اختیار پژوهشگران قرار می دهند. برتری پیکره ها در مقایسه با سایر منابع داده ای علاوه بر حجم زیاد داده ، ایجاد امکان به کارگیری رایانه در بررسی های زبانی است. مقاله حاضر به معرفی اولین پیکره ساخت های فعل سبک زبان فارسی می پردازد. آشنایی با ماهیت این ساخت ها و دسترسی به فهرستی از آن ها، علاوه بر اهمیت نظری به لحاظ کاربردی نیزحائز اهمیت است. این یافته ها در حوزه بررسی های هوش مصنوعی مرتبط با پردازش زبان های طبیعی، ترجمه ماشینی، آموزش زبان فارسی، دستورنویسی و فرهنگ نگاری کاربرد می یابد. پیکره هدف این پژوهش «پیکره زبانی ساخت های فعل سبک زبان فارسی» یا LCP نام دارد. برای ایجاد آن پیکره تک زبانه پژوهشگاه ارتباطات و فناوری اطلاعات (بی جن خان، 1397) که حاوی 950000 فایل متنی است، به عنوان پیکره مبنا برگزیده شد. ساخت های فعلی مرکب مربوط به 21 فعل سبک زایای زبان فارسی از آن استخراج شده است و پس از برچسب زنی در چارچوب صرف توزیعی (Halle & Marantz, 1993; Marantz, 2013) در قالب پیکره ای مشتمل بر بیش از 6000 ساخت فعل سبک در بیش از 2000000 بافت زبانی ارائه شده است که در بیش از 200000 بافت زبانی ارائه شده اند. مقایسه تعداد فعل های واژگانی زبان فارسی با تعداد ساخت های فعل سبک موجود در پیکره حاضر، بدیهی ترین عاملی است که وجود چنین پیکره ای در میان منابع زبان فارسی را ضرورت می بخشد. از سوی دیگر، ماهیت این پیکره، یعنی نمایش ساخت های فعل سبک در بافت های زبانی متفاوت، می تواند به پژوهشگران در یافتن پاسخ پرسش های موجود در رابطه با این ساخت ها، رد یا تأیید فرضیه ها و طرح نظریه های جدید کمک کند.