آزاده فخرزاده

نمایش ۱ تا ۵ مورد از کل ۵ مورد.

۱.

تشخیص متن در اسناد فارسی چاپی بر اساس شبکه های عصبی بازگشتی(مقاله علمی وزارت علوم)

نویسنده: آزاده فخرزاده امیرحسین صدیقی محمد عشرت آبادی البرز اسفندیاری

منبع: پژوهشنامه پردازش و مدیریت اطلاعات دوره ۴۰ تابستان ۱۴۰۴ شماره ۴ (پیاپی ۱۲۴) 1283 - 1305

حوزه‌های تخصصی:

حوزه‌های تخصصی علم اطلاعات و دانش‌شناسی

تعداد بازدید : ۹۱ تعداد دانلود : ۱۱۱

تشخیص خودکار متن فارسی به دلیل ویژگی های یکتای خط فارسی از جمله ساختار پیوسته، اشتراک بالای ویژگی های بصری بین حروف، و تنوع بالای نوشتاری حروف با توجه به موقعیت آنان در کلمه همواره چالش برانگیز بوده است. هدف این پژوهش ارائه یک مدل نویسه خوانی نوری است که بتواند اسناد چاپی و علمی فارسی را که شامل پایان نامه ها، مقالات و کتب فارسی است، به متن قابل ویرایش تبدیل کند. این امر برای برچسب گذاری، فهرست بندی و بازیابی اطلاعات در پایگاه داده ها یک ضرورت محسوب می شود. این مقاله رویکردی ترکیبی مبتنی بر معماری های یادگیری عمیق برای تشخیص متن فارسی ارائه می دهد. در این روش از شبکه های عصبی پیچشی برای استخراج ویژگی ها و از شبکه های عصبی بازگشتی برای تشخیص کلمات استفاده می شود. مزیت اصلی این مدل، توانایی آن در تشخیص مستقیم متن چاپی فارسی بدون نیاز به پیش پردازش های پیچیده مانند ناحیه بندی حروف است. مدل پیشنهادی با استفاده از یک مجموعه داده اختصاصی و بزرگ، شامل بیش از دو میلیون نمونه که با پنج فونت متداول فارسی تولید شده ، آموزش داده شده است. مدل معرفی شده دقت 81 درصد در تشخیص حروف فارسی و 60 درصد در تشخیص کلمات دارد. عمده ترین خطاها در کلمات مرتبط با نیم فاصله و علائم بود.

۲.

توسعه سیستم پیشنهاددهنده بر مبنای استدلال نمونه محور برای نمایه سازی مستندات علمی فارسی(مقاله علمی وزارت علوم)

نویسنده: آزاده محبی آزاده فخرزاده مرضیه زرین بال

منبع: پژوهشنامه پردازش و مدیریت اطلاعات دوره ۳۹ زمستان ۱۴۰۲ شماره ۲ (پیاپی ۱۱۶) 599 - 626

حوزه‌های تخصصی:

حوزه‌های تخصصی علم اطلاعات و دانش‌شناسی

تعداد بازدید : ۲۷۸ تعداد دانلود : ۲۹۷

استخراج کلیدواژه یکی از مهمترین قدم های فرآیند نمایه سازی مستندات است. کلیدواژه ها توصیفگرهای مفهومی هستند که می توانند در جستجو و بازیابی اطلاعات و نیز اشاعه آنها بکارگرفته شوند. در پایگاه های دربردارنده اسناد علمی مانند پایگاه علمی گنج پژوهشگاه علوم و فناوری اطلاعات ایران، کلیدواژه ها نقش مهمتری دارند و تخصیص کلیدواژه های تخصصی چالش برانگیزتر است چرا که این پایگاه ها دربرگیرنده اسناد تخصصی با حوزه های علمی مختلفی هستند. فرآیند نمایه-سازی دستی بسیار زمان بر است و با توجه به افزایش حجم تولید و ثبت مستندات علمی، نیاز است که این فرایند با سرعت بیشتری صورت گیرد. لذا استفاده از روش های ماشینی هوشمند برای پیشنهاد و تخصیص کلیدواژه ضروری است. تحلیل آماری و معنایی اسناد و استفاده از روش های یادگیری ماشین از جمله روش های پرکاربرد در بسیاری از پایگاه های اطلاعات علمی دنیا است. بر همین اساس، در این پژوهش روشی برای پیشنهاد کلیدواژه به مستندات علمی فارسی بر مبنای روش های هوشمند پردازش متن و یادگیری ماشین ارائه شده است. این روش بر مبنای سیستم های پیشنهاددهنده و استدلال نمونه محور است که براساس آن، مجموعه ای از کلیدواژه های مرتبط با یک سند به نمایه ساز پیشنهاد می شود تا او سریعتر بتواند کلیدواژه های مناسب را انتخاب کند. به بیانی دیگر، ابتدا اسناد مشابه با سند جدید براساس روش های TFIDFو روش های بازنمایی کلمه-به-بردار، بازیابی شده و سپس کلیدواژه های کاندید از بین اسناد مشابه براساس یک تابع رتبه بندی انتخاب می شوند. روش پیشنهادی بر مجموعه ای از اسناد پایگاه گنج در سه حوزه فنی و مهندسی، هنر و ادبیات، و علوم انسانی، پیاده سازی و نتایج آن با معیارهایی نظیر دقت، فراخوانی و نظرات متخصصین ارزیابی شده است.

۳.

کاربست قوانین انجمنی و خوشه بندی در کنترل کیفیت داده های پژوهشی؛ مورد مطالعه پایگاه اطلاعات علمی ایران (گنج)(مقاله علمی وزارت علوم)

نویسنده: آزاده فخرزاده محمدجواد ارشادی محمدمهدی ارشادی

منبع: پژوهشنامه پردازش و مدیریت اطلاعات دوره ۳۸ بهار ۱۴۰۲ شماره ۳ (پیاپی ۱۱۳) 927 - 944

تعداد بازدید : ۳۳۷ تعداد دانلود : ۳۴۵

پایگاه های اطلاعات علمی و موتورهای جستجو از ابزارهای اصلی کار پژوهشگران است. برای بازیابی دقیق و صحیح اطلاعات از این پایگاه ها نیاز است که اطلاعات با کیفیت مناسب وبا کمترین خطا ذخیره شوند. کنترل دستی اطلاعات زمانبر و پر هزینه است، در این مقاله، روش های داده کاوی برای کنترل کیفیت یک پایگاه اطلاعات پژوهشی معرفی می شود. برای این منظور ابتدا باید اطلاعاتی از خطاهای مرسوم را در کنار سایر اطلاعات هر رکورد جمع آوری کرد. سپس با استفاده از روش های داده کاوی الگوهای پنهان و روابط بین خطاها را کشف کرد و بر این اساس راه های بهبود کیفیت داده را ارائه داد. در این مقاله پایگاه اطلاعات علمی ایران (گنج)، به عنوان مطالعه موردی در نظر گرفته شد. 59 کد خطا توسط خبرگان تعریف شد. سپس اطلاعات فراداده هر رکورد مثل نام دانشگاه، نام رشته،گرایش و حوزه تخصصی مدرک به همراه کدهای خطای آن در یک مجموعه داده ذخیره شد. این مجموعه داده شامل 41021 رکورد در حوزه های مختلف است. با استفاده از روش های آماری و قوانین انجمنی رابطه بین خطاها و الگوی تکرار آنها را درهرحوزه بررسی شد. نتایج نشان داد به طور میانگین با در نظر گرفتن 25 درصد از خطاها در هر حوزه، می توان تا 80 درصد از خطاهای همه رکوردهای یک حوزه را کاهش داد. این خطاها شامل خطاهای پر تکرار در هر حوزه و همچنین خطاهایی است که با آن ها رابطه قوی دارند. با استفاده از روش خو شه بندی k-means رکوردها خوشه بندی شدند. نتایج نشان داد اگر چه شباهت هایی بین رکوردها از حوزه های مختلف وجود دارد، اما رابطه معناداری بین حوزه رکوردها و الگوی تکرار خطاها وجود ندارد.

۴.

ارائه روشی برای برچسب زدن تصاویر موجود در متون علمی فارسی با استفاده از روش های پردازش متن(مقاله علمی وزارت علوم)

نویسنده: آزاده فخرزاده محدثه رهنما جلال الدین نصیری

منبع: پژوهشنامه پردازش و مدیریت اطلاعات دوره ۳۷ بهار ۱۴۰۱ شماره ۳ (پیاپی ۱۰۹) ۹۱۸-۸۹۵

حوزه‌های تخصصی:

حوزه‌های تخصصی علم اطلاعات و دانش‌شناسی

تعداد بازدید : ۵۲۸ تعداد دانلود : ۳۵۸

در این مقاله یک روش جدید برای برچسب گذاری تصاویر موجود در متون علمی فارسی معرفی می شود. در اسناد و مقالات علمی، تصاویر حاوی اطلاعلات مهمی هستند و در بسیاری از موارد به تنهایی با بررسی آن ها می توان به ایده اصلی و یا نتایج مهم مقاله علمی پی برد، بدون اینکه لازم باشد کل مقاله را مطالعه کرد. به خاطر رشد روزافزون داده های تصویری، بازیابی تصاویر از اسناد علمی توجه زیادی را به خود جلب کرده و به یک موضوع روبه رشد در ادبیات تبدیل شده است. اولین قدم در بازیابی تصاویر تخصیص برچسب های توصیف کننده به هر تصویر است. در اینجا برای استخراج برچسب تصویر از متن سندی که تصویر به آن تعلق دارد، استفاده شده است. زیرنویس و قسمتی از متن سند که در آن به تصویر مورد نظر اشاره شده است، در نظر گرفته می شود. عبارات اسمی در متنِ همراه تصویر با استفاده از پنج روش متفاوتِ فراوانی عبارات در سند، معکوس فراوانی سند، فراوانی کلمه-معکوس فراوانی سند، شباهت کسینوسی عبارات با زیرنویس، و ترکیب روش فراوانی کلمه-معکوس فراوانی سند و شباهت کسینوسی با زیرنویس رتبه بندی می شوند. در هر روش، برچسب های انتخابی برای تصویر، عبارات اسمی با رتبه بالاتر در آن روش است. روش های معرفی شده با استفاده از داده آزمایشی از پایگاه اطلاعات علمی ایران (گنج) که منبع اصلی اسناد علمی فارسی است، ارزیابی می شوند. طبق نتایج به دست آمده در این تحقیق روش فراوانی کلمه-معکوس فراوانی سند بهترین روش برای برچسب زدن تصاویرموجود در اسناد علمی است.

۵.

ارائه روشی ساختار محور برای ایجاد پایگاه داده از تصاویر مستخرج از اسناد علمی: مورد مطالعه پایگاه اطلاعات علمی ایران (گنج)(مقاله علمی وزارت علوم)

نویسنده: آزاده فخرزاده امیرحسین صدیقی

منبع: پژوهشنامه پردازش و مدیریت اطلاعات دوره ۳۵ بهار ۱۳۹۹ شماره ۳ (پیاپی ۱۰۱) 729-754

حوزه‌های تخصصی:

حوزه‌های تخصصی علم اطلاعات و دانش‌شناسی

تعداد بازدید : ۵۹۵ تعداد دانلود : ۴۸۷

تصاویر موجود در مدارک علمی غالبا حاوی اطلاعات مهمی هستند. اولین قدم برای بازیابی اطلاعات از این تصاویر ایجاد یک پایگاه داده معتبر از آن ها است. برای این منظور در این مقاله سیستمی خودکار برای ایجاد پایگاه داده از تصاویر موجود در مدارک علمی فارسی در مقیاس بزرگ ارائه می شود. این سیستم پیشنهادی در نتیجه مطالعات اسنادی طراحی شده و بخش های مختلفی دارد. در مرحله اول باید تصاویر و توضیح متنی آن ها استخراج گردد. به طور کلی دو رویکرد برای استخراج تصاویر و توضیح متنی آن ها از فایل وجود دارد. در رویکرد اول فایل به تصویر تبدیل می شود و از تکنیک های پردازش تصویر برای استخراج اطلاعات گرافیکی استفاده می شود. رویکرد دوم بر اساس پردازش ساختار و آرایش خود فایل است. از آنجایی که روش دوم از لحاظ سرعت و قابلیت مقیاس پذیری برای استفاده در موتورهای جستجو مناسب تر است، تمرکز این مقاله بر روی روش دوم است. بدین ترتیب برای استخراج تصاویر و توضیح متنی آن ها از یک روش ساختار محور استفاده می شود که مبتنی بر چیدمان و آرایش فایل ورد سند است. در نتیجه، مجموعه ای از تصاویر به همراه توضیحات و اطلاعات مربوط به آن ها به دست می آید که باید در یک پایگاه داده تصاویر با ساختاری مشخص ذخیره گردند. سپس این اطلاعات برای بازیابی و استفاده های آتی در یک موتور جستجو نمایه خواهند شد. روش پیشنهادی در زبان برنامه نویسی پایتون پیاده سازی شد و برای ارزیابی کارایی آن از روش مرسوم پردازش فایل پی دی اف اسناد کمک گرفته شد. سپس روش پیشنهادی در یک مطالعه موردی در پایگاه اطلاعات علمی ایران (گنج) به کار گرفته شد. تعداد 150 مدرک علمی به تصادف از پایگاه گنج انتخاب شده و با کمک این دو روش مورد تجزیه و تحلیل قرار گرفت. بنا به یافته های پژوهش دیده می شود که استخراج اطلاعات متنی از فایل پی دی اف در زبان فارسی با چالش های زیادی روبرو است و نمی تواند خروجی مناسبی در این زمینه حاصل کند. از طرف دیگر میزان تصاویر نامطلوب تولید شده از فایل پی دی اف بسیار زیاد است که از کاربست پذیری آن در شرایط واقعی می کاهد. از این رو روش پیشنهادی به عنوان گزینه ای مناسب برای استخراج تصویر و توضیحات آن ها از اسناد علمی در زبان فارسی و ایجاد پایگاه داده از آن ها پیشنهاد می شود. روش پیشنهادی قادر است حدود 40 درصد تصاویر را همراه با زیرنویس مربوطه بدون خطا استخراج کند؛ که نسبت به روش پایه که قادر به استخراج 30 درصد از تصاویر است، کارآیی بهتری دارد.

آزاده فخرزاده

مطالب
ترتیب بر اساس: جدیدترین پربازدیدترین

تشخیص متن در اسناد فارسی چاپی بر اساس شبکه های عصبی بازگشتی(مقاله علمی وزارت علوم)

توسعه سیستم پیشنهاددهنده بر مبنای استدلال نمونه محور برای نمایه سازی مستندات علمی فارسی(مقاله علمی وزارت علوم)

کاربست قوانین انجمنی و خوشه بندی در کنترل کیفیت داده های پژوهشی؛ مورد مطالعه پایگاه اطلاعات علمی ایران (گنج)(مقاله علمی وزارت علوم)

ارائه روشی برای برچسب زدن تصاویر موجود در متون علمی فارسی با استفاده از روش های پردازش متن(مقاله علمی وزارت علوم)

ارائه روشی ساختار محور برای ایجاد پایگاه داده از تصاویر مستخرج از اسناد علمی: مورد مطالعه پایگاه اطلاعات علمی ایران (گنج)(مقاله علمی وزارت علوم)

کلیدواژه‌های مرتبط

پدیدآورندگان همکار

تبلیغات

پالایش نتایج جستجو

آزاده فخرزاده

مطالب ترتیب بر اساس: جدیدترینپربازدیدترین

تشخیص متن در اسناد فارسی چاپی بر اساس شبکه های عصبی بازگشتی(مقاله علمی وزارت علوم)

توسعه سیستم پیشنهاددهنده بر مبنای استدلال نمونه محور برای نمایه سازی مستندات علمی فارسی(مقاله علمی وزارت علوم)

کاربست قوانین انجمنی و خوشه بندی در کنترل کیفیت داده های پژوهشی؛ مورد مطالعه پایگاه اطلاعات علمی ایران (گنج)(مقاله علمی وزارت علوم)

ارائه روشی برای برچسب زدن تصاویر موجود در متون علمی فارسی با استفاده از روش های پردازش متن(مقاله علمی وزارت علوم)

ارائه روشی ساختار محور برای ایجاد پایگاه داده از تصاویر مستخرج از اسناد علمی: مورد مطالعه پایگاه اطلاعات علمی ایران (گنج)(مقاله علمی وزارت علوم)

کلیدواژه‌های مرتبط

پدیدآورندگان همکار

تبلیغات

پالایش نتایج جستجو

مطالب
ترتیب بر اساس: جدیدترین پربازدیدترین