مطالب مرتبط با کلیدواژه

یادگیری تقویتی


۱.

مسیریابی وسایل نقلیه در سیستم هدایت مسیر پویا مبتنی بر یادگیری عاملهای هوشمند(مقاله علمی وزارت علوم)

کلیدواژه‌ها: شبیه‌سازی شبکه‌های حمل‌ونقل پویا هدایت مسیر الگوریتم‌های کوتاه‌ترین مسیر عاملهای هوشمند یادگیری تقویتی

حوزه‌های تخصصی:
تعداد بازدید : ۲۶۴۱ تعداد دانلود : ۱۳۰۲
امروزه یکی از چالش‌های اصلی شبکه‌های ترافیکی، هدایت وسایل نقلیه به مقصدشان تحت وضعیت پویای ترافیک با هدف کاهش زمانهای سفر و استفاده موثرتر از ظرفیتهای موجود شبکه است. در پاسخ به مسایل بیان شده، سیستم هدایت مسیر پویا رویکردی موثر به نظر می‌رسد. این سیستم از جمله حوزه‌های مهم فعالیت سیستمهای هوشمند حمل‌و‌نقل است. هسته اصلی سیستم هدایت مسیر پویا، محاسبات کوتاه‌ترین مسیر بر اساس شرایط جاری (اطلاعات زمان واقعی) است. بنابراین با توجه به ضرورتهای بیان شده، هدف کلی تحقیق را می‌توان در قالب توسعه راهبرد قوی مسیریابی برای سیستم‌های هدایت مسیر تحت وضعیت پویای محیط تعریف کرد. به این منظور در این مقاله با بیان یک چارچوب مفهومی‌هدایت مسیر مبتنی بر ساختار مسیریابی غیرمتمرکز، به چگونگی کاربرد تکنیکهای عامل گرا با تاکید بر یادگیری تقویتی به عنوان یک راه حل در مواجهه با نامعینی‌های مسأله مسیریابی وسایل نقلیه در شبکه‌های ترافیکی پرداخته شده است. از نتایج مهم تحقیق ارایه شده می‌توان به توانائی مدلهای یادگیری پیشنهاد شده در ارایه سیاست یا استراتژی انتخاب مسیر در تطبیق با شرایط پویای ترافیکی و نیز ارایه آلترناتیوهای مختلف پیشنهادی طی مسیر برای رانندگان با هدف حداقل کردن معیار زمانهای سفر وسایل نقلیه اشاره کرد.
۲.

تحلیل رفتار معتادان در آزمون قمار آیوا با استفاده از مدل یادگیری تقویتی(مقاله علمی وزارت علوم)

کلیدواژه‌ها: اعتیاد نظام تصمیم گیری یادگیری تقویتی آزمون قمار مدل سازی محاسباتی مدل سازی شناختی

حوزه‌های تخصصی:
  1. حوزه‌های تخصصی روانشناسی روانشناسی مرضی تحولی اختلالات مربوط به مصرف مواد
  2. حوزه‌های تخصصی روانشناسی روانشناسی یادگیری نظریه های یادگیری
تعداد بازدید : ۳۹۵۴ تعداد دانلود : ۱۵۶۲
هدف: هدف این پژوهش، بررسی اختلالات تصمیم گیری معتادان به مواد افیونی، در شرایط مخاطره آمیز، با استفاده از روش مدل سازی شناختی است. روش: در این پژوهش، ابتدا نظام تصمیم گیری آزمودنی ها (گروه شاهد و گروه معتادان درمان جو)، با استفاده از نسخه فارسی آزمون قمار آیوا بررسی و سپس، یافته های آزمون با استفاده از مدل سازی شناختی تحلیل شد. در این راستا و بر اساس یادگیری تقویتی و شرایط آزمون قمار، مدل های مختلف تصمیم گیری در شرایط مخاطره آمیزِ آزمون قمار طراحی شد. در مرحله بعد، مدل ها در محیط آزمون قمار شبیه سازی و جداگانه بر داده های هر دو گروه برازش داده شدند. سپس، مدلی که مطابقت بیشتری با رفتار آزمودنی های آن گروه داشت، مشخص شد. یافته ها: نتایج نشان داد که هر دو گروه معتادان درمان جو (217=n) و شاهد (130=n) عملکرد ضعیفی در آزمون داشتند (امتیاز خالص کمتر از 10). علاوه بر آن، عملکرد گروه معتاد ضعیف تر از گروه شاهد بود (07/0p<). نتایج مدل سازی نشان می دهد که مدل بهینه هر دو گروه مدلی است که در ارزیابی انتخاب های مختلف فقط به تعداد دفعات دریافت پاداش و زیان (و نه مقادیر آنها) توجه می کرد. روش تحلیل حساسیت آشکار کرد که مدل بهینه برای گروه معتاد، علاوه بر توجه صرف به تعداد دفعات پاداش و زیان، بیشتر از گروه شاهد تحت تاثیر آسیب گریزی قرار دارد. نتیجه گیری: نتایج فوق گویای آن است که علت کم بودن امتیاز کسب شده در هر دو گروه، نادیده گرفتن اندازه پاداش و زیان و توجه به دفعات آن است. ضمن این که، دلیل پایین بودن بازده گروه معتاد نسبت به گروه شاهد، عدم تعادل آسیب گریزی و پاداش جویی و گرایش به سمت آسیب گریزی است. این گرایش به آسیب گریزی می تواند بر شرایط خاص معتادان درمان جو منطبق باشد.
۳.

بررسی اثرات اقتصادی، رفاهی و زیست محیطی سیاست قیمت گذاری تعرفه ای به منظور توسعه انرژی های تجدید پذیر در ایران: کاربرد الگوی تعادل عمومی پویای محاسبه پذیر با رهیافت تلفیقی(مقاله علمی وزارت علوم)

کلیدواژه‌ها: مدل سازی عامل محور بازار برق یادگیری تقویتی نظریه بازی ها ایران

حوزه‌های تخصصی:
تعداد بازدید : ۴۸۹ تعداد دانلود : ۳۳۶
تحقیق حاضر بدنبال بررسی اثرات سیاست قیمت گذاری تعرفه ای(FIT) در اقتصاد ایران می باشد. در این راستا از یک الگوی سه جانبه اقتصاد- انرژی- محیط زیست (E3) از نوع تعادل عمومی پویای بازگشتی قابل محاسبه با رهیافت تلفیقی استفاده شده است. با استفاده از الگوی تدوین شده، اثرات سیاست قیمت گذاری تعرفه ای در طی دوره1404-1390، با هدف دسترسی به سهم 10 درصدی در انرژی های تجدید پذیر در تولید برق کشور، تحت دو سناریوی پرداخت یارانه یکسان و مختلف بر اساس نوع تکنولوژی، مورد بررسی قرار گرفته است. نتایج بیانگر آن است که دستیابی به هدف کاهش بیشتر در آلودگی و هزینه اجتماعی ناشی از آن، به قیمت کاهش بیشتر در تولید ناخالص تعادلی بخش ها حاصل خواهد شد. لذا اظهار نظر قطعی در مورد انتخاب ابزار مناسب در سیاست FIT، به اهمیت دستیابی به اهدف زیست محیطی، در مقابل اثرات اقتصادی و رفاهی آن، برای سیاست گذار، دارد.
۴.

کاربرد یادگیری تقویتی در یک مدل سازی عامل محور برای بازار عمده فروشی برق ایران(مقاله علمی وزارت علوم)

کلیدواژه‌ها: مدل سازی عامل محور بازار برق یادگیری تقویتی نظریه بازی ها ایران

حوزه‌های تخصصی:
تعداد بازدید : ۶۶۲ تعداد دانلود : ۷۱۹
مطالعات اخیر بازارهای عمده فروشی برق عموماً براساس مدل های چندعاملی است، که در آن ها تعادل بازار برپایه رقابت و تعامل عوامل متعدد با یک دیگر به دست می آید. از ویژگی های اصلی این نوع مدل ها، امکان یادگیری عوامل از نتایج رفتار خود و سایرین دریک محیط رقابتی است. در بازار عمده فروشی برق، هرعامل یک واحد تولیدکننده برق است که به صورت مستقل و هوشمند با سایر عامل ها برای عرضه برق با قیمت های پیشنهادی رقابت می کند. فرآیند قیمت گذاری را می توان یک بازی ایستا فرض نمود که هرروز تکرار می شود. در این بازی هر عامل قیمت پیشنهادی خود را مستقلا اعلام نموده و بهره بردار با توجه به تقاضای بار مصرفی و محدودیت ها، بهترین پیشنهادها را انتخاب می نماید. عامل به صورت عقلائی عمل نموده و با انتخاب استراتژی مناسب، به دنبال بیشینه نمودن سود بلندمدت خود است. در این راستا، عامل از قدرت یادگیری و بهبود استراتژی قیمت گذاری، که نقش بسیار تعیین کننده در موفقیت عامل دارد، استفاده می کند. یادگیری تقویتی یک روش کلاسیک است که در مدل های چندعاملی امکان یادگیری مبتنی بر سعی و خطا را فراهم می نماید. هدف این مقاله کاربرد و مطالعه روش های یادگیری تقویتی در مدل چندعاملی بازار برق ایران و مقایسه آن ها با دو استراتژی تصادفی و حریصانه است. در این مطالعه، میزان سود واحدها و زمان رسیدن به حالت تعادل به عنوان ملاک ارزیابی در نظر گرفته شده است. نتایج شبیه سازی نشان می دهد، استراتژی یادگیرنده سود عامل ها را به طور معناداری افزایش می دهد و سرعت همگرائی به حالت تعادل را بیشتر می کند.
۵.

ارائه مدل معاملاتی با فراوانی زیاد، همراه با مدیریت پویای سبد سهام به روش یادگیری تقویتی در بورس اوراق بهادار تهران(مقاله علمی وزارت علوم)

کلیدواژه‌ها: معاملات الگوریتمی معاملات با فراوانی زیاد مدیریت پویای سبد سهام داده های درون روزی یادگیری تقویتی

حوزه‌های تخصصی:
تعداد بازدید : ۲۷۶ تعداد دانلود : ۱۳۲
هدف: شکاف بین زمان دریافت سیگنال خرید/ فروش و آغاز روند تغییر قیمت در بازارهای نوظهور، بستر مناسبی برای پیاده سازی سیستم های معاملات الگوریتمی ایجاد می کند. ارائه یک سیستم معاملاتی با تکرار زیاد، مزایا (استفاده از نوسان های درون روزی) و معایبی (هزینه زیاد معاملاتی) دارد که با طراحی درست آن و اصلاح مقررات معامله، می توان مزایای آن را افزایش داد و معایبش را کنترل کرد.روش: در این پژوهش، به ارائه رویکرد استفاده از خودمعامله گرها برای پیش بینی روند آتی سهم و بهره گیری از روش یادگیری تقویتی به منظور مدیریت پویای سبد سهام پرداخته شده و دو مدل بر همین پایه ارائه شده است. مدل نخست با بهره بردن از پیشنهاد خودمعامله گرها، به معامله با مقدار ثابت اقدام می کند. مدل دوم که به نوعی بسط داده شده مدل نخست است، به کمک روش یادگیری تقویتی، به مدیریت پویای سبد سهام می پردازد.یافته ها: نتایج نشان می دهد عملکرد هر دو مدل در بازارهای نزولی و نرمال، بهتر از استراتژی خرید و نگهداری است. همچنین بر اساس نتایج، در تمام بازارها مدل دوم در مقایسه با مدل نخست، عملکرد بهتری دارد.نتیجه گیری: به طور کلی در بازار صعودی بهترین استراتژی، خرید و نگهداری دارایی است، در نتیجه نمی توان از الگوریتم های پیشنهادی عملکردی بهتر از این استراتژی انتظار داشت. از سویی دیگر می توان گفت روش شبکه عصبی برای پیش بینی روند آتی سهم با رویکرد ارائه شده در این پژوهش، عملکرد بسیار مناسبی در بازارهای نزولی و نرمال داشته است. همچنین پیاده سازی روش یادگیری تقویتی به منظور مدیریت پویای سبد سهام توانسته عملکرد مدل را بسیار بهبود بخشد.
۶.

بهینه سازی استراتژی معاملات زوجی با استفاده از روش یادگیری تقویتی، با به کارگیری دیتاهای درون روزی در بورس اوراق بهادار تهران(مقاله علمی وزارت علوم)

کلیدواژه‌ها: معاملات زوجی یادگیری تقویتی هم انباشتگی نسبت سورتینو فرایند بازگشت به میانگین

حوزه‌های تخصصی:
تعداد بازدید : ۴۹۵ تعداد دانلود : ۱۶۹
هدف: معاملات زوجی از معروف ترین و قدیمی ترین سیستم های معاملات الگوریتمی است که کارایی و سودآوری آن در بسیاری از پژوهش هایی که تاکنون در بازارهای مالی مختلف صورت گرفته است، اثبات و نشان داده شده است. مهم ترین اصل در معاملات زوجی، وجود روابط تعادلی بلندمدت یا همان خاصیت بازگشت به میانگین است. از طرفی در سال های اخیر تحقیقات شایان توجهی روی معاملات الگوریتمی با استفاده از یادگیری ماشین صورت گرفته است. روش : در این پژوهش از روش یادگیری تقویتی که برای مدل سازی و بهینه سازی مسائل با انواع مختلف روابط بلندمدت مناسب است، به منظور انتخاب آستانه های معاملاتی و پنجره های زمانی مناسب با هدف ماکزیمم سازی بازده و مینیمم سازی ریسک های منفی در معاملات زوجی با رویکرد هم انباشتگی استفاده شده است. پژوهش حاضر با به کارگیری ترکیبی از روش یادگیری تقویتی و رویکرد هم انباشتگی در معاملات زوجی اجرا شده است. یافته ها: نتایج آزمایش روی دیتاهای درون روزی زوج سهام منتخب، نشان می دهد که استفاده از روش یادگیری تقویتی در طراحی سیستم معاملات در معاملات زوجی نسبت به کارهای قبلی انجام شده، برتری چشمگیری دارد. نتیجه گیری: استراتژی معاملات زوجی با الگوریتم پیشنهادی می تواند به عنوان استراتژی بازار خنثی در تمامی شرایط بازار اعم از رونق و رکود توسط سرمایه گذاران و معامله گران حقیقی و حقوقی استفاده شود. همچنین می توان در نظر گرفتن هزینه های معاملاتی در انجام معاملات در استراتژی معاملات زوجی را به عنوان موضعی برای پژوهش های آتی پیشنهاد کرد.
۷.

بهینه سازی پرتفوی سهام در بورس اوراق بهادار تهران (کاربرد رهیافت یادگیری تقویتی)(مقاله علمی وزارت علوم)

کلیدواژه‌ها: بهینه سازی پرتفوی معاملات الگوریتمی یادگیری تقویتی یادگیری کیو بورس اوراق بهادار تهران

حوزه‌های تخصصی:
تعداد بازدید : ۲۳۸ تعداد دانلود : ۲۰۳
هدف این مقاله کاربرد معاملات الگوریتمی با تمرکز بر رویکرد یادگیری تقویتی برای بهینه سازی پرتفوی سهام های منتخب است. این پژوهش از حیث هدف، کاربردی و از نظر نوع داده، کمّی و از لحاظ روش، توصیفی - اکتشافی و از منظر طرح تحقیق، پس رویدادی است. جامعه آماری این پژوهش، 672 شرکت بورسی است که از این تعداد، داده های پنج شرکت (نمونه آماری) طی دوره زمانی 1396-1400 بررسی شده است. یافته های تحقیق در دوره های صعودی و نزولی بازار نشان داد که رویکرد یادگیری تقویتی در بازارهای صعودی و نزولی به صورت معناداری بر رویکرد خرید و نگهداری برتری دارد و عملکرد بهتری ارائه داده است و نتایج با عملکرد الگوریتم ها در بازارهای بورس سازگار است. نتایج آشکار کرد که از دیدگاه سودآوری، رویکرد یادگیری تقویتی نسبت به رهیافت خرید و نگه داری، عملکرد بهتر و موثرتری داشته است؛ بنابراین، به کارگیری روش یادگیری تقویتی پیشنهاد می شود.
۸.

مدل سازی عامل بنیان سیستم پایش برخط توزیع دارو با رویکرد یادگیری تقویتی(مقاله علمی وزارت علوم)

کلیدواژه‌ها: مدل سازی ریاضی مدل سازی عامل بنیان سیستم پایش برخط نظام توزیع دارو یادگیری تقویتی

حوزه‌های تخصصی:
تعداد بازدید : ۱۳۳ تعداد دانلود : ۱۴۳
افزایش سود عملیاتی، چالشی است که شرکت های پخش دارو با آن مواجه هستند. اغلب پژوهش های انجام شده در این حوزه، دارای رویکرد کاهش هزینه می باشند. سامانه پایش برخط، یکی از روش های اثربخشی است که می تواند برای تصمیم گیری مدیران و بهبود عملکرد زنجیره توزیع دارو با رویکرد کاهش هزینه ها و افزایش درآمدها، مورد استفاده قرار گیرد. برای ایجاد این سامانه، نیاز به مدل سازی مفهومی، ریاضی و رایانه ای است. هدف این پژوهش، توسعه مدل ریاضی عامل بنیان سیستم پایش برخط برای بهبود نظام توزیع دارو بر اساس مدل مفهومی با استفاده از رویکرد یاد گیری تقویتی است. مدل ریاضی بر اساس مدل مفهومی عامل بنیان و با استفاده از رویکرد یادگیری تقویتی چندعاملی استخراج شد. پس از استخراج مدل ریاضی، اثربخشی مدل با مقایسه نتایج حاصل از خروجی مدل ریاضی و نتایج واقعی در یک شرکت پخش دارو، صحه گذاری شد. یافته های پژوهش نشان داد که مدل ریاضی توسعه یافته، با توجه به تعاملات و تغییر رفتار عامل ها و وضعیت محیط، قابلیت بهبود مستمر اهداف، تصمیم گیری ها و عملکرد فرایندهای زنجیره توزیع دارو را دارد.
۹.

ارائه عناصر و روش شناسی یادگیری تقویتی اعتباربخشی بیمارستان بر اساس مدل مفهومی عامل بنیان(مقاله علمی وزارت علوم)

کلیدواژه‌ها: یادگیری تقویتی کاهش گرادیان عامل های هوشمند مدل شبکه عصبی اعتباربخشی بیمارستانی

حوزه‌های تخصصی:
تعداد بازدید : ۷۳ تعداد دانلود : ۴۲
مقدمه: هدف از انجام این مطالعه، ارائه عناصر و روش شناسی مدل یادگیری تقویتی منطبق بر مدل مفهومی عامل بنیان اعتباربخشی بیمارستانی در ایران است. عناصر و روش شناسی مدل یادشده، زیربنای مطالعاتی مطلوبی برای ایجاد سیستم هوشمند و چندعاملی اعتباربخشی بیمارستانی و روندهای شبیه سازی محیط در جهت ارائه رهنمودهای بهره ورانه به کارگزاران و سیاست گذاران مربوطه ایجاد خواهد کرد. این مطالعه در نظر دارد تا پاسخ مناسبی به پرسش های اصلی پژوهش که در آن ابهامات مربوط به عناصر یادگیری تقویتی و چگونگی انتخاب روش شناسی یادگیری تقویتی در یک سیستم چندعاملی از نوع سیستم های اجتماعی فنی وجود دارد، ارائه کند.روش ها : به منظور گردآوری داده های موردنیاز برای شناخت عناصر و شناسایی فرایندهای اعتباربخشی بیمارستانی، عامل ها، محیط و تعامل بین آن ها، از روش مرور سیستماتیک منابع، بررسی مستندات علمی و مصاحبه های نیمه ساخت یافته، از طریق خبرگان، به صورت حضوری بهره گرفته شد. مصاحبه شوندگان از میان اعضای هیئت علمی، مدیران بیمارستان و مسئولان بهبود کیفیت بیمارستان ها انتخاب شدند. جمع بندی مصاحبه ها با استفاده از روش های مبتنی بر داده بنیاد، رویکرد ترتیبی و سیستماتیک، صورت گرفت. منابع جمع آوری ویژگی های فرایند یادگیری ماشین با استفاده از روش مرور سیستماتیک از مستند «راهنمای اعتباربخشی 1401» بوده است. روند انتخاب ویژگی های یادشده از طریق انتخاب صحیح از ویژگی های خروجی مدل که همان کنش های عامل است، صورت گرفت. فهرست کنش های عامل بر اساس طبقه بندی ساختار درختی از محتوای مفهومی مستند فوق الذکر به صورت یک درخت عمومی غیردودویی استخراج شد.یافته ها: مدل یادگیری تقویتی استخراج شده درصدد یافتن زنجیره های بهینه از کنش های عملیاتی در شرایطی که داده های کمی موجود است، خواهد بود. مهم ترین عناصر مدل یادشده عبارت اند از:مجموعه حالات: مجموعه عوامل اعتباربخشی بیمارستانی مانند متغیرهای ورودی، متغیرهای خروجی، شاخص ها، پارامترها، اعداد ثابت مربوط به سنجه های هر عامل مفهومی در مستند «راهنمای اعتباربخشی 1401»؛مجموعه کنش ها: کنش های عامل های هوشمند؛ در هر اپیزود یادگیری تقویتی، مسیرهایی از درخت دودویی خوشه بندی سلسله مراتبی شده اقدامات عملیاتی قابل انجام در بیمارستان و به ازای مجموعه ویژگی های حالت هستند؛تابع پاداش: «کسب بالاترین امتیاز ممکن در نظام رتبه بندی بیمارستانی با انجام کمترین تعداد کنش و اقدام لازم» است؛تابع سیاست: بر اساس فرایند یادگیری هر عامل، مبتنی بر یک شبکه عصبی عمیق DQN و الگوریتم کاهش گرادیان است؛عامل های عملیاتی: هدف عملیاتی هر یک از عامل های مفهومی؛ «حداکثرکردن امتیازات اعتباربخشی سنجه های حوزه مربوط به خود با توصیه کمترین اقدامات» است.چرخه کلی مدل: در این ساختار هر کدام از عامل های هوشمند، زیرمجموعه عامل های مفهومی نه گانه، در محدوده خود دارای یک شبکه عصبی چندلایه است که ویژگی های حالات مرتبط، به این شبکه عصبی وارد می شود و در خروجی، بر اساس تعریف تابع سیاست ویژه آن عامل، نگاشتی از کنش های بهینه بر حسب شرایط و حالات فعلی عامل ایجاد خواهد شد؛مدل شبکه عصبی: شبکه عصبی عامل هوشمند برگرفته از عامل مفهومی «مدیریت و رهبری» است که در آن مشخصات لایه های ورودی، مخفی و خروجی شبکه آمده است.نتیجه گیری: جمع بندی پیشینه پژوهش های مرتبط، نشان داد که رویکرد طراحی مدل های اعتباربخشی بیمارستانی می تواند به دو گروه «مدل های مفهومی بدون بهره گیری از عوامل هوشمند» و «مدل های مفهومی با بهره گیری از مفاهیم هوشمندسازی و سیستم های عامل بنیان» تقسیم شود. بررسی ها نشان داد که این مطالعات دارای نتایج موردانتظار بوده و کارایی و اثربخشی مدل ها و فرایندهای پیشنهادشده توسط آن ها، اعتبار لازم را داشته اند. از نقاط ضعف این پژوهش ها، این است که الگوریتم های یادگیری تقویتی لزوماً با مدل های عامل بنیان در آن ها درآمیخته نشده است.