۲.
کلیدواژهها:
یادگیری تقویتی کاهش گرادیان عامل های هوشمند مدل شبکه عصبی اعتباربخشی بیمارستانی
مقدمه: هدف از انجام این مطالعه، ارائه عناصر و روش شناسی مدل یادگیری تقویتی منطبق بر مدل مفهومی عامل بنیان اعتباربخشی بیمارستانی در ایران است. عناصر و روش شناسی مدل یادشده، زیربنای مطالعاتی مطلوبی برای ایجاد سیستم هوشمند و چندعاملی اعتباربخشی بیمارستانی و روندهای شبیه سازی محیط در جهت ارائه رهنمودهای بهره ورانه به کارگزاران و سیاست گذاران مربوطه ایجاد خواهد کرد. این مطالعه در نظر دارد تا پاسخ مناسبی به پرسش های اصلی پژوهش که در آن ابهامات مربوط به عناصر یادگیری تقویتی و چگونگی انتخاب روش شناسی یادگیری تقویتی در یک سیستم چندعاملی از نوع سیستم های اجتماعی فنی وجود دارد، ارائه کند.روش ها : به منظور گردآوری داده های موردنیاز برای شناخت عناصر و شناسایی فرایندهای اعتباربخشی بیمارستانی، عامل ها، محیط و تعامل بین آن ها، از روش مرور سیستماتیک منابع، بررسی مستندات علمی و مصاحبه های نیمه ساخت یافته، از طریق خبرگان، به صورت حضوری بهره گرفته شد. مصاحبه شوندگان از میان اعضای هیئت علمی، مدیران بیمارستان و مسئولان بهبود کیفیت بیمارستان ها انتخاب شدند. جمع بندی مصاحبه ها با استفاده از روش های مبتنی بر داده بنیاد، رویکرد ترتیبی و سیستماتیک، صورت گرفت. منابع جمع آوری ویژگی های فرایند یادگیری ماشین با استفاده از روش مرور سیستماتیک از مستند «راهنمای اعتباربخشی 1401» بوده است. روند انتخاب ویژگی های یادشده از طریق انتخاب صحیح از ویژگی های خروجی مدل که همان کنش های عامل است، صورت گرفت. فهرست کنش های عامل بر اساس طبقه بندی ساختار درختی از محتوای مفهومی مستند فوق الذکر به صورت یک درخت عمومی غیردودویی استخراج شد.یافته ها: مدل یادگیری تقویتی استخراج شده درصدد یافتن زنجیره های بهینه از کنش های عملیاتی در شرایطی که داده های کمی موجود است، خواهد بود. مهم ترین عناصر مدل یادشده عبارت اند از:مجموعه حالات: مجموعه عوامل اعتباربخشی بیمارستانی مانند متغیرهای ورودی، متغیرهای خروجی، شاخص ها، پارامترها، اعداد ثابت مربوط به سنجه های هر عامل مفهومی در مستند «راهنمای اعتباربخشی 1401»؛مجموعه کنش ها: کنش های عامل های هوشمند؛ در هر اپیزود یادگیری تقویتی، مسیرهایی از درخت دودویی خوشه بندی سلسله مراتبی شده اقدامات عملیاتی قابل انجام در بیمارستان و به ازای مجموعه ویژگی های حالت هستند؛تابع پاداش: «کسب بالاترین امتیاز ممکن در نظام رتبه بندی بیمارستانی با انجام کمترین تعداد کنش و اقدام لازم» است؛تابع سیاست: بر اساس فرایند یادگیری هر عامل، مبتنی بر یک شبکه عصبی عمیق DQN و الگوریتم کاهش گرادیان است؛عامل های عملیاتی: هدف عملیاتی هر یک از عامل های مفهومی؛ «حداکثرکردن امتیازات اعتباربخشی سنجه های حوزه مربوط به خود با توصیه کمترین اقدامات» است.چرخه کلی مدل: در این ساختار هر کدام از عامل های هوشمند، زیرمجموعه عامل های مفهومی نه گانه، در محدوده خود دارای یک شبکه عصبی چندلایه است که ویژگی های حالات مرتبط، به این شبکه عصبی وارد می شود و در خروجی، بر اساس تعریف تابع سیاست ویژه آن عامل، نگاشتی از کنش های بهینه بر حسب شرایط و حالات فعلی عامل ایجاد خواهد شد؛مدل شبکه عصبی: شبکه عصبی عامل هوشمند برگرفته از عامل مفهومی «مدیریت و رهبری» است که در آن مشخصات لایه های ورودی، مخفی و خروجی شبکه آمده است.نتیجه گیری: جمع بندی پیشینه پژوهش های مرتبط، نشان داد که رویکرد طراحی مدل های اعتباربخشی بیمارستانی می تواند به دو گروه «مدل های مفهومی بدون بهره گیری از عوامل هوشمند» و «مدل های مفهومی با بهره گیری از مفاهیم هوشمندسازی و سیستم های عامل بنیان» تقسیم شود. بررسی ها نشان داد که این مطالعات دارای نتایج موردانتظار بوده و کارایی و اثربخشی مدل ها و فرایندهای پیشنهادشده توسط آن ها، اعتبار لازم را داشته اند. از نقاط ضعف این پژوهش ها، این است که الگوریتم های یادگیری تقویتی لزوماً با مدل های عامل بنیان در آن ها درآمیخته نشده است.