آرشیو

آرشیو شماره‌ها:
۵۵

چکیده

هدف: در این پژوهش به بررسی مسئله قیمت گذاری پویا در سیستم های حمل ونقل ریلی با استفاده از تکنیک های پیشرفته یادگیری تقویتی عمیق پرداخته شده است. هدف اصلی این پژوهش، بهینه سازی درآمد شرکت های حمل ونقل ریلی، از طریق ایجاد سیاست فروش بلیت است که بتواند قیمت بلیت را با در نظر گرفتن کلاس های خدماتی به صورت پویا تنظیم کند. این رویکرد به شرکت های حمل ونقل ریلی این امکان را می دهد تا با تنظیم دقیق تر قیمت ها، بر اساس تقاضای مسافران، درآمد بیشتری کسب کنند و سودآوری خود را بهبود بخشند. روش: در این پژوهش، به منظور حل مسئله قیمت گذاری پویا، از الگوریتم شبکه عمیق Q، یکی از الگوریتم های پُرکاربرد یادگیری تقویتی عمیق، بهره گرفته شده است. این الگوریتم یک الگوریتم پیش گامانه است که شبکه های عصبی عمیق را با یادگیری Q ترکیب می کند. در الگوریتم شبکه عمیق Q، شبکه های عصبی عمیق وظیفه تقریب مقادیر Q را به جای جدول پُرهزینه Q برعهده دارند. یک شبکه عصبی عمیق می تواند حالت فعلی و یک عمل ممکن را مشاهده کند و به صورت مستقیم مقدار Q را تقریب بزند. توانایی الگوریتم شبکه عمیق Q در یادگیری سیاست های بهینه در محیط های پیچیده، این الگوریتم را به یک الگوریتم پُرکاربرد تبدیل کرده است. با توجه به این نکته که مدل های یادگیری تقویتی، اغلب برای تحلیل بیش از حد پیچیده به کار می روند، تحلیل استراتژی های قیمت گذاری متفاوت، فقط با آزمایش های عددی و شبیه سازی به دست می آیند. یافته ها: نتایج شبیه سازی ها نشان می دهد که الگوریتم شبکه عمیق Q، به طور موفقیت آمیزی به یک سیاست قیمت گذاری پایدار هم گرا تبدیل شده است. در این مطالعه، شاخص های عملکردی مختلفی مانند درآمد کل، ظرفیت باقی مانده، میانگین قیمت های ارائه شده به مشتریان و تعداد بلیت های فروخته شده در هر کلاس خدماتی بررسی شد. الگوریتم در مراحل اولیه با نرخ یادگیری بالا بهبود و به تدریج به پایداری و ثبات دست یافت. میانگین درآمد کل، پس از ۵۰۰۰ تکرار، به مقدار ۲۲۵ هزار هم گرا می شود. این مقدار نشان دهنده آن است که این شرکت به طور متوسط، از هر قطار ۲۲۵ هزار واحد پولی درآمد کسب می کند. میانگین ظرفیت باقی مانده نیز پس از حدود ۳۰۰۰ تکرار، به مقدار صفر نزدیک می شود. هم گرایی نمودار میانگین ظرفیت باقی مانده به صفر، نشان دهنده این است که عامل یادگیری تقویتی، به طور مؤثری یاد گرفته است که برای حداکثرسازی درآمد کل، می بایست تمامی بلیت های موجود را به فروش برساند. شاخص میانگین قیمت های پیشنهادی به مشتریان، پس از حدود ۷۵۰۰ تکرار به یک حالت پایدار می رسد، به این معنا که الگوریتم به یک سیاست قیمت گذاری بهینه دست پیدا کرده است. در این وضعیت، میانگین قیمت ها در محدوده ۶۸۰ تا ۷۰۰ واحد پولی باقی می ماند و نوسان های چشمگیری مشاهده نمی شود. به عبارت دیگر، مدل یادگیری تقویتی بر اساس شاخص میانگین قیمت های پیشنهادی هم گرا شده است. در نهایت، پس از حدود ۵۰۰۰ تکرار، میانگین تعداد بلیت فروخته شده برای تمامی کلاس های خدماتی، به یک سطح تقریباً ثابت و پایدار می رسد. میانگین تعداد بلیت فروخته شده برای کلاس اکونومی، حدود ۱۷۵ تا ۱۸۰ بلیت، کلاس بیزینس حدود ۱۳۰ تا ۱۳۵ بلیت، کلاس ویژه حدود ۶۰ تا ۶۵ بلیت و کلاس هتل حدود ۲۳ تا ۲۵ بلیت به دست آمد. نتیجه گیری: نتایج این پژوهش نشان می دهد که پس از حدود ۷۵۰۰ تکرار، الگوریتم شبکه عمیق Q به یک سیاست بهینه و پایدار رسیده است و تغییرات چشمگیری در عملکرد مشاهده نمی شود. همچنین می توان نتیجه گرفت که استفاده از الگوریتم شبکه عمیق Q در قیمت گذاری پویا، می تواند به بهبود چشمگیری در مدیریت درآمد سیستم های حمل ونقل ریلی منجر شود. این الگوریتم با قابلیت یادگیری و سازگاری با شرایط متغیر، قادر است که سیاست های قیمت گذاری مؤثری را با هدف حداکثرسازی درآمد به کار گیرد و همچنین، تعداد بهینه بلیت های فروخته شده در هر کلاس خدماتی را تعیین کند. این دستاوردها می توانند به شرکت های حمل ونقل ریلی در بهبود راهبردهای قیمت گذاری و افزایش بهره وری اقتصادی کمک شایانی کنند.

Dynamic Pricing of Customer Classes in Rail Transportation Systems Using Deep Q Network Algorithm

Objective This research investigates the problem of dynamic pricing in rail transportation systems using advanced deep reinforcement learning techniques. The main goal is to optimize the revenue of railway transport companies by developing a ticket sales policy that dynamically adjusts ticket prices based on service classes. This approach allows rail transport companies to enhance revenue and profitability by accurately aligning prices with passenger demand.   Methods To solve the problem of dynamic pricing, this research utilizes the Q deep network algorithm, which combines deep neural networks with Q-learning. Deep neural networks approximate Q values instead of using a costly Q table. The Q deep network algorithm is widely used due to its ability to learn optimal policies in complex environments. As reinforcement learning models are often too complex to analyze, numerical experiments and simulations are used to analyze different pricing strategies.   Results The simulations demonstrate that the Q deep network algorithm successfully converges to a stable pricing policy. Various performance indicators were investigated, including such as total revenue, remaining capacity, average prices offered to customers, and the number of tickets sold in each service class. The algorithm showed improvement in the early stages and gradually achieved stability. The average total revenue converges to 225,000 after 5,000 iterations, indicating that the company earns an average of 225,000 monetary units from each train. The average residual capacity approaches zero after approximately 3,000 iterations, indicating that the reinforcement learning agent learns to sell all available tickets to maximize total revenue. The average price index offered to customers stabilizes after approximately 7,500 iterations, indicating that the algorithm has converged to an optimal pricing policy. In this state, the average prices remain within the range of 680 to 700 monetary units, with no significant fluctuations observed. In other words, the reinforcement learning model has successfully converged based on the average proposed price index. Finally, after about 5,000 iterations, the average number of tickets sold for all service classes reaches a stable level. The average number of tickets sold for economy class is around 175 to 180 tickets, for business class is around 130 to 135 tickets, for special class is around 60 to 65 tickets, and for hotel class is around 23 to 25 tickets.   Conclusion The findings of this study suggest that employing the Deep Q-Network algorithm in dynamic pricing can lead to substantial optimization in revenue management for railway transportation systems. The results of this research indicate that after approximately 7,500 iterations, the Q deep network algorithm reaches an optimal and stable policy with no significant changes in performance. It can be concluded that the use of the Q deep network algorithm in dynamic pricing can significantly improve the revenue management of rail transportation systems. This algorithm can learn and adapt to changing conditions, allowing for effective pricing policies to maximize revenue and determine the optimal number of tickets sold in each service class. The obtained findings can help rail transport companies improve pricing strategies and increase economic productivity.

تبلیغات