ارائۀ یک چارچوب مفهومی برای پیش پردازش و بهبود کیفیت نگاره های رویداد در فرایندکاوی (مقاله علمی وزارت علوم)

درجه علمی: نشریه علمی (وزارت علوم)

نویسندگان: احمد صالحی محمد اقدسی توکتم خطیبی مجید شیخ محمدی

منبع: پژوهشنامه پردازش و مدیریت اطلاعات دوره 38 بهار 1402 شماره 3 (پیاپی 113)

کلیدواژه‌ها: سامانه های اطلاعاتی مدیریت فرایندهای کسب و کار فرایندکاوی کیفیت داده پیش پردازش نگاره رویداد

حوزه‌های تخصصی:

شماره صفحات: ۹۴۵ - ۹۷۹

دریافت مقاله تعداد دانلود : ۱۷۱

آرشیو

چکیده

در دنیای پیچیده امروز حیات سازمان ها و کسب وکارها بدون شناخت و استفاده کارآمد از داده ها امکان پذیر نخواهد بود. فرایندکاوی با ترکیب روش های یادگیری ماشین و مفاهیم مدیریت فرایندهای کسب وکار، تلاش دارد تا دانش نهان مربوط به چگونگی اجرای فرایندها را از داده های ذخیره شده در سامانه های اطلاعاتی استخراج نماید. اولین گام در فرایندکاوی، فعالیت کشف فرایند است که امکان مدل سازی فرایندها بر مبنای داده های رویداد ورودی را فراهم می سازد. اما استفاده از این مزیت بدون وجود داده های مناسب و با کیفیت فراهم نخواهد شد، زیرا هرگونه تحلیل بر پایه داده های با کیفیت پایین منجر به ایجاد بینش و تصمیمات نامناسبی می شود که بر عملکرد سازمان یا کسب وکار تاثیر منفی خواهند گذاشت. هدف این پژوهش ارائه یک چارچوب مفهومی جدید برای پیش پردازش داده های ورودی به روش های کشف فرایند است تا کیفیت مدل فرایند نهایی بهبود یابد. چارچوب مفهومی پیشنهادی با استفاده از یک روش پژوهش کیفی بر اساس نظریه داده بنیاد پدید آمده است. بدین منظور 102 پژوهش مرتبط با حوزه کیفیت داده در فرایندکاوی مورد بررسی قرار گرفته و مهمترین چالش های کیفیت داده در این زمینه پس از پالایش و یکپارچه سازی آن ها از ادبیات شناسایی شده اند که شامل: «رویدادهای آشفته/کم تکرار»، «رویدادهای پرت»، «رویدادهای ناهنجار»، «مقادیر گمشده»، «قالب زمانی نادرست»، «برچسب های زمانی مبهم»، «فعالیت های مترادف» و «اندازه و پیچیدگی» می باشند. در ادامه گام های اساسی برای پیش پردازش و پاک سازی مناسب داده ها تعیین شده اند که در برگیرنده فعالیت های «ترمیم»، «کشف ناهنجاری»، «پالایش» و «کاهش ابعاد» می شوند. سپس چارچوب مفهومی نهایی بر پایه مشکلات کیفیت داده و فعالیت های پاک سازی شناسایی شده، ایجاد شده است. برای بررسی عملکرد چارچوب پیشنهادی از چهار مجموعه داده استاندارد برگرفته از فرایندهای واقعی استفاده شده است، که این داده ها در مرحله اول به صورت خام و در مرحله دوم پس از انجام پیش پردازش توسط چارچوب معرفی شده به چهار الگوریتم متداول کشف فرایند اعمال شده اند. نتایج نشان داد که پیش پردازش داده های ورودی منجر به بهبود معیارهای کیفیت مدل استخراج شده از الگوریتم های کشف فرایند می شود. همچنین برای سنجش اعتبار چارچوب پیشنهادی، عملکرد آن با سه روش پیش پردازش «نمونه برداری»، «پیش پردازش آماری» و «انتخاب نمونه اولیه» مقایسه شده، که برآیندها بیانگر کارایی بهتر رویکرد پیشنهادی بوده است. نتایج پژوهش حاضر می تواند به عنوان یک رهیافت کاربردی توسط متخصصان و تحلیلگران داده و کسب و کار در پروژه های فرایندکاوی مورد استفاده قرار گیرد.

A Conceptual Framework for Preprocessing and Improving Quality of Event Log in Process Mining

In today's challenging world, organizational growth is not possible without the efficient use of data. Process mining uses machine learning methods and business process management concepts to extract hidden knowledge about business processes from data stored in information systems. Process Discovery is the first step in process mining. The main goal of process discovery is to transform the event log into a process model. However, using process discovery methods will not be possible without appropriate data because any analysis based on low-quality data will lead to poor insights and bad decisions that will negatively affect the performance of the organization or business. This paper aims to provide a new conceptual framework for preprocessing data input into process discovery methods to improve the quality of the extracted model. The proposed conceptual framework has been developed using a qualitative research process based on grounded theory. For this purpose, 102 articles related to the domain of data quality in process mining were reviewed, and the most critical challenges of data quality in this field have been identified after filtering and integrating them from the literature, including: Are "noisy/infrequent events," "outlier events," "anomalous events," "missing values," "incorrect time format," "ambiguous timestamps," "synonymous activities" and "size and complexity." Then, the basic steps for data preprocessing and cleaning tasks are defined, which include the activities of "repair," "anomaly detection," "filtering," and "dimensional reduction." The final preprocessing framework then builds on data quality issues and identified activities. Four standardized datasets derived from real-world processes were used to assess the proposed framework's performance. Firstly, these data are raw, and secondly, four standard process discovery algorithms are applied after preprocessing by the introduced framework. The results showed that the preprocessing of the input data leads to the improvement of the model quality criteria extracted from the process discovery algorithms. Furthermore, to evaluate the validity of the proposed framework, its performance was compared with three preprocessing methods: "sampling," "statistical preprocessing," and "prototype selection," which the results indicate better efficiency of the proposed approach. The results of this study can be used as guidelines by data and business analysts to identify and resolve data quality problems in process mining projects.