مطالب مرتبط با کلیدواژه

داده های گمشده


۱.

مدل سازی تبخیر روزانه در ایستگاه سد زاینده رود با استفاده از مدل های هوش مصنوعی و سری زمانی(مقاله علمی وزارت علوم)

کلیدواژه‌ها: تبخیر داده های حدی داده های گمشده شبیه سازی

حوزه‌های تخصصی:
تعداد بازدید : ۱۵۲ تعداد دانلود : ۱۵۰
تبخیر از تشت به عنوان یک پارامتر کاربردی در زمینه های مختلف، مانند برآورد هدر رفت آب از دریاچه ها و مخازن سدها و همچنین برآورد نیاز آبی گیاهان به ویژه در مناطقی که اطلاعات لایسیمتری وجود ندارد، کاربرد دارد. مدل سازی این پارامتر می تواند در زمینه بازسازی داده های گم شده و برنامه ریزی های درازمدت منابع آب و توسعه کشاورزی کارساز باشد. در این پژوهش با به کارگیری یک مدل هوش مصنوعی (برنامه ریزی بیان ژن) و دو مدل سری زمانی (فوریه و آریما)، تبخیر از تشت در ایستگاه سد زاینده رود در دوره زمانی 1344 تا 1396 (53 سال) مدل سازی شد. سری زمانی داده های تبخیر از تشت در مقیاس روزانه برای ماه های گرم سال (خرداد، تیر، مرداد، شهریور و مهر)، به عنوان ورودی مدل های فوریه و آریما و 4 الگوی مختلف شامل استفاده از داده های روزانه تبخیر 1 ماه قبل، 2 ماه قبل، 3 ماه قبل و 4 ماه قبل، به عنوان ورودی مدل برنامه ریزی بیان ژن استفاده شد. نتایج نشان داد که مدل برنامه ریزی بیان ژن تنها در ماه مهر نتایج قابل قبولی دارد و برای ماه های دیگر نتایج از نظر شاخص های آماری قابل قبول نمی باشد. میزان خطای برآود تبخیر روزانه در ماه مهر 38/0 میلی متر بر روز (معادل 7/2 درصد) بدست آمد. این میزان خطا بر اساس ضریب تبیین 84/0 و ضریب نش- ساتکلیف (ضریب کارایی مدل) 83/0، قابل قبول ارزیابی شد. بر خلاف مدل برنامه نویسی بیان ژن، مدل فوریه در تمام ماه های مورد مطالعه نتایج قابل قبول ارائه داد. مقادیر خطای برآورد تبخیر روزانه در این روش بین 02/1 تا 7/0 میلی متر بر روز به دست آمد که معادل 2/5 تا 8/8 درصد است. مقایسه نتایج دو مدل فوق با نتایج مدل آریما نیز نشان داد مقادیر خطای مدل آریما در تمام ماه ها بیشتر (4/9 تا 6/19 درصد) از مدل های فوریه و برنامه ریزی بیان ژن است. بنابراین بهترین مدل برای برآورد تبخیر روزانه از تشت، در ماه مهر مدل برنامه ریزی بیان ژن و در بقیه ماه ها مدل فوریه می باشد. ارزیابی دقت و توانایی برآورد داده های حدی تبخیر روزانه نیز نشان داد، مدل فوریه در تخمین داده های حدی، دارای توانایی بالاتری نسبت به دو مدل دیگر است. بنابراین می توان این مدل را جهت برآورد تبخیر روزانه در ایستگاه سد زاینده رود و همچنین بازسازی داده های گم شده توصیه نمود.
۲.

روش های برخورد با داده های گمشده: مزایا، معایب، رویکردهای نظری و معرفی نرم افزارها(مقاله علمی وزارت علوم)

کلیدواژه‌ها: داده های گمشده روش های جانهی نرم افزارهای کاربردی

حوزه‌های تخصصی:
تعداد بازدید : ۱۱۹ تعداد دانلود : ۹۲
در تحلیل داده ها، گاهی برخی مشاهدات به دلایل گوناگون و روش های متفاوت، گمشده محسوب می شوند. چگونگی برخورد با این مشاهدات در تحلیل داده ها، به دلیل اهمیت نتایج حاصل از آنها به ویژه در تصمیم گیری های حساس، از اهمیت به سزایی برخوردار است. پیش از این، برای غلبه بر مشکل داده های گمشده مرسوم ترین روش، حذف داده های گمشده بود که منجر به داده هایی با کیفیت پایین و به تبع آن تحلیل و استخراج نتایج دارای سوگیری می شد. امروزه با پیشرفت های علمی در حوزه های گوناگون و پیدایش روش های توانمند آماری، می توان پیش از مد ل سازی داده های ناکامل، مقادیر گمشده را با مقادیر مناسب جایگذاری یا برآورد کرد. در این مقاله، به بررسی انواع داده های گمشده، روش های جانهی، مفروضه ها، مقایسه روش های جانهی و مزایا-معایب آنها و معرفی مختصر نرم افزارهای کاربردی در این حوزه پرداخته شده است. برای تحلیل داده ها (با استفاده از نرم افزار R) یک نمونه داده تجربی مربوط به نتایج نود و یکمین آزمون تولیمو در سال 1393 ارائه شده است. نتایج نشان داد که در خصوص این داده ها از بین سه روش جانهی چندگانه، الگوریتم EM و الگوریتم DA، با توجه به معیار MSE، الگوریتم
۳.

داده های گمشده در آزمون های سراسری ورود به دانشگاه: مبانی نظری و شواهد مبتنی بر داده های واقعی(مقاله علمی وزارت علوم)

کلیدواژه‌ها: داده های گمشده الگوی گمشدگی مکانیسم گمشدگی آزمون های پیشرفت تحصیلی

حوزه‌های تخصصی:
تعداد بازدید : ۷۰ تعداد دانلود : ۷۴
داده های گمشده پدیده رایج مطالعات تجربی و سنجش های آموزشی و روان شناسی هستند که به هرگونه بدون پاسخ ماندن سؤال اطلاق می شود. روش های آماری بسیاری برای محاسبات مجموعه داده های دارای پاسخ گمشده وجود دارد که تحت تأثیر مکانیسم گمشدگی، علل و میزان آنها هستند. هدف از نگارش این مقاله، بررسی وضعیت موجود داده های گمشده در آزمون سراسری ورودی دانشگاه هاست. با استفاده از روش های آمار توصیفی و نرم افزارهای SPSS و R نشان داده شد میزان داده های گمشده در سال های مورد بررسی افزایش یافته است (در دامنه ای بین 2.2% تا 91.6%) و شاخص های آماری آزمون تحت تأثیر میزان داده های گمشده قرار دارد. همچنین نشان داده شد همبستگی مثبت و بالایی بین تعداد پرسش های بدون پاسخ در درس های مختلف (r=0.41, 0.78)؛ و همبستگی منفی و بالایی بین تعداد پاسخ های درست و تعداد پاسخ های گمشده (r=-0.56, -0.85) وجود دارد. نتایج به دست آمده از این مقاله، نشان از ثبات رخداد داده های گمشده در ابعاد مختلف شایستگی و غیرقابل اغماض بودن داده های گمشده در تحلیل های آماری دارد.
۴.

مخاطره الگوریتم متروپلیس هستینگز روبینز مونرو در مدل های چندارزشی چند بعدی نظریه سوال پاسخ با در نظر گرفتن نقش داده های گمشده(مقاله علمی وزارت علوم)

کلیدواژه‌ها: الگوریتم MHRM مخاطره مدل های چند ارزشی چند بعدی نظریه سوال پاسخ داده های گمشده

حوزه‌های تخصصی:
تعداد بازدید : ۳۹ تعداد دانلود : ۲۸
کارایی و سوگیری برآورد پارامترها، در اندازه گیری های علوم رفتاری یکی از مهمترین موضوعات روانسنجی است. وجود الگوریتم های گوناگون مانند MHRM و کاربرد آنها در آزمون های دارای داده گمشده، یکی از چالش های موجود در حوزه مدل های نظریه سوال پاسخ است. هدف این پژوهش بررسی مخاطره الگوریتم MHRM در مدل های چند بعدی نظریه سوال پاسخ در داده های چند ارزشی با در نظر گرفتن مکانیزم و میزان داده گمشده متفاوت، بود. روش پژوهش مورد استفاده آزمایشی و با استفاده از طرح پس آزمون چند گروهی بود. نمونه مورد مطالعه براساس مطالعات شبیه سازی تحت شرایط مختلف متغیرهای مستقل (نوع الگوریتم، نوع داده گمشده و میزان داده گمشده) در 27 حالت با 100 تکرار برای هر کدام، ایجاد شد. مدل مورد استفاده مدل پاسخ مدرج چندبعدی و پارامترهای مورد بررسی شیب و آستانه سوالات بود. جهت بررسی مخاطره هر یک از پارامترها در حالت های مختلف آزمایشی شاخص میانگین توان دوم خطاها (MSE) مورد استفاده قرار گرفت. جهت تولید و تحلیل داده ها ار نرم افزار آماری R استفاده شد. نتایج پژوهش نشان داد الگوریتم MHRM در قیاس با الگوریتم های EM و MCEM دارای مخاطره برآورد کمتری است. همچنین نتایج نشان داد که در میزان مخاطره پارامترهای شیب و آستانه، بین سه مکانیزم متفاوت داده های گمشده تفاوت معنی داری وجود دارد ولیکن در رابطه با متغیر مستقل میزان داده های گمشده، تفاوت معنی داری مشاهده نشد. همچنین بین نوع الگوریتم و مکانیزم گمشدگی نیز تعامل معنی داری وجود داشت که حکایت از عملکرد مطلوب الگوریتم MHRM داشت. در نتیجه زمانی که از این الگوریتم استفاده می شود، میانگین و واریانس MSE پارامترهای شیب و آستانه در هر سه مکانیزم گمشدگی، همزمان که کاهش می یابند، به یکدیگر نزدیک نیز می شوند. پس می توان گفت کاربرد الگوریتم MHRM در داده های با میزان داده گمشده بالا و انواع گمشدگی، ضروری است. بنابراین، به پژوهشگران توصیه می شود که از الگوریتم MHRM در تحلیل داده های با ساختار پیچیده از قبیل میزان داده گمشده بالا و انواع مکانیزم گمشدگی بهره گیرند.