مطالب مرتبط با کلیدواژه

داده های گمشده


۱.

مدل سازی تبخیر روزانه در ایستگاه سد زاینده رود با استفاده از مدل های هوش مصنوعی و سری زمانی(مقاله علمی وزارت علوم)

کلیدواژه‌ها: تبخیر داده های حدی داده های گمشده شبیه سازی

حوزه‌های تخصصی:
تعداد بازدید : ۷۴ تعداد دانلود : ۸۶
تبخیر از تشت به عنوان یک پارامتر کاربردی در زمینه های مختلف، مانند برآورد هدر رفت آب از دریاچه ها و مخازن سدها و همچنین برآورد نیاز آبی گیاهان به ویژه در مناطقی که اطلاعات لایسیمتری وجود ندارد، کاربرد دارد. مدل سازی این پارامتر می تواند در زمینه بازسازی داده های گم شده و برنامه ریزی های درازمدت منابع آب و توسعه کشاورزی کارساز باشد. در این پژوهش با به کارگیری یک مدل هوش مصنوعی (برنامه ریزی بیان ژن) و دو مدل سری زمانی (فوریه و آریما)، تبخیر از تشت در ایستگاه سد زاینده رود در دوره زمانی 1344 تا 1396 (53 سال) مدل سازی شد. سری زمانی داده های تبخیر از تشت در مقیاس روزانه برای ماه های گرم سال (خرداد، تیر، مرداد، شهریور و مهر)، به عنوان ورودی مدل های فوریه و آریما و 4 الگوی مختلف شامل استفاده از داده های روزانه تبخیر 1 ماه قبل، 2 ماه قبل، 3 ماه قبل و 4 ماه قبل، به عنوان ورودی مدل برنامه ریزی بیان ژن استفاده شد. نتایج نشان داد که مدل برنامه ریزی بیان ژن تنها در ماه مهر نتایج قابل قبولی دارد و برای ماه های دیگر نتایج از نظر شاخص های آماری قابل قبول نمی باشد. میزان خطای برآود تبخیر روزانه در ماه مهر 38/0 میلی متر بر روز (معادل 7/2 درصد) بدست آمد. این میزان خطا بر اساس ضریب تبیین 84/0 و ضریب نش- ساتکلیف (ضریب کارایی مدل) 83/0، قابل قبول ارزیابی شد. بر خلاف مدل برنامه نویسی بیان ژن، مدل فوریه در تمام ماه های مورد مطالعه نتایج قابل قبول ارائه داد. مقادیر خطای برآورد تبخیر روزانه در این روش بین 02/1 تا 7/0 میلی متر بر روز به دست آمد که معادل 2/5 تا 8/8 درصد است. مقایسه نتایج دو مدل فوق با نتایج مدل آریما نیز نشان داد مقادیر خطای مدل آریما در تمام ماه ها بیشتر (4/9 تا 6/19 درصد) از مدل های فوریه و برنامه ریزی بیان ژن است. بنابراین بهترین مدل برای برآورد تبخیر روزانه از تشت، در ماه مهر مدل برنامه ریزی بیان ژن و در بقیه ماه ها مدل فوریه می باشد. ارزیابی دقت و توانایی برآورد داده های حدی تبخیر روزانه نیز نشان داد، مدل فوریه در تخمین داده های حدی، دارای توانایی بالاتری نسبت به دو مدل دیگر است. بنابراین می توان این مدل را جهت برآورد تبخیر روزانه در ایستگاه سد زاینده رود و همچنین بازسازی داده های گم شده توصیه نمود.
۲.

روش های برخورد با داده های گمشده: مزایا، معایب، رویکردهای نظری و معرفی نرم افزارها(مقاله علمی وزارت علوم)

کلیدواژه‌ها: داده های گمشده روش های جانهی نرم افزارهای کاربردی

حوزه‌های تخصصی:
تعداد بازدید : ۵۰ تعداد دانلود : ۳۲
در تحلیل داده ها، گاهی برخی مشاهدات به دلایل گوناگون و روش های متفاوت، گمشده محسوب می شوند. چگونگی برخورد با این مشاهدات در تحلیل داده ها، به دلیل اهمیت نتایج حاصل از آنها به ویژه در تصمیم گیری های حساس، از اهمیت به سزایی برخوردار است. پیش از این، برای غلبه بر مشکل داده های گمشده مرسوم ترین روش، حذف داده های گمشده بود که منجر به داده هایی با کیفیت پایین و به تبع آن تحلیل و استخراج نتایج دارای سوگیری می شد. امروزه با پیشرفت های علمی در حوزه های گوناگون و پیدایش روش های توانمند آماری، می توان پیش از مد ل سازی داده های ناکامل، مقادیر گمشده را با مقادیر مناسب جایگذاری یا برآورد کرد. در این مقاله، به بررسی انواع داده های گمشده، روش های جانهی، مفروضه ها، مقایسه روش های جانهی و مزایا-معایب آنها و معرفی مختصر نرم افزارهای کاربردی در این حوزه پرداخته شده است. برای تحلیل داده ها (با استفاده از نرم افزار R) یک نمونه داده تجربی مربوط به نتایج نود و یکمین آزمون تولیمو در سال 1393 ارائه شده است. نتایج نشان داد که در خصوص این داده ها از بین سه روش جانهی چندگانه، الگوریتم EM و الگوریتم DA، با توجه به معیار MSE، الگوریتم
۳.

داده های گمشده در آزمون های سراسری ورود به دانشگاه: مبانی نظری و شواهد مبتنی بر داده های واقعی(مقاله علمی وزارت علوم)

کلیدواژه‌ها: داده های گمشده الگوی گمشدگی مکانیسم گمشدگی آزمون های پیشرفت تحصیلی

حوزه‌های تخصصی:
تعداد بازدید : ۳۱ تعداد دانلود : ۳۴
داده های گمشده پدیده رایج مطالعات تجربی و سنجش های آموزشی و روان شناسی هستند که به هرگونه بدون پاسخ ماندن سؤال اطلاق می شود. روش های آماری بسیاری برای محاسبات مجموعه داده های دارای پاسخ گمشده وجود دارد که تحت تأثیر مکانیسم گمشدگی، علل و میزان آنها هستند. هدف از نگارش این مقاله، بررسی وضعیت موجود داده های گمشده در آزمون سراسری ورودی دانشگاه هاست. با استفاده از روش های آمار توصیفی و نرم افزارهای SPSS و R نشان داده شد میزان داده های گمشده در سال های مورد بررسی افزایش یافته است (در دامنه ای بین 2.2% تا 91.6%) و شاخص های آماری آزمون تحت تأثیر میزان داده های گمشده قرار دارد. همچنین نشان داده شد همبستگی مثبت و بالایی بین تعداد پرسش های بدون پاسخ در درس های مختلف (r=0.41, 0.78)؛ و همبستگی منفی و بالایی بین تعداد پاسخ های درست و تعداد پاسخ های گمشده (r=-0.56, -0.85) وجود دارد. نتایج به دست آمده از این مقاله، نشان از ثبات رخداد داده های گمشده در ابعاد مختلف شایستگی و غیرقابل اغماض بودن داده های گمشده در تحلیل های آماری دارد.