Mazoochi M, Rabiei L, Moradi M. A method to solve the problem of missing data, outlier data, and noisy data to improve the performance of human and information interaction. Human Information Interaction 2023; 9 (4)
URL:
http://hii.khu.ac.ir/article-1-3077-fa.html
مازوچی مجتبی، ربیعی لیلا، مرادی محمد. ارائه روشی برای حل مشکل دادههای گم شده، پرت و نویزی بهمنظور بهبود عملکرد تعامل انسان و اطلاعات. تعامل انسان و اطلاعات. 1401; 9 (4)
URL: http://hii.khu.ac.ir/article-1-3077-fa.html
پژوهشگاه ارتباطات و فناوری اطلاعات، تهران، ایران.
چکیده: (3095 مشاهده)
زمینه و هدف: خطا در جمعآوری دادهها و عدم توجه به دادههایی که در پروسه جمعآوری به هر دلیل دچار نویز شدهاند باعث ایجاد اشکال در تحلیلهای مبتنی بر داده و بهتبع آن، تصمیمسازیهای اشتباه میگردد؛ لذا رفع مشکل دادههای گم شده و یا نویزی، قبل از انجام مراحل پردازش و تحلیل دارای اهمیت حیاتی در سامانههای تحلیلی است. هدف این مقاله، ارائه روشی بهمنظور شناسایی دادههای نویزی، پرت و دادههای گم شده و ارائه راهکاری مناسب برای هموارسازی این دادهها است.
روش پژوهش: این پژوهش بر مبنای هدف، از نوع کاربردی است. بهمنظور تحلیل دادهها از تکنیکهای دادهکاوی شامل هموارسازی پیالهای و مدل رگرسیون بهمنظور شناسایی و جاگذاری دادههای پرت و نویزی استفاده شده است.
نتایج: نتایج آزمایشهای انجام شده در محیط واقعی مربوط به دادههای شبکههای اجتماعی، نشاندهنده عملکرد مناسب روش پیشنهادی است. همچنین نشاندادهشده است که روش پیشنهادی دارای دقت بالاتری در مقایسه با روشهای هموارسازی پیالهای، میانگین و رگرسیون خطی است. بهطوریکه برای دادههای مربوط به بخش توئیت، میانگین مربعات خطای بهدستآمده برای روش پیشنهادی برابر ۰٫۰۴، روش هموارسازی پیالهای برابر ۰٫۳۸، روش رگرسیون خطی برابر ۰٫۰۵ و روش جایگزینی با میانگین برابر ۰٫۰۶ بوده است.
نتیجهگیری: روش ارائه شده در این مقاله، میتواند در ابتدا از طریق یکسوم و دوسوم نرمال، دادههای پرت را شناسایی کند و سپس با مدل رگرسیون خطی به جایگزینی دادههای پرت بپردازد که در نتیجه سبب بهبود عملکرد استفاده و پردازش اطلاعات و بهبود تعامل انسان و اطلاعات خواهد شد.
نوع مطالعه:
پژوهشي |
موضوع مقاله:
تخصصي