برگه تجزیه و تحلیل داده های اکتشافی (هر چیزی که ممکن است نیاز داشته باشید)

  • 2021-05-8

تجزیه و تحلیل داده های اکتشافی (EDA) یک گام مهم در فرآیند علم داده است. این شامل تجزیه و تحلیل و خلاصه کردن یک مجموعه داده به منظور درک خواص و روابط آن است. EDA به دانشمندان داده اجازه می دهد تا الگوها، روندها و ناهنجاری ها را در داده ها کشف کنند و فرضیه هایی را برای تحقیقات بیشتر ایجاد کنند. همچنین به شناسایی هرگونه داده گمشده یا نادرست و تعیین مناسب ترین روش های آماری و تجسم برای داده ها کمک می کند. EDA یک فرآیند تکراری است که دانشمندان داده به طور مداوم درک خود را از داده ها بررسی و اصلاح می کنند. این یک ابزار ضروری برای درک و انتقال بینش‌هایی است که می‌توان از داده‌ها استخراج کرد، و برای اطلاع‌رسانی تصمیم‌گیری مبتنی بر داده‌ها.

EDA با پایتون

سپس از چه چیزی می توانید در فرآیند EDA استفاده کنید؟در اینجا یک cheatsheet ساده برای syntaxes وجود دارد که ممکن است در موارد کلی مفید باشد (اگرچه من از مجموعه داده تایتانیک استفاده خواهم کرد - https://www. kaggle. com/c/titanic/data)

پیش پردازش داده ها

در اینجا چند مرحله برای پیش پردازش داده وجود دارد که ممکن است مفید باشد:

مدیریت مقادیر گمشده: این تکنیک زمانی استفاده می شود که مقادیر گم شده در مجموعه داده وجود داشته باشد. روش‌های مختلفی برای مدیریت مقادیر از دست رفته وجود دارد، مانند پر کردن آنها با میانگین، میانه یا حالت ستون، یا حذف ردیف‌هایی با مقادیر از دست رفته. روش مناسب به مجموعه داده خاص و هدف تجزیه و تحلیل بستگی دارد.

رمزگذاری متغیرهای طبقه‌بندی: این تکنیک زمانی استفاده می‌شود که مجموعه داده شامل متغیرهای طبقه‌ای باشد، این متغیرها متغیرهایی هستند که می‌توانند تعداد محدودی دسته‌بندی کنند. رمزگذاری تک داغ یک روش رایج برای رمزگذاری متغیرهای طبقه بندی است که یک ستون باینری جدید برای هر دسته ایجاد می کند. این برای وارد کردن متغیرهای طبقه‌بندی در مدل‌های یادگیری ماشینی مفید است، که معمولاً فقط ورودی عددی را می‌پذیرند.

استاندارد کردن ستون های عددی: این تکنیک برای مقیاس بندی مقادیر یک ستون عددی به گونه ای استفاده می شود که میانگین و واریانس واحد آنها صفر باشد. این اغلب زمانی مفید است که ستون‌های عددی مقیاس‌های متفاوتی داشته باشند و مدل یادگیری ماشین به این تفاوت در مقیاس‌ها حساس باشد.

عادی سازی ستون های عددی: از این تکنیک برای مقیاس بندی مقادیر یک ستون عددی استفاده می شود به طوری که آنها حداقل مقدار 0 و حداکثر مقدار 1 داشته باشند. این اغلب زمانی مفید است که ستون های عددی مقیاس های متفاوتی داشته باشند و مدل یادگیری ماشینی خواهد بود. حساس به این تفاوت در مقیاس.

Binning ستون های عددی: این تکنیک برای تقسیم مقادیر یک ستون عددی به bin ها استفاده می شود. این برای تبدیل یک ستون عددی پیوسته به یک ستون طبقه‌بندی مفید است، که می‌تواند برای انواع خاصی از مدل‌های تحلیل یا یادگیری ماشین مفید باشد.

استفاده از مقیاس بندی حداقل حداکثر: از این تکنیک برای مقیاس بندی مقادیر یک ستون عددی استفاده می شود به طوری که آنها حداقل مقدار 0 و حداکثر مقدار 1 داشته باشند. این اغلب زمانی مفید است که ستون های عددی مقیاس های متفاوتی داشته باشند و مدل یادگیری ماشینی متفاوت باشد. به این تفاوت در مقیاس حساس خواهد بود.

اعمال مقیاس بندی قوی: این تکنیک برای مقیاس بندی مقادیر یک ستون عددی با استفاده از محدوده میانه و بین چارکی استفاده می شود. این اغلب زمانی مفید است که داده‌ها حاوی مقادیر پرت باشد، زیرا نسبت به سایر روش‌های مقیاس‌بندی حساسیت کمتری نسبت به تأثیر نقاط پرت دارد.

با استفاده از تحولات قدرت: تحولات قدرت ، کلاس از توابع است که می تواند برای تغییر مقادیر یک ستون عددی به منظور تثبیت یا بهبود فرضیات مدلهای آماری خاص استفاده شود. تحولات قدرت می تواند برای تصحیح شکاف توزیع مفید باشد ، زیرا توزیع های چسبان در هنگام قرار دادن انواع خاصی از مدل ها می توانند باعث ایجاد مشکلاتی شوند.

با استفاده از تحولات کمی: از این تکنیک برای تبدیل مقادیر یک ستون عددی استفاده می شود تا آنها توزیع یکنواخت یا عادی داشته باشند. این می تواند برای بهبود فرضیات مدلهای خاص یادگیری ماشین مفید باشد ، که ممکن است فرض کند که متغیرهای پیش بینی کننده به طور معمول توزیع می شوند.

با استفاده از تحولات جعبه-cox: از این تکنیک برای تبدیل مقادیر یک ستون عددی استفاده می شود تا تقریباً به طور عادی توزیع شوند. این می تواند برای بهبود فرضیات مدلهای خاص یادگیری ماشین مفید باشد ، که ممکن است فرض کند که متغیرهای پیش بینی کننده به طور معمول توزیع می شوند.

و چندین روش تجزیه و تحلیل آماری ...

آزمون Mann-Whitney U: از این تکنیک برای مقایسه توزیع دو ستون عددی استفاده می شود. می توان از آن برای آزمایش این فرضیه استفاده کرد که دو ستون دارای توزیع یکسان هستند یا برای تعیین اهمیت آماری تفاوت بین دو توزیع.

تست Kruskal-Wallis H: این تکنیک شبیه به تست Mann-Whitney U است ، اما می توان از آن برای مقایسه توزیع دو یا چند ستون عددی استفاده کرد. می توان از آن برای آزمایش این فرضیه استفاده کرد که ستون ها دارای توزیع یکسانی هستند یا برای تعیین اهمیت آماری تفاوت بین توزیع ها.

تست امضا شده Wilcoxon: این تکنیک شبیه به آزمون Mann-Whitney U است ، اما برای مقایسه توزیع دو ستون عددی زوج استفاده می شود. می توان از آن برای آزمایش این فرضیه استفاده کرد که دو ستون دارای توزیع یکسان هستند یا برای تعیین اهمیت آماری تفاوت بین توزیع ها.

برچسب ها

ثبت دیدگاه

مجموع دیدگاهها : 0در انتظار بررسی : 0انتشار یافته : ۰
قوانین ارسال دیدگاه
  • دیدگاه های ارسال شده توسط شما، پس از تایید توسط تیم مدیریت در وب منتشر خواهد شد.
  • پیام هایی که حاوی تهمت یا افترا باشد منتشر نخواهد شد.
  • پیام هایی که به غیر از زبان فارسی یا غیر مرتبط باشد منتشر نخواهد شد.