تجزیه و تحلیل داده های اکتشافی (EDA) یک گام مهم در فرآیند علم داده است. این شامل تجزیه و تحلیل و خلاصه کردن یک مجموعه داده به منظور درک خواص و روابط آن است. EDA به دانشمندان داده اجازه می دهد تا الگوها، روندها و ناهنجاری ها را در داده ها کشف کنند و فرضیه هایی را برای تحقیقات بیشتر ایجاد کنند. همچنین به شناسایی هرگونه داده گمشده یا نادرست و تعیین مناسب ترین روش های آماری و تجسم برای داده ها کمک می کند. EDA یک فرآیند تکراری است که دانشمندان داده به طور مداوم درک خود را از داده ها بررسی و اصلاح می کنند. این یک ابزار ضروری برای درک و انتقال بینشهایی است که میتوان از دادهها استخراج کرد، و برای اطلاعرسانی تصمیمگیری مبتنی بر دادهها.
EDA با پایتون
سپس از چه چیزی می توانید در فرآیند EDA استفاده کنید؟در اینجا یک cheatsheet ساده برای syntaxes وجود دارد که ممکن است در موارد کلی مفید باشد (اگرچه من از مجموعه داده تایتانیک استفاده خواهم کرد - https://www. kaggle. com/c/titanic/data)
پیش پردازش داده ها
در اینجا چند مرحله برای پیش پردازش داده وجود دارد که ممکن است مفید باشد:
مدیریت مقادیر گمشده: این تکنیک زمانی استفاده می شود که مقادیر گم شده در مجموعه داده وجود داشته باشد. روشهای مختلفی برای مدیریت مقادیر از دست رفته وجود دارد، مانند پر کردن آنها با میانگین، میانه یا حالت ستون، یا حذف ردیفهایی با مقادیر از دست رفته. روش مناسب به مجموعه داده خاص و هدف تجزیه و تحلیل بستگی دارد.
رمزگذاری متغیرهای طبقهبندی: این تکنیک زمانی استفاده میشود که مجموعه داده شامل متغیرهای طبقهای باشد، این متغیرها متغیرهایی هستند که میتوانند تعداد محدودی دستهبندی کنند. رمزگذاری تک داغ یک روش رایج برای رمزگذاری متغیرهای طبقه بندی است که یک ستون باینری جدید برای هر دسته ایجاد می کند. این برای وارد کردن متغیرهای طبقهبندی در مدلهای یادگیری ماشینی مفید است، که معمولاً فقط ورودی عددی را میپذیرند.
استاندارد کردن ستون های عددی: این تکنیک برای مقیاس بندی مقادیر یک ستون عددی به گونه ای استفاده می شود که میانگین و واریانس واحد آنها صفر باشد. این اغلب زمانی مفید است که ستونهای عددی مقیاسهای متفاوتی داشته باشند و مدل یادگیری ماشین به این تفاوت در مقیاسها حساس باشد.
عادی سازی ستون های عددی: از این تکنیک برای مقیاس بندی مقادیر یک ستون عددی استفاده می شود به طوری که آنها حداقل مقدار 0 و حداکثر مقدار 1 داشته باشند. این اغلب زمانی مفید است که ستون های عددی مقیاس های متفاوتی داشته باشند و مدل یادگیری ماشینی خواهد بود. حساس به این تفاوت در مقیاس.
Binning ستون های عددی: این تکنیک برای تقسیم مقادیر یک ستون عددی به bin ها استفاده می شود. این برای تبدیل یک ستون عددی پیوسته به یک ستون طبقهبندی مفید است، که میتواند برای انواع خاصی از مدلهای تحلیل یا یادگیری ماشین مفید باشد.
استفاده از مقیاس بندی حداقل حداکثر: از این تکنیک برای مقیاس بندی مقادیر یک ستون عددی استفاده می شود به طوری که آنها حداقل مقدار 0 و حداکثر مقدار 1 داشته باشند. این اغلب زمانی مفید است که ستون های عددی مقیاس های متفاوتی داشته باشند و مدل یادگیری ماشینی متفاوت باشد. به این تفاوت در مقیاس حساس خواهد بود.
اعمال مقیاس بندی قوی: این تکنیک برای مقیاس بندی مقادیر یک ستون عددی با استفاده از محدوده میانه و بین چارکی استفاده می شود. این اغلب زمانی مفید است که دادهها حاوی مقادیر پرت باشد، زیرا نسبت به سایر روشهای مقیاسبندی حساسیت کمتری نسبت به تأثیر نقاط پرت دارد.
با استفاده از تحولات قدرت: تحولات قدرت ، کلاس از توابع است که می تواند برای تغییر مقادیر یک ستون عددی به منظور تثبیت یا بهبود فرضیات مدلهای آماری خاص استفاده شود. تحولات قدرت می تواند برای تصحیح شکاف توزیع مفید باشد ، زیرا توزیع های چسبان در هنگام قرار دادن انواع خاصی از مدل ها می توانند باعث ایجاد مشکلاتی شوند.
با استفاده از تحولات کمی: از این تکنیک برای تبدیل مقادیر یک ستون عددی استفاده می شود تا آنها توزیع یکنواخت یا عادی داشته باشند. این می تواند برای بهبود فرضیات مدلهای خاص یادگیری ماشین مفید باشد ، که ممکن است فرض کند که متغیرهای پیش بینی کننده به طور معمول توزیع می شوند.
با استفاده از تحولات جعبه-cox: از این تکنیک برای تبدیل مقادیر یک ستون عددی استفاده می شود تا تقریباً به طور عادی توزیع شوند. این می تواند برای بهبود فرضیات مدلهای خاص یادگیری ماشین مفید باشد ، که ممکن است فرض کند که متغیرهای پیش بینی کننده به طور معمول توزیع می شوند.
و چندین روش تجزیه و تحلیل آماری ...
آزمون Mann-Whitney U: از این تکنیک برای مقایسه توزیع دو ستون عددی استفاده می شود. می توان از آن برای آزمایش این فرضیه استفاده کرد که دو ستون دارای توزیع یکسان هستند یا برای تعیین اهمیت آماری تفاوت بین دو توزیع.
تست Kruskal-Wallis H: این تکنیک شبیه به تست Mann-Whitney U است ، اما می توان از آن برای مقایسه توزیع دو یا چند ستون عددی استفاده کرد. می توان از آن برای آزمایش این فرضیه استفاده کرد که ستون ها دارای توزیع یکسانی هستند یا برای تعیین اهمیت آماری تفاوت بین توزیع ها.
تست امضا شده Wilcoxon: این تکنیک شبیه به آزمون Mann-Whitney U است ، اما برای مقایسه توزیع دو ستون عددی زوج استفاده می شود. می توان از آن برای آزمایش این فرضیه استفاده کرد که دو ستون دارای توزیع یکسان هستند یا برای تعیین اهمیت آماری تفاوت بین توزیع ها.