مجله هوش مصنوعی

آخرین اخبار و تکنولوژی های هوش مصنوعی را در اینجا بخوانید.

مجله هوش مصنوعی

آخرین اخبار و تکنولوژی های هوش مصنوعی را در اینجا بخوانید.

بهترین دیتاست ‌های یادگیری ماشینی برای مبتدیان


اگر به شیوه‌های آموزش الگوریتم‌های یادگیری ماشینی در ۵ یا ۱۰ سال گذشته بنگرید و آن را با شیوه‌های جدید مقایسه کنید، متوجه تفاوت‌های بزرگی می‌شوید. امروزه آموزش الگوریتم‌ها در یادگیری ماشینی بهتر و کارآمدتر از گذشته است و دلیل آن نیز حجم زیاد داده‌هایی است که امروزه در دسترس ما قرار گرفته‌اند. اما یادگیری ماشینی چگونه از این داده‌های استفاده می‌کند؟
به تعریف اصطلاح «یادگیری ماشینی» دقت کنید: «در یادگیری ماشینی، رایانه‌ها یا ماشین‌ها بدون برنامه‌نویسی مستقیم و به‌طور خودکار از تجربیات گذشته می‌آموزند». منظور از آموزش ماشین‌ها درواقع همان عبارت «از تجربیات می‌آموزند» است. طی این فرآیند، داده‌ها و اطلاعات نقش مهمی ایفا می‌کنند. اما ماشین‌ها چگونه آموزش داده می‌شوند؟ پاسخ دیتاست‌ها هستند. به همین دلیل است که دادن اطلاعات و داده‌های درست به ماشینی که قرار است مسئله مدنظر شما را حل کند، مسئله‌ای حیاتی است. در این مقاله دیتاست های یادگیری ماشینی را معرفی می‌کنیم.

اهمیت دیتاست‌ها در یادگیری ماشینی چیست؟

پاسخ این است که ماشین‌ها نیز همچون انسان‌ها توانایی یادگیری مسائل را دارند و تنها کافی است اطلاعات مرتبط با آن موضوع را مشاهده کنند. اما تفاوت آن‌ها با یک انسان، در مقدار داده‌ای است که برای یادگیری یک موضوع نیاز دارند. داده‌هایی که به یک ماشین می‌دهید، از لحاظ کمیت باید چنان باشد که ماشین درنهایت، کاری که از آن خواسته‌اید را انجام دهد. به همین دلیل، برای آموزش ماشین‌‌ها به حجم زیادی از داده‌ها نیاز داریم.

داده‌های یادگیری ماشینی را می‌توان مشابه داده‌های جمع‌آوری‌شده برای انجام یک پژوهش درنظر گرفت، بدین معنا که هر چه حجم داده‌های نمونه شما بزرگ‌تر و نمونه گیری شما کامل‌تر باشد، نتایج حاصل از آن پژوهش معتبرتر خواهد بود. اگر حجم نمونه کافی نباشد، نمی‌توانید تمامی متغیرها را مدنظر قرار دهید. این مسئله منجر به کاهش دقت یادگیری و استخراج ویژگی های میشود که اصلا بیانگر داده ها نیستند و در نهایت استنتاج اشتباه ماشین خواهد شد.

دیتاست‌ها داده‌های موردنیاز شما را در اختیارتان قرار می‌دهند. دیتاست‌ها مدلی آموزش می‌دهند که قادر است واکنش‌های مختلفی نشان دهد. آن‌ها مدلی از الگوریتم‌ها می‌سازند که می‌تواند روابط را آشکار کند، الگوها را تشخیص دهد، مسائل دشوار را درک کند و تصمیم بگیرد.

نکته مهم در استفاده از دیتاست‌ها این است که دیتاست موردنیاز خود را به‌درستی انتخاب کنید. یعنی دیتاستی را انتخاب کنید که دارای فرمت مناسب و ویژگی‌ها و متغیرهای معناداری در رابطه با پروژه شما باشد، زیرا عملکرد نهایی سیستم به آن‌چه که از داده‌ها یاد گرفته، بستگی دارد. علاوه براین، دادن داده‌های درست به ماشین، متضمن این خواهد بود که ماشین عملکرد کارآمدی داشته باشد و بتواند بدون دخالت انسان، به نتایج دقیقی برسد.

برای مثال، اگر برای آموزش یک سیستم بازشناسی گفتار از دیتاستی حاوی داده‌های مربوط به کتب درسی انگلیسی زبان استفاده کنیم، این ماشین در درک مطالب غیر درسی دچار مشکل خواهد شد. زیرا در این دیتاست، داده‌های مربوط به دستورزبان محاوره‌ای، لهجه‌های خارجی و اختلالات گفتاری وجود ندارد و ماشین نیز نمی‌تواند چیزی در این خصوص بیاموزد. بنابراین، برای آموزش این سیستم باید از دیتاستی استفاده کرد که متغیرهای گسترده‌ای که در زبان محاوره و در بین جنسیت‌های مختلف، سنین متفاوت و لهجه‌های مختلف وجود دارد را شامل شود.

بنابراین، باید بخاطر داشته باشید که داده‌های آموزشی شما باید هر سه ویژگی کیفیت، کمیت و تنوع را داشته باشند، زیرا تمامی این عوامل در موفقیت مدل‌های یادگیری ماشینی مؤثر هستند.

برترین دیتاست ‌های یادگیری ماشینی برای مبتدیان

امروزه دیتاست‌های فراوانی برای استفاده در فرآیند یادگیری ماشینی دردسترس قرار گرفته‌اند. به همین دلیل، ممکن است مبتدیان در تشخیص و انتخاب دیتاست درست برای یک پروژه دچار سردرگمی شوند.
بهترین راه‌حل برای این مسئله، انتخاب دیتاستی است که به‌سرعت دانلود و با مدل سازگار شود. به‌علاوه، همیشه از دیتاست‌های استاندارد، قابل‌درک و پرکاربرد استفاده کنید. بدین ترتیب، شما می‌توانید نتایج کارتان را با نتایج حاصل از کار سایر افرادی که از همان دیتاست استفاده کرده‌اند، مقایسه کنید و پیشرفت خود را بسنجید.
دیتاست خود را می‌توانید براساس نتیجه‌ای که از فرآیند یادگیری ماشین انتظار دارید، انتخاب نمایید. در ادامه، مروری خلاصه بر پرکاربردترین دیتاست‌ها در حوزه‌های مختلف یادگیری ماشینی از پردازش تصویر و ویدیو گرفته تا بازشناسی متن  سیستم‌های خودمختار خواهیم داشت.

پردازش تصویر

همان‌طور که گفته شد، دیتاست‌های یادگیری ماشینی متعددی در دردسترس ما قرار دارند، اما برای انتخاب دیتاست باید کارکردی که از برنامه کاربردی خود انتظار دارید را درنظر بگیرید. پردازش تصویر در یادگیری ماشینی برای پردازش تصاویر و استخراج اطلاعات مفید از آن‌ها به‌کار گرفته می‌شود.برای مثال، اگر روی یک نرم‌افزار ساده تشخیص چهره کار می‌کنید، می‌توانید آن را با استفاده از دیتاستی که حاوی تصاویری از چهره انسان‌هاست، آموزش دهید. این همان روشی است که فیس‎بوک برای شناسایی یک فرد در عکس‌های دسته‌جمعی استفاده می‌کند. همچنین، گوگل و سایت‌های جست‌وجوی تصویری محصول نیز در بخش جست‌وجوی تصویری خود از چنین دیتاست‌هایی استفاده کرده‌اند.

نام دیتاستتوضیح مختصر
۱۰k US Adult Faces Databaseاین دیتاست شامل ۱۰.۱۶۸ عکس از چهره طبیعی افراد و ۲.۲۲۲ معیار از چهره است. برخی از معیارهایی که در این دیتاست برای چهره‌ درنظر گرفته شده‌اند عبارتند از: به‌یادماندنی بودن، بینایی یارانه‌ای و صفات روانشناختی. تصاویر این دیتاست در فرمت JPEG هستند، وضوح تصاویر ۷۲ پیکسل در هر اینچ و ارتفاع آن‌ها‌ها ۲۵۶ پیکسل است.
Google’s Open ImagesOpen Image دیتاستی است متشکل از ۹ میلیون نشانی اینترنتی که شما را به تصاویر موجود در اینترنت هدایت می‌کند. این تصاویر دارای برچسب‌های توضیحی هستند که در ۶۰۰۰ دسته مختلف طبقه‌بندی شده‌اند. این برچسب‌ها بیشتر عناصر واقعی را شامل می‌شوند. تنها تصاویری در این دیتاست قرار می‌گیرند که مجوز انتساب مشترکات خلاقانه را دریافت کرده باشند.
Visual Genomeاین دیتاست حاوی بیش از ۱۰۰ هزار تصویر است که کاملاً تفسیر شده‌اند. نواحی هر یک از این تصاویر به‌ این صورت توصیف شده‌اند؛ توضیح ناحیه: دختری که به فیل غذا می‌دهد، شیء: فیل، صفت: بزرگ، رابطه: غذا دادن.
Labeled Faces in the Wildدر این دیتاست بیش از ۱۳.۰۰۰ تصویر از چهره افراد جمع‌آوری شده است. این تصاویر، تصاویری هستند که در فضای اینترنت به ‌اشتراک گذاشته‌ شده بودند و در برچسب هر تصویر، نام فرد درون تصویر ذکر شده است.

 

ایده‌هایی‌ آسان و سرگرم‌کننده برای استفاده از دیتاست‌های تصویری

• گربه یا سگ: با استفاده از دیتاست گربه‌ها و دیتاست استنفورد که حاوی تصاویر سگ‌ها است، برنامه شما می‌تواند تشخیص دهد که در تصویر داده‌شده، سگ وجود دارد یا گربه؟
• طبقه‌بندی گل‌های زنبق: می‌توانید به کمک دیتاست گل‌های زنبق یک برنامه کاربردی مبتنی بر یادگیری ماشینی طراحی کنید که گل‌ها را در ۳ گونه گیاهی طبقه‌بندی کند. با اجرای این پروژه دسته‌بندی صفات فیزیکی برپایه محتوا را خواهید آموخت که به شما در طراحی برنامه‌ها و پروژه‌های کاربردی همچون ردیابی کلاه‌برداری،شناسایی مجرمین، مدیریت درد (برای مثال، برنامه ePAT را درنظر بگیرید که با استفاده از فن‌آوری تشخیص چهره، نشانه‌های درد را در صورت فرد شناسایی می‌کند.) و غیره کمک می‌کند.
• هات‌داگ است یا نه؟: برنامه شما با استفاده از دیتاست Food 101، قادر خواهد بود تا غذاها را شناسایی کند و به شما بگوید که آیا این غذا ساندویچ هات‌داگ است یا خیر.

تحلیل احساس

حتی مبتدیان نیز می‌توانند با استفاده از دیتاست‌های تحلیل احساس برنامه‌های جالبی طراحی کنند. در یادگیری ماشینی می‌توان ماشین‌ها را با به‌کارگیری دیتاست‌های تحلیل احساس به نحوی آموزش داد که عواطف و احساسات موجود در یک جمله، یک کلمه یا یک متن کوتاه را تحلیل و پیش‌بینی کنند. به‌طور معمول، از این قبیل برنامه‌ها برای تحلیل فیلم‌ها و نظرات مشتریان درمورد محصولات استفاده می‌شود. اگر کمی خلاقیت به خرج دهید، می‌توانید برنامه‌ای طراحی کنید که با استفاده از تحلیل‌های احساسی، موضوعی که بحث‌برانگیزتر از سایرین خواهد بود را شناسایی کند.

 

 

 

نام دیتاستتوضیح مختصر
Sentiment140این دیتاست حاوی ۱۶۰.۰۰۰ توییت است که شکلک‌های استفاده‌شده در آن‌ها حذف شده‌اند.
Yelp Reviewsاین دیتاست یک دیتاست رایگان است که توسط شرکت Yelp منتشر شده و حاوی بیش از ۵ میلیون نظر درباره رستوران‌ها، فروشگاه‌ها، تفریح‌های شبانه، غذاها، سرگرمی‌ها و غیره است.
Twitter US Airline Sentimentدر این دیتاست داده‌های مربوط به خطوط هواپیمایی آمریکا در شبکه اجتماعی توییترT از سال ۲۰۱۵ جمع‌آوری شده و به هر یک از آن‌ها یکی از برچسب‌های مثبت، منفی و خنثی داده شده است.
Amazon reviewsدر این دیتاست بیش از ۳۵ میلیون نظر ثبت‌شده در وب‌سایت آمازون طی دوره زمانی ۱۸ ساله جمع‌آوری شده است. داده‌های موجود شامل اطلاعاتی درخصوص محصولات، امتیاز کاربران و نظرات متنی هستند.

 

ایده‌هایی‌ آسان و سرگرم‌کننده برای استفاده از دیتاست‌های تحلیل احساسی

مثبت یا منفی: با استفاده از دیتاست Spambase در مدل خود، توییت‌ها را تحلیل کنید و آن‌ها در دو دسته مثبت و منفی طبقه‌بندی کنید.
راضی یا ناراضی: با استفاده از دیتاست Yelp Reviews پروژه‌ای تعریف کنید که در آن یک ماشین بتواند با مشاهده نظر یک فرد درخصوص یک محصول تشخیص دهد که فرد از آن محصول راضی بوده یا ناراضی.
خوب یا بد: می‌توانید با استفاده از دیتاست Amazon reviews، یک ماشین را به نحوی آموزش دهید که خوب یا بد بودن نظرات کاربران را تشخیص دهد.

پردازش زبان طبیعی

در فن‌آوری پردازش زبان طبیعی ماشین‌ها درجهت تحلیل و پردازش حجم زیادی از داده‌های مربوط به زبان‌های طبیعی آموزش می‌بینند. موتورهای جست‌وجو همچون گوگل به کمک این فن‌آوری می‌توانند آن‌چه شما در بخش جست‌وجو می‌نویسید را پیدا کنند. شما نیز می‌توانید با استفاده از این قبیل دیتاست‌ها، یک برنامه کاربردی جالب پردازش زبان طبیعی و مبتنی بر یادگیری ماشینی طراحی کنید.

 

نام دیتاستتوضیح مختصر
Speech Accent Archiveاین دیتاست حاوی ۲۱۴۰ نمونه صوتی است که در آن‌ها افرادی از ۱۷۷ کشور و ۲۱۴ ریشه زبانی مختلف حضور دارند و متن واحدی را به زبان انگلیسی می‌خوانند.
Wikipedia Links dataاین دیتاست حاوی تقریبا ۱.۹ میلیارد واژه است که از بیش از ۴ میلیون مقاله جمع‌آوری شده‌اند. در این دیتاست می‌توان واژه‌ها، عبارات یا بخشی از یک پاراگراف را جست‌وجو کرد.
Blogger Corpusاین دیتاست متشکل  از ۶۸۱.۲۸۸ پست از وبلاگ‌های مختلف است که از وب‌سایت Blogger.com جمع‌آوری شده‌اند. در هر یک از این وبلاگ‌های منتخب، حداقل ۲۰۰ واژه پرکاربر انگلیسی استفاده شده است.

 

ایده‌هایی‌ جالب برای استفاده از دیتاست‌های پردازش زبان طبیعی:

• هرزنامه یا مفید: با استفاده از دیتاست Spambase می‌توانید برنامه‌ای طراحی کنید که قادر باشد ایمیل‌های هرزنامه را از ایمیل‌های مفید و خوب تشخیص دهد.

پردازش ویدیو

با استفاده از دیتاست‌های پردازش ویدیو، ماشین‌ شما می‌آموزد که صحنه‌های مختلف یک ویدیو و اشیاء، احساسات و کنش و واکنش‌های درون آن را شناسایی و تحلیل کند. به این منظور، شما باید حجم زیادی از داده‌های مربوط به واکنش‌ها، اشیاء و فعالیت‌ها را به ماشین خود بدهید.

نام دیتاستتوضیح مختصر
UCF101 – Action Recognition Data Setاین دیتاست شامل ۱۳.۳۲۰ ویدیو است که براساس عملی که در آن‌ها اتفاق می‌افتد در ۱۰۱ گروه دسته‌بندی شده‌اند.
Youtube 8MYoutube 8M دیتاستی متشکل از تعداد زیادی ویدیوهای برچسب گذاری شده است. این دیتاست شامل شناسه‌های میلیون‌ها ویدیو از یوتیوب و تفسیرهای ماشینی بسیار باکیفیت از این ویدیوهاست. در این تفسیرهای ماشینی از بیش از ۳.۸۰۰ واژه مربوط به اشیاء دیداری استفاده شده است.

 

یک ایده جالب یرای استفاده از دیتاست‌های پردازش ویدیو

  • تشخیص عمل: با استفاده از دیتاست‌های  UCF101 – Action Recognition Data Set یا Youtube 8M  می‌توانیدبه برنامه کاربردی خود آموزش دهید تا اعمال مختلف چون راه‌رفتن یا دویدن را در یک ویدیو شناسایی کند.

تشخیص گفتار

تشخیص گفتار به این معناست که یک ماشین می‌تواند واژه‌ها و عبارات را در زبان گفتاری شناسایی یا تحلیل کند. اگر کیفیت و کمیت داده‌هایی که به ماشین خود داده‌اید مناسب باشد، عملکرد بهتری در حوزه تشخیص گفتار خواهد داشت. با ترکیب دو فن‌آوری پردازش زبان طبیعی و پردازش گفتار می‌توانید دستیار شخصی شبیه به الکسا طراحی کنید که بتواند خواسته شما را به درستی متوجه شود.

 

 

 

نام دیتاستتوضیح مختصر
Gender Recognition by Voice and speech analysisاین دیتاست براساس ویژگی‌های آوایی صدا و گفتار، صدای زنان را از مردان تمیز می‌دهد. این دیتاست حاوی ۳.۱۶۸ فایل صوتی ضبط‌شده از صدای زنان و مردان مختلف در هنگام سخن گفتن است.
Human Activity Recognition w/Smartphoneدیتاست Human Activity Recognition حاوی ویدیوهایی است که از ۳۰ فرد در حین انجام فعالیت‌های روزانه‌شان گرفته شده است. در حین انجام این فعالیت‌ها یک گوشی موبایل (سامسونگ گلکسی S2) نیز به کمر آن‌ها متصل شده بود.
TIMITاز دیتاست TIMIT در مطالعات آواشناسی آکوستیک و توسعه سیستم‌های خودکار تشخیص گفتار استفاده می‌شود. این دیتاست متشکل از فایل‌های صوتی ضبط‌شده از ۶۳۰ نفر است که با ۸ گویش رایج انگلیسی آمریکایی صحبت می‌کردند. هر یک از افراد حاضر در این فرآیند باید  کلمات، مصوت‌ها و جملاتی را می‌خواندند که از لحاظ آوایی بسیار غنی بودند.
Speech Accent Archiveاین دیتاست حاوی ۲۱۴۰ نمونه صوتی است که در آن‌ها افرادی از ۱۷۷ کشور و ۲۱۴ ریشه زبانی مختلف حضور دارند و متن واحدی را به زبان انگلیسی می‌خوانند.

 

ایده‌هایی جالب برای استفاده از دیتاست‌های تشخیص گفتار

• تشخیص لهجه: با استفاده از دیتاست Speech Accent Archive، برنامه کاربردی شما قادر خواهد بود لهجه‌های مختلف را از میان لهجه‌های نمونه تشخیص دهد.
• شناسایی عمل: با استفاده از دیتاست Human Activity Recognition w/Smartphone می‌توانید برنامه‌ای طراحی کنید که فعالیت‌های انسان‌ را تشخیص دهد.

تولید زبان طبیعی

تولید زبان طبیعی به معنای توانایی ماشین‌ها در شبیه‌سازی گفتار انسان است. به کمک این فن‌آوری می‌توان مطالب نوشته‌شده را به فایل‌های شنیداری تبدیل کرد. همچنین این فن‌آوری می‌‌تواند با خواندن مطالبی که روی صفحه نقش بسته‌اند، به افراد کم‌بینا و دارای نقص بینایی کمک کند. این درواقع همان روشی است که دستیارهای هوشمندی چون الکسا و سیری به شما پاسخ می‌دهند.

 

نام دیتاستتوضیح مختصر
Common Voice by Mozillaدیتاست Common Voice حاوی داده‌های گفتاری است که در وب‌سایت Common Voice توسط کاربران خوانده شده‌اند. متون خوانده شده در این وب‌سایت، از منابع عمومی همچون پست‌های کاربران در وبلاگ‌ها، کتاب‌های قدیمی و فیلم‌ها است.
LibriSpeechاین دیتاست شامل حدود ۵۰۰ ساعت فایل صوتی است. این فایل‌ها حاوی کتاب‌های صوتی هستند که توسط افراد مختلف و به زبانی روان خوانده شده‌اند. در این دیتاست فایل صوتی و متن اصلی هر کتاب به تفکیک فصول آن، موجود است.

 

ایده‌هایی جالب برای استفاده از دیتاست‌های تولید زبان طبیعی

• تبدیل متن به گفتار: با استفاده از دیتاست Blogger Corpus،  می‌توانید برنامه‌ای طراحی کنید که متون موجود در وب‌سایت را با صدای بلند بخواند.

اتومبیل‌های خودران

شما نیز می‌توانید یک برنامه یادگیری ماشینی ساده برای اتومبیل‌های خودران طراحی کنید. دیتاست‌های یادگیری ماشینی موجود در حوزه اتومبیل‌های خودران برای درک محیط و هدایت خودرو بدون نیاز به دخالت انسان، به شما کمک خواهند کرد. از این الگوریتم‌ها می‌توان برای هدایت اتومبیل‌های خودران، پهبادها، ربات‌های انباردار و غیره استفاده کرد. اهمیت دیتاست‌ها در این حوزه بیشتر از سایر حوزه‌های یادگیری ماشینی است، زیرا ریسک دراین حوزه بیشتر است و هزینه یک اشتباه ممکن است جان یک انسان باشد.

 

نام دیتاستتوضیح مختصر
Berkeley DeepDrive BDD100kاین دیتاست یکی از بزرگ‌ترین دیتاست‌های موجود در حوزه اتومبیل‌های خودران مبتنی بر هوش مصنوعی است. این دیتاست حاوی بیش از ۱۰۰.۰۰۰ ویدیو از بیش از ۱۰۰۰ ساعت رانندگی در شرایط آب‌وهوایی ساعات مختلف روز می‌باشد.
Baidu ApolloscapesBaidu Apolloscapes دیتاستی بزرگ متشکل از ۲۶ قلم شیء معنایی از جمله خودرو، دوچرخه، عابرین پیاده، ساختمان، چراغ برق و غیره است.
Comma.aiاین دیتاست حاوی بیش از ۷ ساعت ویدیو از رانندگی در بزرگراه است. این داده‌ها شامل اطلاعاتی درخصوص سرعت، شتاب، زاویه فرمان و مختصات مکانی خودرو می‌شوند.
Cityscape Datasetاین دیتاست متشکل از حجم زیادی از داده‌های ویدیوی تهیه‌شده از خیابان‌های ۵۰ شهر مختلف است.
nuScenesاین دیتاست حاوی بیش از ۱۰۰۰ تصویر از مناظر، حدود ۱.۴ میلیون تصویر، ۴۰۰.۰۰۰ داده درخصوص وسعت دید سیستم لیدار (سیستمی که با استفاده از لیزر، فاصله بین اجسام را می‌سنجد) و ۱.۳ میلیون کادر محاطی ۳ بعدی (که با کمک دوربین‌های RGB، رادارها و لیدار اشیاء را شناسایی می‌کند) است.

ایده‌هایی جالب برای استفاده از دیتاست‌های اتومبیل‌های خودران

• طراحی برنامه‌ای ساده برای اتومبیل‌های خودران: با استفاده از یکی از دیتاست‌های بالا و داده‌های مربوط به تجربیات مختلف رانندگی در شرایط آب‌وهوایی متفاوت، برنامه خود را آموزش دهید.

اینترنت اشیاء

کاربردهای یادگیری ماشینی در حوزه اینترنت اشیاء روزبه‌روز درحال گسترش است. شما به عنوان یک مبتدی در دنیای یادگیری ماشینی ممکن است دانش لازم برای طراحی برنامه‌های اینترنت اشیاء کاربردی و پیشرفته که از یادگیری ماشینی استفاده می‌کنند را نداشته باشید، اما قطعاً می‌توانید با شناخت دیتاست‌های مربوطه، به این دنیای شگفت‌انگیز قدم بگذارید.

 

نام دیتاستتوضیح مختصر
Wayfinding, Path Planning, and Navigation Datasetاین دیتاست حاوی نمونه‌هایی از مسیریابی درون یک ساختمان (کتابخانه Waldo در دانشگاه غرب میشیگان) است. این داده‌ها به‌طورمعمول در نرم‌افزارهای مسیریابی به‌کار گرفته می‌شوند.
ARAS Human Activity Datasetاین دیتاست یک دیتاست در حوزه تشخیص فعالیت‌های انسانی است که از ۲ خانوار واقعی جمع‌آوری شده که شامل بیش از ۲۶ میلیون داده از حسگرها و بیش از ۳۰۰۰ فعالیت انجام‌شده می‌باشد.

یک ایده جالب برای استفاده از دیتاست‌های اینترنت اشیاء:

• طراحی یک دستگاه پوشیدنی برای پیگیری فعالیت‌های افراد: با استفاده از دیتاست ARAS Human Activity Dataset، یک دستگاه پوشیدنی را آموزش دهید تا بتواند فعالیت‌های افراد را تمیز دهد.

پس از به پایان رساندن مطالعه این لیست‌ها، نباید احساس محدودیت کنید. این دیتاست‌ها تنها تعدادی از دیتاست‌هایی هستند که می‌توانید در برنامه‌های کاربردی مبتنی بر یادگیری ماشینی از آن‌ها استفاده کنید. در فضای اینترنت می‌توانید دیتاست‌های بهتری نیز برای پروژه یادگیری ماشینی خود پیدا کنید.

می‌توانید در وب‌سایت‌های Kaggle، UCI Machine Learning Repository،  Kdnugget، Awesome Public Datasets,  و  Reddit Datasets Subredditدیتاست‌های بیشتری پیدا کنید.

حال وقت آن است که این دیتاست‌ها را در پروژه خود به کار بگیرید. اگر در حوزه یادگیری ماشینی مبتدی هستید این مقاله  نیز در آشنایی بیشتر با این فن‌آوری به شما کمک خواهد کرد.
جدا از این که تازه‌کار هستید یا مدتی در دنیای یادگیری ماشینی فعالیت داشته‌اید، باید همواره به‌خاطر داشته باشید که دیتاستی را انتخاب کنید که پرکاربرد باشد و بتوان آن را به‌سرعت از یک منبع قابل‌اعتماد  بارگیری کرد.

منبع: hooshio.com

اشکال ‌زدایی از مدل یادگیری ماشینی


مقدمه

فرض می‌کنیم یک مدل یادگیری ماشینی (ML) آموزش داده‌اید. همه مراحل را نیز به درستی انجام داده‌اید. مدل شما از دقت و ثبات بسیار خوبی برخوردار است و می‌تواند عملکردی بهتر از مدل خطی برجای بگذارد. شما حتی مدل‌تان را در جعبه «Docker» قرار داده‌اید و همه ابزارها و وابستگی‌های نرم افزاری و فن‌آوری اطلاعات درون آن قرار دارد. حتما الان هم قصد استفاده از آن دارید؟ خب، عجله نکنید. بحث اشکال ‌زدایی همچنان باقی مانده است.
بهترین راهکارهای آموزش اشکال ‌زدایی و ارزیابی مدل‌های یادگیری ماشین که در حال حاضر موجود می باشند تنها بر این نکته تاکید ندارند که چگونه مشکلات را در مسائل دنیای واقعی شناسایی کرده و به حل آنها بپردازیم. ای کاش اشکال ‌زدایی از این سیستم ها مانند نرم افزارهای عادی دیگر به سادگی فشردن دکمه اشکال زدایی از کیبورد بود. اشکال ‌زدایی از مدل یک مرحله مهم و اساسی است که به آزمایش و بررسی مدل‌های پیچیده یادگیری ماشین، توابع پاسخ دهنده و مرزهای تصمیم‌گیری آن پرداخته است. هدف از این کار، شناسایی و تصحیح مسائل مربوط به دقت، انصاف و امنیت در سیستم‌های یادگیری ماشینی است.

 نکات مختصری درباره اطمینان (TRUST) و فهم (UNDERSTANDING)

فهم و اطمینان در یادگیری ماشینی شبیه به هم‌اند، ولی دو مفهوم یکسان نیستند. بررسی تفاوتِ میان آن دو مرا به یاد اشکال ‌زدایی از مدل و نحوه ارتباط آن با سایر بخش‌های گردش کاری یادگیری ماشینی می‌اندازد. همان‌طور که در شکل شماره ۱ ملاحظه می‌کنید، امروزه ابزارهای گوناگونی برای ارتقای اطمینان و فهمِ ما انسان‌ها از یادگیری ماشینی وجود دارد. برخی از روش‌ها مثل اشکال ‌زدایی از مدل و آزمایش یا کاهش سوگیری اجتماعی به ما کمک می‌کنند تا مدل‌های یادگیری ماشینیِ دقیق، منصفانه و امن‌تری را بسازیم؛ البته بدون اینکه بدانیم دقیقا این مدل چگونه کار میکند. این اقدامات بیشتر از آنکه درک ما را نسبت به مدل افزایش دهند باعث می شود تا اطمینان ما نسبت به عملکردش افزایش یابد. روش‌های دیگر مثل مدل‌های یادگیری ماشینی قابل‌تفسیر می‌توانند درک ما را به طور مستقیم با آشکار ساختن سازوکارهای مدل یا با خلاصه‌سازی تصمیمات مدل افزایش ‌دهند. این روش‌ها در صورتی که مدل یا توضیحات خوبی در اختیارمان بگذارند، اطمینان ما را نیز افزایش می‌دهند.

 

اشکال ‌زدایی

شکل ۱ اشکال ‌زدایی از مدل یادگیری ماشینی : امروزه مدل‌های زیادی وجود دارند که فهم و اطمینان ما را از سیستم‌های یادگیری ماشینی افزایش می‌دهند. برخی از مدل‌ها به‌طور مستقیم به افزایش درک ما از روند تصمیم گیری مدل کمک می کنند حال آنکه بقیه آنها بیشتر به اطمینان ما از مدل کمک می‌کنند.

مقاله حاضر از دیدگاه ریاضی به بررسی جنبه‌های اشکال ‌زدایی یادگیری ماشینی و افزایش اطمینان در یادگیری ماشینی خواهد پرداخت. هرچند، باید به دو جنبۀ دیگرِ گردش کاریِ یادگیری ماشینی نیز توجه ویژه ای نمود:
• افزایش درک یادگیری ماشینی
• آزمایش و تحکیم سیستم‌های فن‌آوری اطلاعات مبتنی بر یادگیری ماشین
حتی اگر اطمینان و دقت برای شما ارزشی بیشتر از انصاف، تفسیرپذیری یا امنیت دارد، باید بدانید اینکه مدل‌های یادگیری ماشین هر چقدر توسط شما به مدل قابل‌ درک تری مبدل شود باعث می شود تا اپراتور  سیستم به شناخت بهتری نسبت به آن برسد و در زمان مناسب تصمیمات اشتباه سیستم را تصحیح کند. اگر مدل و منطق درونی آن را به عنوان جعبه سیاهدر نظر بگیریم، سخت می توان عملکرد آن را به چالش کشید. برای مثال اگر سیستم آموزشی مبتنی بر مدل های هوش مصنوعی را در نظر بگیرید، دوست ندارید فرزندتان به خاطر یک مدل یادگیری ماشینی دقیق امّا غیرقابل فهم، فرصت حضور در دانشگاه مورد علاقه‌اش را از دست بدهد. یا به طور مشابه، مطمئناً دوست ندارید در زمان استفاده از سیستم خدمات پزشکی مبتنی بر هوش مصنوعی، توسط مدل یکسانی رد شوید. گزینه ای که ممکن است در این موارد برای شما جذاب تر باشد، این است که بتوانید به تصحیح اشتباهات مدل یادگیری ماشینی بپردازید، به همین دلیل مدل هایی که تصمیم گیری حساسی در زندگی و کار بر عهده دارند باید قابل درک باشند. همان طور که در شکل شماره ۲ مشاهده می‌کنید، مراحل افزایش درک و اطمینان در سیستم‌های یادگیری ماشینی به تصویر کشیده شده است. اشکال ‌زدایی از مدل زمانی به بهترین نحو عمل می‌کند که به همراه سایر روش‌هایِ پیشنهاد شده در شکل ۲ مورد استفاده قرار بگیرد. در حال حاضر احتمالا بسیاری از شما، آزمایش و تحکیم سیستم‌های سرویس دهنده مبتنی بر یادگیری ماشینی را به خوبی یاد دارید. صرفاً به این دلیل که سیستم از مدل یادگیری ماشینی بهره می‌برد، بدین معنا نیست که مشمول آزمایش نمی‌شود. علاوه‌براین، شرکت گوگل (و احتمالاً چند شرکت دیگر) چارچوب‌های عملی خوبی در خصوص این موضوع ارائه کرده‌اند.

 

اشکال ‌زدایی

شکل ۲ اشکال ‌زدایی از مدل یادگیری ماشینی : این گردش کاری یادگیری ماشینی می‌تواند اطمینان و درک را افزایش دهد.

اکنون بگذارید نحوۀ اشکال‌ زدایی از مدل‌های یادگیری ماشینی را توضیح دهیم. در ابتدا به بحث درباره مسئله نمونه و دیتاست استفاده شده در این مقاله خواهیم پرداخت. چگونگی شناسایی باگ‌ها و فائق آمدن بر آنها نیز در بخش‌های بعدی مقاله بررسی خواهد شد.

مسئله نمونه به همراه مجموعه‌داده

برخی از نمونه‌های مطرح شده در بخش زیر برپایۀ مجموعه‌داده‌های مشهور کارت اعتباری تایوانی هستند که از منبع یادگیری ماشینی دانشگاه کالیفرنیا گردآوری شده‌اند. ما در این مجموعه داده می‌خواهیم پیش‌بینی کنیم که کدام صاحبان کارت اعتباری در آینده اقدام به پرداختشان محتمل تر است. متغیرهای این پروژه به شرح زیر است:
در اینجا DEFAULT_NEXT_MONTH = 0 یا به صورت پیش فرض, DEFAULT_NEXT_MONTH = 1 قرار می دهیم.
متغیرهای مربوط به پرداخت برای تولید میزان احتمالِ پرداخت یا عدم پرداخت صاحب کارت استفاده می‌شوند که با p_DEFAULT_NEXT_MONTH در مسئله نشان داده می شوند. ما در مقاله حاضر از الگوریتم (M-GBM) monotanically constrained gradient boosting machine برای انجام این نوع پیش‌بینی‌ها استفاده می‌کنیم. p_DEFAULT_NEXT_MONTH باید تنها زمانی در M-GBM افزایش یا کاهش پیدا کند که متغیر ورودی معینی افزایش یابد. همین موضوع سبب سهولت در توضیح و اشکال‌ زدایی از مدل می‌شود و بر دقت کلی مدل در این مجموعه‌داده تاثیر نمی‌گذارد. M-GBM با متغیرهای پرداخت مثل PAY_0 — PAY_6، PAY_AMT1 — PAY_AMT6 یا BILL_AMT1 — BILL_AMT6 آموزش داده می‌شود. کلیه مبالغ بر اساس دلار تایوان گزارش شده‌اند (NT$).

برخی از نتایجِ این مثال حاوی متغیرهایِ LIMIT_BAL و r_DEFAULT_NEXT_MONTH می‌باشند. LIMIT_BAL همان محدودیت اعتبار مشتری می باشد. r_DEFAULT_NEXT_MONTH که در یادگیری ماشین به نام خطای لگاریتمی باقی‌مانده‌ها شناخته می شود و معیار عددی می باشد که فاصله پیش‌بینیِ M-GBM از جواب صحیح را نشان می دهد. ما در این مجموعه از متغیرهای جمعیت‌شناختیهمچون جنسیت در این مجموعه‌داده استفاده خواهیم کرد تا سوگیری های ناخواسته که تحت تاثیر جامعه منتخب در داده ها پیش می آید را بسنجیم. مقاله حاضر مسئله اعتباردهی را به عنوان یک فعالیت مدل‌سازیِ پیش‌بینی‌گرمورد بررسی قرار می‌دهد.

راهبردهای شناسایی

چطور می‌توان باگ‌های ریاضی را در مدل‌های یادگیری ماشینی پیدا کرد؟ ما دستکم چهار روش کلی برای شناسایی باگ‌ها می‌شناسیم:  تحلیل حساسیت، تحلیل باقی‌مانده،  مدل‌های بنچ‌مارک، و اعتبارسنجی ضریب اطمینان یادگیری ماشینی شاید روش‌های دیگری هم به ذهن شما خطور کند.

تحلیل حساسیت

روش تحلیل حساسیت که از آن به عنوان روش تحلیلی «What-if» نیز یاد می شود، بر اساس ایده‌ای قوی و ساده پایه گذاری شده است. فقط داده‌ها را در سناریوهای مهم تر شبیه‌سازی کنید تا متوجه بشوید که مدل‌تان چه نوع پیش‌بینی‌هایی در آن سناریوها انجام می‌دهد. زیرا پیش بینی واکنش مدل یادگیری ماشینی غیرخطی در برابر داده‌هایی که در طول آموزش با آنها مواجه نشده، غیرممکن است. از این حیث پیاده‌سازیِ تحلیل حساسیت در مدل یادگیری ماشینی حائز اهمیت فراوانی می‌باشد. شاید شما ایده‌ها و پیشنهادهای خوبی در خصوص آزمایش سناریوهای مختلف در ذهن داشته باشید و صرفا به دنبال سناریوهای مختلفی می گردین که بتوانید مدل خود را مورد آزمایش قرار بدهید. اگر این‌طور باشد، لطفاً همین الان دست به کار شوید و ایده‌های خود را به مرحله اجرا در بیاورید. در همین راستا، استفاده از ابزار What-If-Tool بسیار کارآمد خواهد بود. این ابزار می‌تواند زمینه را برای دسترسی به روشی ساماندهی‌شده در تحلیل حساسیت فراهم آورد. بخش زیر به معرفی سه راهبرد برای تحلیل حساسیت ساماندهی‌شده خواهد پرداخت:

وابستگی جزئی،انتظار شرطی  (ICE)، و نمایش تاثیر محلی تجمعی  (ALE)

• جستجوی نمونه‌های تخاصمی
• حملات تصادفی
قبل از اینکه با سازوکار هر کدام از این موارد آشنا شوید، باید بدانید که کدام متغیرها بیشترین تاثیر را درمدل شما دارند. ما همواره در انجام کارهای آزمایش بر روی این متغیرهای مهم تمرکز می‌کنیم. شکل شماره ۳ اهمیت متغیرها را با توجه به مقدار sharpley value در قالب یک نمودار به تصویر کشیده است. بدین منظور از XGBoost استفاده شده است. شکل ۳ به ما نشان می‌دهد که PAY_0 اهمیت زیادی دارد. در بخش‌های بعدی بیشتر به اهمیت آن پی خواهید برد.

اشکال ‌زدایی

شکل ۳ اشکال ‌زدایی از مدل یادگیری ماشینی : نمودار دقیقِ اهمیت متغیر برای مدل M-GBM با متغیرهای موجود در مجموعه‌دادۀ کارت اعتباری

 

 وابستگی جزئی ، انتظار شرطی (ICE)، و نقشه‌های تاثیر محلی تجمعی (ALE)

کار وابستگی جزئی تنظیم کلیه مقادیر ستونهای مورد نظر (مثل PAY_o) در مجموعه‌داده دلخواه مانند دیتاست اعتبارسنجی بر روی مقدار دلخواه (مثلا مقدار NaN یا خالی) و یا هر مقدار منطقی دیگر است. این مدل بعد از آموزش با مجموعه‌داده جدید، به اجرا در آمده و در هر ردیف اقدام به پیش‌بینی می‌کند. مقداری که بعد از گرفتنِ میانگینِ همه آن پیش‌بینی‌ها به دست می آید به منزلۀ وابستگی جزئی به ازای آن مجموعه‌داده، آن مقدار و آن مدل است. اکنون می‌توان این فرایند را با مقادیر مختلف انجام داد تا سرانجام از منحنی وابستگی جزئی خروجی بگیریم. نمودارِ شکل ۴ رفتار متوسط PAY_o را در مدل M-GBM نشان می‌دهد.
با وجود این که درک وابستگی جزئی کار چندان دشواری نیست، اما باید بدانید که این روش چندان هم روش کاملی نیست. در زمانهایی که هم‌بستگی‌ بین متغیرها در مجموعه‌داده زیاد باشد، نتایج غیر‌قابل اطمینانی به دست می‌آید. خوب حداقل می توانیم با دو گزینه به نام ALE و ICE نتایج وابستگی جزئی را بهبود ببخشیم. ALE را تقریبا می توان به صورت یک جایگزین مستقیم برای معیار وابستگی جزئی استفاده کرد. محاسبه این معیار به لحاظ پیچیدگی محاسبات به صرفه تر و از لحاظ کارآیی دقیق تر است. ALE در زبان برنامه نویسی R نظیر ALEPlot، DALEX و iml در دسترس می باشد.
ICE غالباً به همراه وابستگی جزئی مورد استفاده قرار می‌گیرد. محاسبه ICE بسیار مشابه با وابستگی جزئی می باشد. دقیقا طبق مراحل توضیح داده شده پیش می روید فقط توجه داشته باشید که مجموعه‌داده دلخواه فقط یک ردیف را شامل ‌شود. وقتی منحنی‌های ICE با رفتار میانگینی که وابستگی جزئی نشان می‌دهد همراه باشد، می‌توان حدس زد که وابستگی جزئی از دقت کافی برخوردار است. اگر منحنی‌های ICE نسبت به وابستگی جزئی واگرا شود ، می‌توان این چنین برداشت کرد که برهم‌کنش‌هایی در مدل وجود دارد. در کل، ICE می‌تواند اطلاعات خوبی درباره رفتار افراد واقعی یا شبیه‌سازی شده در مدل در اختیارمان بگذارد؛ البته به این شرط که وابستگی جزئی قابل‌اطمینان باشد و ما نیز به دنبال برهم‌کنش‌های قوی در مدل باشیم. ترکیب‌ها و انواع مختلف وابستگی جزئی و ICE در چندین بسته منبع باز وجود دارد که از جمله آنها می‌توان به PDFbox، PyCEboc، ICEbox و pdp اشاره کرد.
شکل ۴ به ادغام وابستگی جزئی، ICE و یک هیستوگراممی‌پردازد تا بینش خوبی درباره مهم‌ترین متغیر PAY-o در مدل M-GBM فراهم کند. در ابتدا می‌بینیم که داده‌های آموزشیِ PAY_o پراکنده است. این پراکندگی معمولاً نشانه خوبی نیست. مدل‌های یادگیری ماشینی به حجم بالایی از داده برای یادگیری نیاز دارند. این مدل تقریباً هیچ داده‌ای درباره افرادی که بازپرداخت‌شان یک ماه به تعویق افتاده است، ندارد. مطابق با وابستگی جزئی، می‌توان به وجود چند مسئله بالقوه دیگر پی برد. از دید امنیتی، با خطراتی مواجه هستیم. اگر خواهان امتیاز خوبی از این مدل هستیم، شاید لازم باشد فقط یک نمونه تخاصمی را هک کنیم. همچنین نوسان بزرگی در پیش‌بینی‌ها از PAY_0=1 تا PAY_0=2 وجود دارد. آیا این کار از دید کسب‌وکار منطقی است؟ شاید منطقی باشد، اما باید از دید امنیتی نسبت به آن آگاهی کافی بدست بیاوریم. اگر بخواهیم عملیات   «حمله منع سرویس» را برای یکی از کاربران این مدل به اجرا دربیاوریم، باید مقدار PAY_o را به بیشتر از ۱ افزایش دهیم. در این مدل باید به همکاران فن‌آوری اطلاعات بگوییم که بر حملات نمونه تخاصمی نظارت داشته باشند. در این حملات، شاهدِ PAY_0 = NaN and PAY_0 > 1 هستیم. همچنین، اگر بازار به سمت رکود حرکت کند و قبض پرداخت‌نشدۀ مشتریان زیاد باشد، باید به این نکته توجه کرد که M-GBM حساسیت بالایی در برابر مقادیرِ PAY_0 > 1 دارد.

 

اشکال ‌زدایی

شکل ۴ اشکال ‌زدایی از مدل یادگیری ماشینی : هیستوگرام، وابستگی جزئی و ICE برای PAY_0.

نکته اطمینان‌بخش این است که منحنی‌های ICE وابستگی جزئی نشان می‌دهند که مولفۀ یکنواختی در PAY_0 در مقدار میانگین حفظ می‌شود. خوشبختانه، مولفه‌های یکنواختی این فرصت را به ما می‌دهند تا با مسئله پراکندگی داده‌ها نیز به خوبی مقابله کنیم. به دلیل وجود مولفه‌های یکنواختی، مدل توانست احتمال را از PAY_0 = 2 به PAY_0 > 8 (جایی که خبری از داده‌های آموزشی نیست) هدایت کند. پیش‌بینی‌های مدل در PAY_0 در صورت نبودِ این مولفه صرفاً نویز تصادفی قلمداد خواهند شد. درنهایت، چون ICE و وابستگی جزئی تا حدود زیادی همتراز هستند، می‌توان دید که منحنی وابستگی جزئیِ PAY_0، این مجموعه داده و مدل M-GBM تا حدود زیادی قابل اطمینان است. اکنون باید همین تحلیل را برای سایر متغیرهای مهم انجام دهیم. حالا وقت آن رسیده که درباره جستجوهای نمونه تخاصمی، راهبرد اشکال ‌زدایی و تحلیل حساسیت بعدی به بحث بپردازیم.

جستجوی نمونه تخاصمی

نمونه‌های تخاصمی به ردیف‌هایی از داده گفته می‌شود که باعث می‌شوند مدل به تولید نتایج غیرمنتظره بپردازد. جستجوی نمونه‌های تخاصمی یکی از روش‌های عالی برای اشکال ‌زدایی محسوب می‌شود. فرایند جستجو این فرصت را به ما می‌دهد تا از چگونگی عملکرد مدل‌مان در چند سناریوی مختلف مطلع شویم. یافتن و درکِ نمونه‌های تخاصمیِ واقعی می‌تواند مستقیماً ما را به سمت روش‌هایی ببرد که مدل‌هایمان را قدرتمندتر کنیم و نابهنجاری‌ها را در هنگام ورودِ مدل به بخش تولید پیدا کنیم. اگر در فضای یادگیری عمیق پایتون مشغول به فعالیت هستید، می‌توانید به بخش‌های «Cleverhans» و «foolbox» نگاه کنید تا نمونه‌های تخاصمی را پیدا کنید.
در خصوص داده‌های ساماندهی‌شده باید به این نکته اشاره کرد که نرم‌افزارهای قابل‌دسترس کمی در این زمینه وجود دارد تا از آن‌ها کمک بگیریم، اما در مقاله حاضر یک روش جستجوی اکتشافی معرفی می‌شود که می‌توان از آن استفاده کرده یا به اصلاح و تغییر آن بپردازید. شکل شماره ۵ نتایج جستجوی کل‌نگر را نشان می‌دهد.

 

اشکال ‌زدایی

شکل ۵ اشکال ‌زدایی از مدل یادگیری ماشینی : احتمال بیشینۀ پیش‌بینی‌شده برای جستجوی نمونه‌های تخاصمی در چندین متغیر مهم.

 

جستجوی اکتشافی در داده‌ها و مدل M-GBM با PAY_0 آغاز می‌شود؛ بر این اساس، همان‌طور که در شکل ۴ ملاحظه شد، ICE مورد محاسبه قرار گرفته و منحنی ICE با بزرگ‌ترین تغییر در پیش‌بینی‌ها بدست می‌آید. در این مجموعه‌داده و مدل، این منحنی در بیش از ۹۰ درصدِ p_DEFAULT_NEXT_MONTH حاصل می‌آید. سپس، ردیف داده‌ای در بیش از ۹۰ درصد p_DEFAULT_NEXT_MONTH به تعداد ۱۰.۰۰۰ بار دچار آشفتگی می‌شود. البته نباید این نکته را فراموش کرد که ۱۰ مقدار مختلف برای چهار متغیر مهم در اختیار داریم: PAY_0، PAY_3، PAY_AMT1 و PAY_AMT2. این مقادیر به خاطر طیف وسیع مقادیر Shapley انتخاب شدند، نَه به‌طور مستقیم از نمودار اهمیت متغیر در شکل ۳.
شکل ۵ چندین نکته جالب درباره مدل M-GBM ارائه می‌کند. اولاً، می‌بینیم که مولفه‌های یکنواختیدر ترکیبی از متغیرهای مختلف نیز حضور دارند. درثانی، یک خطای منطقی هم در مدل M-GBM شناسایی شده است. گویا اهمیتی ندارد که آخرین پرداختِ یک فرد چقدر زیاد باشد، اگر افراد در آخرین مورد حدود یک ماه تاخیر در پرداخت داشته باشند، مدل احتمال بالایی از بازپرداخت (Default) در نظر خواهد گرفت. یعنی این احتمال می‌رود که مدل M-GBM قادر به منظور کردنِ پیش پرداخت نباشد؛ یا شخصی را که مبالغ زیادی پرداخت می‌کند تا پرداخت‌های معوقه خود را جبران کند. اگر این شرایط را در مدل M-GBM یا در سیستم اعتباردهی لحاظ می‌کردیم، می‌توانستیم گزینه ویرایشِ مدل M-GBM را در نظر بگیریم یا از سیستم اعتباردهی برای مدیریت این سناریوهای پیچیده استفاده کنیم. نکته سوم این است که این جستجو دست‌کم به شش نمونه تخاصمی دست پیدا کرد. مقادیرِ بسیار پایینِ PAY_AMT1 و PAY_AMT2 در هنگام ترکیب با سایر مقادیر در ردیف‌های مورد استفاده برای آغاز جستجو باعث خواهند شد تا مدل M-GBM با احتمال زیادی مقادیر پیش فرض را تولید کنند.
وقتی مدل M-GBM به سمت تولید حرکت کرده باشد، استفاده از این مقادیر برای کارهای نظارتی ضروری خواهد بود. این مقادیر می‌توانند نشان دهند که مدل، مورد حمله تخاصمی قرار گرفته است یا نه. اگر فکر می‌کنید روش جستجوی تخاصمی پیشنهادی مفید است، آن را امتحان کنید. فرایند جستجوی اکتشافی در بخش زیر خلاصه شده است.
برای هر متغیر مهم، به شرح زیر اقدام کنید:
۱. منحنی‌های ICE را در هر دهک از پیش‌بینی‌های مدل محاسبه کنید.
۲. منحنی ICE با بیشترین نوسان یا تغییر در پیش‌بینی‌ها پیدا کنید.
۳. ردیف داده‌های مرتبط با منحنی ICE را تفکیک کنید.
در این ردیف از داده‌ها باید اقدامات زیر را انجام دهید:
۱. یک تا سه متغیر مهم دیگر را در ردیف تغییر دهید. (رسم نمودار برای بیش از یک متغیر، کار دشواری است).
۲. مجدداً به ردیف تغییریافته نمره دهید.
۳. تا آنجایی به کار ادامه دهید تا متغیرهای مهم همه چرخه‌ها را در قلمروی‌شان در داده‌های آموزشی، طی کرده باشند.
به ترسیم نمودار پرداخته و نتایج را تحلیل کنید.

حملات تصادفی

حملات تصادفی زمانی به وقوع می‌پیوندند که مدل با انواعی از داده‌های تصادفی روبرو شود. این نمونه را تصور کنید: مجموعه کاراکترهای دوبایتی، مجموعه‌داده‌هایی با یک ردیف و یک ستون، مجموعه‌داده‌هایی با یک میلیون ستون و یک ردیف و غیره. حملات تصادفی می‌توانند در شناخت باگ‌های معمول در حوزه IT و همچنین ریاضی کمک کنند. فرض کنید مجموعه‌داده‌ای در اختیار دارید که حاوی ۱۰ میلیون ستون و یک ردیف است. در این شرایط، API به دلیل رویارویی با حجم بالایی از داده‌های درونی یا خصوصی دچار سوءعملکرد می‌شود. این احتمال هم وجود دارد که به شیوه‌ای نامناسب کارآیی خود را از دست بدهد. شاید API و مدل‌تان مثل مقادیر گمشده با کاراکترهای دوبایتی برخورد کند و احتمال نکول پایینی را در نظر بگیرد. کسی چه می‌داند! اگر اصلاً نمی‌دانید از کجا باید کارهای اشکال ‌زدایی مدل را آغاز کنید، با یک حمله تصادفی کارتان را آغاز کنید. مطمئنم به نکات جالبی دست خواهید یافت.

 تحلیل باقی‌مانده

تحلیل باقی‌مانده از مدت‌ها پیش به عنوان زیربنای تشخیص مدل خطی به حساب می‌آمد و این امر باید همچنان در عصر یادگیری ماشین تداوم داشته باشد. باقی‌مانده به اختلاف میان پیامد واقعیِ شناخته‌شده و پیش‌بینی آن پیامد توسط مدل اشاره می‌کند. راه‌های متعددی برای محاسبه باقی‌مانده‌ها وجود دارد، اما مقدار باقی‌ماندۀ بزرگ به این معنی است که مدل دچار اشتباه شده است. مقدار باقی‌ماندۀ کوچک نیز بدین معناست که مدل به درستی عمل کرده است. نمودارهای باقی‌مانده کلیه پیش‌بینی‌ها و داده‌های ورودی را به صورت دوبعدی نمایش می‌دهند؛ لذا، ناهمخوانی‌های تاثیرگذار و انواع دیگر باگ‌های ریاضی، می‌توانند به سادگی قابل رویت باشند.
تنها عیب تحلیل باقی‌مانده این است که محاسبه باقی‌مانده‌ها مستلزم پیامدهای واقعی است. بنابراین، در صورتی که به انجام نوعی از پیش‌بینی‌ بپردازیم که پیامد واقعی برای بازه زمانی واقعی موجود نباشد، امکان کار با باقی‌مانده وجود نخواهد داشت.
شکل ۶ خطای لگاریتمی باقی‌مانده‌ها را که مربوط به مدل M-GBM هست نشان می‌دهد که با متغیر مهم PAY_0 به تصویر کشیده شده است. باقی‌مانده‌های سرخابی رنگ مربوط به مشتریانی است که اقدام به نکول کرده‌اند. باقی‌مانده‌های آبی مربوط به مشتریانی است که اقدام به نکول نکرده‌اند. متاسفانه، شکل ۶ تصویری عیب‌جویانه از مدل M-GBM را نشان می‌دهد.

اشکال ‌زدایی

شکل ۶ اشکال ‌زدایی از مدل یادگیری ماشینی : خطای لگاریتمی باقی‌مانده‌ها که با PAY_0 نشان داده شده است.

در شکل ۶ می‌بینیم که تعداد زیادی باقی‌مانده سرخابی برای مقادیر دلخواه PAY_0 < 1 وجود دارد که از جمله آن‌ها می‌توان به NO CONSUMPTION (-2)، PAID DULY (-1) یا USE OF REVOLVING CREDIT (استفاده از اعتبار در گردش) اشاره کرد. یعنی مدل اساساً زمانی در پیش‌بینیِ نکول ناکام می‌ماند که مشتری مقدار دلخواهی برای PAY_0 نداشته باشد. پس مدل M-GBM قادر به پیش‌بینی پرداختِ به‌موقع نخواهد بود. ادغام این اطلاعات با نمودار “اهمیت متغیر” در شکل ۳، نشان می‌دهد که M-GBM وابستگی زیادی به PAY_0 دارد. در همین راستا، می‌توان استفاده از این قانون را در دستور کار قرار داد: IF PAY_0 > 1 THEN DEFAULT_NEXT_MONTH = 1. در این صورت، داشتن دقتی برابر با M-GBM تضمین می‌شود.
امکان رفع این باگ خطرناک، با استفاده از افزایش داده، عادی‌سازی، ویرایش مدل و… وجود دارد. ما کمابیش درباره این روش‌ها در بخش‌های پیشین مقاله بحث کردیم. اما یک نکته کاملاً روشن است: این مدل دارای مشکلی اساسی است، قابل اطمینان و مناسب برای استفاده در دنیای حقیقی نیست. شاید از این امر تجب کنید که نمودارهای باقی‌مانده چه اطلاعاتی را درباره مدل‌های سالم در اختیارمان می‌گذارند. خوش‌بختانه، در مقاله حاضر سعی بر این بود که خوانندگان متقاعد شوند ترسیم باقی‌مانده‌ها یک روش اشکال ‌زدایی تاثیرگذار است.

تاثیر نابرابر، دقت و تحلیل خطا

تاثیر نابرابر به تبعیض ناخواسته در سیستم‎های تصمیم‌گیری اشاره می‌کند. روش‌های آزمایش تاثیر نابرابر یکی از روش‌های مشهور برای پیدا کردن سوگیری‌های اجتماعیِ ناخواسته در داده‌های آموزشی و نتایج مدل‌سازی پیش‌بینی‌گر محسوب می‌شوند. آیا این روش‌ها کامل و بی‌نقص هستند؟ آیا استفاده از این روش‌ها حداقل کاری است که می‌توانید انجام دهید تا مدل یادگیری ماشینی از ارتکاب یا تشدید سوگیری‌های اجتماعی ناخواسته جلوگیری به عمل آورد؟ احتمالاً.
این‌ها کتابخانه های منبع بازی هستند که در انجام آزمایش‌های تاثیر نابرابر، می توانند مفید واقع شوند؛ مِن جمله aequitas، AIF360 و Themis. روش‌های بنیادی آزمایش تاثیر نابرابر، به بررسی نرخ خطا و دقت در متغیرهای جمعیتی می‌پردازند. رویکرد ایده‌آل این است که بخواهیم نرخ خطا و دقت در همه گروه‌های جمعیتی مختلف برابر باشد. اگر این چنین نباشد، می‌توان اینطور برداشت کرد که مدل‌تان مرتکب سوگیری اجتماعی ناخواسته شده یا این سوگیری‌ها را تشدید کرده است.
در شکل ۷، با توجه به متغیر SEX می‌بینیم که نرخ خطا و دقت برای مردان و زنان نسبتاً مشابه به نظر می‌رسند. این نشانه خوبی است، اما به این معنا نیست که مدل‌تان عاری از سوگیری اجتماعی ناخواسته است.
همه مدل‌ها قادرند بر اساس تغییرات کوچکی که در داده‌های ورودی‌شان به وجود می‌آورند، با افراد مشابه به شیوه متفاوتی برخورد کنند. این عامل منجر به سوگیری محلی یا بی‌عدالتی فردیمی‌شود. یکی از نمونه‌های سوگیری محلی این است که تمدید اعتبار را برای خانم جوانی در نظر بگیریم که سابقه پرداخت خوبی داشته و دارای درآمد ۱۰۰.۰۰۰ دلاری است و در عین حال، از اعطای چنین تسهیلاتی به خانم جوان مشابهی که درآمدی بالغ بر ۹۹.۹۹۹ دلار دارد، خودداری کنیم. می‌دانیم که اختلاف یک دلاری در میزان درآمد هیچ تفاوت بزرگی پدید نمی‌آورد، اما مدل یادگیری ماشینی می‌تواند این دو فرد مشابه را در دو سمت متفاوت از مرز تصمیمِ غیرخطی قرار دهد.
مسئله بدتر این است که آزمایش استاندارد تاثیر نابرابر معمولاً به مسائل سوگیری محلی بی‌اعتنا است. چطور می‌توان از برقراری عدالت و انصاف در سطح فردی اطمینان حاصل کرد؟ این پرسش تا به امروز بی‌پاسخ مانده و تلاش‌ها برای پاسخ به آن ادامه دارد. پیشنهاد ما این است که با نزدیک‌ترین فاصله به مرز تصمیم مدل‌تان به افراد نگاه کنید. در اکثر موارد، افراد خیلی مشابه نباید در سمت متفاوتی از آن مرز قرار داشته باشند. حالا پیش از اینکه وارد بحثِ نرخ خطا و دقت شویم، اشاره به این نکته ضروری است که یادگیری ماشین می‌تواند پا را فراتر از این مباحث گذاشته و قابلیت‌های بیشتری از خود نشان دهد. اگر می‌خواهید اطلاعات بیشتری درباره این مورد کسب کنید، به کنفرانس «انصاف، مسئولیت‌پذیری و شفافیت در یادگیری ماشین» یا به اختصار «FATML» و منابع مرتبط مراجعه کنید.

 

اشکال ‌زدایی

شکل ۷ اشکال ‌زدایی از مدل یادگیری ماشینی : دقت و انواع مختلف خطا در PAY_0 و SEX در این متغیرها.

در کل می‌توان از روش‌های مرسومِ آزمایش تاثیر نابرابر در متغیرهای دسته‌ای استفاده کرد. این روش به عنوان یکی از روش‌های عالی برای تشخیص باگ در سیستم شناخته شده است. شکل ۷ متریک‌های گوناگون خطا و دقت را در سطوح دسته‌ای مختلفی از متغیر مهم PAY_0 نشان می‌دهد. در این بخش، تفاوت فاحش میان عملکرد M-GBM در PAY > 1 کاملاً مشهود است. احتمال می‌رود پراکندگی داده‌های آموزشی در آن قلمرو عامل اصلیِ بروز چنین تفاوتی بوده باشد. این جدول به خوبی نشان می‌دهد که عملکرد مدل در این قلمرو تا چه حد شکننده و آسیب‌پذیر است و اینکه عملکرد مدل تا چه حد در PAY > 1 فرق دارد. امکانِ به‌کارگیری این روش تشخیص باگ، در متغیرهای عددی وجود دارد.

توضیح باقی‌مانده‌ها

در سال‌های اخیر شاهد ارائه روش‌های گوناگونی برای توضیحِ پیش‌بینی‌های مدل یادگیری ماشینی بوده‌ایم. از این روش‌ها می‌توان برای ارتقای تحلیل باقی‌مانده نیز استفاده کرد. همچنین می‌توان به ارائه توضیحات تفسیرپذیرِ محلی و وابستگی جزئی پرداخت یا نمودارهای انتظار شرطی از باقی‌مانده‌ها را ترسیم کرد. موارد جدیدی که اخیراً به بسته Shap اضافه شده، زمینه را برای محاسبه نقش Shapley در باقی‌مانده‌ها فراهم کرده است؛ یعنی می‌توانید به خوبی تشخیص دهید که کدام متغیرها چه به صورت محلی (تک ردیفی) و چه به صورت جمعی (تمام دیتاست) منجر به افزایش خطا میشوند. یکی دیگر از گزینه‌ها برای تبیینِ باقی‌مانده‌ها این است که مدلی را بر روی آنها آموزش دهیم. شکل ۸ درخت تصمیمی را نشان می‌دهد که متناسب با M-GBM است. در این شکل می‌بینیم که چرا مدل M-GBM نکول‌های آتی را در نظر نگرفته است.

 

اشکال ‌زدایی

شکل ۸ اشکال ‌زدایی از مدل یادگیری ماشینی : مدل درخت تصمیم باقی‌مانده‌ها برای DEFAULT_NEXT_MONTH = 1.

درخت تصمیمدر شکل ۸ دارای مربع مجذور ۰.۸۹ و خطای درصد مطلق میانگینی در حدود ۱۷ درصد برای باقی‌مانده‌های DEFAULT_NEXT_MONTH = 1 است. پس نسبتاً دقیق است؛ یعنی در درک الگوهای داده ها خوب عمل کرده و لذا در شناخت حدس‌های اشتباه M-GBM قوی می باشد. بزرگ‌ترین باقی‌مانده‌ها برای PAY_0 < 0.5 AND PAY_AMT2 < NT$ 2802.5 AND PAY_4 < 1 AND PAY_AMT2 ≥ NT$ 1312.5 یا به مشتریانی با سوابق پرداخت خوب تعلق دارد. تحت این شرایط، می‌دانیم که مدل M-GBM غالباً در پیش‌بینی‌ پرداخت‌های آتی ناکام است. این سیاستِ تصمیم برای باقی‌مانده‌ها بر نتایج پیشین اشاره می‌کند و این نتایج تاکید مضائف بر PAY_0 دارند، اما سرنخی در اختیارمان می‌گذارند تا آن دسته از مشتریانی را که پرداخت‌های اخیرشان بین ۱۳۰۰ دلار تا ۲۸۰۰ دلار بوده، بیشتر بررسی کنیم.

مدل‌های معیار

مدل‌های معیار به مدل‌های باثبات، قابل اطمینان و شفافی اطلاق می‌شود که نقشِ مدل‌های خطی، درخت تصمیم، مدل‌های قانون‌محور یا مدل یادگیری ماشینی را ایفا می‌کنند. باید همیشه به این نکته توجه داشت که مدل یادگیری ماشین جدیدتان عملکرد بهتری از یک معیار شناخته شده در داده‌های آزمایشی داشته باشد. اگر مدل یادگیری ماشین جدیدتان از مدل معیار بهتر عمل نکند، لطفاً از آن استفاده نکنید.
به مجرد اینکه اطمینان حاصل کردید مدل یادگیری ماشین‌تان دست‌کم دقیق‌تر از یک مدل معیار ساده است، آن مدل می‌تواند به عنوان یک ابزار اشکال‌ زدایی قوی مورد استفاده قرار گیرد. ما از مدل‌های معیار برای بررسی این قبیل از مسائل استفاده می‌کنیم: کدام داده ها توسط مدل من اشتباه پیش بینی شد که روش معیار آنها را درست پیش بینی کرده بود. اگر بتوانید رفتار اشتباه مدل خودتان را از مدل یادگیری ماشینی تفکیک کنید، در ادامه می توانید با ادغام پیش‌بینی‌های مدل معیار با پیش‌بینی‌های مدل یادگیری ساخته شده را به عنوان یک رویکرد تازه در نظر بگیرید تا دقت پیش‌بینی‌ها را ارتقا دهید. همچنین، احتمالاً می‌توانید به این شکل استدلال کنید چرا مدل‌های شفاف، در برخی از زیرمجموعه های داده ها رفتار بهتری از خود نشان می‌دهند. بدین ترتیب، می‌توانید استراتژی‌های درمانی یا ترمیمی بالقوه‌ای را ایجاد کنید.
برای مثال، اگر مدل‌های یادگیری ماشینی که عملکرد نامناسبی دارند را با مدل‌های خطی مقایسه کنیم، می‌بینیم که یکی از دلایل احتمالی بی‌دقتی مدل یادگیری ماشین، تاکید بیش از حد به برهم‌کنش‌های ضعیف در مدل یادگیری ماشین است. افزون براین، می‌توان از مدل‌های معیار برای شناسایی نابهنجاری‌ها استفاده کرد. در اکثر نسبت‌های سیگنال به نویز، مسائل یادگیریِ ماشین مبتنی بر انسان‌ و پیش‌بینی مدل یادگیری ماشین و مدل ساده نباید تفاوت چشمگیری با یکدیگر داشته باشند. مقایسۀ پیش‌بینی‌های مدل معیار و مدل یادگیری ماشین می‌تواند نقش موثری در تشخیص نابهنجاری‌های امنیتی، عدالتی و بی‌دقتی داشته باشد.

حسابرسی امنیتی برای حملات یادگیری ماشینی

مدل‌های یادگیری ماشین با حملات گوناگونی مواجه می‌شوند. این حملات می‌توانند موجب تغییر مدل‌ها شده یا صدمات عمیقی به آن‌ها وارد کنند. شکل ۹ برخی از متداول‌ترین حملات یادگیری ماشین را به تصویر کشیده است. متاسفانه، معیارهای مرسوم ارزیابی مدل، اطلاعات زیادی درباره امنیت مدل در اختیارمان نمی‌گذارند. افزون بر سایر مراحل اشکال ‌زدایی، می‌توان در اقدامی زیرکانه همه یا قسمتی از حملاتی را که علیه یادگیری ماشین هستند، به فعالیت‌های هک کلاه‌سفید‌ها اضافه کرد.

اشکال ‌زدایی

شکل ۹ اشکال ‌زدایی از مدل یادگیری ماشینی: این برگه تقلب به توصیف انواع مختلف حملات بر علیه یادگیری ماشین می‌پردازد.

 

راهبردهای ترمیم گونه

حالا که چند روش نظام‌مند برای تشخیص مسائل دقت، عدالت و امنیت در سیستم‌های مبتنی بر یادگیری ماشین پیدا کرده‌ایم، بیایید ببینیم چه راهبردهایی برای حل مسائلِ شناسایی شده وجود دارد.

 افزایش داده 

اگر مدل‌تان خطاهای منطقی در رابطه با کمبود داده داشته باشد، احتمالاً به داده‌های بیشتری احتیاج دارید. شاید قادر به شبیه‌سازیِ داده‎های مورد نیاز خود باشید، آن داده‌ها را وارد داده‌های آموزشی‌تان کنید، مجدداً به آموزش مدل‌تان بپردازید و نهایتاً آن را آزمایش کنید. به احتمال زیاد، دوباره به وایت‌بورد مراجعه خواهید کرد تا در خصوص نحوه گردآوری داده‌های آموزشی تجدیدنظر کنید. شاید تا زمانی که داده‌های بیشتری در دسترس‌تان قرار گیرد، صبر کنید. برای اینکه در آینده با این نوع از مشکلات روبرو نشوید، استفاده از روش‌های طراحی آزمایشی را در دستور کار قرار دهید. در مثال‌هایی که در مقاله حاضر به آن‌ها اشاره شد، گردآوری اطلاعات درباره نسبت بدهی به درآمد یا وضعیت اشتغال، نقش مفیدی در تاکیدزدایی از PAY_0 در مدل M-GBM داشته است.
افزایش داده می‌تواند استراتژی مناسبی برای کاهش سوگیری اجتماعی ناخواسته در مدل‌های یادگیری ماشین باشد. یکی از دلایل اصلی سوگیری اجتماعی در یادگیری ماشین، آن دسته از داده‌های آموزشی است که از منظر جمعیت‌شناختی نامتوازن هستند. اگر قرار باشد مدل‌تان در کلیه افراد استفاده شود، باید از این نکته اطمینان حاصل کرد که داده‌های آموزشی دارای توزیعی از همه افراد است.

 بررسی نویز و منظم‌سازی قوی

امروزه خیلی از افراد به استفاده از روش‌های جریمه ای regularization L1 و L2 در مدل‌های یادگیری ماشین خود روی آورده‌اند و باید به این رویه ادامه داد. متاسفانه، شاید بسیاری از روش‌هایِ استاندارد عادی‌سازی قادر به فائق آمدن بر سوگیری‌های قوی، همبستگییا وابستگی‌ها در داده‌های آموزشی نباشند. این امر در PAY_0 بیشتر به چشم می‌خورد.
یکی از راهکاری بالقوه این است که میزانregularization L2 L1 – را افزایش دهیم. اگر این راهکار به قدر کافی قوی و کارساز نباشد، باید معیارهای دیگری از قبیل عادی‌سازی L∞، weight-clipping، dropout یا روش‌های تزریق نویز را به کار گرفت. به‌کارگیری این قبیل از روش‌ها برای رفع اشکالات داده‌های آموزشی می‌تواند بدین معنا باشد که گردآوری داده با مشکل روبرو شده است. در چنین شرایطی، می‌توان «افزایش داده» را به عنوان یکی از روش‌های موثر برای رفع مسئله در نظر گرفت.

 ویرایش مدل

برخی از مدل‌های یادگیری ماشین به گونه‌ای طراحی شده‌اند که قابل‌تفسیر باشند و افراد به طور مستقیم نحوه کار آن‌ها را یاد بگیرند. بعضی از این مدل‌ها مثل انواعی از مدل‌های درخت تصمیم یا GA2M به طور مستقیم توسط کاربران انسان ویرایش می‌شوند. اگر موردی را در سازوکار درونیِ مدل GA2M مشاهده کنید که مورد پسندتان نیست، به سادگی می‌توانید معادله را در مدل تغییر دهید تا مشکل را رفع کنید. شاید ویرایش برخی از مدل‌ها به سادگیِ درخت‌های تصمیم یا GA2M نباشد، اما اگر کد امتیازبندی خوانا تولید کنند، می‌توانید به ویرایش آن‌ها بپردازید. اگر قوانین اشتباهِ زیادی در کد امتیازبندیِ M-GBM وجود داشته باشد، شاید بتوانید آن قوانین را اصلاح یا حذف کنید. توصیه ما این است که از GA2M استفاده کنید و ویرایش مدل‌های دیگر را هم به عنوان یکی دیگر از راهبردهای اشکال ‌زدایی مد نظر قرار دهید.
اما نکته‌ای که در خصوص ویرایش مدل، باید توجه داشته باشید این است که شاید باعث شود مدل‌تان عملکرد بدی در داده‌های آموزشی یا اعتبارسنجی داشته باشد. اگر می‌خواهید مدلی را ویرایش کنید، باید استدلال محکمی برای پشتیبانی از این تصمیم داشته باشید.

تصریح مدل

تصریح مدل، از جمله قواعد کاری پساپیش‌بینی، در پیش‌بینی مدل نقش دارد و می‌تواند به تصحیح پیش‌بینی‌های مشکل‌زا و اشتباهِ مدل کمک کند. در مثالی که آوردیم، اگر مشتری در پرداخت هزینه یک ماه تاخیر می‌کرد، مدل M-GBM قادر نبود پیش‌پرداخت یا پرداخت اضافه را به خوبی درک کند. قبل از اتخاذ تصمیم نهایی، بهتر است این موضوع بررسی شود که آیا مشتری در آخرین پرداخت خود چطور عمل کرده است.

کاهش سوگیری اجتماعی ناخواسته

امروزه، راهکار‌های انسانی و فنی زیادی برای رفع و کاهش سوگیری اجتماعی ناخواسته در مدل‌های یادگیری ماشین وجود دارد. بسیاری از راهکارهای انسانی برای رفع این مشکل به تنوع عقاید و تجارب در خصوص تیم‌های علوم داده تاکید دارند. همچنین، این راهکارها روی به‌کارگیری متخصصان مختلف در تمامی مراحل مدل‌سازی توجه دارند. روش‌های فنّیِ کاهش سوگیری در سه دسته جای می‌گیرند:

• پیش‌پردازش داده:
۱. انتخاب عاقلانه ویژگی 

۲. ردیف‌های وزن‌گیری و نمونه‌گیری در داده‌های آموزشی برای کاهش حداقلیِ سوگیری اجتماعی ناخواسته در داده‌های آموزشی
• آموزش و انتخاب مدل:
۱. در هنگام انتخاب پارامترها و آستانه‌ها، استفاده از متریک انصاف را در نظر بگیرید.
۲. آموزش مستقیمِ مدل‌های منصفانه:
– کاهش سوگیری تخاصمی در AIF360.
– استفاده از توابع هدف دوگانه که به متریک دقت و انصاف توجه دارند.
• پیش‌پردازش پیش‌بینی:
تغییر پیش‌بینی‌های مدل پس از آموزش

اختصاص دادنِ دو پاراگراف به موضوعِ حل سوگیری‌های اجتماعی ناخواسته در مدل‌های یادگیری ماشین در سال ۲۰۱۹ به هیچ وجه کفایت نمی‌کند. امروزه روش‌های زیادی برای رفع سوگیری‌های اجتماعی ناخواسته وجود دارد. می‌توانید اطلاعات بیشتری درباره آن‌ها به دست آورید. امروزه، دیگر هیچ بهانه‌ای برای استفاده از مدل‌هایی که جانب داری نژادی انجام می دهند وجود ندارد، اما کماکان شاهد این اتفاق هستیم.

مدیریت و نظارت بر مدل

باید از تعداد مدل‌هایی که دارید باخبر باشید؛ باید بدانید مدل‌ها را چه کسانی و در چه زمانی آموزش داده‌اند، باید آن‌ها را مثل سایر نرم‌افزارها دسته‌بندی کنید، باید به پیش‌بینی‌ها و ورودی‌های مدل یادگیری ماشین نظارت کنید، باید مراقب نابهنجاری‌ها باشید و فقط بر روی دقت تمرکز نکنید، باید درباره مسائل امنیتی و انصاف نیز فکر کنید.
امروزه، اکثر متخصصان داده به این باور رسیده‌اند که مدل‌ها با داده‌هایی که دورنمایی از واقعیت ارائه می‌دهند، آموزش داده می‌شوند. واقعیت با گذشت زمان تغییر می‌یابد. داده‌های جدید از این چشم‌انداز فاصله می‌گیرند و شاید دقت مدل در داده‎های جدید کاهش پیدا کند. این وضعیت در بررسی‌های آماریِ مربوط به پیش‌بینی‌ها و ورودی‌های مدل کاملاً مشهود است. آیا این امر می‌تواند بر خصوصیات انصافِ یک مدل نیز تاثیر داشته باشد؟ احتمالاً.
بنابراین، علاوه بر اینکه باید به پیش‌بینی‌ها و ورودی‌ها نظارت داشته باشید، باید گزینه آزمایش را همیشه مد نظر قرار دهید تا تاثیر نابرابر را نیز شناسایی کنید. سرانجام، وقتی تصمیم به یافتن جایگزینی برای مدلی قوی‌تر می‌گیرید، آن مدل باید غیرفعال شده و از رده خارج شود. یعنی این مدل باید به دقت برای نیازهای تشخیصی، قضایی و… ذخیره شود. نباید مدل‌های مهم را به این سادگی حذف کرد.

 شناسایی نابهنجاری‌ها 

پیش‌بینی‌ها و ورودی‌های غیرطبیعی همیشه نگران‌کننده هستند. این‌ها گاهی‌اوقات نشان می‌دهند که مدل‌تان مورد حملات خصمانه قرار گرفته است. در M-GBM دیدیم که مدل حساسیت بالایی به مقادیر نامعلوم در PAY_0 دارد. در این مورد، نباید مقادیر نامعلوم و سایر مقادیر غیرمنطقی را به فرایند امتیازدهی پیش‌بینی M-GBM راه داد.
برای اینکه پیش‌بینی‌های غیرطبیعی را در زمان واقعی شناسایی کنید، به روش‌های کنترل فرایند آماری سنتی بیاندیشید؛ پیش‌بینی‌های مدل یادگیری ماشینی را با پیش‌بینی‌های مدل بنچ‌مارک باثبات و شفاف مقایسه کنید؛ به چگونگی راه یافتنِ داده‌های جدید به مدل خود نظارت کنید.
در مدل‌های بنچ‌مارک، پیش‌بینی‌های مدل یادگیری ماشین را با پیش‌بینی‌های مدل بنچ‌مارک مقایسه کنید. اگر این پیش‌بینی‌ها متفاوت باشند، قبل از تایید پیش‌بینی، نگاه دقیق‌تری بیندازید و یا فقط از پیش‌بینی‌های مدل بنچ‌مارک برای این داده‌ها استفاده کنید. در انجام تحلیل فعال‌سازی، داده‌های جدید نباید به طور عادی در آن دسته از سازوکارهای مدل که به طور مکرر در طول آموزش مدل فعال‌سازی نشده‌اند، جریان پیدا کند. اگر این اتفاق به کرّات روی می‌دهد، بهتر است آن را بررسی کنید.

منبع: hooshio.com