برچسب پردازش زبان طبیعی - مجله هوش مصنوعی

ربات های نویسنده و آشنایی بهتر با آن‌ها در عصر هوش مصنوعی

بخش قابل‌ملاحظه‌ای از مطالب موجود در اینترنت به دست ربات های نویسنده نوشته شده است. امروزه، ابزارهای نگارش هوش مصنوعی به صورت رایگان در دسترس همگان قرار دارد؛ مِن‌جمله دانشجویان. با توجه به تغییرات سریع و گسترده‌ای که در جهان امروز شاهد هستیم، تالیف پسااِنسانی که انسان‌ها و ماشین‌ها در آن به همکاری می‌پردازند، می‌تواند پیامدهای اخلاقی بسیاری به همراه داشته باشد. از آنجا که محتوای تولید شده به دست ماشین‌ها در مقیاس گسترده برای برقراری ارتباط با سایرین به کار برده می‌شود، مطالعه اخلاق در هوش مصنوعی باید در دستور کار مراکز آموزشی قرار گیرد.

ربات های نویسنده نیز قادر به نگارش هستند

ربات های نویسنده از قبیل GPT-3 در چند ثانیه قادر به تولید متنی هستند که گویا به دست انسان نوشته شده است. در ماه سپتامبر ۲۰۲۰، ربات GPT-3 مقاله‌ کاملی در روزنامه گاردین نوشت تا این نوید را به مردم بدهد که هوش مصنوعی ابزار ترسناکی نیست. هوش مصنوعی این کار را به واسطه «تولید و پردازش زبان طبیعی» انجام می‌دهد . در همین راستا، زبان انسان به دستورهای کامپیوتری و بالعکس تبدیل می‌شود. برای انجام این کار، الگوریتم‌های ماشینی به مطالعه میلیون‌ها نمونه متن، واژگان، جملات و پاراگراف‌هایی می‌پردازند که انسان از آنها برای درک عمومیِ بافت زبان استفاده می‌کند. سپس، ماشین از دانش برای تولید متن استفاده می‌کند. تا همین سال ۲۰۱۹، این نوع فناوری دور از دسترس به نظر می‌رسید . اما امروزه، در دسترس قرار گرفته است . برای نمونه، ابزار تولید محتوای رایگان Zyro برای وب‌سایت‌ها متن تولید می‌کند . شما می‌توانید دسته‌های «سلامت و زندگی» و «مربی خصوصی» را انتخاب کنید. متن زیر در عرض دو ثانیه در اختیارتان قرار می‌گیرد:
«من تجربه کافی در زمینه‌های آموزش فردی، عملکرد ورزشی و تغذیه را دارم. همچنین، کار با کودکان، زنان باردار، افراد مسن، افراد ناتوانِ جسمی، ورزشکاران و تمامی علاقمندان به شرکت در رقابت‌های ورزشی نیز از جمله قابلیت‌های من است. مشاوره‌های من منجر به ارتقای سطح سلامت کلی و عملکرد افراد می‌شود. من به سایر گزینه‌های سلامت از قبیل مشاوره تغذیه و سلامت نیز علاقمند هستم. در اوقات فراغت از حضور در کنار خانواده، بیرون از خانه و یا کار نگارش لذت می‌برم.»
این محتوا می‌تواند مناسبِ وب‌سایت من باشد. این فرصت را دارم تا پاسخ‌های بیشتری از ابزار تولید محتوای رایگان Zyro درخواست کنم. متن زیر در عرض دو ثانیه ارائه می‌گردد:
«من تجربه‌ی کار با بزرگسالان و کودکان را دارم و می‌توانم سلامت فیزیکی و روانی آنها را بهبود بخشم. مایلم به شما کمک کنم تا به اهداف خود برسید. دوست دارم به دیگران کمک کنم تا به اهداف‌شان برسند. من مادرِ دو فرزند سالم و همسر دو انسان فوق‌العاده هستم.»
اگرچه Zyro متوجه خظای آشکار (یعنی تکرار) در جمله آخر نمی‌شود، اما تصحیح این‌گونه مسائل کار آسانی است. امکان تولید متن در چند ثانیه وجود دارد. ابزارهای دیجیتال دیگری از قبیل ابزارهای تاویل‌کننده و نگارش مجدد می‌توانند تا ۱۰۰۰ مقاله را تنها با استفاده از یک مقاله تولید کنند. هر کدام از این مقاله‌ها می‌توانند منحصربفرد باشند. برای نمونه، Quillbot و WordAI توانایی بازنویسی سریع متن را دارند و تشخیص سرقت ادبی را سخت می‌کنند. WordAI قادر است محتوای نامحدودی با کیفیتی مثال‌زدنی تولید کند.

مدارس و دانشگاه‌ها باید به پرسش‌های زیر توجه داشته باشند؟

تولید این ابزارهای نوین چه پیامدهایی برای آموزش، نوشتار و جامعه دارد؟ ممکن است برخی افراد به فکر تقلب در نگارش مقاله‌ها و سایر تکالیف درسی بیفتند. مسئولان مدارس و دانشگاه‌ها باید تدابیری برای مقابله با این قبیل از مسائل در عصر پساانسانی بیندیشند. دامنه‌ی استفاده از ماشین‌ها به قدری افزایش یافته که افراد دستکم برای بررسی اشتباهات املایی و دستوری از آنها استفاده می‌کنند. ابزارهایی نظیر Turnitin که برای تشخیص سرقت ادبی ساخته شده است، می‌توانند نویسنده متن را با استفاده از ابزارهای پیچیده شناسایی کنند . این کار با شناخت اثرانگشت منحصربفرد نویسنده (انسان) صورت می‌گیرد. در بخشی از این فرایند، نوشتار تایید شده به صورت الکترونیکی با نوشتار قبلی دانشجو مقایسه می‌گردد. امروزه، بسیاری از دانشجویان از ابزارهای نگارش هوش مصنوعی استفاده می‌کنند. شاید بهتر است به جای ممنوعیت یا تلاش برای افشای همکاری انسان و ماشین، از این خلاقیت افزوده استقبال به عمل آید. افراد باید نحوه نگارش با ماشین‌ها را یاد گیرند چرا که این کار در آینده اهمیت بالایی خواهد داشت.
ربات های نویسنده از سرعت خارق‌العاده‌ای بهره می‌برند. آنها قادرند به چند زبان بنویسند، از تصاویر استفاده کنند و در عرض چند ثانیه به تولید فراداده، عنوان، تبلیغات اینستاگرامی، ایده محتوا، صفحه ورودی سایت و متن بهینه‌سازی شده برای موتورهای جستجو بپردازند. دانشجویان باید از این نوع قابلیت‎های ماشین‌ها استفاده نمایند. شاید بهتر است ارزیابی دانشجویان با توجه به توانایی استفاده ماهرانه‌ی آنان از این ابزارها صورت گیرد؛ نه اینکه فقط به ارائه متنی بسنده شود که تماماً به دست انسان نوشته شده است.

آیا استفاده از ماشین‌های نگارشی با اصلِ عدالت سازگار است؟

این پرسش کماکان جای بحث و بررسی دارد. دانشجویانی که به ربات های نویسنده بهتری دسترسی داشته باشند، قادر به تولید و ویرایش بهتر متن خواهند بود. ربات های نویسنده پیشرفته قیمت بسیار بالایی دارند و به صورت ماهانه در دسترس قرار می‌گیرند. اگر مدارس و دانشگاه‌ها ابزارهای پیشرفته نگارش هوش مصنوعی را در اختیار فراگیران قرار ندهند، نابرابری در حوزه آموزش تشدید خواهد شد. باید پروتکل‌هایی برای تعیین نویسنده متن در نظر گرفته شود. باید مشخص شود چه کسانی در نگارش متن نقش داشته‌اند. باید مسئول محتوا و آسیب‌های احتمالی آن تعیین گردد. سیستم‌های شفافی برای شناسایی، تایید و کمیت‌سنجیِ محتوای انسان مورد نیاز است. مهم‌تر از همه، باید به بررسی این مسئله پرداخت که آیا استفاده از ابزارهای نگارش هوش مصنوعی برای همه دانشجویان منصفانه است یا خیر. افرادی که هیچ شناختی از نگارش هوش مصنوعی ندارند، بهتر است کار با ابزارهای رایگان را در فضای اینترنت آغاز کنند و با معنای «تولید» در آینده‌ی رباتیک آشنا شوند.

انواع کاربردهای هوش مصنوعی در صنایع مختلف را در هوشیو بخوانید

منبع: هوشیو

هوش مصنوعی پردازش زبان طبیعی کاربردهای هوش مصنوعی

ai-magazine پنج‌شنبه 27 خرداد 1400 ساعت 17:17

0 نظر

دستیار نوشتاری مبتنی بر هوش مصنوعی باعث ایجاد محتوای بهتر می‌شود

از زمان توسعه دستیار نوشتاری و ابزارهایی که میزان سرقت ادبی متن را چک می‌کنند تاکنون راه زیادی طی شده است. امروزه، ابزارهای نوشتن آنلاین از هوش مصنوعی، یادگیری ماشین، تجزیه و تحلیل و پردازش زبان طبیعی برای خلق ایده‌های جدید، بررسی لحن و داستان‌های ساختارمند استفاده می‌کنند. همچنین، ظهور GPT-3 انقلابی کامل در اکوسیستم محتوا ایجاد کرده است.

اکنون بازار، مملو از دستیار نوشتاری است که ادعا می‌کنند از هوش مصنوعی استفاده می‌کنند. با این حال، با استفاده از دستیار نوشتاری مناسب که از هوش مصنوعی قدرت می‌گیرند، کسب‌و‌کارها و کاربران اکنون می‌توانند محتوای عاری از خطا و قاعده‌مند خلق کنند.

در اینجا فهرستی از چندین دستیار نوشتاری مجهز به هوش مصنوعی برای کمک به کسب‌و‌کارهایی که به دنبال خلق محتوای بهتر در سال ۲۰۲۱ هستند را به شما معرفی می‌کنیم.

دستیار نوشتاری AI Writer

دستیار نوشتاری AI Writer یک دستیار نوشتاری است که با استفاده از هوش مصنوعی ساخته شده تا محتوای جدیدی برای کاربران تولید کند. این ابزار توسط معماران داده‌ها توسعه داده شده و دارای ویژگی‌های نوشتن خودکار و تولید متن برای تولید محتوای بدون خطا بر اساس عناوین داده شده کاربران است. قابلیت‌های هوش مصنوعی این ابزار به کاربران این امکان را می‌دهد تا مقاله‌ای را که قبلاً نوشته شده است با استفاده از ابزارtext spinner مجدداً بازنویسی کنند. همچنین با این ابزار، پروژه‌های وبلاگنویسی خودکار راحت‌تر پیش می‌روند، جایی که API آن فقط با چند خط کد به کاربران کمک می‌کند. ادعا شده است با کنترل کامل نرم افزار، می‌توان تا ۳۳٪ از زمان کاربران را ذخیره کرد.

دستیار نوشتاری Wordtune

اخیرا یک آزمایشگاه هوش مصنوعی یک دستیار نوشتاری لحن کلمه که مبتنی بر هوش مصنوعی است توسعه داده است. فناوری یادگیری عمیق به کار رفته در این ابزار، تلاش می‌کند تا آنچه را که کاربر به دنبال گفتن آن است بفهمد تا روش‌هایی را پیشنهاد بدهد که سخنان کاربر شفافتر، قانع‌کننده‌تر و معتبرتر شود. به گفته توسعه‌دهندگان، این ابزار، پارادایم نوشتاری جدیدی را ارائه می‌دهد که در آن همکاری مبتنی بر سعی و خطای ماشین‌ها و انسان‌ها در کنار هم منجر به تولید محتوا می‌شود. همچنین این ابزار، متن شما را با میلیون‌ها جمله مشابه که توسط منابع معتبر در سراسر وب نوشته شده مقایسه می‌کند.

دستیار نوشتاری WritingAssistant

ابزار دستیار نوشتاری، همان‌طور که از نامش پیداست یک نرم‌افزار بهبود نوشتن است که از هوش مصنوعی پیشرفته و فناوری پردازش زبان طبیعی برای ارزیابی و تقویت نوشتار استفاده می‌کند. این کار در دو سطح انجام می شود: ابتدا، خطاها و ارائه پیشنهادات مبتنی بر دستور زبان و سپس و کمک به افزایش کیفیت متن با استفاده از از معیارهای انسجام. این ابزار همراه با ابزار EssayGradingAssistant از هوش مصنوعی برای تجزیه و تحلیل مقاله از جنبه‌های مختلف همچون دستور زبان انسجام و کیفیت محتوا استفاده می‌کند.

دستیار نوشتاری Articoolo

آرتیکولو یک ابزار محتواساز دیگر و یک دستیار نوشتاری است که با به کارگیری هوش مصنوعی این توانایی را پیدا می‌کند که مانند مغز انسان کار کند. الگوریتم این ابزار با تجزیه و تحلیل و فهم زمینه موضوع، بهترین منابع پایه را پیدا می‌کند، احساسات را استخراج می‌کند و کلمات کلیدی اساسی را برای مقاله ارائه می‌دهد. این نرم‌افزار مجهز به هوش مصنوعی، محتوای مرتبط را بر اساس احساسات و کلمات کلیدی پیدا کرده و آن را در یک متن منسجم بازسازی می‌کند. سپس این متن با استفاده از فناوری پردازش زبان طبیعی بازنویسی می‌شود تا شناسایی معنایی چند مرحله‌ای و تأیید خوانایی آن انجام شود.

دستیار نوشتاری Writer

دستیار نوشتاری Writer یک نرم افزار ویرایش مبتنی بر هوش مصنوعی و یک دستیار نوشتاری است که یک تیم تحریریه می‌تواند از آن استفاده کند. این تیم باید دستورالعمل های خود را تعریف کند و سپس هوش مصنوعی تمام ناهمخوانی‌ها و خطاهای موجود در نوشتن را که به طور بالقوه می‌تواند به تصویر برند آسیب برساند، شناسایی می‌کند. هوش مصنوعی این نرم‌افزار می‌تواند لحن مقالات و متون را رسمی کند و آن را بسیار جذاب‌تر کند و پیشنهادهایی برای بازنویسی جملات بیش از حد پیچیده بدهد. Writer علاوه بر کمک به بازنویسی محتوای وبسایت و مقالات رسانه‌ای، به ایجاد قراردادهای حقوقی، مواد آموزشی و سایر اسناد مربوط به منابع انسانی نیز کمک می‌کند.

دستیار نوشتاری ShortlyAI

دستیار نوشتاری ShortlyAI یک دستیار نوشتن خلاق است که برای کاربران مقاله و مطالب تولید می‌کند. این ابزار پیشرفته هوش مصنوعی که بر اساس مدل GPT-3 OpenAI ساخته شده، می‌تواند فرایند نوشتن را آسان‌تر و سریع‌تر کند و به کاربران کمک کند تا مواقعی را که نوشتن برای آن ها سخت می‌شود راحت‌تر پشت‌سر بگذارند. همچنین این الگوریتم نه تنها داستان آغاز شده توسط کاربر را ادامه می‌دهد، بلکه ایده‌های خلاقانه جدیدی برای پروبال دادن به داستان ارائه می‌دهد. هوش مصنوعی قادر است در کسری از ثانیه متن تولید کند.

دستیار نوشتاری Textio

ادعا می شود که Textio یک دستیار نوشتاری پیشرفته است. این ابزار به طور خاص برای بخش‌های منابع انسانی طراحی شده است. ظرفیت‌های هوش مصنوعی در هر مرحله از استخدام راهنمای قدرتمندی را برای تمام محتوای یک برند ارائه می‌دهد.

انواع کاربردهای هوش مصنوعی در صنایع مختلف را در هوشیو بخوانید

منبع: hooshio.com

دستیار نوشتاری دستیار نوشتن دستیار نویسندگی هوش مصنوعی پردازش زبان طبیعی

ai-magazine چهارشنبه 6 اسفند 1399 ساعت 12:50

0 نظر

یک مدل یادگیری ماشین که می‌تواند کارهای روزمره ما را انجام دهد

محققان یک مدل یادگیری ماشین را آموزش می دهند تا بتواند عملکردی هم سطح انسان در شناخت مفاهیم انتزاعی موجود در فیلم ها داشته باشد.

توانایی استدلال انتزاعی درباره وقایع لحظه‌ای یکی از شاخص‌های تعیین‌کننده هوش انسانی است. ما به‌طور غریزی می‌دانیم که گریه‌ کردن و نوشتن، ابزارهایی برای برقراری ارتباط هستند و پاندایی که از روی درخت سقوط می‌کند و هواپیمایی که فرود می‌آید نشانگر کم شدن شاخص ارتفاع است. کامپیوترها از عهده دسته‌بندی جهان در طبقات انتزاعی بر نمی‌آیند اما در سال‌های اخیر محققان با آموزش مدل‌های یادگیری به این هدف نزدیک‌تر شده‌اند. این مدل‌ها در مورد کار روی کلمات و تصاویری که با اطلاعات دنیای پیرامونمان ترکیب‌ شده‌اند و چگونگی ارتباط اشیاء، حیوانات و کنش‌ها و رفتارهای ما است.

در یک مطالعه جدید که در کنفرانس اروپایی بینایی ماشین در ماه گذشته برگزار شد ، محققان از یک مدل ترکیبی از بینایی ماشین و پردازش زبان طبیعی رونمایی کردند که می‌تواند مجموعه‌ای از رویدادهای پویای ضبط‌ شده در فیلم را با هم مقایسه کند یا تضاد بین آن‌ها را نشان دهد تا به مفاهیم سطح بالایی که آن‌ها را به هم متصل می‌کند، پی برد. مدل آن‌ها در دو نوع استدلال بصری، یا به‌ خوبی انسان عمل کرده یا بهتر از انسان‌ها بوده است؛ انتخاب ویدئویی که به‌طور مفهومی به بهترین شکل مجموعه را کامل می‌کند و انتخاب ویدئویی که مناسب نیست.

به‌ عنوان ‌مثال فیلم‌هایی از پارس کردن یک سگ و زوزه کشیدن یک مرد در کنار سگ خود را به سیستم نشان دادند و مدل برای کامل کردن این مجموعه از تصاویر از بین ۵ کلیپ، ویدیوی مربوط به گریه کردن یک کودک را انتخاب کرد. محققان نتایج خود را در دو دیتاست برای آموزش سیستم‌های هوش مصنوعی در تشخیص عمل تکرار کردند: MIT’s Multi-Moments in Time و Deep Mind’s Kinetics.

آود اولیوا نویسنده ارشد این مقاله که دانشمند ارشد تحقیقات در MIT است دراین‌باره می‌گوید: “ما نشان دادیم که شما می‌توانید توانایی درک مفاهیم انتزاعی را در سیستم‌های هوش مصنوعی ایجاد کنید تا بتوانند کارهای مربوط به استدلال بصری را در سطحی نزدیک به سطح انسان‌ها انجام دهند. مدیر آزمایشگاه هوش مصنوعی MIT-IBM Watson نیز می‌گوید “مدلی که بتواند وقایع و مفاهیم انتزاعی را تشخیص دهد پیش‌بینی‌های منطقی و دقیق‌تری را ارائه می‌دهد و برای تصمیم‌گیری مفیدتر است.”

هم‌زمان که شبکه‌های عصبی عمیق در تشخیص اشیاء و کنش‌های موجود در عکس‌ها و فیلم‌ها توانمندتر می‌شوند، محققان در حال کار روی نقطه عطف بعدی هستند؛ یعنی انتزاع و آموزش مدل‌ها برای آنکه بتوانند درباره آنچه می‌بینند استدلال کنند. در یک رویکرد، محققان قدرت تطبیق الگوهای شبکه‌های عمیق را با منطق برنامه‌های نمادین تلفیق کرده‌اند تا یک مدل آموزش دهند که بتواند روابط پیچیده اشیا را در یک صحنه تفسیر کند. رویکرد دیگر این است که محققان از روابط موجود در معنای کلمات بهره ببرند تا به مدل خود قدرت استدلال بصری دهند.

ماتیو مونفورت یکی از نویسندگان این مقاله که از محققان آزمایشگاه علوم رایانه‌ای و هوش مصنوعی MIT است می‌گوید: “بازنمایی‌های زبانی به ما امکان می‌دهد تا اطلاعات متنی آموخته‌شده از پایگاه داده‌های متنی را در مدل‌های تصویری خود ادغام کنیم. کلماتی مانند دویدن، بلندکردن و بوکس دارای برخی از ویژگی‌های مشترک هستند که باعث می‌شود آن‌ها را بیشتر به مفهوم ورزش نزدیک کند تا رانندگی.

محققان با استفاده از WordNet که یک پایگاه داده‌ای از معانی کلمات است، رابطه هربرچسب موجود در دو دیتاست Moments و Kinetics را با سایر برچسب‌های هر دو دیتاست ترسیم کردند. به‌عنوان‌مثال کلماتی مانند مجسمه‌سازی، کنده‌کاری و برش به مفاهیم سطح بالاتری همچون صنایع‌دستی، هنر و آشپزی مرتبط شدند. ازاین‌ پس هرگاه مدل فعالیتی مانند مجسمه‌سازی را تشخیص دهد، می‌تواند فعالیت‌های مشابه مفهومی را در دیتاست انتخاب کند.

این گراف وابستگی مربوط به طبقه‌های انتزاعی برای آموزش مدل به منظور انجام دو کار اساسی استفاده می‌شود. با توجه به مجموعه‌ای از ویدئوها، مدل به هر ویدیو عددی اختصاص می‌دهد که با همان کلماتی که بیانگر اقدامات نشان داده‌شده در ویدئو است همسو هستند. سپس یک ماژول انتزاعی با عدد اختصاص داده‌شده به هر ویدئو در مجموعه ترکیب می‌شود تا شماره اختصاصی مجموعه جدید ایجاد شود. به ‌این ترتیب از این می‌توان برای شناسایی دیگر مفاهیم انتزاعی به اشتراک گذاشته‌شده از طریق همه فیلم‌های مجموعه استفاده شود.

محققان برای سنجش نحوه عملکرد این مدل در مقایسه با انسان‌ها، از افراد خواستند که همان مجموعه وظایف استدلال بصری را که مدل انجام داده به‌صورت آنلاین انجام دهند. در کمال تعجب، این مدل در بسیاری از سناریوها عملکردی به‌خوبی برخی از انسان‌ها داشت و حتی گاهی اوقات نتایج غیرمنتظره بود. در یک سنجش دیگر، به مدل ویدیویی از فردی که در حال کادو کردن است نشان دادند سپس مدل ویدیویی را از فردی در ساحل نشان می‌دهد که در حال ریختن ماسه بر روی شخص دیگری است. کامیلو فوسکو، دانشجوی دکترای MIT که نویسنده اول این مقاله است می‌گوید: این مفهوم پوشاندن را به‌خوبی نشان می‌دهد.

تمایل به تأکید بیش ‌از حد روی برخی از ویژگی‌ها از معایب و محدودیت‌های این مدل است. به‌طور مثال در یک مورد مدل پیشنهاد داد مجموعه‌ای از فیلم‌های ورزشی را می‌توان با یک فیلم از یک کودک و یک توپ تکمیل کند که نشان می‌دهد مدل، توپ‌ها را همواره با ورزش و رقابت همراه می‌کند.

محققان می‌گویند یک مدل یادگیری عمیق که می‌تواند برای “فکر کردن” به‌صورت انتزاعی آموزش ببیند ممکن است بتواند با داده‌های کمتری نیز قابلیت یادگیری را داشته باشد. به‌طورکلی انتزاع راه را برای استدلال‌های سطح بالاتر و انسانی‌تر باز می‌کند.

اولیوا می‌گوید: یکی از ویژگی‌های بارز شناخت انسان این است که می‌تواند چیزهای مختلف را در رابطه باهم توصیف و مقایسه کند یا تضاد بین آن‌ها را مشخص نماید. این یک روش غنی و کارآمد برای یادگیری است که درنهایت می‌تواند به انواع مدل یادگیری ماشین آموزش داده شود تا قیاس‌ها را درک کنند و ازنظر هوشمندی بسیار به ما نزدیک‌تر هستند.

منبع: hooshio.com

یادگیری ماشین هوش مصنوعی کاربردهای هوش مصنوعی پردازش زبان طبیعی بینایی ماشین تشخیص اشیاء یادگیری ماشین در زندگی روزمره هوش مصنوعی در زندگی روزمره

ai-magazine سه‌شنبه 11 آذر 1399 ساعت 12:27

0 نظر

بهترین دیتاست ‌های یادگیری ماشینی برای مبتدیان

اگر به شیوه‌های آموزش الگوریتم‌های یادگیری ماشینی در ۵ یا ۱۰ سال گذشته بنگرید و آن را با شیوه‌های جدید مقایسه کنید، متوجه تفاوت‌های بزرگی می‌شوید. امروزه آموزش الگوریتم‌ها در یادگیری ماشینی بهتر و کارآمدتر از گذشته است و دلیل آن نیز حجم زیاد داده‌هایی است که امروزه در دسترس ما قرار گرفته‌اند. اما یادگیری ماشینی چگونه از این داده‌های استفاده می‌کند؟
به تعریف اصطلاح «یادگیری ماشینی» دقت کنید: «در یادگیری ماشینی، رایانه‌ها یا ماشین‌ها بدون برنامه‌نویسی مستقیم و به‌طور خودکار از تجربیات گذشته می‌آموزند». منظور از آموزش ماشین‌ها درواقع همان عبارت «از تجربیات می‌آموزند» است. طی این فرآیند، داده‌ها و اطلاعات نقش مهمی ایفا می‌کنند. اما ماشین‌ها چگونه آموزش داده می‌شوند؟ پاسخ دیتاست‌ها هستند. به همین دلیل است که دادن اطلاعات و داده‌های درست به ماشینی که قرار است مسئله مدنظر شما را حل کند، مسئله‌ای حیاتی است. در این مقاله دیتاست های یادگیری ماشینی را معرفی می‌کنیم.

اهمیت دیتاست‌ها در یادگیری ماشینی چیست؟

پاسخ این است که ماشین‌ها نیز همچون انسان‌ها توانایی یادگیری مسائل را دارند و تنها کافی است اطلاعات مرتبط با آن موضوع را مشاهده کنند. اما تفاوت آن‌ها با یک انسان، در مقدار داده‌ای است که برای یادگیری یک موضوع نیاز دارند. داده‌هایی که به یک ماشین می‌دهید، از لحاظ کمیت باید چنان باشد که ماشین درنهایت، کاری که از آن خواسته‌اید را انجام دهد. به همین دلیل، برای آموزش ماشین‌‌ها به حجم زیادی از داده‌ها نیاز داریم.

داده‌های یادگیری ماشینی را می‌توان مشابه داده‌های جمع‌آوری‌شده برای انجام یک پژوهش درنظر گرفت، بدین معنا که هر چه حجم داده‌های نمونه شما بزرگ‌تر و نمونه گیری شما کامل‌تر باشد، نتایج حاصل از آن پژوهش معتبرتر خواهد بود. اگر حجم نمونه کافی نباشد، نمی‌توانید تمامی متغیرها را مدنظر قرار دهید. این مسئله منجر به کاهش دقت یادگیری و استخراج ویژگی های میشود که اصلا بیانگر داده ها نیستند و در نهایت استنتاج اشتباه ماشین خواهد شد.

دیتاست‌ها داده‌های موردنیاز شما را در اختیارتان قرار می‌دهند. دیتاست‌ها مدلی آموزش می‌دهند که قادر است واکنش‌های مختلفی نشان دهد. آن‌ها مدلی از الگوریتم‌ها می‌سازند که می‌تواند روابط را آشکار کند، الگوها را تشخیص دهد، مسائل دشوار را درک کند و تصمیم بگیرد.

نکته مهم در استفاده از دیتاست‌ها این است که دیتاست موردنیاز خود را به‌درستی انتخاب کنید. یعنی دیتاستی را انتخاب کنید که دارای فرمت مناسب و ویژگی‌ها و متغیرهای معناداری در رابطه با پروژه شما باشد، زیرا عملکرد نهایی سیستم به آن‌چه که از داده‌ها یاد گرفته، بستگی دارد. علاوه براین، دادن داده‌های درست به ماشین، متضمن این خواهد بود که ماشین عملکرد کارآمدی داشته باشد و بتواند بدون دخالت انسان، به نتایج دقیقی برسد.

برای مثال، اگر برای آموزش یک سیستم بازشناسی گفتار از دیتاستی حاوی داده‌های مربوط به کتب درسی انگلیسی زبان استفاده کنیم، این ماشین در درک مطالب غیر درسی دچار مشکل خواهد شد. زیرا در این دیتاست، داده‌های مربوط به دستورزبان محاوره‌ای، لهجه‌های خارجی و اختلالات گفتاری وجود ندارد و ماشین نیز نمی‌تواند چیزی در این خصوص بیاموزد. بنابراین، برای آموزش این سیستم باید از دیتاستی استفاده کرد که متغیرهای گسترده‌ای که در زبان محاوره و در بین جنسیت‌های مختلف، سنین متفاوت و لهجه‌های مختلف وجود دارد را شامل شود.

بنابراین، باید بخاطر داشته باشید که داده‌های آموزشی شما باید هر سه ویژگی کیفیت، کمیت و تنوع را داشته باشند، زیرا تمامی این عوامل در موفقیت مدل‌های یادگیری ماشینی مؤثر هستند.

برترین دیتاست ‌های یادگیری ماشینی برای مبتدیان

امروزه دیتاست‌های فراوانی برای استفاده در فرآیند یادگیری ماشینی دردسترس قرار گرفته‌اند. به همین دلیل، ممکن است مبتدیان در تشخیص و انتخاب دیتاست درست برای یک پروژه دچار سردرگمی شوند.
بهترین راه‌حل برای این مسئله، انتخاب دیتاستی است که به‌سرعت دانلود و با مدل سازگار شود. به‌علاوه، همیشه از دیتاست‌های استاندارد، قابل‌درک و پرکاربرد استفاده کنید. بدین ترتیب، شما می‌توانید نتایج کارتان را با نتایج حاصل از کار سایر افرادی که از همان دیتاست استفاده کرده‌اند، مقایسه کنید و پیشرفت خود را بسنجید.
دیتاست خود را می‌توانید براساس نتیجه‌ای که از فرآیند یادگیری ماشین انتظار دارید، انتخاب نمایید. در ادامه، مروری خلاصه بر پرکاربردترین دیتاست‌ها در حوزه‌های مختلف یادگیری ماشینی از پردازش تصویر و ویدیو گرفته تا بازشناسی متن سیستم‌های خودمختار خواهیم داشت.

پردازش تصویر

همان‌طور که گفته شد، دیتاست‌های یادگیری ماشینی متعددی در دردسترس ما قرار دارند، اما برای انتخاب دیتاست باید کارکردی که از برنامه کاربردی خود انتظار دارید را درنظر بگیرید. پردازش تصویر در یادگیری ماشینی برای پردازش تصاویر و استخراج اطلاعات مفید از آن‌ها به‌کار گرفته می‌شود.برای مثال، اگر روی یک نرم‌افزار ساده تشخیص چهره کار می‌کنید، می‌توانید آن را با استفاده از دیتاستی که حاوی تصاویری از چهره انسان‌هاست، آموزش دهید. این همان روشی است که فیس‎بوک برای شناسایی یک فرد در عکس‌های دسته‌جمعی استفاده می‌کند. همچنین، گوگل و سایت‌های جست‌وجوی تصویری محصول نیز در بخش جست‌وجوی تصویری خود از چنین دیتاست‌هایی استفاده کرده‌اند.

نام دیتاست	توضیح مختصر
۱۰k US Adult Faces Database	این دیتاست شامل ۱۰.۱۶۸ عکس از چهره طبیعی افراد و ۲.۲۲۲ معیار از چهره است. برخی از معیارهایی که در این دیتاست برای چهره‌ درنظر گرفته شده‌اند عبارتند از: به‌یادماندنی بودن، بینایی یارانه‌ای و صفات روانشناختی. تصاویر این دیتاست در فرمت JPEG هستند، وضوح تصاویر ۷۲ پیکسل در هر اینچ و ارتفاع آن‌ها‌ها ۲۵۶ پیکسل است.
Google’s Open Images	Open Image دیتاستی است متشکل از ۹ میلیون نشانی اینترنتی که شما را به تصاویر موجود در اینترنت هدایت می‌کند. این تصاویر دارای برچسب‌های توضیحی هستند که در ۶۰۰۰ دسته مختلف طبقه‌بندی شده‌اند. این برچسب‌ها بیشتر عناصر واقعی را شامل می‌شوند. تنها تصاویری در این دیتاست قرار می‌گیرند که مجوز انتساب مشترکات خلاقانه را دریافت کرده باشند.
Visual Genome	این دیتاست حاوی بیش از ۱۰۰ هزار تصویر است که کاملاً تفسیر شده‌اند. نواحی هر یک از این تصاویر به‌ این صورت توصیف شده‌اند؛ توضیح ناحیه: دختری که به فیل غذا می‌دهد، شیء: فیل، صفت: بزرگ، رابطه: غذا دادن.
Labeled Faces in the Wild	در این دیتاست بیش از ۱۳.۰۰۰ تصویر از چهره افراد جمع‌آوری شده است. این تصاویر، تصاویری هستند که در فضای اینترنت به ‌اشتراک گذاشته‌ شده بودند و در برچسب هر تصویر، نام فرد درون تصویر ذکر شده است.

ایده‌هایی‌ آسان و سرگرم‌کننده برای استفاده از دیتاست‌های تصویری

• گربه یا سگ: با استفاده از دیتاست گربه‌ها و دیتاست استنفورد که حاوی تصاویر سگ‌ها است، برنامه شما می‌تواند تشخیص دهد که در تصویر داده‌شده، سگ وجود دارد یا گربه؟
• طبقه‌بندی گل‌های زنبق: می‌توانید به کمک دیتاست گل‌های زنبق یک برنامه کاربردی مبتنی بر یادگیری ماشینی طراحی کنید که گل‌ها را در ۳ گونه گیاهی طبقه‌بندی کند. با اجرای این پروژه دسته‌بندی صفات فیزیکی برپایه محتوا را خواهید آموخت که به شما در طراحی برنامه‌ها و پروژه‌های کاربردی همچون ردیابی کلاه‌برداری،شناسایی مجرمین، مدیریت درد (برای مثال، برنامه ePAT را درنظر بگیرید که با استفاده از فن‌آوری تشخیص چهره، نشانه‌های درد را در صورت فرد شناسایی می‌کند.) و غیره کمک می‌کند.
• هات‌داگ است یا نه؟: برنامه شما با استفاده از دیتاست Food 101، قادر خواهد بود تا غذاها را شناسایی کند و به شما بگوید که آیا این غذا ساندویچ هات‌داگ است یا خیر.

تحلیل احساس

حتی مبتدیان نیز می‌توانند با استفاده از دیتاست‌های تحلیل احساس برنامه‌های جالبی طراحی کنند. در یادگیری ماشینی می‌توان ماشین‌ها را با به‌کارگیری دیتاست‌های تحلیل احساس به نحوی آموزش داد که عواطف و احساسات موجود در یک جمله، یک کلمه یا یک متن کوتاه را تحلیل و پیش‌بینی کنند. به‌طور معمول، از این قبیل برنامه‌ها برای تحلیل فیلم‌ها و نظرات مشتریان درمورد محصولات استفاده می‌شود. اگر کمی خلاقیت به خرج دهید، می‌توانید برنامه‌ای طراحی کنید که با استفاده از تحلیل‌های احساسی، موضوعی که بحث‌برانگیزتر از سایرین خواهد بود را شناسایی کند.

نام دیتاست	توضیح مختصر
Sentiment140	این دیتاست حاوی ۱۶۰.۰۰۰ توییت است که شکلک‌های استفاده‌شده در آن‌ها حذف شده‌اند.
Yelp Reviews	این دیتاست یک دیتاست رایگان است که توسط شرکت Yelp منتشر شده و حاوی بیش از ۵ میلیون نظر درباره رستوران‌ها، فروشگاه‌ها، تفریح‌های شبانه، غذاها، سرگرمی‌ها و غیره است.
Twitter US Airline Sentiment	در این دیتاست داده‌های مربوط به خطوط هواپیمایی آمریکا در شبکه اجتماعی توییترT از سال ۲۰۱۵ جمع‌آوری شده و به هر یک از آن‌ها یکی از برچسب‌های مثبت، منفی و خنثی داده شده است.
Amazon reviews	در این دیتاست بیش از ۳۵ میلیون نظر ثبت‌شده در وب‌سایت آمازون طی دوره زمانی ۱۸ ساله جمع‌آوری شده است. داده‌های موجود شامل اطلاعاتی درخصوص محصولات، امتیاز کاربران و نظرات متنی هستند.

ایده‌هایی‌ آسان و سرگرم‌کننده برای استفاده از دیتاست‌های تحلیل احساسی

مثبت یا منفی: با استفاده از دیتاست Spambase در مدل خود، توییت‌ها را تحلیل کنید و آن‌ها در دو دسته مثبت و منفی طبقه‌بندی کنید.
راضی یا ناراضی: با استفاده از دیتاست Yelp Reviews پروژه‌ای تعریف کنید که در آن یک ماشین بتواند با مشاهده نظر یک فرد درخصوص یک محصول تشخیص دهد که فرد از آن محصول راضی بوده یا ناراضی.
خوب یا بد: می‌توانید با استفاده از دیتاست Amazon reviews، یک ماشین را به نحوی آموزش دهید که خوب یا بد بودن نظرات کاربران را تشخیص دهد.

پردازش زبان طبیعی

در فن‌آوری پردازش زبان طبیعی ماشین‌ها درجهت تحلیل و پردازش حجم زیادی از داده‌های مربوط به زبان‌های طبیعی آموزش می‌بینند. موتورهای جست‌وجو همچون گوگل به کمک این فن‌آوری می‌توانند آن‌چه شما در بخش جست‌وجو می‌نویسید را پیدا کنند. شما نیز می‌توانید با استفاده از این قبیل دیتاست‌ها، یک برنامه کاربردی جالب پردازش زبان طبیعی و مبتنی بر یادگیری ماشینی طراحی کنید.

نام دیتاست	توضیح مختصر
Speech Accent Archive	این دیتاست حاوی ۲۱۴۰ نمونه صوتی است که در آن‌ها افرادی از ۱۷۷ کشور و ۲۱۴ ریشه زبانی مختلف حضور دارند و متن واحدی را به زبان انگلیسی می‌خوانند.
Wikipedia Links data	این دیتاست حاوی تقریبا ۱.۹ میلیارد واژه است که از بیش از ۴ میلیون مقاله جمع‌آوری شده‌اند. در این دیتاست می‌توان واژه‌ها، عبارات یا بخشی از یک پاراگراف را جست‌وجو کرد.
Blogger Corpus	این دیتاست متشکل از ۶۸۱.۲۸۸ پست از وبلاگ‌های مختلف است که از وب‌سایت Blogger.com جمع‌آوری شده‌اند. در هر یک از این وبلاگ‌های منتخب، حداقل ۲۰۰ واژه پرکاربر انگلیسی استفاده شده است.

ایده‌هایی‌ جالب برای استفاده از دیتاست‌های پردازش زبان طبیعی:

• هرزنامه یا مفید: با استفاده از دیتاست Spambase می‌توانید برنامه‌ای طراحی کنید که قادر باشد ایمیل‌های هرزنامه را از ایمیل‌های مفید و خوب تشخیص دهد.

پردازش ویدیو

با استفاده از دیتاست‌های پردازش ویدیو، ماشین‌ شما می‌آموزد که صحنه‌های مختلف یک ویدیو و اشیاء، احساسات و کنش و واکنش‌های درون آن را شناسایی و تحلیل کند. به این منظور، شما باید حجم زیادی از داده‌های مربوط به واکنش‌ها، اشیاء و فعالیت‌ها را به ماشین خود بدهید.

نام دیتاست	توضیح مختصر
UCF101 – Action Recognition Data Set	این دیتاست شامل ۱۳.۳۲۰ ویدیو است که براساس عملی که در آن‌ها اتفاق می‌افتد در ۱۰۱ گروه دسته‌بندی شده‌اند.
Youtube 8M	Youtube 8M دیتاستی متشکل از تعداد زیادی ویدیوهای برچسب گذاری شده است. این دیتاست شامل شناسه‌های میلیون‌ها ویدیو از یوتیوب و تفسیرهای ماشینی بسیار باکیفیت از این ویدیوهاست. در این تفسیرهای ماشینی از بیش از ۳.۸۰۰ واژه مربوط به اشیاء دیداری استفاده شده است.

یک ایده جالب یرای استفاده از دیتاست‌های پردازش ویدیو

تشخیص عمل: با استفاده از دیتاست‌های UCF101 – Action Recognition Data Set یا Youtube 8M می‌توانیدبه برنامه کاربردی خود آموزش دهید تا اعمال مختلف چون راه‌رفتن یا دویدن را در یک ویدیو شناسایی کند.

تشخیص گفتار

تشخیص گفتار به این معناست که یک ماشین می‌تواند واژه‌ها و عبارات را در زبان گفتاری شناسایی یا تحلیل کند. اگر کیفیت و کمیت داده‌هایی که به ماشین خود داده‌اید مناسب باشد، عملکرد بهتری در حوزه تشخیص گفتار خواهد داشت. با ترکیب دو فن‌آوری پردازش زبان طبیعی و پردازش گفتار می‌توانید دستیار شخصی شبیه به الکسا طراحی کنید که بتواند خواسته شما را به درستی متوجه شود.

نام دیتاست	توضیح مختصر
Gender Recognition by Voice and speech analysis	این دیتاست براساس ویژگی‌های آوایی صدا و گفتار، صدای زنان را از مردان تمیز می‌دهد. این دیتاست حاوی ۳.۱۶۸ فایل صوتی ضبط‌شده از صدای زنان و مردان مختلف در هنگام سخن گفتن است.
Human Activity Recognition w/Smartphone	دیتاست Human Activity Recognition حاوی ویدیوهایی است که از ۳۰ فرد در حین انجام فعالیت‌های روزانه‌شان گرفته شده است. در حین انجام این فعالیت‌ها یک گوشی موبایل (سامسونگ گلکسی S2) نیز به کمر آن‌ها متصل شده بود.
TIMIT	از دیتاست TIMIT در مطالعات آواشناسی آکوستیک و توسعه سیستم‌های خودکار تشخیص گفتار استفاده می‌شود. این دیتاست متشکل از فایل‌های صوتی ضبط‌شده از ۶۳۰ نفر است که با ۸ گویش رایج انگلیسی آمریکایی صحبت می‌کردند. هر یک از افراد حاضر در این فرآیند باید کلمات، مصوت‌ها و جملاتی را می‌خواندند که از لحاظ آوایی بسیار غنی بودند.
Speech Accent Archive	این دیتاست حاوی ۲۱۴۰ نمونه صوتی است که در آن‌ها افرادی از ۱۷۷ کشور و ۲۱۴ ریشه زبانی مختلف حضور دارند و متن واحدی را به زبان انگلیسی می‌خوانند.

ایده‌هایی جالب برای استفاده از دیتاست‌های تشخیص گفتار

• تشخیص لهجه: با استفاده از دیتاست Speech Accent Archive، برنامه کاربردی شما قادر خواهد بود لهجه‌های مختلف را از میان لهجه‌های نمونه تشخیص دهد.
• شناسایی عمل: با استفاده از دیتاست Human Activity Recognition w/Smartphone می‌توانید برنامه‌ای طراحی کنید که فعالیت‌های انسان‌ را تشخیص دهد.

تولید زبان طبیعی

تولید زبان طبیعی به معنای توانایی ماشین‌ها در شبیه‌سازی گفتار انسان است. به کمک این فن‌آوری می‌توان مطالب نوشته‌شده را به فایل‌های شنیداری تبدیل کرد. همچنین این فن‌آوری می‌‌تواند با خواندن مطالبی که روی صفحه نقش بسته‌اند، به افراد کم‌بینا و دارای نقص بینایی کمک کند. این درواقع همان روشی است که دستیارهای هوشمندی چون الکسا و سیری به شما پاسخ می‌دهند.

نام دیتاست	توضیح مختصر
Common Voice by Mozilla	دیتاست Common Voice حاوی داده‌های گفتاری است که در وب‌سایت Common Voice توسط کاربران خوانده شده‌اند. متون خوانده شده در این وب‌سایت، از منابع عمومی همچون پست‌های کاربران در وبلاگ‌ها، کتاب‌های قدیمی و فیلم‌ها است.
LibriSpeech	این دیتاست شامل حدود ۵۰۰ ساعت فایل صوتی است. این فایل‌ها حاوی کتاب‌های صوتی هستند که توسط افراد مختلف و به زبانی روان خوانده شده‌اند. در این دیتاست فایل صوتی و متن اصلی هر کتاب به تفکیک فصول آن، موجود است.

ایده‌هایی جالب برای استفاده از دیتاست‌های تولید زبان طبیعی

• تبدیل متن به گفتار: با استفاده از دیتاست Blogger Corpus، می‌توانید برنامه‌ای طراحی کنید که متون موجود در وب‌سایت را با صدای بلند بخواند.

اتومبیل‌های خودران

شما نیز می‌توانید یک برنامه یادگیری ماشینی ساده برای اتومبیل‌های خودران طراحی کنید. دیتاست‌های یادگیری ماشینی موجود در حوزه اتومبیل‌های خودران برای درک محیط و هدایت خودرو بدون نیاز به دخالت انسان، به شما کمک خواهند کرد. از این الگوریتم‌ها می‌توان برای هدایت اتومبیل‌های خودران، پهبادها، ربات‌های انباردار و غیره استفاده کرد. اهمیت دیتاست‌ها در این حوزه بیشتر از سایر حوزه‌های یادگیری ماشینی است، زیرا ریسک دراین حوزه بیشتر است و هزینه یک اشتباه ممکن است جان یک انسان باشد.

نام دیتاست	توضیح مختصر
Berkeley DeepDrive BDD100k	این دیتاست یکی از بزرگ‌ترین دیتاست‌های موجود در حوزه اتومبیل‌های خودران مبتنی بر هوش مصنوعی است. این دیتاست حاوی بیش از ۱۰۰.۰۰۰ ویدیو از بیش از ۱۰۰۰ ساعت رانندگی در شرایط آب‌وهوایی ساعات مختلف روز می‌باشد.
Baidu Apolloscapes	Baidu Apolloscapes دیتاستی بزرگ متشکل از ۲۶ قلم شیء معنایی از جمله خودرو، دوچرخه، عابرین پیاده، ساختمان، چراغ برق و غیره است.
Comma.ai	این دیتاست حاوی بیش از ۷ ساعت ویدیو از رانندگی در بزرگراه است. این داده‌ها شامل اطلاعاتی درخصوص سرعت، شتاب، زاویه فرمان و مختصات مکانی خودرو می‌شوند.
Cityscape Dataset	این دیتاست متشکل از حجم زیادی از داده‌های ویدیوی تهیه‌شده از خیابان‌های ۵۰ شهر مختلف است.
nuScenes	این دیتاست حاوی بیش از ۱۰۰۰ تصویر از مناظر، حدود ۱.۴ میلیون تصویر، ۴۰۰.۰۰۰ داده درخصوص وسعت دید سیستم لیدار (سیستمی که با استفاده از لیزر، فاصله بین اجسام را می‌سنجد) و ۱.۳ میلیون کادر محاطی ۳ بعدی (که با کمک دوربین‌های RGB، رادارها و لیدار اشیاء را شناسایی می‌کند) است.

ایده‌هایی جالب برای استفاده از دیتاست‌های اتومبیل‌های خودران

• طراحی برنامه‌ای ساده برای اتومبیل‌های خودران: با استفاده از یکی از دیتاست‌های بالا و داده‌های مربوط به تجربیات مختلف رانندگی در شرایط آب‌وهوایی متفاوت، برنامه خود را آموزش دهید.

اینترنت اشیاء

کاربردهای یادگیری ماشینی در حوزه اینترنت اشیاء روزبه‌روز درحال گسترش است. شما به عنوان یک مبتدی در دنیای یادگیری ماشینی ممکن است دانش لازم برای طراحی برنامه‌های اینترنت اشیاء کاربردی و پیشرفته که از یادگیری ماشینی استفاده می‌کنند را نداشته باشید، اما قطعاً می‌توانید با شناخت دیتاست‌های مربوطه، به این دنیای شگفت‌انگیز قدم بگذارید.

نام دیتاست	توضیح مختصر
Wayfinding, Path Planning, and Navigation Dataset	این دیتاست حاوی نمونه‌هایی از مسیریابی درون یک ساختمان (کتابخانه Waldo در دانشگاه غرب میشیگان) است. این داده‌ها به‌طورمعمول در نرم‌افزارهای مسیریابی به‌کار گرفته می‌شوند.
ARAS Human Activity Dataset	این دیتاست یک دیتاست در حوزه تشخیص فعالیت‌های انسانی است که از ۲ خانوار واقعی جمع‌آوری شده که شامل بیش از ۲۶ میلیون داده از حسگرها و بیش از ۳۰۰۰ فعالیت انجام‌شده می‌باشد.

یک ایده جالب برای استفاده از دیتاست‌های اینترنت اشیاء:

• طراحی یک دستگاه پوشیدنی برای پیگیری فعالیت‌های افراد: با استفاده از دیتاست ARAS Human Activity Dataset، یک دستگاه پوشیدنی را آموزش دهید تا بتواند فعالیت‌های افراد را تمیز دهد.

پس از به پایان رساندن مطالعه این لیست‌ها، نباید احساس محدودیت کنید. این دیتاست‌ها تنها تعدادی از دیتاست‌هایی هستند که می‌توانید در برنامه‌های کاربردی مبتنی بر یادگیری ماشینی از آن‌ها استفاده کنید. در فضای اینترنت می‌توانید دیتاست‌های بهتری نیز برای پروژه یادگیری ماشینی خود پیدا کنید.

می‌توانید در وب‌سایت‌های Kaggle، UCI Machine Learning Repository، Kdnugget، Awesome Public Datasets, و Reddit Datasets Subredditدیتاست‌های بیشتری پیدا کنید.

حال وقت آن است که این دیتاست‌ها را در پروژه خود به کار بگیرید. اگر در حوزه یادگیری ماشینی مبتدی هستید این مقاله نیز در آشنایی بیشتر با این فن‌آوری به شما کمک خواهد کرد.
جدا از این که تازه‌کار هستید یا مدتی در دنیای یادگیری ماشینی فعالیت داشته‌اید، باید همواره به‌خاطر داشته باشید که دیتاستی را انتخاب کنید که پرکاربرد باشد و بتوان آن را به‌سرعت از یک منبع قابل‌اعتماد بارگیری کرد.

منبع: hooshio.com

دیتاست دیتاست های بینایی ماشین بینایی ماشین پردازش تصویر پردازش ویدئو پردازش زبان طبیعی یادگیری ماشین الگوریتم های یادگیری ماشین

ai-magazine یکشنبه 6 مهر 1399 ساعت 14:57

0 نظر

سرمایه گذاری هوش مصنوعی ؛ کدام فناوری ‌ها بیشترین سهم و کمترین سهم را دارند؟

هوش مصنوعی با اشتیاق زیادی در حال تغییر دادن بسیاری از حوزه‌ها است ، اما مساله اینجاست که آن حوزه‌ها به همان اندازه روی خوش نشان نمی‌دهند. گسترش هوش مصنوعی بیش از همه به این موضوع ارتباط دارد که جامعه در حال حاضر چه چیزی را جذاب می‌داند. شاخص هوش مصنوعی اخیراً گزارشی را منتشر کرده است که نشان می‌دهد سرمایه گذاری هوش مصنوعی به سمت کدام بخش‌ها سرازیر شده است . نتایج شگفت‌انگیز است.

اهمیت معنادار اتومبیل‌های خودران

ما هنوز در جستجوی یک اتومبیل اسطوره‌ای هستیم، حتی با وجود شکست‌های قابل توجه و خطرناکی که در این مسیر با آنها مواجه شده‌ایم. اتومبیل‌ها این پتانسیل را دارند تا در شهرهای کوچک از بار سنگین ترافیک بکاهند حتی اگر جمعیت بیشتر شود. آنها همچنین می‌توانند هزینه های ارسال و تحویل بار را کاهش دهند.اما مسئله بیش از چند الگوریتم ساده است. درواقع رایانه‌ها هنوز هم تا حد زیادی در انتقال یادگیری در شرایط مختلف ناکارآمد هستند. توسعه اتومبیل‌های خودران مانند توسعه کامپیوتری است که قرار است همانند یک انسان رفتار کند. با اینکه این الگوریتم‌ها روز به روز در حال بهترشدن هستند اما در حال حاضر کماکان می‌توان پردازنده‌های رایانه‌ای را به راحتی فریب داد و این چیزی است که باید تغییر کند.

همزمان که ما در تلاش برای خلق یک نمونه کامل از اتومبیل های خودران هستیم به طور کلی به دنبال استفاده از منحنی یادگیری برای ماشین‌ها نیز هستیم. یادگیری ماشین مفهومی است که برای صنایع و سازمان‌ها آشنا و با ارزش است. رانندگی خودران قسمت عمده سرمایه گذاری هوش مصنوعی را به خود اختصاص می‌دهند زیرا در این حوزه ریسک زیادی وجود دارد.این گزارش اضافه می‌کند که ربات‌های خودران که به همین موضوع مرتبط هستند نیز رشد خوبی را نشان داده‌اند.

تحول بیوتکنولوژی و داروسازی

داروها و مطالعه سرطان در رده‌ی بعدی بیشترین سرمایه گذاری هوش مصنوعی است. اگرچه از نظر حجم و تعداد در حد اتومیبل های خودران نیست اما به دلایل مختلفی حوزه‌ بسیار مهمی است. تلاش هایی که در این زمینه معطوف به کاهش هزینه آزمایش‌ها است در صورت صحیح بودن الگوریتم‌ها یک سرمایه گذاری با ارزش به شمار می‌رود. شرکت‌های داروسازی سال‌ها بابت افزایش قیمت داروها و عدم عرضه‎ی مداوم داروهای بی عارضه مورد انتقاد قرار گرفته‌اند. اکنون فرصت خوبی است تا تلاش‌هایشان به سرانجام برسد و انتقادات را خنثی کنند.

همکاری هوش مصنوعی و متخصصان داروسازی بهترین فرصت را برای ساختن روش‌های جدید کشف دارو و پیشرفت در تحقیقات سرطان فراهم می‌کند. از آنجا که سرطان کماکان برای ما ناشناخته است، هوش مصنوعی می‌تواند با پردازش داده‌های بزرگ -کاری که انسان نمی‌تواند انجام دهد– تمامی الگوهایی را که ناشناخته مانده‌اند برای ما آشکار کنند. شرکت‌هایی همچون مراقبت‌های پزشکی Fresenius ، Flatiron Health و داروسازی Alexion اهمیت و نحوه عملکرد هوش مصنوعی را در آینده مراقبت‌های بهداشتی، بیوتکنولوژی و داروسازی درک می‌کنند. آنها امسال در کنفرانس علم داده یا ODSC حضور خواهند داشت تا با تبادل نظر و حضور در کارگاه‌هایی که برگزار می‌شوند دانش خود را افزایش دهند.

موضوع مناقشه برانگیز فناوری تشخیص چهره

فناوری تشخیص چهره به طور مداوم در صدر اخبار است و سرمایه‌گذارها همچنان به حمایت از نرم‌افزارهای این حوزه ادامه می‌دهند. جالب اینکه علی‌رغم اختلاف‌نظرها این سرمایه‌گذاری‌ها از جاهای مختلفی از دولت‌ها گرفته تا نیروی انتظامی و آژانس‌های تبلیغاتی انجام می‌شود.

نمی‌توان به فناوری تشخیص چهره به چشم یک موضوع خطرناک و ویران کننده نگاه کرد. این بستگی به منشا سرمایه‌گذاری‌ها و استفاده‌ای که از این فناوری برای نسل‌های بعدی می‌شود دارد. درواقع هنوز کاملا شبیه داستان فیلم گزارش اقلیت نشده است اما با ادامه این سرمایه‌گذاری‌ها و پیشرفت‌ها باید به فکر متعادل‌کردن نگرانی‌های مربوط به حریم خصوصی خود از سویی و امنیت عمومی و قراردادهای اجتماعی از سوی دیگر باشیم.

همزمان که که این فناوری به پیشرفت خود ادامه می‌دهد دولت‌ها در تلاشند تا در مورد نگرانی‌های مربوط به حریم خصوصی موضع بگیرند و قوانینی را برای کنترل نرم‌افزارهایی که می‌توانند کاربرد نظامی داشته باشند تصویب کنند.

سرمایه‌گذاری‌های شگفت‌آور

محتوای دیجیتالی یکی از جذاب‌ترین حوزه‌ها در سرمایه گذاری هوش مصنوعی است. برای مدت‌های زیادی تصور می‌شد که نوشتن یک تلاش انسانی است، اما ماشین‌ها به طور مداوم ما را با کیفیتی که دارند غافلگیر می‌کنند. در حال حاضر تعداد اندکی از سازمان‌های بزرگ از هوش مصنوعی برای نوشتن محتوایی که نیروی انسانی به اندازه کافی در آن سریع نیست استفاده می‌کنند.

در انتهای این طیف، زنجیره تامین وجود دارد که علی‌رغم وعده‌های زیادی که در جهت افزایش کارایی و کاهش خطا داده‌اند همچنان پایین‌ترین سطح سرمایه‌گذاری هوش مصنوعی را به خود اختصاص داده‌اند. برخلاف انتظار، بازاریابی از طریق چت‌بات‌ها که نسل بعدی بازاریابی در جهان به شمار می‌رود، شاهد کمترین رشد سرمایه‌گذاری در این حوزه بوده است.

این‌ها به چه معنا است؟

رسانه‌های دیجیتالی تلاش کرده‌اند تا در دوران فروش آنلاین سودآوری داشته باشند و یکی از راه‌حل‌های موجود، تولید محتوایی باب میل خریداران است بدون اینکه مجبور شوند بودجه بیشتری برای استخدام نویسنده‌ها اختصاص دهند.

اما در مورد زنجیره تأمین، این بخش همچنان بر اساس اصول انقلاب صنعتی استوار است که دیگر جواب نمی‌دهد. هنوز هم مدیران باید زمان زیادی را صرف سروکله زدن با ارقام و اعداد مربوط به ضایعات محصولات، خرابی و موانع پیش‌بینی نشده صرف کنند. تا زمانی که در بر این پاشنه بچرخد احتمالا با سرمایه‌گذاری زیادی مواجه نمی‌شوند.

به لطف پردازش زبان طبیعی، چت‌بات‌ها میتوانند با مشتریان ارتباط برقرار کنند اما چون نوآوری بیشتر از این صورت نگرفته طبعا سرمایه‌گذاری‌های این حوزه هم با رکود مواجه شده است.

رو به جلو با هوش مصنوعی

سرمایه‌گذاری معمولا از یک روند قابل انتظار تبعیت نمی‌کند، به عنوان مثال در برخی زمان‌ها مشکل بزرگ‌تر از آن می‌شود که با راه‌حل‌های موجود بتوان به آن پاسخ داد، اما همه سرمایه‌گذاری‌ها به این سمت هدایت نمی‌شوند و این تعجب برانگیز است.

آنچه ما می بینیم تعهد مداوم به توسعه هوش مصنوعی برای خودکارسازی، ایجاد کارآیی و کاهش اتلاف منابع است؛ مواردی که انسانها همیشه در آن خوب ظاهر نمی‌شوند. حتی در زمینه‌های خلاقانه مانند محتوای دیجیتال، هوش مصنوعی می‌تواند بار سنگین مطالب چاپی را کاهش دهد و مسیری را برای ارائه‌دهندگان اطلاعات فراهم کند تا در دنیای در حال تغییر دیجیتال سود آور باشند.

شما فکر می‌کنید در کدام بخش‌های هوش مصنوعی باید سرمایه‌گذاری ببیشتری شود؟

منبع: hooshio.com

کنفرانس علم داده سرمایه گذاری هوش مصنوعی هوش مصنوعی اتومبیل های خودران فناوری تشخیص چهره بینایی ماشین پردازش زبان طبیعی هوش مصنوعی آینده

ai-magazine دوشنبه 24 شهریور 1399 ساعت 13:06

0 نظر

مجله هوش مصنوعی

ابر برچسب

جدیدترین یادداشت‌ها

بایگانی

جستجو

ربات های نویسنده و آشنایی بهتر با آن‌ها در عصر هوش مصنوعی

ربات های نویسنده نیز قادر به نگارش هستند

مدارس و دانشگاه‌ها باید به پرسش‌های زیر توجه داشته باشند؟

آیا استفاده از ماشین‌های نگارشی با اصلِ عدالت سازگار است؟

دستیار نوشتاری مبتنی بر هوش مصنوعی باعث ایجاد محتوای بهتر می‌شود

دستیار نوشتاری AI Writer

دستیار نوشتاری Wordtune

دستیار نوشتاری WritingAssistant

دستیار نوشتاری Articoolo

دستیار نوشتاری Writer

دستیار نوشتاری ShortlyAI

دستیار نوشتاری Textio

یک مدل یادگیری ماشین که می‌تواند کارهای روزمره ما را انجام دهد

بهترین دیتاست ‌های یادگیری ماشینی برای مبتدیان

سرمایه گذاری هوش مصنوعی ؛ کدام فناوری ‌ها بیشترین سهم و کمترین سهم را دارند؟