مجله هوش مصنوعی

آخرین اخبار و تکنولوژی های هوش مصنوعی را در اینجا بخوانید.

مجله هوش مصنوعی

آخرین اخبار و تکنولوژی های هوش مصنوعی را در اینجا بخوانید.

چگونه مدرک دوره هوش مصنوعی دریافت کنیم؟


آیا می‌خواهید در دوره آموزش هوش مصنوعی یکی از برجسته‌ترین دانشمندان این حوزه یعنی اندرو ان‌جی شرکت کنید؟ مطمئنا برای هر دانشجو و علاقه‌مند به هوش مصنوعی بهره‌گیری از دانش اندرو ان‌جی یک مزیت بسیار بزرگ است. سایت کورسرا این امکان را فراهم کرده است. کورسرا یکی از بزرگ‌ترین مراکز یادگیری است که دوره‌های خود را به صورت آموزش مجازی و رایگان برگزار می‌کند.

در حال حاضر دروس و مباحث مختلفی از طیف وسیعی از رشته‌ها در این بستر آنلاین ارائه می‌شود و جالب است بدانید اولین دوره‌ای که از طریق کورسرا برگزار شد، درس یادگیری ماشین بود که توسط اندرو ان‌جی که  از بنیانگذاران کورسرا نیز است تدریس می‌شد. دوره‌های آنلاین کورسرا معمولا بین چهار تا ده هفته طول می‌کشد و شامل یک تا دو ساعت ویدئو است که  توسط اساتید آن دوره ارائه می‌شود. هم اکنون صدها دانشگاه معتبر دوره‌های خود را در این سایت در اختیار علاقه‌مندان گذاشته‌اند. دوره‌ای که در این مطلب قصد معرفی آن را داریم با عنوان “هوش مصنوعی برای همه” در سایت کورسرا در دسترس است. در مقدمه‌ی این دوره آموزشی آمده است که هوش مصنوعی تنها برای مهندسان نیست، اگر می‌خواهید کسب و کار و سازمان‌تان را با استفاده از هوش مصنوعی بهبود ببخشید این دوره آموزشی را بگذرانید و به همکاران غیر فنی‌تان نیز معرفی کنید. در این دوره آموزشی شما مباحث زیر را فراخواهید گرفت:

•معنای پشت اصطلاحات هوش مصنوعی همچون شبکه‌های عصبی، یادگیری ماشین ، یادگیری عمیق و علم داده

•چگونه می‌توان از هوش مصنوعی برای رفع مشکلات کسب و کارتان استفاده کنید

•چگونگی کار با یک تیم هوش مصنوعی و ایجاد استراتژی هوش مصنوعی در کسب و کارتان

•ساخت پروژه‌های یادگیری ماشینی و علوم داده چه احساسی را به شما می‌دهد؟

•چگونگی مطرح کردن مباحث اخلاقی و اجتماعی پیرامون هوش مصنوعی

باوجود اینکه این دوره تا حد زیادی غیرفنی است اما مهندسین نیز می توانند این دوره را برای یادگیری جنبه‌های تجاری هوش مصنوعی طی کنند. این دوره هوش مصنوعی ۴ هفته طول می‌کشد .

هفته اول

عنوان درس: هوش مصنوعی چیست؟

شامل ۹ ویدیو که ۶۹ دقیقه کلاس آموزشی است.

هفته دوم

عنوان درس: ساخت پروژه‌های هوش مصنوعی

شامل ۸ ویدیو که ۵۲ دقیقه کلاس آموزشی است.

هفته سوم

عنوان درس: به کارگیری هوش مصنوعی در شرکت‌تان

شامل ۱۰ ویدیو که ۹۰ دقیقه کلاس آموزش است.

هفته چهارم

عنوان درس: هوش مصنوعی و جامعه

شامل ۸ ویدیو که ۵۰ دقیقه کلاس آموزش است.

اگرچه شرکت در دوره‌های کورسرا رایگان است اما برای دریافت مدرک بسته به نوع دوره باید هزینه‌ی آن را بپردازید که با توجه به مشکلات پرداخت ارزی در کمترین حالت ۲۹ دلار است و پرداخت آن سخت و از توان افراد خارج است. کورسرا امکانی را فراهم کرده است تا درخواست دهید این دوره برای شما رایگان شود و مدرک آن را نیز دریافت کنید. حدود ۲ هفته طول می‌کشد تا جواب درخواست شما داده شود. سعی کنید درخواست را طوری بنویسید که آنها متقاعد شوند شما علاقه‌مند به این دوره هستید و گذراندن آن به شما و آینده‌ی شغلی شما کمک خواهد کرد. قابل توجه است که ۴۴ درصد افرادی که این دوره را گذرانده‌اند بعد از آن یک کار جدید را شروع کرده‌اند.

از طریق این لینک در این دوره هوش مصنوعی ثبت‌نام کنید:

https://www.coursera.org/learn/ai-for-everyone

منبع: hooshio.com

NVIDIA سرعت آپاچی اسپارک مهم ‌ترین پلتفرم تحلیل داده جهان را افزایش می‌ دهد


NVIDIA به تازگی اعلام کرد که همکاری با بخش منبع باز را آغاز کرده تا نسخه سوم آپاچی اسپارک را سرعت بخشد.

لازم به ذکر است که بیش از ۵۰۰.۰۰۰ دانشمند داده در سرتاسر جهان از موتور تحلیل آپاچی اسپارک برای پردازش دیتاست های بزرگ استفاده می‌کنند. حال با انتشار نسخه سوم اسپارک، دانشمندان داده و مهندسان یادگیری ماشین برای نخستین بار قادر خواهند بود سرعت کارت گرافیکی را در فرایند پردازش داده ETL به طرز قابل ملاحظه‌ای افزایش دهند.

همچنین زمینه برای پردازش «آموزش مدل هوش مصنوعی» در خوشه اسپارک فراهم خواهد آمد و دیگر نیازی نیست امور به عنوان فرایندهای مجزا در زیرساخت‌های مجزا اجرا شوند. به این ترتیب، تحلیل داده با عملکرد بسیار بهتری در کل روند کاری علم داده انجام گرفته و پردازش ده‌ها هزار ترابایت داده به سرعت انجام خواهد شد. از مزایای دیگر این است که نیازی به استفاده از کد موجود برای اجرای اسپارک در فضای ابر نیست.

Adobe با تکیه بر همکاری راهبردی هوش مصنوعیِ خود با NVIDIA به یکی از نخستین شرکت‌هایی تبدیل شده که روی نسخه پیش‌نمایش اسپارک ۳.۰ در Databricks کار می‌کند. این شرکت توانسته با استفاده از روش تحلیل داده با کارت گرافیکی بهتر، میزان عملکرد را هفت برابر ارتقاء بخشیده و از ۹۰ درصدِ هزینه‌ها در آزمایش اولیه بکاهد. Adobe ویژگی‌هایی را ارائه کرده که تقویت کسب و کارهای دیجیتال را در پی داشته است.

بنیان‌گذاران Databricks در ساخت آپاچی اسپارک نقش اصلی را ایفا کرده‌اند. گفتنی است که پلتفرم تحلیل داده Databricks روزانه بیش از ۱ میلیون ماشین مجازی را به اجرا در می‌آورد. NVIDIA و Databricks به همکاری با یکدیگر پرداخته‌اند تا اسپارک را با RAPIDS بهینه‌سازی کنند. در همین راستا، افزایش سرعت کارت گرافیکی در حوزه‌های یادگیری ماشین و علم داده در دستور کار قرار گرفته است. این اقدام می‌تواند به یاری حوزه‌های گوناگونی از قبیل بهداشت و درمان، امور مالی، خرده‌فروشی و بسیاری دیگر از صنایع بشتابد.

منبع: hooshio.com

راه حل کمبود داده در یادگیری ماشین


کمبود داده های کافی علی‌رغم برخورداری از ایده‌های فوق‌العاده هوش مصنوعی در کسب‌وکار، موجب نگرانی شرکت‌ها شده است. اما راه حل‌هایی هم برای این مساله وجود دارد.

الکساندر گلفالونیِری

 

هدف مقاله حاضر این است که خواننده را با برخی از این راه‌حل‌ها آشنا کند، اما ارائه همه راه‌حل‌های موجود در دستور کار این مقاله نیست. مسئلۀ کمبود داده اهمیت زیادی دارد، زیرا داده‌ها نقشی حیاتی در پروژه‌های هوش مصنوعی ایفا می‌کنند. بنابراین عملکرد ضعیف در پروژه‌های یادگیری ماشین را می‌توان به اندازه مجموعه‌داده نسبت داد؛ چرا که در اغلب موارد، مسائل مرتبط با کمبود داده، دلیلِ اصلیِ عدم اجرای پروژه‌های بزرگ هوش مصنوعی هستند.

محققان در بعضی از پروژه‌ها به این نتیجه می‌رسند که هیچ داده مرتبطی وجود ندارد یا فرایند گردآوری داده دشوار و زمان‌بر است. مدل‌های یادگیری بانظارت(Supervised) با موفقیت برای پاسخگویی به طیف وسیعی از چالش‌های کسب‌وکار استفاده می‌شوند. با این حال، این مدل‌ها به شدت نیازمند داده هستند و اندازه داده‌های آموزشی اهمیت زیادی دارد.

در اغلب موارد، ساخت مجموعه‌داده‌هایی که به قدر کافی بزرگ باشند، کار سختی است. از مشکلات دیگر این است که تحلیل‌گران پروژه، معمولاً میزان داده‌های لازم برای مدیریت مسائل رایج در کسب‌وکار را دست کم می‌گیرند. من هم در جمع‌آوری مجموعه‌داده‌های آموزشی بزرگ به مشکل خورده‌ام. وقتی برای شرکت بزرگی کار می‌کنید، گردآوری داده پیچیده‌تر می‌شود.

چه میزان داده نیاز داریم؟

خب، حدود ۱۰ برابر بیشتر از درجه آزادی در مدل، به نمونه نیاز است. هرقدر مدل پیچیده‌تر باشد، بیشتر در معرض بیش‌برازش قرار می‌گیرید؛ اما با اعتبارسنجی می‌توان از این مورد اجتناب کرد. با این وجود، بسته به موردِ استفاده می‌توان از داده‌های خیلی کمی هم استفاده کرد.

بیش‌برازش :
مدلی است که داده‌های آموزشی را خیلی خوب مدل‌سازی می‌کند. این مسئله زمانی اتفاق می افتد که یک مدل جزئیات ونویزهای موجود در داده‌های آموزشی را یاد می‌گیرد و این مسئله تاثیر منفی بر عملکرد مدل روی داده‌های جدید دارد.

اما مدیریت مقادیر گمشده به چه معناست؟ اگر تعداد مقادیر گمشده در داده‌ها زیاد باشد (بالای ۵ درصد)، مدیریت مقادیر گمشده به معیارهای موفقیت خاصی نیاز خواهد داشت. به علاوه، این معیارها در مجموعه‌داده‌ های مختلف و حتی در کاربردهای مختلف از قبیل تشخیص، تقطیع، پیش‌بینی، طبقه‌بندی و… نقش متفاوتی ایفا می‌کنند.

باید به این نکته توجه داشت که هیچ راهکار بی‌نقصی برای مقابله با داده‌های گمشده یا ناموجود وجود ندارد. راه‌حل‌های مختلفی وجود دارند اما نوع مسئله حائز اهمیت است (تحلیل سری زمانی، یادگیری ماشین، رگرسیون و…).

نکته مهم درباره روش‌های پیش‌بینی‌کننده این است که این روش‌ها زمانی استفاده می‌شوند که مقادیر گمشده با سایر مقادیر معلوم ارتباط دارند. در کل، می‌توان از الگوریتم‌های مختلف یادگیری ماشین برای مشخص کردن داده‌های گمشده استفاده کرد.

این کار با تبدیل ویژگی‌های گمشده به برچسب انجام می‌شود به طوری که از ستون‌های بدون مقدار گمشده جهت پیش‌بینیِ ستون‌های دارایِ مقادیر گمشده استفاده می‌شود. بر اساس تجربه، اگر تصمیم دارید راه‌حلی مبتنی بر هوش مصنوعی ارائه دهید، احتمال دارد در جایی با کمبود داده یا داده‌های گمشده مواجه شوید. اما خوشبختانه، راه‌حل‌هایی برای تبدیل این محدودیت کمبود داده به فرصت وجود دارد.

کمبود داده

همان‌طور که در بالا اشاره شد، تخمینِ میزان حداقلیِ داده‌های لازم برای یک پروژه هوش مصنوعی غیرممکن است. واضح است که ماهیت پروژه، تاثیر شگرفی بر میزان داده‌هایی که نیاز دارید خواهد گذاشت. برای مثال، متون، تصاویر و فیلم‌ها معمولاً به داده بیشتری نیاز دارند. با این حال، باید چندین عامل دیگر را نیز برای تخمین دقیق در نظر گرفت.

تعداد دسته ها
خروجی مورد انتظارتان از مدل چیست؟ اساساً، هرقدر تعداد دسته‌ها کمتر باشد، نتیجه بهتر است.

عملکرد مدل
شاید دیتاست کوچک در اثبات مفهوم به قدر کافی خوب باشد، اما در تولید به داده‌های بیشتری نیاز است.

در کل، دیتاست‌های کوچک مستلزم مدل‌هایی هستند که پیچیدگی کمتری دارند تا از بیش‌برازش اجتناب شود.

راه‌حل‌های غیرفنی
پیش از اینکه راه‌حل‌های فنی را بررسی کنیم، بیایید ببینیم از چه راهکارهایی می‌توان برای ارتقای دیتاست و رفع کمبود داده استفاده کرد. شاید نیازی به گفتن نباشد اما قبل از اینکه کار هوش مصنوعی را آغاز کنید، سعی کنید با توسعه ابزارهای درونی، بیرونی و روش‌های گردآوری داده، تا آنجا که می‌توانید داده جمع کنید. اگر می‌دانید انجام چه کارهایی از الگوریتم یادگیری ماشین انتظار می‌رود، می‌توانید به ساخت یک سازوکار گردآوری داده بپردازید.

سعی کنید فرهنگ استفاده از داده واقعی را در سازمان رواج دهید

برای آغاز فرایند اجرای یادگیری ماشین، باید از داده‌های منبع باز استفاده کنیم. داده‌های فراوانی برای یادگیری ماشین وجود دارند که برخی از شرکت‌ها برای قرار دادن آن‌ها در دسترس دیگران اعلام آمادگی کرده‌اند. اگر به داده‌های بیرونی در پروژه‌تان احتیاج دارید، شاید بهتر باشد به همکاری با سایر سازمان‌ها بپردازید تا داده‌های مورد نیاز خود را به دست آورید. بی‌تردید شراکت با سایر سازمان‌ها هزینه‌هایی را به همراه خواهد داشت، اما دریافت داده‌های اختصاصی یک مانع طبیعی برای رقبا ایجاد می‌کند.

یک نرم‌افزار مفید بسازید، آن را منتشر و از داده‌ها استفاده کنید

یکی دیگر از روش‌هایی که استفاده کردیم، دادنِ دسترسی به کاربران برای استفاده از یک نرم‌افزار ابری بود. داده‌هایی که در ساخت نرم‌افزار به کار برده می‌شود، می‌تواند برای ایجاد مدل‌های یادگیری ماشین نیز استفاده شود. یکی از همکاران ما چندی پیش یک نرم‌افزار برای بیمارستان‌ها ساخت و آن را در دسترس همه قرار داد. ما به لطف آن نرم‌افزار، داده‌های زیادی را جمع‌آوری کردیم و توانستیم دیتاست منحصربه‌فردی برای راه‌حل یادگیری ماشین‌مان ایجاد کنیم.

وقتی مشتریان یا سرمایه‌گذاران متوجه شوند که خودتان مجموعه‌دادۀ منحصربه‌فردی را درست کرده‌اید، با دید دیگری به شما نگاه می‌کنند و این خیلی خوب است.کمبود داده

مجموعه‌داده‌های کوچک

برخی از رایج‌ترین روش‌هایی که می‌توان از آن‌ها برای ساخت مدل‌های پیش‌بینی‌کننده با مجموعه‌داده‌های کوچک استفاده کرد، به شرح زیر است.کمبود دادهدر کل، هرقدر الگوریتم یادگیری ماشین ساده‌تر باشد، از مجموعه‌داده‌های کوچک به شیوه بهتری یاد می‌گیرد. از دید یادگیری ماشین، داده‌های کوچک به مدل‌هایی با پیچیدگی کمتر نیاز دارند تا از بیش‌برازش دوری شود. الگوریتم «Naïve Bayes» از جمله ساده‌ترین طبقه‌بندی‌کننده‌ها به شمار می‌رود و قابلیت این را دارد تا از مجموعه‌داده‌های نسبتاً کوچک به خوبی یاد بگیرد.

 

روش‌های «Naïve Bayes»: مجموعه‌‌ای از الگوریتم‌های یادگیریِ بانظارت، بر پایه استفاده از قضیه بیزی با فرضِ ساده ابتداییاستقلال شرطی میان هر جفت از ویژگی ها به شرط دانستن مقدار متغیر کلاس.

امکان استفاده از سایر مدل‌های خطی و درخت‌های تصمیم وجود دارد. این مدل‌ها می‌توانند در مجموعه‌داده‌های کوچک عملکرد نسبتاً خوبی از خود بر جای بگذارند. اساساً، مدل‌های ساده قادرند بهتر از مدل‌های پیچیده‌تر (شبکه‌های عصبی) از مجموعه‌داده‌های کوچک یاد بگیرند، زیرا دنبال یادگیری کمتری هستند.

روش‌های بیزی در مجموعه‌داده‌های کوچک بهترین عملکرد را دارند، هرچند که عملکرد آن به چگونگی انتخاب فرض پیشین بستگی داد. از دید ما، «Naïve Bayes» و رگرسیون ستیغی بهترین مدل‌های پیش‌بینی هستند.کمبود دادهدر مجموعه‌داده‌های کوچک، به مدل‌هایی نیاز داریم که پارامترهای کمتری دارند (پیچیدگی کمتر). البته بسته به ماهیت مسائل کسب‌وکار و اندازه مجموعه‌داده، چندین راه‌حل دیگر هم وجود دارد.

یادگیری انتقال

چارچوبی است که از مدل‌ها یا داده‌های مرتبطی که وجود دارند استفاده می‌کند و در عین حال به ساختِ یک مدل یادگیری ماشین می‌پردازد. یادگیری انتقال از دانش حاصل از کاری که پیشتر یاد گرفته شده استفاده می‌کند تا عملکرد سیستم را بهبود بخشد.

بنابراین، کاهش میزان داده‌های آموزشیِ لازم را در دستور کار خود قرار می‌دهد. روش‌های یادگیری انتقال خیلی مفید هستند زیرا این فرصت را در اختیار مدل‌ها می‌گذارند تا با استفاده از دانشِ حاصل از مجموعه‌‌داده دیگر یا مدل‌های یادگیری ماشینیِ موجود پیش‌بینی کنند. روش‌های یادگیری انتقال باید زمانی مد نظر قرار گیرند که داده‌های آموزشیِ هدفِ کافی در اختیار نداشته باشیم و قلمروهای هدف و مبدأ میان مدل موجود و مدل مطلوب به یکدیگر شباهت دارند، اما کاملاً یکسان نیستند.کمبود داده
انباشتن ساده‌لوحانۀ مدل‌ها یا مجموعه‌داده‌های مختلف همیشه کارساز نیست! اگر مجموعه‌داده‌های موجود تفاوت زیادی با داده‌های هدف داشته باشند، در این صورت مدل‌ها یا داده‌های موجود، بر یادگیرندۀ جدید تاثیر منفی می‌گذارند.
یادگیری انتقال زمانی به خوبی عمل می‌کند که بتوانید از مجموعه‌داده‌های دیگر برای استنتاجِ دانش استفاده کنید، اما اگر هیچ داده‌ای نداشته باشید چه اتفاقی می‌افتد؟

اینجاست که تولید داده می‌تواند نقش مهمی ایفا کند و مشکل کمبود داده به چشم می‌آید. این روش در صورت نبودِ داده یا زمانی که داده‌های بیشتری تولید می‌کنید، استفاده می‌شود. در این مورد، داده‌های کمی که وجود دارند، اصلاح می‌شوند تا زمینه برای آموزش داده فراهم شود.
برای مثال، می‌توان با کراپ کردن یک عکس از خودرو چندین عکس از آن ایجاد کرد. متاسفانه، نبودِ داده‌های برچسب‌دارِ باکیفیت، یکی از بزرگ‌ترین چالش‌هایی است که متخصصان داده با آن مواجه هستند، اما استفاده از روش‌هایی مثل یادگیری انتقال و تولید داده، می‌تواند مشکلِ کمبود داده را حل کند.

یکی دیگر از کاربردهای رایج یادگیری انتقال، آموزشِ مدل‌ها در مجموعه‌داده‌های کاربران برای رفع مشکل شروع-سرد است. وقتی شرکت‌های SaaS برای محصولات یادگیری ماشین‌شان مشتریان جدید پیدا می‌کنند، معمولاً با این مشکل روبرو می‌شوند. در واقع، تا زمانی که مشتری جدید بتواند داده‌های کافی برای رسیدن مدل به عملکرد مناسب (که شاید چند ماه طول بکشد)، باید نکاتی را در نظر گیرد.

داده‌افزایی 

داده‌افزایی به معنای افزایش تعداد نقاط داده‌ای است. ما در تازه‌ترین پروژه‌مان از روش‌های داده‌افزایی برای افزایش تعداد عکس‌ها در مجموعه‌داده‌مان استفاده کرده‌ایم. داده‌افزایی از منظر داده‌های فرمت ردیف/ستون، به معنایِ افزایش تعداد ردیف‌ها یا اشیا است. ما به دو دلیل مجبور بودیم بر داده‌افزایی تکیه کنیم: زمان و دقت.

فرایندهای گردآوری داده، هزینه‌هایی به دنبال دارند. این هزینه می‌تواند در قالب پول، فعالیت‌های انسانی، منابع محاسباتی و زمان نمایان شود. متعاقباً، مجبور به افزودن داده‌ بودیم تا اندازه داده‌هایی که در طبقه‌بندی‌کننده‌های یادگیری ماشین به کار می‌بریم، افزایش پیدا کند و هزینه‌های مربوط به گردآوری داده جبران شود.کمبود داده

راه‌های زیادی برای داده‌افزایی وجود دارد

در این مورد، امکان چرخش تصویر، تغییر شرایط روشنایی و قطع متفاوت آن وجود دارد. پس می‌توان زیرنمونه‌های مختلفی برای یک تصویر ایجاد کرد. به این ترتیب، قادر خواهید بود از میزان بیش‌برازش طبقه‌بندی کننده کم کنید. با این حال، اگر در حال ایجاد داده‌های مصنوعی با استفاده از روش‌هایی مثل SMOTE هستید، احتمال دارد بیش‌برازش اتفاق بیفتد.

مدل بیش‌برازش شده به مدلی گفته می‌شود که خطاهای موجود در داده‌های که رو آنها آموزش دیده را نشان می‌دهد ویلی پیش‌بینیِ دقیقِی برای داده‌های مشاهده نشده ارائه نمیدهد. باید در هنگام توسعه راه‌حل هوش مصنوعی به این مورد توجه داشته باشید.کمبود داده

داده‌های مصنوعی

داده‌های مصنوعی به آن دسته از داده‌های ساختگی اشاره می‌کند که حاوی طرح‌ها و ویژگی‌های آماریِ یکسان با داده‌های واقعی است. اساساً، این داده‌ها به قدری واقعی به نظر می‌رسند که تفکیک‌شان تقریباً غیرممکن است. خب، هدف از به‌کارگیری داده‌های مصنوعی چیست؟ اگر به داده‌های واقعی دسترسی داریم، چه لزومی دارد از داده‌های مصنوعی استفاده کنیم؟

به‌کارگیری داده‌های مصنوعی، زمان سروکار داشتن با داده‌های خصوصی (بانکداری، مراقبت‌های پزشکی و غیره) هم رخ داده است. این موضوع باعث می‌شود استفاده از داده‌های مصنوعی به روشی امن و مطمئن تبدیل شود. داده‌های مصنوعی عمدتاً زمانی مورد استفاده قرار می‌گیرند که داده واقعی به مقدار کافی وجود نداشته باشد و با کمبود داده مواجه باشیم یا داده‌های واقعیِ کافی برای الگوهای مد نظر شما در دسترس نباشند.

روش «SMOTE» و «Modified – SMOTE» به تولید داده‌های مصنوعی می‌پردازند. «SMOTE» از نقاط داده‌ای اقلیت استفاده کرده و نقاط داده‌ای جدیدی ایجاد می‌کند که بین دو نقطه داده نزدیک واقع شده‌اند. این الگوریتم، فاصله میان دو نقطه داده را در فضای ویژگی محاسبه می‌کند؛ فاصله را به عددی تصادفی بین صفر و یک ضرب می‌کند و نقطه داده جدید را در این فاصله جدید قرار می‌دهد.

برای اینکه اقدام به ایجاد داده‌های مصنوعی کنید، باید از یک مجموعه آزمایشی برای تعریف مدل استفاده کنید که این کار به اعتبارسنجی نیاز دارد. آنگاه می‌توانید با تغییر پارامترهای دلخواه، داده‌های مصنوعی را ایجاد کنید.

کمبود داده

منبع: hooshio.com