برچسب بینایی ماشین - مجله هوش مصنوعی

یک مدل یادگیری ماشین که می‌تواند کارهای روزمره ما را انجام دهد

محققان یک مدل یادگیری ماشین را آموزش می دهند تا بتواند عملکردی هم سطح انسان در شناخت مفاهیم انتزاعی موجود در فیلم ها داشته باشد.

توانایی استدلال انتزاعی درباره وقایع لحظه‌ای یکی از شاخص‌های تعیین‌کننده هوش انسانی است. ما به‌طور غریزی می‌دانیم که گریه‌ کردن و نوشتن، ابزارهایی برای برقراری ارتباط هستند و پاندایی که از روی درخت سقوط می‌کند و هواپیمایی که فرود می‌آید نشانگر کم شدن شاخص ارتفاع است. کامپیوترها از عهده دسته‌بندی جهان در طبقات انتزاعی بر نمی‌آیند اما در سال‌های اخیر محققان با آموزش مدل‌های یادگیری به این هدف نزدیک‌تر شده‌اند. این مدل‌ها در مورد کار روی کلمات و تصاویری که با اطلاعات دنیای پیرامونمان ترکیب‌ شده‌اند و چگونگی ارتباط اشیاء، حیوانات و کنش‌ها و رفتارهای ما است.

در یک مطالعه جدید که در کنفرانس اروپایی بینایی ماشین در ماه گذشته برگزار شد ، محققان از یک مدل ترکیبی از بینایی ماشین و پردازش زبان طبیعی رونمایی کردند که می‌تواند مجموعه‌ای از رویدادهای پویای ضبط‌ شده در فیلم را با هم مقایسه کند یا تضاد بین آن‌ها را نشان دهد تا به مفاهیم سطح بالایی که آن‌ها را به هم متصل می‌کند، پی برد. مدل آن‌ها در دو نوع استدلال بصری، یا به‌ خوبی انسان عمل کرده یا بهتر از انسان‌ها بوده است؛ انتخاب ویدئویی که به‌طور مفهومی به بهترین شکل مجموعه را کامل می‌کند و انتخاب ویدئویی که مناسب نیست.

به‌ عنوان ‌مثال فیلم‌هایی از پارس کردن یک سگ و زوزه کشیدن یک مرد در کنار سگ خود را به سیستم نشان دادند و مدل برای کامل کردن این مجموعه از تصاویر از بین ۵ کلیپ، ویدیوی مربوط به گریه کردن یک کودک را انتخاب کرد. محققان نتایج خود را در دو دیتاست برای آموزش سیستم‌های هوش مصنوعی در تشخیص عمل تکرار کردند: MIT’s Multi-Moments in Time و Deep Mind’s Kinetics.

آود اولیوا نویسنده ارشد این مقاله که دانشمند ارشد تحقیقات در MIT است دراین‌باره می‌گوید: “ما نشان دادیم که شما می‌توانید توانایی درک مفاهیم انتزاعی را در سیستم‌های هوش مصنوعی ایجاد کنید تا بتوانند کارهای مربوط به استدلال بصری را در سطحی نزدیک به سطح انسان‌ها انجام دهند. مدیر آزمایشگاه هوش مصنوعی MIT-IBM Watson نیز می‌گوید “مدلی که بتواند وقایع و مفاهیم انتزاعی را تشخیص دهد پیش‌بینی‌های منطقی و دقیق‌تری را ارائه می‌دهد و برای تصمیم‌گیری مفیدتر است.”

هم‌زمان که شبکه‌های عصبی عمیق در تشخیص اشیاء و کنش‌های موجود در عکس‌ها و فیلم‌ها توانمندتر می‌شوند، محققان در حال کار روی نقطه عطف بعدی هستند؛ یعنی انتزاع و آموزش مدل‌ها برای آنکه بتوانند درباره آنچه می‌بینند استدلال کنند. در یک رویکرد، محققان قدرت تطبیق الگوهای شبکه‌های عمیق را با منطق برنامه‌های نمادین تلفیق کرده‌اند تا یک مدل آموزش دهند که بتواند روابط پیچیده اشیا را در یک صحنه تفسیر کند. رویکرد دیگر این است که محققان از روابط موجود در معنای کلمات بهره ببرند تا به مدل خود قدرت استدلال بصری دهند.

ماتیو مونفورت یکی از نویسندگان این مقاله که از محققان آزمایشگاه علوم رایانه‌ای و هوش مصنوعی MIT است می‌گوید: “بازنمایی‌های زبانی به ما امکان می‌دهد تا اطلاعات متنی آموخته‌شده از پایگاه داده‌های متنی را در مدل‌های تصویری خود ادغام کنیم. کلماتی مانند دویدن، بلندکردن و بوکس دارای برخی از ویژگی‌های مشترک هستند که باعث می‌شود آن‌ها را بیشتر به مفهوم ورزش نزدیک کند تا رانندگی.

محققان با استفاده از WordNet که یک پایگاه داده‌ای از معانی کلمات است، رابطه هربرچسب موجود در دو دیتاست Moments و Kinetics را با سایر برچسب‌های هر دو دیتاست ترسیم کردند. به‌عنوان‌مثال کلماتی مانند مجسمه‌سازی، کنده‌کاری و برش به مفاهیم سطح بالاتری همچون صنایع‌دستی، هنر و آشپزی مرتبط شدند. ازاین‌ پس هرگاه مدل فعالیتی مانند مجسمه‌سازی را تشخیص دهد، می‌تواند فعالیت‌های مشابه مفهومی را در دیتاست انتخاب کند.

این گراف وابستگی مربوط به طبقه‌های انتزاعی برای آموزش مدل به منظور انجام دو کار اساسی استفاده می‌شود. با توجه به مجموعه‌ای از ویدئوها، مدل به هر ویدیو عددی اختصاص می‌دهد که با همان کلماتی که بیانگر اقدامات نشان داده‌شده در ویدئو است همسو هستند. سپس یک ماژول انتزاعی با عدد اختصاص داده‌شده به هر ویدئو در مجموعه ترکیب می‌شود تا شماره اختصاصی مجموعه جدید ایجاد شود. به ‌این ترتیب از این می‌توان برای شناسایی دیگر مفاهیم انتزاعی به اشتراک گذاشته‌شده از طریق همه فیلم‌های مجموعه استفاده شود.

محققان برای سنجش نحوه عملکرد این مدل در مقایسه با انسان‌ها، از افراد خواستند که همان مجموعه وظایف استدلال بصری را که مدل انجام داده به‌صورت آنلاین انجام دهند. در کمال تعجب، این مدل در بسیاری از سناریوها عملکردی به‌خوبی برخی از انسان‌ها داشت و حتی گاهی اوقات نتایج غیرمنتظره بود. در یک سنجش دیگر، به مدل ویدیویی از فردی که در حال کادو کردن است نشان دادند سپس مدل ویدیویی را از فردی در ساحل نشان می‌دهد که در حال ریختن ماسه بر روی شخص دیگری است. کامیلو فوسکو، دانشجوی دکترای MIT که نویسنده اول این مقاله است می‌گوید: این مفهوم پوشاندن را به‌خوبی نشان می‌دهد.

تمایل به تأکید بیش ‌از حد روی برخی از ویژگی‌ها از معایب و محدودیت‌های این مدل است. به‌طور مثال در یک مورد مدل پیشنهاد داد مجموعه‌ای از فیلم‌های ورزشی را می‌توان با یک فیلم از یک کودک و یک توپ تکمیل کند که نشان می‌دهد مدل، توپ‌ها را همواره با ورزش و رقابت همراه می‌کند.

محققان می‌گویند یک مدل یادگیری عمیق که می‌تواند برای “فکر کردن” به‌صورت انتزاعی آموزش ببیند ممکن است بتواند با داده‌های کمتری نیز قابلیت یادگیری را داشته باشد. به‌طورکلی انتزاع راه را برای استدلال‌های سطح بالاتر و انسانی‌تر باز می‌کند.

اولیوا می‌گوید: یکی از ویژگی‌های بارز شناخت انسان این است که می‌تواند چیزهای مختلف را در رابطه باهم توصیف و مقایسه کند یا تضاد بین آن‌ها را مشخص نماید. این یک روش غنی و کارآمد برای یادگیری است که درنهایت می‌تواند به انواع مدل یادگیری ماشین آموزش داده شود تا قیاس‌ها را درک کنند و ازنظر هوشمندی بسیار به ما نزدیک‌تر هستند.

منبع: hooshio.com

یادگیری ماشین هوش مصنوعی کاربردهای هوش مصنوعی پردازش زبان طبیعی بینایی ماشین تشخیص اشیاء یادگیری ماشین در زندگی روزمره هوش مصنوعی در زندگی روزمره

ai-magazine سه‌شنبه 11 آذر 1399 ساعت 12:27

0 نظر

بهترین دیتاست ‌های یادگیری ماشینی برای مبتدیان

اگر به شیوه‌های آموزش الگوریتم‌های یادگیری ماشینی در ۵ یا ۱۰ سال گذشته بنگرید و آن را با شیوه‌های جدید مقایسه کنید، متوجه تفاوت‌های بزرگی می‌شوید. امروزه آموزش الگوریتم‌ها در یادگیری ماشینی بهتر و کارآمدتر از گذشته است و دلیل آن نیز حجم زیاد داده‌هایی است که امروزه در دسترس ما قرار گرفته‌اند. اما یادگیری ماشینی چگونه از این داده‌های استفاده می‌کند؟
به تعریف اصطلاح «یادگیری ماشینی» دقت کنید: «در یادگیری ماشینی، رایانه‌ها یا ماشین‌ها بدون برنامه‌نویسی مستقیم و به‌طور خودکار از تجربیات گذشته می‌آموزند». منظور از آموزش ماشین‌ها درواقع همان عبارت «از تجربیات می‌آموزند» است. طی این فرآیند، داده‌ها و اطلاعات نقش مهمی ایفا می‌کنند. اما ماشین‌ها چگونه آموزش داده می‌شوند؟ پاسخ دیتاست‌ها هستند. به همین دلیل است که دادن اطلاعات و داده‌های درست به ماشینی که قرار است مسئله مدنظر شما را حل کند، مسئله‌ای حیاتی است. در این مقاله دیتاست های یادگیری ماشینی را معرفی می‌کنیم.

اهمیت دیتاست‌ها در یادگیری ماشینی چیست؟

پاسخ این است که ماشین‌ها نیز همچون انسان‌ها توانایی یادگیری مسائل را دارند و تنها کافی است اطلاعات مرتبط با آن موضوع را مشاهده کنند. اما تفاوت آن‌ها با یک انسان، در مقدار داده‌ای است که برای یادگیری یک موضوع نیاز دارند. داده‌هایی که به یک ماشین می‌دهید، از لحاظ کمیت باید چنان باشد که ماشین درنهایت، کاری که از آن خواسته‌اید را انجام دهد. به همین دلیل، برای آموزش ماشین‌‌ها به حجم زیادی از داده‌ها نیاز داریم.

داده‌های یادگیری ماشینی را می‌توان مشابه داده‌های جمع‌آوری‌شده برای انجام یک پژوهش درنظر گرفت، بدین معنا که هر چه حجم داده‌های نمونه شما بزرگ‌تر و نمونه گیری شما کامل‌تر باشد، نتایج حاصل از آن پژوهش معتبرتر خواهد بود. اگر حجم نمونه کافی نباشد، نمی‌توانید تمامی متغیرها را مدنظر قرار دهید. این مسئله منجر به کاهش دقت یادگیری و استخراج ویژگی های میشود که اصلا بیانگر داده ها نیستند و در نهایت استنتاج اشتباه ماشین خواهد شد.

دیتاست‌ها داده‌های موردنیاز شما را در اختیارتان قرار می‌دهند. دیتاست‌ها مدلی آموزش می‌دهند که قادر است واکنش‌های مختلفی نشان دهد. آن‌ها مدلی از الگوریتم‌ها می‌سازند که می‌تواند روابط را آشکار کند، الگوها را تشخیص دهد، مسائل دشوار را درک کند و تصمیم بگیرد.

نکته مهم در استفاده از دیتاست‌ها این است که دیتاست موردنیاز خود را به‌درستی انتخاب کنید. یعنی دیتاستی را انتخاب کنید که دارای فرمت مناسب و ویژگی‌ها و متغیرهای معناداری در رابطه با پروژه شما باشد، زیرا عملکرد نهایی سیستم به آن‌چه که از داده‌ها یاد گرفته، بستگی دارد. علاوه براین، دادن داده‌های درست به ماشین، متضمن این خواهد بود که ماشین عملکرد کارآمدی داشته باشد و بتواند بدون دخالت انسان، به نتایج دقیقی برسد.

برای مثال، اگر برای آموزش یک سیستم بازشناسی گفتار از دیتاستی حاوی داده‌های مربوط به کتب درسی انگلیسی زبان استفاده کنیم، این ماشین در درک مطالب غیر درسی دچار مشکل خواهد شد. زیرا در این دیتاست، داده‌های مربوط به دستورزبان محاوره‌ای، لهجه‌های خارجی و اختلالات گفتاری وجود ندارد و ماشین نیز نمی‌تواند چیزی در این خصوص بیاموزد. بنابراین، برای آموزش این سیستم باید از دیتاستی استفاده کرد که متغیرهای گسترده‌ای که در زبان محاوره و در بین جنسیت‌های مختلف، سنین متفاوت و لهجه‌های مختلف وجود دارد را شامل شود.

بنابراین، باید بخاطر داشته باشید که داده‌های آموزشی شما باید هر سه ویژگی کیفیت، کمیت و تنوع را داشته باشند، زیرا تمامی این عوامل در موفقیت مدل‌های یادگیری ماشینی مؤثر هستند.

برترین دیتاست ‌های یادگیری ماشینی برای مبتدیان

امروزه دیتاست‌های فراوانی برای استفاده در فرآیند یادگیری ماشینی دردسترس قرار گرفته‌اند. به همین دلیل، ممکن است مبتدیان در تشخیص و انتخاب دیتاست درست برای یک پروژه دچار سردرگمی شوند.
بهترین راه‌حل برای این مسئله، انتخاب دیتاستی است که به‌سرعت دانلود و با مدل سازگار شود. به‌علاوه، همیشه از دیتاست‌های استاندارد، قابل‌درک و پرکاربرد استفاده کنید. بدین ترتیب، شما می‌توانید نتایج کارتان را با نتایج حاصل از کار سایر افرادی که از همان دیتاست استفاده کرده‌اند، مقایسه کنید و پیشرفت خود را بسنجید.
دیتاست خود را می‌توانید براساس نتیجه‌ای که از فرآیند یادگیری ماشین انتظار دارید، انتخاب نمایید. در ادامه، مروری خلاصه بر پرکاربردترین دیتاست‌ها در حوزه‌های مختلف یادگیری ماشینی از پردازش تصویر و ویدیو گرفته تا بازشناسی متن سیستم‌های خودمختار خواهیم داشت.

پردازش تصویر

همان‌طور که گفته شد، دیتاست‌های یادگیری ماشینی متعددی در دردسترس ما قرار دارند، اما برای انتخاب دیتاست باید کارکردی که از برنامه کاربردی خود انتظار دارید را درنظر بگیرید. پردازش تصویر در یادگیری ماشینی برای پردازش تصاویر و استخراج اطلاعات مفید از آن‌ها به‌کار گرفته می‌شود.برای مثال، اگر روی یک نرم‌افزار ساده تشخیص چهره کار می‌کنید، می‌توانید آن را با استفاده از دیتاستی که حاوی تصاویری از چهره انسان‌هاست، آموزش دهید. این همان روشی است که فیس‎بوک برای شناسایی یک فرد در عکس‌های دسته‌جمعی استفاده می‌کند. همچنین، گوگل و سایت‌های جست‌وجوی تصویری محصول نیز در بخش جست‌وجوی تصویری خود از چنین دیتاست‌هایی استفاده کرده‌اند.

نام دیتاست	توضیح مختصر
۱۰k US Adult Faces Database	این دیتاست شامل ۱۰.۱۶۸ عکس از چهره طبیعی افراد و ۲.۲۲۲ معیار از چهره است. برخی از معیارهایی که در این دیتاست برای چهره‌ درنظر گرفته شده‌اند عبارتند از: به‌یادماندنی بودن، بینایی یارانه‌ای و صفات روانشناختی. تصاویر این دیتاست در فرمت JPEG هستند، وضوح تصاویر ۷۲ پیکسل در هر اینچ و ارتفاع آن‌ها‌ها ۲۵۶ پیکسل است.
Google’s Open Images	Open Image دیتاستی است متشکل از ۹ میلیون نشانی اینترنتی که شما را به تصاویر موجود در اینترنت هدایت می‌کند. این تصاویر دارای برچسب‌های توضیحی هستند که در ۶۰۰۰ دسته مختلف طبقه‌بندی شده‌اند. این برچسب‌ها بیشتر عناصر واقعی را شامل می‌شوند. تنها تصاویری در این دیتاست قرار می‌گیرند که مجوز انتساب مشترکات خلاقانه را دریافت کرده باشند.
Visual Genome	این دیتاست حاوی بیش از ۱۰۰ هزار تصویر است که کاملاً تفسیر شده‌اند. نواحی هر یک از این تصاویر به‌ این صورت توصیف شده‌اند؛ توضیح ناحیه: دختری که به فیل غذا می‌دهد، شیء: فیل، صفت: بزرگ، رابطه: غذا دادن.
Labeled Faces in the Wild	در این دیتاست بیش از ۱۳.۰۰۰ تصویر از چهره افراد جمع‌آوری شده است. این تصاویر، تصاویری هستند که در فضای اینترنت به ‌اشتراک گذاشته‌ شده بودند و در برچسب هر تصویر، نام فرد درون تصویر ذکر شده است.

ایده‌هایی‌ آسان و سرگرم‌کننده برای استفاده از دیتاست‌های تصویری

• گربه یا سگ: با استفاده از دیتاست گربه‌ها و دیتاست استنفورد که حاوی تصاویر سگ‌ها است، برنامه شما می‌تواند تشخیص دهد که در تصویر داده‌شده، سگ وجود دارد یا گربه؟
• طبقه‌بندی گل‌های زنبق: می‌توانید به کمک دیتاست گل‌های زنبق یک برنامه کاربردی مبتنی بر یادگیری ماشینی طراحی کنید که گل‌ها را در ۳ گونه گیاهی طبقه‌بندی کند. با اجرای این پروژه دسته‌بندی صفات فیزیکی برپایه محتوا را خواهید آموخت که به شما در طراحی برنامه‌ها و پروژه‌های کاربردی همچون ردیابی کلاه‌برداری،شناسایی مجرمین، مدیریت درد (برای مثال، برنامه ePAT را درنظر بگیرید که با استفاده از فن‌آوری تشخیص چهره، نشانه‌های درد را در صورت فرد شناسایی می‌کند.) و غیره کمک می‌کند.
• هات‌داگ است یا نه؟: برنامه شما با استفاده از دیتاست Food 101، قادر خواهد بود تا غذاها را شناسایی کند و به شما بگوید که آیا این غذا ساندویچ هات‌داگ است یا خیر.

تحلیل احساس

حتی مبتدیان نیز می‌توانند با استفاده از دیتاست‌های تحلیل احساس برنامه‌های جالبی طراحی کنند. در یادگیری ماشینی می‌توان ماشین‌ها را با به‌کارگیری دیتاست‌های تحلیل احساس به نحوی آموزش داد که عواطف و احساسات موجود در یک جمله، یک کلمه یا یک متن کوتاه را تحلیل و پیش‌بینی کنند. به‌طور معمول، از این قبیل برنامه‌ها برای تحلیل فیلم‌ها و نظرات مشتریان درمورد محصولات استفاده می‌شود. اگر کمی خلاقیت به خرج دهید، می‌توانید برنامه‌ای طراحی کنید که با استفاده از تحلیل‌های احساسی، موضوعی که بحث‌برانگیزتر از سایرین خواهد بود را شناسایی کند.

نام دیتاست	توضیح مختصر
Sentiment140	این دیتاست حاوی ۱۶۰.۰۰۰ توییت است که شکلک‌های استفاده‌شده در آن‌ها حذف شده‌اند.
Yelp Reviews	این دیتاست یک دیتاست رایگان است که توسط شرکت Yelp منتشر شده و حاوی بیش از ۵ میلیون نظر درباره رستوران‌ها، فروشگاه‌ها، تفریح‌های شبانه، غذاها، سرگرمی‌ها و غیره است.
Twitter US Airline Sentiment	در این دیتاست داده‌های مربوط به خطوط هواپیمایی آمریکا در شبکه اجتماعی توییترT از سال ۲۰۱۵ جمع‌آوری شده و به هر یک از آن‌ها یکی از برچسب‌های مثبت، منفی و خنثی داده شده است.
Amazon reviews	در این دیتاست بیش از ۳۵ میلیون نظر ثبت‌شده در وب‌سایت آمازون طی دوره زمانی ۱۸ ساله جمع‌آوری شده است. داده‌های موجود شامل اطلاعاتی درخصوص محصولات، امتیاز کاربران و نظرات متنی هستند.

ایده‌هایی‌ آسان و سرگرم‌کننده برای استفاده از دیتاست‌های تحلیل احساسی

مثبت یا منفی: با استفاده از دیتاست Spambase در مدل خود، توییت‌ها را تحلیل کنید و آن‌ها در دو دسته مثبت و منفی طبقه‌بندی کنید.
راضی یا ناراضی: با استفاده از دیتاست Yelp Reviews پروژه‌ای تعریف کنید که در آن یک ماشین بتواند با مشاهده نظر یک فرد درخصوص یک محصول تشخیص دهد که فرد از آن محصول راضی بوده یا ناراضی.
خوب یا بد: می‌توانید با استفاده از دیتاست Amazon reviews، یک ماشین را به نحوی آموزش دهید که خوب یا بد بودن نظرات کاربران را تشخیص دهد.

پردازش زبان طبیعی

در فن‌آوری پردازش زبان طبیعی ماشین‌ها درجهت تحلیل و پردازش حجم زیادی از داده‌های مربوط به زبان‌های طبیعی آموزش می‌بینند. موتورهای جست‌وجو همچون گوگل به کمک این فن‌آوری می‌توانند آن‌چه شما در بخش جست‌وجو می‌نویسید را پیدا کنند. شما نیز می‌توانید با استفاده از این قبیل دیتاست‌ها، یک برنامه کاربردی جالب پردازش زبان طبیعی و مبتنی بر یادگیری ماشینی طراحی کنید.

نام دیتاست	توضیح مختصر
Speech Accent Archive	این دیتاست حاوی ۲۱۴۰ نمونه صوتی است که در آن‌ها افرادی از ۱۷۷ کشور و ۲۱۴ ریشه زبانی مختلف حضور دارند و متن واحدی را به زبان انگلیسی می‌خوانند.
Wikipedia Links data	این دیتاست حاوی تقریبا ۱.۹ میلیارد واژه است که از بیش از ۴ میلیون مقاله جمع‌آوری شده‌اند. در این دیتاست می‌توان واژه‌ها، عبارات یا بخشی از یک پاراگراف را جست‌وجو کرد.
Blogger Corpus	این دیتاست متشکل از ۶۸۱.۲۸۸ پست از وبلاگ‌های مختلف است که از وب‌سایت Blogger.com جمع‌آوری شده‌اند. در هر یک از این وبلاگ‌های منتخب، حداقل ۲۰۰ واژه پرکاربر انگلیسی استفاده شده است.

ایده‌هایی‌ جالب برای استفاده از دیتاست‌های پردازش زبان طبیعی:

• هرزنامه یا مفید: با استفاده از دیتاست Spambase می‌توانید برنامه‌ای طراحی کنید که قادر باشد ایمیل‌های هرزنامه را از ایمیل‌های مفید و خوب تشخیص دهد.

پردازش ویدیو

با استفاده از دیتاست‌های پردازش ویدیو، ماشین‌ شما می‌آموزد که صحنه‌های مختلف یک ویدیو و اشیاء، احساسات و کنش و واکنش‌های درون آن را شناسایی و تحلیل کند. به این منظور، شما باید حجم زیادی از داده‌های مربوط به واکنش‌ها، اشیاء و فعالیت‌ها را به ماشین خود بدهید.

نام دیتاست	توضیح مختصر
UCF101 – Action Recognition Data Set	این دیتاست شامل ۱۳.۳۲۰ ویدیو است که براساس عملی که در آن‌ها اتفاق می‌افتد در ۱۰۱ گروه دسته‌بندی شده‌اند.
Youtube 8M	Youtube 8M دیتاستی متشکل از تعداد زیادی ویدیوهای برچسب گذاری شده است. این دیتاست شامل شناسه‌های میلیون‌ها ویدیو از یوتیوب و تفسیرهای ماشینی بسیار باکیفیت از این ویدیوهاست. در این تفسیرهای ماشینی از بیش از ۳.۸۰۰ واژه مربوط به اشیاء دیداری استفاده شده است.

یک ایده جالب یرای استفاده از دیتاست‌های پردازش ویدیو

تشخیص عمل: با استفاده از دیتاست‌های UCF101 – Action Recognition Data Set یا Youtube 8M می‌توانیدبه برنامه کاربردی خود آموزش دهید تا اعمال مختلف چون راه‌رفتن یا دویدن را در یک ویدیو شناسایی کند.

تشخیص گفتار

تشخیص گفتار به این معناست که یک ماشین می‌تواند واژه‌ها و عبارات را در زبان گفتاری شناسایی یا تحلیل کند. اگر کیفیت و کمیت داده‌هایی که به ماشین خود داده‌اید مناسب باشد، عملکرد بهتری در حوزه تشخیص گفتار خواهد داشت. با ترکیب دو فن‌آوری پردازش زبان طبیعی و پردازش گفتار می‌توانید دستیار شخصی شبیه به الکسا طراحی کنید که بتواند خواسته شما را به درستی متوجه شود.

نام دیتاست	توضیح مختصر
Gender Recognition by Voice and speech analysis	این دیتاست براساس ویژگی‌های آوایی صدا و گفتار، صدای زنان را از مردان تمیز می‌دهد. این دیتاست حاوی ۳.۱۶۸ فایل صوتی ضبط‌شده از صدای زنان و مردان مختلف در هنگام سخن گفتن است.
Human Activity Recognition w/Smartphone	دیتاست Human Activity Recognition حاوی ویدیوهایی است که از ۳۰ فرد در حین انجام فعالیت‌های روزانه‌شان گرفته شده است. در حین انجام این فعالیت‌ها یک گوشی موبایل (سامسونگ گلکسی S2) نیز به کمر آن‌ها متصل شده بود.
TIMIT	از دیتاست TIMIT در مطالعات آواشناسی آکوستیک و توسعه سیستم‌های خودکار تشخیص گفتار استفاده می‌شود. این دیتاست متشکل از فایل‌های صوتی ضبط‌شده از ۶۳۰ نفر است که با ۸ گویش رایج انگلیسی آمریکایی صحبت می‌کردند. هر یک از افراد حاضر در این فرآیند باید کلمات، مصوت‌ها و جملاتی را می‌خواندند که از لحاظ آوایی بسیار غنی بودند.
Speech Accent Archive	این دیتاست حاوی ۲۱۴۰ نمونه صوتی است که در آن‌ها افرادی از ۱۷۷ کشور و ۲۱۴ ریشه زبانی مختلف حضور دارند و متن واحدی را به زبان انگلیسی می‌خوانند.

ایده‌هایی جالب برای استفاده از دیتاست‌های تشخیص گفتار

• تشخیص لهجه: با استفاده از دیتاست Speech Accent Archive، برنامه کاربردی شما قادر خواهد بود لهجه‌های مختلف را از میان لهجه‌های نمونه تشخیص دهد.
• شناسایی عمل: با استفاده از دیتاست Human Activity Recognition w/Smartphone می‌توانید برنامه‌ای طراحی کنید که فعالیت‌های انسان‌ را تشخیص دهد.

تولید زبان طبیعی

تولید زبان طبیعی به معنای توانایی ماشین‌ها در شبیه‌سازی گفتار انسان است. به کمک این فن‌آوری می‌توان مطالب نوشته‌شده را به فایل‌های شنیداری تبدیل کرد. همچنین این فن‌آوری می‌‌تواند با خواندن مطالبی که روی صفحه نقش بسته‌اند، به افراد کم‌بینا و دارای نقص بینایی کمک کند. این درواقع همان روشی است که دستیارهای هوشمندی چون الکسا و سیری به شما پاسخ می‌دهند.

نام دیتاست	توضیح مختصر
Common Voice by Mozilla	دیتاست Common Voice حاوی داده‌های گفتاری است که در وب‌سایت Common Voice توسط کاربران خوانده شده‌اند. متون خوانده شده در این وب‌سایت، از منابع عمومی همچون پست‌های کاربران در وبلاگ‌ها، کتاب‌های قدیمی و فیلم‌ها است.
LibriSpeech	این دیتاست شامل حدود ۵۰۰ ساعت فایل صوتی است. این فایل‌ها حاوی کتاب‌های صوتی هستند که توسط افراد مختلف و به زبانی روان خوانده شده‌اند. در این دیتاست فایل صوتی و متن اصلی هر کتاب به تفکیک فصول آن، موجود است.

ایده‌هایی جالب برای استفاده از دیتاست‌های تولید زبان طبیعی

• تبدیل متن به گفتار: با استفاده از دیتاست Blogger Corpus، می‌توانید برنامه‌ای طراحی کنید که متون موجود در وب‌سایت را با صدای بلند بخواند.

اتومبیل‌های خودران

شما نیز می‌توانید یک برنامه یادگیری ماشینی ساده برای اتومبیل‌های خودران طراحی کنید. دیتاست‌های یادگیری ماشینی موجود در حوزه اتومبیل‌های خودران برای درک محیط و هدایت خودرو بدون نیاز به دخالت انسان، به شما کمک خواهند کرد. از این الگوریتم‌ها می‌توان برای هدایت اتومبیل‌های خودران، پهبادها، ربات‌های انباردار و غیره استفاده کرد. اهمیت دیتاست‌ها در این حوزه بیشتر از سایر حوزه‌های یادگیری ماشینی است، زیرا ریسک دراین حوزه بیشتر است و هزینه یک اشتباه ممکن است جان یک انسان باشد.

نام دیتاست	توضیح مختصر
Berkeley DeepDrive BDD100k	این دیتاست یکی از بزرگ‌ترین دیتاست‌های موجود در حوزه اتومبیل‌های خودران مبتنی بر هوش مصنوعی است. این دیتاست حاوی بیش از ۱۰۰.۰۰۰ ویدیو از بیش از ۱۰۰۰ ساعت رانندگی در شرایط آب‌وهوایی ساعات مختلف روز می‌باشد.
Baidu Apolloscapes	Baidu Apolloscapes دیتاستی بزرگ متشکل از ۲۶ قلم شیء معنایی از جمله خودرو، دوچرخه، عابرین پیاده، ساختمان، چراغ برق و غیره است.
Comma.ai	این دیتاست حاوی بیش از ۷ ساعت ویدیو از رانندگی در بزرگراه است. این داده‌ها شامل اطلاعاتی درخصوص سرعت، شتاب، زاویه فرمان و مختصات مکانی خودرو می‌شوند.
Cityscape Dataset	این دیتاست متشکل از حجم زیادی از داده‌های ویدیوی تهیه‌شده از خیابان‌های ۵۰ شهر مختلف است.
nuScenes	این دیتاست حاوی بیش از ۱۰۰۰ تصویر از مناظر، حدود ۱.۴ میلیون تصویر، ۴۰۰.۰۰۰ داده درخصوص وسعت دید سیستم لیدار (سیستمی که با استفاده از لیزر، فاصله بین اجسام را می‌سنجد) و ۱.۳ میلیون کادر محاطی ۳ بعدی (که با کمک دوربین‌های RGB، رادارها و لیدار اشیاء را شناسایی می‌کند) است.

ایده‌هایی جالب برای استفاده از دیتاست‌های اتومبیل‌های خودران

• طراحی برنامه‌ای ساده برای اتومبیل‌های خودران: با استفاده از یکی از دیتاست‌های بالا و داده‌های مربوط به تجربیات مختلف رانندگی در شرایط آب‌وهوایی متفاوت، برنامه خود را آموزش دهید.

اینترنت اشیاء

کاربردهای یادگیری ماشینی در حوزه اینترنت اشیاء روزبه‌روز درحال گسترش است. شما به عنوان یک مبتدی در دنیای یادگیری ماشینی ممکن است دانش لازم برای طراحی برنامه‌های اینترنت اشیاء کاربردی و پیشرفته که از یادگیری ماشینی استفاده می‌کنند را نداشته باشید، اما قطعاً می‌توانید با شناخت دیتاست‌های مربوطه، به این دنیای شگفت‌انگیز قدم بگذارید.

نام دیتاست	توضیح مختصر
Wayfinding, Path Planning, and Navigation Dataset	این دیتاست حاوی نمونه‌هایی از مسیریابی درون یک ساختمان (کتابخانه Waldo در دانشگاه غرب میشیگان) است. این داده‌ها به‌طورمعمول در نرم‌افزارهای مسیریابی به‌کار گرفته می‌شوند.
ARAS Human Activity Dataset	این دیتاست یک دیتاست در حوزه تشخیص فعالیت‌های انسانی است که از ۲ خانوار واقعی جمع‌آوری شده که شامل بیش از ۲۶ میلیون داده از حسگرها و بیش از ۳۰۰۰ فعالیت انجام‌شده می‌باشد.

یک ایده جالب برای استفاده از دیتاست‌های اینترنت اشیاء:

• طراحی یک دستگاه پوشیدنی برای پیگیری فعالیت‌های افراد: با استفاده از دیتاست ARAS Human Activity Dataset، یک دستگاه پوشیدنی را آموزش دهید تا بتواند فعالیت‌های افراد را تمیز دهد.

پس از به پایان رساندن مطالعه این لیست‌ها، نباید احساس محدودیت کنید. این دیتاست‌ها تنها تعدادی از دیتاست‌هایی هستند که می‌توانید در برنامه‌های کاربردی مبتنی بر یادگیری ماشینی از آن‌ها استفاده کنید. در فضای اینترنت می‌توانید دیتاست‌های بهتری نیز برای پروژه یادگیری ماشینی خود پیدا کنید.

می‌توانید در وب‌سایت‌های Kaggle، UCI Machine Learning Repository، Kdnugget، Awesome Public Datasets, و Reddit Datasets Subredditدیتاست‌های بیشتری پیدا کنید.

حال وقت آن است که این دیتاست‌ها را در پروژه خود به کار بگیرید. اگر در حوزه یادگیری ماشینی مبتدی هستید این مقاله نیز در آشنایی بیشتر با این فن‌آوری به شما کمک خواهد کرد.
جدا از این که تازه‌کار هستید یا مدتی در دنیای یادگیری ماشینی فعالیت داشته‌اید، باید همواره به‌خاطر داشته باشید که دیتاستی را انتخاب کنید که پرکاربرد باشد و بتوان آن را به‌سرعت از یک منبع قابل‌اعتماد بارگیری کرد.

منبع: hooshio.com

دیتاست دیتاست های بینایی ماشین بینایی ماشین پردازش تصویر پردازش ویدئو پردازش زبان طبیعی یادگیری ماشین الگوریتم های یادگیری ماشین

ai-magazine یکشنبه 6 مهر 1399 ساعت 14:57

0 نظر

افزایش دقت مدل تشخیص چهره با روش متعادل‌ سازی هیستوگرام

اگر با فناوری تشخیص چهره و OpenCV کار کرده باشید می‌دانید که امتیاز تشخیص در چهره‌هایی که کنتراست واضح‌تری دارند، به طرز معناداری بالا است. حال این سوال پیش می‌آید که چطور می‌توان کنتراست تصاویر را بصورت خودکار ارتقاء داد؟ در بخش‌های بعدیِ مقاله، مفهومِ «متعادل‌ سازی هیستوگرام» را توضیح خواهیم داد. اگر این مطلب را تا آخر بخوانید، شیوه ارتقای امتیازِ تشخیص را یاد خواهید گرفت. در ابتدا باید بدانیم کنتراست در پردازش تصویر به چه معناست. در پایان، این مقاله چگونگیِ بکارگیری «روش متعادل ‌سازی هیستوگرام» بسیار پیشرفته‌ای را در تصاویر رنگی تبیین خواهد کرد. در این راستا، از الگوریتم متعادل ‌سازی هیستوگرام وفقی استفاده خواهیم کرد.

کنتراست تصویر چیست؟

به این تعریف ویکیپدیا توجه کنید: «اختلاف رنگ یا روشنایی باعث می‌شود یک شیء از سایر اشیاء در دامنه دید یکسان قابل‌تفکیک باشد.»
هر کسی که با عکاسی آشنایی داشته باشد، می‌داند که تعریف فوق منطقی است. آنچه مشکل ایجاد می‌کند، کنتراست زیاد یا کم است. این تعریف مستقیماً می‌گوید که به چه چیزی برای جداسازی اشیاء از پس‌زمینه‌شان نیاز است. باید روش کار بهینه باشد.

تفاوت بین تصویر‌ها با کنتراست کم و زیاد

تصویر سمت چپ کنتراست کمتری در مقایسه با تصویر سمت راست دارد. برخلاف تصویر سمت راست، خطوط و برجستگی‌های چهره سمت چپ به سختی قابل مشاهده هستند. اما باید به این نکته توجه داشت که اگر تصویر کنتراست بیش از حدی داشته باشد، اطلاعات ظریف از دست می‌روند. این مسئله می‌تواند موجب نگرانی متخصصان داده شود. اگر قبل از دسته‌بندی شیء به ارتقای کنتراست بپردازید، قدری از نویز کاسته می‌شود و مدل بهبود پیدا می‌کند. بنابراین، وقتی از یک الگوریتم برای ارتقای کنتراست استفاده می‌کنید، دست از زیاده‌روی بردارید.

متعادل‌ سازی هیستوگرام

متعادل ‌سازی هیستوگرام یک روش پردازش تصویر برای تنظیم شدت آن تصویر است. این کار به ارتقای کنتراست تصویر کمک شایانی می‌کند. می‌توان از یک هیستوگرام برای توضیح این کار استفاده کرد. هیستوگرامِ متعادل‌سازی شده به این معناست که تصویر از همه سطوح خاکستری با نسبت برابر استفاده می‌کند. افزون براین، شدت به شکل بهتری در هیستوگرام توزیع می‌شود. تصویرِ زیر این توضیحات را به خوبی نشان می‌دهد؛ حرف T بیانگر تابع تبدیل است. افرادی که تا حدی با آمار آشنایی دارند، باید با این توضیحات موافق باشند.

متعادل ‌سازی هیستوگرام

OpenCV از روشی موسوم به cv2.equalizeHist() بهره می‌برد. این روش هیستوگرام را در تصویر ورودی به کار می‌گیرد. این روش در آن دسته از تصاویری که پس‌زمینه و پیش‌زمینه تاریک یا روشنی دارند، به خوبی عمل می‌کند. اما متعادل‌سازیِ هیستوگرام با محدودیت قابل‌توجهی روبروست. این روش زمانی به بهترین شیوه عمل می‌کند که توزیع مقادیر پیکسل در کل تصویر مشابه باشد. اگر برخی از نواحی تفاوت چشم‌گیری با دیگر بخش‌های تصویر داشته باشند، شاید امکان افزایش درست کنتراست در برخی نواحی وجود نداشته باشد. این مثال از تصویر را در ذهن تجسم کنید که نور از پنجره به داخل راه پیدا می‌کند و بعضی از بخش‌های تصویر روشن‌تر دیده می‌شوند.

متعادل‌سازیِ هیستوگرام وفقی
برای اینکه کاستی‌های الگوریتم متعادل ‌سازی هیستوگرام را حل کنید، می‌توانید چند هیستوگرام برای یک تصویر محاسبه کنید. در این صورت، هر هیستوگرام ناحیه مشخصی از تصویر را دربرمی‌گیرد. این کار باعث می‌شود همه نواحی تصویر به صورت مجزا ارتقاء پیدا کند. بدین ترتیب، مسئله اصلی رفع می‌شود. با این حال، الگوریتم متعادل ‌سازی هیستوگرام مسئله جدیدی را به وجود می‌آورد. این الگوریتم می‌تواند کنتراست را در نواحی نسبتاً ثابتِ تصویر بیش از اندازه ارتقاء ببخشد. به همین منظور، روش دیگری در بخش بعدی معرفی خواهیم کرد که عملکرد بهتری دارد.

الگوریتم متعادل‌ سازی هیستوگرام با کنتراست محدود

همان‌طور که در بخش پیشین ذکر شد، متعادل‌ سازی هیستوگرام وفقی باعث می‌شود نویز در نواحی نسبتاً ثابتِ تصویر افزایش پیدا کند. الگوریتمی که در این بخش پیشنهاد می‌شود، این افزایش نویز را محدود می‌کند. این کار با توزیعِ آن بخش از هیستوگرام که از حد مجاز تخطی می‌کند، به انجام می‌رسد. اما می‌خواهید نتایجِ بکارگیری این الگوریتم را ببینید، این‌طور نیست؟ یک مثال خوب در بخش زیر آورده‌ایم.

رئیس جمهور فعلیِ آمریکا، قبل و بعد از بکارگیری الگوریتم CLAHE

استفاده از OpenCV

اکثر فرایندهای اجرا تنها با تصاویر مقیاس خاکستری سازگار هستند. اگر در این بخش مثالی از تصویر رتگی برایتان بیاوریم، موضوع را بهتر متوجه می‌شوید. فرایند اجرا به صورت زیر است: استفاده از روش CLAHE برای تصاویر BRG. مهم‌ترین بخش در این مقاله پوشش داده شد و امیدواریم متخصصان داده بتوانند بقیه مراحل را طی کنند. با این حال، این روش با جزئیات بیشتری توضیح داده خواهد شد. در ابتدا، تصویر BGR به فرمت HSV تبدیل شد. باید دقت کنیم که رنگ یا اشباع‌شدگیِ تصویر خراب نشود.
• قبل از هر چیز باید HSV را توضیح دهیم:
• رنگ (Hue): عبارتی که برای رنگ‌های طیف خالص به کار برده می‌شود و معمولاً با عنوان «اسامی رنگی» از آن یاد می‌کنند (قرمز، نارنجی، زرد، آبی، سبز و بنفش).
• اشباع‌شدگی (Saturation): شدت رنگ در یک تصویر. رنگ‌های اصلی (قرمز، آبی و زرد) خالص‌ترین رنگ‌ها به شمار می‌آیند زیرا کاملاً اشباع هستند. با افزایش اشباع‌شدگی، رنگ‌ها خالص‌تر دیده می‌شوند.
• مقدار (Value): روشنایی یا تاریکیِ یک رنگ. تصویری که فاقد رنگ یا اشباع‌شدگی باشد، تصویر مقیاس خاکستری است.
در گام بعد باید CLAHE را در اندازه تصویر به کار برد. پارامترهای استفاده شده را توضیح خواهیم داد. محدودیت clipping باید به کمتر از ۴۰ کاهش پیدا کند. پارامتری تحت عنوان اندازه «tile grid» می‌تواند تصویر را به ۶۴ قطعه با ۸ ستون و ۸ ردیف تقسیم کند. تصور کنید تصویر ورودی‌تان ۱۶۰×۱۶۰ پیکسل باشد. در این مورد، تصویر را به نواحیِ ۲۰×۲۰ پیکسل تقسیم می‌کنیم. هر دو پارامتر غالباً به عنوان پیش‌فرض مورد استفاده قرار می‌گیرند. به خاطر داشته باشید که اگر دنبال رفتار باثبات هستید، باید همه تصاویر را در مقیاس یکسان قرار دهید. در گام نهایی، قبل از اینکه عکس را به فرمت اصلی BGR برگردانیم، کانال اندازه را با کانال رنگ و اشباع‌شدگی ادغام می‌کنیم.

چه زمانی باید از این روش استفاده کرد؟

پاسخ این پرسش را به خوانندگان مقاله واگذار می‌کنیم. از دید ما، این روش می‌تواند در مرحله تشخیص و بازشناسی مورد استفاده قرار گیرد. این مراحل در بخش زیر توضیح داده می‌شوند.

مرحله تشخیص

در این مرحله، می‌توان اشیای بیشتری را پیدا کرد. ما این روش را آزمایش کردیم . مدل می‌تواند پس از استفاده از CLAHE به شناسایی اشیای بیشتری بپردازد. برای مثال، امکان استفاده از آن در اسکن MRI نیز وجود دارد. با این حال، بهتر است گاهی در تشخیص اشیاء از ابزار «up-sample» استفاده کنیم. تاثیرِ این کار بیشتر از بکارگیریِ CLAHE است.

مرحله بازشناسی

همان‌طور که در بخش‌های پیشین مشاهده کردیم، یقیناً استفاده از CLAHE در مرحله تشخیص خیلی مفید است. برای مثال، وقتی افراد برای آموزشِ مدل به دسته‌بندی تصاویر نیاز داشته باشند، مرحله بازشناسی به آنها کمک می‌کند آن کار را بهتر انجام دهند. این روش می‌تواند گام پیش‌پردازش خوبی نیز برای مدل‌های خاصی از یادگیری ماشینی باشد. در حال حاضر نمی‌توان با قطعیت گفت که این روش تفاوت قابل ملاحظه‌ای در بازشناسی اشیاء ایجاد می‌کند یا خیر، چرا که یافتنِ تحقیقات خوب درباره این موضوع دشوار است.

نتیجه‌گیری

امیدواریم بتوانید از مطالب این مقاله برای ارتقای ابزارهای بازشناسی و تشخیص اشیاء استفاده کنید. ما همواره منتظر نظرات و پیشنهادهای شما هستیم. پس نظرات خود را در پایان این مقاله در وب‌سایت ما درج کنید.

سیب سییسب ل سیل سی بل

سیل سی یبل سیلسیبل سیب ب

منبع: hooshio.com

تشخیص چهره بینایی ماشین تشخیص اشیا هوش مصنوعی متعادل سازی هیستوگرام

ai-magazine دوشنبه 31 شهریور 1399 ساعت 13:26

0 نظر

روند بازار تشخیص چهره در سال ۲۰۲۰ و سال‌های پس از آن

فن‌آوری تشخیص چهره بخش قابل توجهی از بازار احراز هویت بیومتریک و تحول دیجیتالی را تشکیل می‌دهد. بخش‌های مختلف بازار تشخیص چهره که کاملاً با یکدیگر تفاوت دارند- سریع‌تر از چیزی که انتظار می‌رفت، مسیر رشد و توسعه را در پیش گرفته‌اند.

نواقص و کاستی‌های نرم‌افزار تشخیص چهره دو بعدی در نرم‌افزار تشخیص چهره سه بعدی دیده نمی‌شود و این نرم‌افزار می‌تواند در محیط‌های کم‌نور و کاملاً تاریک هم کار کند.

همزمان با افزایش میزان سرمایه‌گذاری‌ها‌ در حوزه فن‌آوری‌های تشخیص چهره و هم‌چنین بلوغ و تکامل فن‌آوری‌ها، میزان استفاده از این فن‌آوری در برخی موارد، از جمله موارد کاربرد جدید، افزایش پیدا می‌کند. یکی از دلایل اصلی افزایش میزان استفاده از فن‌آوری تشخیص چهره، شیوع ویروس همه‌گیر کرونا است.

علاوه بر این، شیوع ویروس کووید ۱۹ منجر به توسعه سیستم‌های تشخیص چهره‌ای شده است که به سایر تکنیک‌های احراز هویت بیومتریک مجهز هستند. در نتیجه شیوع ویروس همه‌گیر کرونا انتظار می‌رود رقمی‌سازی و دیجیتالی کردن در برخی حوزه‌ها شتاب پیدا کند و علاوه بر این برخی معتقدند ناگزیر میزان استفاده از فن‌آوری‌های تشخیص چهره نیز افزایش پیدا می‌کند.

رشد و گسترش بازار تشخیص چهره به لحاظ مالی برای حوزه فن‌آوری موهبتی عالی به شمار می‌رود. فن‌آوری هوش مصنوعی، یادگیری ماشین(به ویژه یادگیری عمیق) و بینایی ماشین به صورت گسترده در این بازار مورد استفاده قرار می‌گیرند چراکه این فن‌آوری‌ها امکان تطبیق تصاویر ثبت‌شده توسط دوربین‌ها را با تصاویر موجود در دیتابیس و سیستم‌های پیچیده تشخیص چهره فراهم می‌کنند و کیفیت تصاویر نیز با بهره‌گیری از فن‌آوری‌های دیگر ارتقا پیدا می‌کند.

سخت‌افزارها و زیرساخت‌ها داده‌ها را جمع‌آوری و تفسیر می‌کنند و در همان حال تحلیل تشخیص چهره نیز با رایانش مرزی، اتصال، نرم‌افزار، سرویس‌ها و غیره ارتباط تنگاتنگی دارد.

تشخیص چهره و تلاقی فن‌آوری‌ها و حوزه‌های کاربردی مختلف

فن‌آوری تشخیص چهره یکی از زیرشاخه‌های احراز هویت بیومتریک است و در آن چندین فن‌آوری متفاوت در کنار یکدیگر قرار می‌گیرند. ۵G، نسل بعدی شبکه‌های تلفن همراه و فن‌آوری‌های پیشتاز تنها نمونه‌های کوچکی از فن‌آوری‌های بی‌شماری هستند که به رشد و گسترش بیشتر فن‌آوری تشخیص چهره کمک می‌کنند.

از شبکه‌های دوربین‌های مدار بسته- که تراکم بالایی دارند و به فن‌آوری هوش مصنوعی مجهز هستند– به منظور کنترل و نظارت بر تمامی ارکان زندگی بشر استفاده می‌شود و به احتمال زیاد اینترنت اشیای شبکه‌های سلولی ۵G (که در آن شبکه ۵G و اینترنت اشیا در کنار یکدیگر قرار می‌گیرند) می‌تواند تأثیرات چشمگیری بر این حوزه بر جای بگذارد.

به بیانی دیگر با استفاده از این فن‌آوری می‌توان امنیت داخلی را تأمین کرد یا به طور خاص‌تر این فن‌آوری می‌تواند استفاده از شبکه‌های دوربین‌های مدار بسته که تراکم بالایی دارند و به فن‌آوری هوش مصنوعی مجهز هستند را تحت تأثیر قرار دهد. تأثیرات این فن‌آوری به تأمین امنیت داخلی محدود نمی‌شود و از آن می‌توان برای تأمین امنیت تأسیسات حساس و حتی شهرهای هوشمند و جوامع دیگر استفاده کرد.

در مصاحبه‌ای که با موضوع ادغام سیستم‌های ساختمان انجام دادیم به دفعات به استفاده از فن‌آوری تشخیص چهره در تأسیسات مختلف از جمله اداره‌های هوشمند، فرودگاه‌ها و مراکز داده و غیره اشاره شد. در این مصاحبه به بحث و گفت‌و‌گو راجع به تغییراتی پرداختیم که فن‌آوری تشخیص چهره، اینترنت اشیا، ۵G و فن‌آوری‌های پیشتاز در حوزه ساخت‌و‌ساز ایجاد می‌کنند.

مارتین فدر ، متخصص سیستم‌های مدیریت ساختمان، اظهار داشت سیستم‌های ساختمان در حال حرکت به سوی دنیای ارتباطات صوتی و تصویری هستند که در آن دوربین‌ها به فن‌آوری تشخیص چهره مجهز می‌شوند. علاوه بر این وی انتظار دارد دوربین‌های مداربسته و فن‌آوری تشخیص چهره در تأمین امنیت مراکز داده مرزی و میکرو که در پایین برج‌های ۵G ظاهر می‌شوند موثر باشند. به عبارت دیگر، موارد کاربرد بیشتری می‌توان برای این فن‌آوری متصور شد و علاوه بر این، این فن‌آوری در مسیر رشد و توسعه قرار دارد.

در آینده اکثر قابلیت‌های تشخیص چهره در تلفن‌های هوشمند، تحت نرم‌‍افزارsoftware-based می‌شود و تا سال ۲۰۲۴، ۱.۳ میلیارد دستگاه به این فن‌آوری مجهز می‌شوند.

اگر هنوز به فن‌آوری تشخیص چهره به دید یک نرم‌افزار کاربردی نگاه می‌کنید و یا موارد کاربرد آن را از نظر می‌گذرانید، لازم است بدانید این فن‌‌آوری رشد زیادی را تجربه کرده چرا که در حوزه‌هایی به غیر از حوزه‌های مربوط به دولت، صنایع دفاعی و دوربین‌های مداربسته نیز مورد استفاده قرار می‌گیرد. به بیانی دیگر به سادگی می‌توان میان استفاده از فن‌آوری تشخیص چهره در نرم‌افزارهای کاربردی مصرفی(نرم‌افزارهای کاربردی تلفن‌های هوشمند) و استفاده از آن در محیط‌های کسب‌و‌کار و حوزه‌های امنیتی تمایز قائل شد.

رشد و گسترش بازار تشخیص چهره در نتیجه شیوع ویروس همه‌گیر کووید-۱۹

در نتیجه شیوع ویروس همه‌گیر کووید-۱۹، به طور فزاینده‌ای از فن‌آوری‌های تشخیص چهره در حوزه بهداشت و درمان دیجیتالی استفاده می‌شود؛ فن‌آوری تشخیص چهره با سایر تکنیک‌های احراز هویت بیومتریک ترکیب می‌شود و برخی نرم‌افزارهای کاربردی به آن مجهز می‌شوند و از این نرم‌افزارهای کاربردی برای تشخیص افرادی که شیلد محافظت صورت پوشیده‌اند و یا در تب‌سنجی استفاده می‌شود و بدین وسیله مانع شیوع بیماری می‌شوند.

بر هیچ کس پوشیده نیست که نیازهای ناشی از شیوع ویروس کرونا باعث ایجاد تغییراتی در پویایی‌های بازار تشخیص چهره می‌شوند. بر اساس گزارش ABI Research، در حال حاضر گزاره ارزشی توسعه‌دهندگان الگوریتم شامل فن‌آوری‌های تشخیص چهره و عنبیه چشم می‌شود که امکان احراز هویت و تشخیص(و ناگزیر نظارت بر) افرادی که به طور کامل و یا نیمی از صورت خود را پوشانده‌اند، از جمله شهروندانی که ماسک زده‌اند و یا شیلد محافظ صورت پوشیده‌اند را فراهم می‌کند.

علاوه بر این، به گفته دیمیتریوس پالاکلیس، تحلیل‌گر ABI Research، فن‌آوری‌هایی که امکان سنجش تب و یا دما را فراهم می‌کنند و در بسیاری از کشورها هم مورد استفاده قرار می‌گیرند، در دسترسی و کنترل مرز به روز رسانی شده‌اند. در آخر، از نرم‌افزارهای کاربردی پزشکی از راه دور بیومتریک برای بهداشت و درمان از راه دور و سلامت از راه دور استفاده می‌شوند و بدون شک هر دو حوزه یادشده در رویکردهای آتی سلامت دیجیتالی شتاب پیدا می‌کنند.

همزمان با اینکه بازار احراز هویت بیومتریک (به ویژه آن دسته از تکنیک‌هایی که نیازمند برقراری ارتباط فیزیکی هستند) دچار ضرر و زیان می‌شوند، سایر فن‌آوری‌ها به اجبار در حال تغییر و تحول هستند. شرکت‌های احراز هویت بیومتریک هوش مصنوعی میزان سرمایه‌گذاری‌های خود را در حوزه نرم‌افزارهای کاربردی تشخیص چهره افزایش می‌دهند و در این میان شرکت‌های چینی بیشترین مبلغ را در این حوزه سرمایه‌گذاری می‌کنند.

نکته: ضروری است بتوانیم میان استفاده از فن‌آوری تشخیص چهره در نظارت(با مذاکراتی پیرامون خطرات نظارت گسترده، سوگیری، حفاظت از اطلاعات شخصی و ریسک‌های نقض امنیت سایبری)و استفاده از فن‌آوری تشخیص چهره در فرایند احراز هویت(معمولاً برای نرم‌افزارهایی که مردم می‌خواهند از آن‌ها استفاده کنند و کمتر نیاز است راجع به آنها بحث و گفت‌و‌گو کرد) تمایز قائل شویم.

بازار تشخیص چهره در نرم‌‌افزارهای کاربردی مصرفی

بسیاری از مردم با شنیدن کلمه تشخیص چهره بلافاصله به یاد فرودگاه‌ و بازرسی در مرز و نظارت و مواردی از این قبیل می‌افتند، اما فن‌آوری تشخیص چهره در تأسیسات خرده‌فروشی هم مورد آزمایش قرار گرفته است(البته کاربرد این فن‌آوری در خرده‌فروشی‌ها به تأمین امنیت محدود نمی‌شود و از آن در صندوق‌های پرداخت اتوماتیک نیز استفاده می‌شود.)

شبکه‌های اجتماعی نیز از فن‌آوری‌های تشخیص چهره در بازایابی دیجیتالی استفاده می‌کنند.

برخی دیگر از موارد کاربرد فن‌آوری تشخیص چهره:

بهداشت و درمان(غربال‌گری بیمار)
فرایند انتخابات و رای‌گیری (دولت)
دسترسی به تأسیسات مشخص
تحقیقات جنایی

علاوه بر این برخی معتقدند فن‌آوری تشخیص چهره اهمیت ویژه‌‌ای در آینده همراه‌بانک و تجارت سیار (پرداخت‌‌ها و احراز هویت‌های ایمن با استفاده از موبایل) دارد.

برای نمونه، بر اساس Juniper Research، از میان انواع مختلف سخت‌افزارهای احراز هویت بیومتریک تلفن‌های هوشمند، تعداد سخت‌افزارهای تشخیص چهره همچون Face ID در آیفون‌های کنونی، رشد سریع‌تری خواهد داشت(طبق برآوردهای انجام شده تعداد آن‌ها در سال ۲۰۱۹، ۹۶ میلیون تلفن هوشمند بوده و تا سال ۲۰۲۴ تعداد آن‌ها به بیش از ۸۰۰ میلیون تلفن همراه افزایش پیدا می‌کند.)

ظهور و پیدایش فن‌آوری‌های نوین از جمله دوربین‌های مداربسته با وضوح بالا و فن‌آوری‌های تشخیص چهره با وضوح بالا و هم‌چنین تشخیص عنبیه چشم و تشخیص احساسات موجب رشد و ترقی بازار تشخیص چهره شده‌اند.

بر اساس Juniper Research در نتیجه پیشرفت و توسعه فن‌آوری هوش مصنوعی، در طول دوره پیش‌بینی، تعداد سخت‌افزارهای تشخیص چهره در هر سال ۵۰ درصد افزایش می‌یابد و نرم‌افزارهای تشخیص چهره در ۱.۳ میلیارد تلفن همراه تعبیه می‌شوند و در همان حال شرکت‌هایی همچون iProov و Mastercard خدمات احراز هویت از طریق تشخیص چهره ارائه می‌دهند و می‌توان از آن در انجام پرداخت‌ها و فرایند احراز هویت استفاده کرد.

سرویس‌ها و نرم‌افزارهای تشخیص چهره

یکی دیگر از بازارهایی که مسیر رشد و توسعه را در پیش گرفته بازار راهکارها و ابزارهای نرم‌افزاری تشخیص چهره است. البته باید توجه داشته باشید که میزان رشد و توسعه این بازار از کشوری به کشور دیگر متفاوت است و در همان حال شرکت‌های ارائه‌دهنده‌ این فن‌آوری نیز متفاوت هستند. با وجود اینکه ویروس کووید-۱۹ عامل اصلی رشد و توسعه این بازار است، اما کشورهای سراسر جهان دیدگاه‌های متفاوتی نسبت به فن‌آوری تشخیص چهره دارند.

مباحثات جدال برانگیز بسیاری پیرامون تشخیص چهره، تأمین امنیت داخلی و استفاده از سیستم‌های تشخیص چهره به منظور شناسایی و تأیید هویت «مجرمان»، بازبینی فیلم‌های مربوط به وقوع یک جنایت، کنترل مرزها و اجرای قانون شکل می‌گیرد.

Clearview AI که توجه رسانه‌ها را به خود جلب کرده است، یک دیتابیس بزرگ هوش مصنوعی از تصاویر دارد که به روشی مبهم ساخته شده است(از طریق استخراج داده‌های شبکه‌های اجتماعی، وب‌سایت‌های عمومی و غیره) و نهادهای اجرای قانون واقع در ایالات متحده به صورت گسترده از آن استفاده می‌کنند، تنها یک نمونه از این موارد است.

علاوه بر این، به نظر می‌رسد شرکت Clearview AI با چندین شرکت و آژانس خصوصی خارج از ایالات متحده و کانادا نیز همکاری داشته است(در این میان و در نتیجه فشار دعاوی حقوقی، این شرکت اعلام کرد که به همکاری خود با شرکت‌های خصوصی خاتمه می‌دهد).

همچنین پیرامون استفاده از فن‌آوری تشخیص چهره در زمینه نظارت گسترده نیز مباحثات بسیاری شکل گرفته است و در این مباحثات بیشتر به موضوع سواستفاده و سوگیری الگوریتم‌های تشخیص چهره پرداخته می‌شوند.

افزایش نرخ دقت تشخیص چهره

علیرغم درخواست اتحادیه اروپا مبنی بر منع استفاده از نرم‌افزارهای کاربردی تشخیص چهره برای مدتی کوتاه(برخی از سیستم‌های تشخیص چهره از قانون عمومی عدم افشای اطلاعات پیروی می‌کنند) و منع استفاده از این فن‌آوری در برخی مناطق دیگر، فن‌آوری تشخیص چهره از رده خارج نخواهد شد. توسعه فن‌آوری تشخیص چهره کماکان ادامه داد و همزمان نرخ دقت آن نیز افزایش پیدا می‌کند.

ریزکنترل‌کننده‌ها و ریز‌پردازنده‌های قوی، ثبت‌ تصاویر با کیفیت بالا با استفاده از دوربین‌های باکیفیت‌تر، پردازش روی تراشه و رایانش مرزی برای افزایش هوشمندی دوربین‌ها، تشخیص چهره سه بعدی و بهره‌گیری از الگوریتم‌های شبکه عصبی برای توسعه الگوریتم‌های تشخیص چهره که نرخ دقت بالاتری دارند، تنها نمونه‌های کوچکی از پیشرفت‌هایی هستند که طی چندین سال گذشته حاصل شده‌اند.

بر اساس گزارش NIST، نرخ دقت فن‌آوری‌های تشخیص چهره بین سال‌های ۲۰۱۳ تا ۲۰۱۸ به طور چشمگیری افزایش داشته است. بر اساس این گزارش، که در تدوین آن از چندین دیتاست متشکل از تصاویر دو بعدی استفاده شده است،« افزایش نرخ دقت در نتیجه ادغام و یا جایگزینی کامل رویکردهای قدیمی با رویکردهای مبتنی بر شبکه‌ های عصبی پیچشی عمیق اتفاق افتاده است.» به گفته NIST، با وجود این که تفاوت‌های فاحشی میان الگوریتم‌های مختلف وجود دارد، در حوزه تشخیص چهره نوعی انقلاب صنعتی اتفاق افتاده است و قابلیت الگوریتم‌ها در پردازش تصاویری که کیفیت پایینی دارد، افزایش داشته است.

دلایلی که مانع از رده خارج شدن فن‌آوری تشخیص چهره می‌شوند، عبارتند از:

• تقاضای زیاد: تقاضا برای این فن‌آوری فقط به دولت‌ها و نهادهای اجرا و اعمال قانون محدود نمی‌شود، همان‌گونه که پیش از این نیز گفتیم از این فن‌آوری در بازاریابی، خرده‌فروشی و حفاظت از تأسیسات حساس و غیره نیز استفاده می‌شود و شیوع ویروس همه‌گیر کووید-۱۹ منجر به افزایش تقاضا برای این فن‌آروی شده است.

• افزایش روزافزون استفاده در جهان: تمامی کشورها و سازمان‌های چندملیتی از این فن‌آوری استفاده می‌کنند و به طور فزاینده‌ای از این فن‌آوری استفاده خواهند کرد، هرچند شیوه‌ها و دلایل استفاده از این فن‌آوری متفاوت است.

• سهولت استفاده : هرچند تکنیک‌های احراز هویت دیگری وجود دارد که نرخ دقت آن‌ها بالاتر است اما استفاده از فن‌آوری تشخیص چهره آسان‌تر است و فرصت‌های بیشتری در اختیار کسانی قرار می‌دهد که از آن استفاده می‌کنند و در همان حال مانع در هنگام استفاده از این فن‌آوری نگرانی راجع به مسائل بهداشتی و تکنیک‌های احراز هویتی که لازمه استفاده از آن‌ها برقراری ارتباط فیزیکی است، معنایی ندارد.

افزایش نیاز به راهکارهای احراز هویت بیومتریک مجهز به فن‌آوری تشخیص چهره برای مدیریت هویت، مدیریت مرزها، تأمین امنیت داخلی و امنیت نظامی دولت‌ها را بر آن داشته تا به طور گسترده فن‌آوری‌های تشخیص چهره را پیاده‌سازی و اجرا کنند.

در رابطه با مورد آخر با ید بگوییم که برای مثال، احراز هویت از طریق اثر انگشت، که طی سال‌های اخیر در کشورهای مختلفی راجع به آن بحث و گفت‌و‌گو شده است، نیازمند آن است که کاربر اقدامی انجام دهد، اما در روش احراز هویت از طریق تشخیص چهره، حداقل در مکان‌های عمومی که به افراد راجع به استفاده از این فن‌آوری اطلاع‌رسانی نمی‌شود، نیازی به انجام این کار نیست.

بحث و گفت‌و‌گو پیرامون کاربردهای فن‌آوری تشخیص چهره سابقه‌ای طولانی دارد اما درخواست منع استفاده از این فن‌آوری به ویژه در مکان‌های عمومی، در نتیجه اقدامات شرکت Clearview AI، بیش از هر زمان دیگری جنجال برانگیز بوده است.

اما نکته‌ای که در اینجا اهمیت دارد امکان استفاده و بهره‌مندی از مزایای فن‌آوری تشخیص چهره نیست. مسئله‌ای که باید به آن توجه داشت فن‌آوری‌هایی است که از آن‌ها می‌توان در اعمال نظارت گسترده استفاده کرد و این‌که ما در حال ساخت محیط نظارتی دیجیتالی هستیم که شرکت‌های بزرگ فن‌آوری و دولت‌ها ناگزیر از آن‌ها سواستفاده می‌کنند و خواهند کرد. نکته قابل توجه در اینجا انسان و مسائل اجتماعی است.

بازار تشخیص چهره – سرویس‌ها و نرم‌افزارها

زمان آن رسیده که نگاهی داشته باشیم به بازار سیستم‌های تشخیص چهره و محرک‌های آن. بر اساس یک گزارش، افزایش نیاز به نظارت یکی از اصلی‌ترین عامل‌های رشد و گسترش بازار تشخیص چهره است. این که افزایش نیاز به نظارت از کجا نشأت می‌گیرد و چه عواملی بیشتر به افزایش آن دامن می‌زنند و در چه جاهایی نیاز به آن بیشتر احساس می‌شود به داوری و قضاوت شما بستگی دارد.

بر اساس گزارش MarketsandMarkets تا سال ۲۰۲۴ ارزش بازار فن‌آوری تشخیص چهره به ۷ میلیارد دلار می‌رسد. به بیانی دیگر در طول دوره پیش‌بینی ۲۰۱۹(۳.۲ میلیارد دلار) تا سال ۲۰۲۴ نرخ رشد مرکب سالانه آن ۱۶.۶ درصد خواهد بود. برای آن‌که «اهمیت» بازار تشخیص چهره را نشان دهیم، باید بگوییم که بر اساس داده‌های MarketsandMarkets تا سال ۲۰۲۲ میزان مبالغی که در حوزه اینترنت اشیا هزینه می‌شود از مرز ۱ تریلیون دلار عبور خواهد کرد.

به نظر می‌رسد اندازه این بازار کوچک است. اما با در نظر گرفتن تمامی مباحثات و عدم قطعیت‌هایی که در پیش روی ماست به نظر می‌رسد پیش‌بینی اندازه و وسعت و تحولات آن کار دشواری است. همان‌گونه که پیش از این گفتیم، این گزارش فقط به بررسی و مطالعه سرویس‌ها و نرم‌افزارهای تشخیص چهره پرداخته است. به بیانی دیگر در این گزارش ارزش کلی این بازار، به جای توجه صرف به راهکارها و سرویس‌ها، مشخص نشده است و همان‌گونه که پیش از این نیز به آن اشاره شد زیرساخت تشخیص چهره بازار گسترده‌ای دارد.

نرم‌افزارهای تشخیص چهره شامل نرم‌افزارهای تشخیص چهره دوبعدی، تشخیص چهره سه بعدی و تحلیل چهره می‌شوند. همان‌گونه که می‌دانید فن‌آوری تشخیص چهره سه بعدی در چندین «مورد کاربرد» که تشخیص چهره دو بعدی نمی‌تواند عملکرد مناسبی داشته باشد، «بهتر» عمل می‌کند.

علاوه بر این، فن‌آوری تشخیص چهره سه بعدی سهم بیشتری از بازار را به خود اختصاص می‌دهد و از این فن‌آوری عمدتاً در کنترل مرز‌ها، تأیید اصالت اسناد و مدیریت هویت استفاده می‌شود.

اصلی‌ترین شرکت‌های فعال در حوزه تشخیص چهره که نام آن‌ها در گزارش MarketsandMarket ذکر شده عبارتند از:

NEC(ژاپن)
Aware(ایالات متحده)
Gemalto(هلند، و اکنونی بخشی از شرکت Thales است)
Ayonix Face Technologies (ژاپن)
Cognitec Systems GmbH(آلمان)
NVISO SA(سوییس)
Daon(ایالات متحده)
StereoVision Imaging(ایالات متحده)
Techno Brain(کنیا)
Neurotechnology(لیتوانی)
Innovatrics(اسلوواکی)
id3 Technologies(فرانسه)
IDEMIA(فرانسه)
Animetrics(ایالات متحده)
MEGVII(چین)

در این گزاش به تأثیرات شیوع ویروس کووید-۱۹ اشاره‌ای نشده است، پس باید «منتظر بمانیم و ببینیم» این بیماری چگونه باعث تسریع این بازار می‌شود.

کشورها و بخش‌هایی که بیشترین میزان استفاده از نرم‌افزار تشخیص چهره دارند

با در نظر گرفتن نوآوری‌ها و ابتکارات موجود، تعجبی ندارد که در طول دوره پیش‌بینی منطقه آسیا-اقیانوسیه بیشترین میزان رشد در این حوزه را تجربه خواهد کرد و یکی از دلایل اصلی این رشد سرمایه‌گذاری دولت در زیرساخت‌های امنیتی و نظارتی خواهد بود.

آن دسته از کشورهای ناحیه آسیا- اقیانوسیه که بیشتر در حوزه تشخیص چهره فعالیت دارند، عبارتند از:

چین
ژاپن
سنگاپور
و به طور فزاینده‌ای هند.

یکی دیگر از عوامل دخیل در رشد و توسعه این حوزه، افزایش آگاهی مردم است. در نتیجه شیوع ویروس کووید-۱۹، در برخی کشورها به ویژه چین میزان استفاده از فن‌آوری تشخیص چهره، که پیش از این نیز به طور گسترده مورد استفاده قرار می‌گرفت و مباحثات گوناگونی پیرامون آن شکل می‌گرفت، را افزایش داد.

همان‌گونه که پیش از این گفتیم، به گزارش ABI Research شرکت‌های چینی از جمله SenseTime، Megvii، Alibaba و Baidu بیشترین میزان سرمایه‌گذاری در حوزه تشخیص چهره را به خود اختصاص می‌دهند.
استفاده از فن‌آوری‌های تشخیص چهره در سیستم‌های قدیمی و منسوخ میزان رشد راهکارهای تشخیص چهره در بازار را محدود می‌کند.

ایالات متحده، کانادا و بریتانیا نیز مبالغی در حوزه تشخیص چهره سرمایه‌گذاری می‌کنند و به سرمایه‌گذاری در این حوزه ادامه می‌دهند. دولت و بخش دفاعی نقش مهمی در این بازار ایفا می‌کنند و نسبت به بخش‌های دیگر رشد سریع‌تری دارند.
علاوه بر این، به گزارش MarketsandMarkets میزان پیاده‌سازی و اجرای راهکارهای تشخیص چهره برنامه‌های مقیاس بزرگ دولتی از جمله شهرهای هوشمند و حمل‌و‌نقل هوشمند در حال افزایش است. از این روی « افزایش نیاز به راهکارهای احراز هویت بیومتریک مجهز به فن‌آوری تشخیص چهره برای مدیریت هویت، مدیریت مرزها، تأمین امنیت داخلی و امنیت نظامی دولت‌ها را بر آن داشته تا به طور گسترده فن‌آوری‌های تشخیص چهره را پیاده‌سازی و اجرا کنند.»

سایر صنایع عمودی که از فن‌آوری تشخیص چهره استفاده می‌کنند، عبارتند از:

بانک‌داری، خدمات مالی و بیمه
بهداشت و درمان
خرده‌فروشی
آموزش.

به نمونه‌هایی از موارد کاربرد فن‌آوری تشخیص چهره در این بخش‌ها اشاره کردیم.
به محض این‌که درک و شناخت عمیق‌تر و کامل‌تری نسبت به میزان تأثیرات ویروس کووید-۱۹ بر استفاده از فن‌آوری تشخیص چهره در کشورها و بخش‌ها مختلف کسب کنیم، این مقاله را به روزرسانی خواهیم کرد.

منبع: hooshio.com

سیستم تشخیص چهره تشخیص چهره بیومتریک هوش مصنوعی بینایی ماشین فناوری تشخیص چهره

ai-magazine چهارشنبه 26 شهریور 1399 ساعت 09:59

0 نظر

سرمایه گذاری هوش مصنوعی ؛ کدام فناوری ‌ها بیشترین سهم و کمترین سهم را دارند؟

هوش مصنوعی با اشتیاق زیادی در حال تغییر دادن بسیاری از حوزه‌ها است ، اما مساله اینجاست که آن حوزه‌ها به همان اندازه روی خوش نشان نمی‌دهند. گسترش هوش مصنوعی بیش از همه به این موضوع ارتباط دارد که جامعه در حال حاضر چه چیزی را جذاب می‌داند. شاخص هوش مصنوعی اخیراً گزارشی را منتشر کرده است که نشان می‌دهد سرمایه گذاری هوش مصنوعی به سمت کدام بخش‌ها سرازیر شده است . نتایج شگفت‌انگیز است.

اهمیت معنادار اتومبیل‌های خودران

ما هنوز در جستجوی یک اتومبیل اسطوره‌ای هستیم، حتی با وجود شکست‌های قابل توجه و خطرناکی که در این مسیر با آنها مواجه شده‌ایم. اتومبیل‌ها این پتانسیل را دارند تا در شهرهای کوچک از بار سنگین ترافیک بکاهند حتی اگر جمعیت بیشتر شود. آنها همچنین می‌توانند هزینه های ارسال و تحویل بار را کاهش دهند.اما مسئله بیش از چند الگوریتم ساده است. درواقع رایانه‌ها هنوز هم تا حد زیادی در انتقال یادگیری در شرایط مختلف ناکارآمد هستند. توسعه اتومبیل‌های خودران مانند توسعه کامپیوتری است که قرار است همانند یک انسان رفتار کند. با اینکه این الگوریتم‌ها روز به روز در حال بهترشدن هستند اما در حال حاضر کماکان می‌توان پردازنده‌های رایانه‌ای را به راحتی فریب داد و این چیزی است که باید تغییر کند.

همزمان که ما در تلاش برای خلق یک نمونه کامل از اتومبیل های خودران هستیم به طور کلی به دنبال استفاده از منحنی یادگیری برای ماشین‌ها نیز هستیم. یادگیری ماشین مفهومی است که برای صنایع و سازمان‌ها آشنا و با ارزش است. رانندگی خودران قسمت عمده سرمایه گذاری هوش مصنوعی را به خود اختصاص می‌دهند زیرا در این حوزه ریسک زیادی وجود دارد.این گزارش اضافه می‌کند که ربات‌های خودران که به همین موضوع مرتبط هستند نیز رشد خوبی را نشان داده‌اند.

تحول بیوتکنولوژی و داروسازی

داروها و مطالعه سرطان در رده‌ی بعدی بیشترین سرمایه گذاری هوش مصنوعی است. اگرچه از نظر حجم و تعداد در حد اتومیبل های خودران نیست اما به دلایل مختلفی حوزه‌ بسیار مهمی است. تلاش هایی که در این زمینه معطوف به کاهش هزینه آزمایش‌ها است در صورت صحیح بودن الگوریتم‌ها یک سرمایه گذاری با ارزش به شمار می‌رود. شرکت‌های داروسازی سال‌ها بابت افزایش قیمت داروها و عدم عرضه‎ی مداوم داروهای بی عارضه مورد انتقاد قرار گرفته‌اند. اکنون فرصت خوبی است تا تلاش‌هایشان به سرانجام برسد و انتقادات را خنثی کنند.

همکاری هوش مصنوعی و متخصصان داروسازی بهترین فرصت را برای ساختن روش‌های جدید کشف دارو و پیشرفت در تحقیقات سرطان فراهم می‌کند. از آنجا که سرطان کماکان برای ما ناشناخته است، هوش مصنوعی می‌تواند با پردازش داده‌های بزرگ -کاری که انسان نمی‌تواند انجام دهد– تمامی الگوهایی را که ناشناخته مانده‌اند برای ما آشکار کنند. شرکت‌هایی همچون مراقبت‌های پزشکی Fresenius ، Flatiron Health و داروسازی Alexion اهمیت و نحوه عملکرد هوش مصنوعی را در آینده مراقبت‌های بهداشتی، بیوتکنولوژی و داروسازی درک می‌کنند. آنها امسال در کنفرانس علم داده یا ODSC حضور خواهند داشت تا با تبادل نظر و حضور در کارگاه‌هایی که برگزار می‌شوند دانش خود را افزایش دهند.

موضوع مناقشه برانگیز فناوری تشخیص چهره

فناوری تشخیص چهره به طور مداوم در صدر اخبار است و سرمایه‌گذارها همچنان به حمایت از نرم‌افزارهای این حوزه ادامه می‌دهند. جالب اینکه علی‌رغم اختلاف‌نظرها این سرمایه‌گذاری‌ها از جاهای مختلفی از دولت‌ها گرفته تا نیروی انتظامی و آژانس‌های تبلیغاتی انجام می‌شود.

نمی‌توان به فناوری تشخیص چهره به چشم یک موضوع خطرناک و ویران کننده نگاه کرد. این بستگی به منشا سرمایه‌گذاری‌ها و استفاده‌ای که از این فناوری برای نسل‌های بعدی می‌شود دارد. درواقع هنوز کاملا شبیه داستان فیلم گزارش اقلیت نشده است اما با ادامه این سرمایه‌گذاری‌ها و پیشرفت‌ها باید به فکر متعادل‌کردن نگرانی‌های مربوط به حریم خصوصی خود از سویی و امنیت عمومی و قراردادهای اجتماعی از سوی دیگر باشیم.

همزمان که که این فناوری به پیشرفت خود ادامه می‌دهد دولت‌ها در تلاشند تا در مورد نگرانی‌های مربوط به حریم خصوصی موضع بگیرند و قوانینی را برای کنترل نرم‌افزارهایی که می‌توانند کاربرد نظامی داشته باشند تصویب کنند.

سرمایه‌گذاری‌های شگفت‌آور

محتوای دیجیتالی یکی از جذاب‌ترین حوزه‌ها در سرمایه گذاری هوش مصنوعی است. برای مدت‌های زیادی تصور می‌شد که نوشتن یک تلاش انسانی است، اما ماشین‌ها به طور مداوم ما را با کیفیتی که دارند غافلگیر می‌کنند. در حال حاضر تعداد اندکی از سازمان‌های بزرگ از هوش مصنوعی برای نوشتن محتوایی که نیروی انسانی به اندازه کافی در آن سریع نیست استفاده می‌کنند.

در انتهای این طیف، زنجیره تامین وجود دارد که علی‌رغم وعده‌های زیادی که در جهت افزایش کارایی و کاهش خطا داده‌اند همچنان پایین‌ترین سطح سرمایه‌گذاری هوش مصنوعی را به خود اختصاص داده‌اند. برخلاف انتظار، بازاریابی از طریق چت‌بات‌ها که نسل بعدی بازاریابی در جهان به شمار می‌رود، شاهد کمترین رشد سرمایه‌گذاری در این حوزه بوده است.

این‌ها به چه معنا است؟

رسانه‌های دیجیتالی تلاش کرده‌اند تا در دوران فروش آنلاین سودآوری داشته باشند و یکی از راه‌حل‌های موجود، تولید محتوایی باب میل خریداران است بدون اینکه مجبور شوند بودجه بیشتری برای استخدام نویسنده‌ها اختصاص دهند.

اما در مورد زنجیره تأمین، این بخش همچنان بر اساس اصول انقلاب صنعتی استوار است که دیگر جواب نمی‌دهد. هنوز هم مدیران باید زمان زیادی را صرف سروکله زدن با ارقام و اعداد مربوط به ضایعات محصولات، خرابی و موانع پیش‌بینی نشده صرف کنند. تا زمانی که در بر این پاشنه بچرخد احتمالا با سرمایه‌گذاری زیادی مواجه نمی‌شوند.

به لطف پردازش زبان طبیعی، چت‌بات‌ها میتوانند با مشتریان ارتباط برقرار کنند اما چون نوآوری بیشتر از این صورت نگرفته طبعا سرمایه‌گذاری‌های این حوزه هم با رکود مواجه شده است.

رو به جلو با هوش مصنوعی

سرمایه‌گذاری معمولا از یک روند قابل انتظار تبعیت نمی‌کند، به عنوان مثال در برخی زمان‌ها مشکل بزرگ‌تر از آن می‌شود که با راه‌حل‌های موجود بتوان به آن پاسخ داد، اما همه سرمایه‌گذاری‌ها به این سمت هدایت نمی‌شوند و این تعجب برانگیز است.

آنچه ما می بینیم تعهد مداوم به توسعه هوش مصنوعی برای خودکارسازی، ایجاد کارآیی و کاهش اتلاف منابع است؛ مواردی که انسانها همیشه در آن خوب ظاهر نمی‌شوند. حتی در زمینه‌های خلاقانه مانند محتوای دیجیتال، هوش مصنوعی می‌تواند بار سنگین مطالب چاپی را کاهش دهد و مسیری را برای ارائه‌دهندگان اطلاعات فراهم کند تا در دنیای در حال تغییر دیجیتال سود آور باشند.

شما فکر می‌کنید در کدام بخش‌های هوش مصنوعی باید سرمایه‌گذاری ببیشتری شود؟

منبع: hooshio.com

کنفرانس علم داده سرمایه گذاری هوش مصنوعی هوش مصنوعی اتومبیل های خودران فناوری تشخیص چهره بینایی ماشین پردازش زبان طبیعی هوش مصنوعی آینده

ai-magazine دوشنبه 24 شهریور 1399 ساعت 13:06

0 نظر

مجله هوش مصنوعی

ابر برچسب

جدیدترین یادداشت‌ها

بایگانی

جستجو

یک مدل یادگیری ماشین که می‌تواند کارهای روزمره ما را انجام دهد

بهترین دیتاست ‌های یادگیری ماشینی برای مبتدیان

افزایش دقت مدل تشخیص چهره با روش متعادل‌ سازی هیستوگرام

روند بازار تشخیص چهره در سال ۲۰۲۰ و سال‌های پس از آن

سرمایه گذاری هوش مصنوعی ؛ کدام فناوری ‌ها بیشترین سهم و کمترین سهم را دارند؟