پلتفرم علم داده و یادگیری ماشین چیست؟

چالش ­های زیادی در مراحل مختلف ساخت و به کار گیری مدل های یادگیری ماشین وجود دارند و تا به امروز ابزارهای مختلفی برای رفع برخی از این چالش ها ارائه شده ­اند. ولی استفاده از ابزارهای مجزا (سیلو شده و جدا جدا) در ساخت مدل، موجب آسیب پذیری آن می شود و لازم است تیم­ های علوم داده از یک پلتفرم یکپارچه استفاده کنند که امکان مشاهده تمامی عملیات، تمام منابع داده و محیط های عملیاتی از یک محل را فراهم می نماید.

یک پلتفرم می تواند دسترسی بلادرنگ به داده و مدل ها را به صورت یکپارچه مهیا کند. با انجام MLOps توسط یک پلتفرم، می توان اطمینان یافت که ساختاردهی داده، کد و مدل­ ها به­ گونه ­ای است که در محیط عملیاتی به خوبی  عمل می ­کنند. پلتفرم باید جریان­ های کاری منعطفی ایجاد کند که بتوانند به راحتی مانیتور و مدیریت شوند. همچنین باید از ساختار مایکروسرویسی استفاده کرده و لذا بتوانند به راحتی تغییر مقیاس دهند. شناسایی زودهنگام و pro-active انحرافات مدل ­ها در پلتفرم، امکان طراحی عملکردهای تصحیح­ کننده را فراهم می سازد. به پلتفرم هایی که چنین قابلیتی را برای ساخت و استقرار مدل های فراهم می­ کنند، پلتفرم علم داده و یادگیری ماشین (DSML)، یا پلتفرم­ هوش مصنوعی گفته می شود. یک پلتفرم DSML به دانشمندان داده در بهبود کارایی تسک­ های مرتبط با تمام مراحل پایپ لاین­ های تحلیل و پایپ لاین­ های داده کمک می­ کند. این تسک­ ها عبارتند از:

  • دسترسی به داده و وارد کردن آن به سیستم
  • آماده سازی داده
  • بررسی تعاملی و مصورسازی داده
  • مهندسی فیچرها
  • مدل­ سازی پیشرفته
  • تست
  • آموزش
  • استقرار
  • و مهندسی کارایی

باید به این نکته دقت کرد که یادگیری ماشین هسته توانمندساز هوش مصنوعی است ولی تمام آن نیست. در واقع یادگیری ماشین روی خلق و آموزش مدل­ ها متمرکز است ولی هوش مصنوعی از مدل­ ها برای استنتاج نتایج در شرایط خاص استفاده می­ کند. به عنوان مثال یک ماشین خودران قابلیت­ های یادگیری ماشین را دارد ولی هوش مصنوعی در این نوع ماشین­ ها فراتر از صرفا مدل­ های یادگیری ماشین است. لذا پلتفرم ­های DSML، که علاوه بر امکان ساخت مدل، امکان استقرار و استنتاج را فراهم می­ کنند با نام پلتفرم­ های هوش مصنوعی نیز شناخته می­ شوند.

برخلاف تصور کنونی، یک پلتفرم هوش مصنوعی راه­ حل ­هایی برای یک کسب­ و کار خاص ارائه نمی ­دهد و روی یک نوع تحلیل خاص متمرکز نیست. بلکه می تواند نیازمندی­ های ارائه انواع تحلیل ­ها برای صنایع مختلف را فراهم کند، و در عین حال ممکن است راه حل­ های مبتنی بر هوش مصنوعی pre-packaged برای صنایع نیز ارائه دهد.

تفاوت پلتفرم داده با پلتفرم یادگیری ماشین

 

محصولات تجاری و متن­ باز زیادی در حوزه پلتفرم­ های هوش مصنوعی وجود دارند که از فریم­ورک­ هایی مانند متلب، تا پلتفرم­ های عظیمی مانند پلتفرم هوش مصنوعی گوگل، آمازون و IBM را در بر می ­گیرند. ویژگی ­هایی که یک پلتفرم هوش مصنوعی یا پلتفرم علم داده و یادگیری ماشین ارائه می ­دهد، در ادامه شرح داده شده است.

  1. دسترسی به داده: قابلیت دسترسی به انواع مختلف داده مانند جداول، تصاویر، گراف ­ها، لاگ ها، سری ­های زمانی، صدا و متن
  2. آماده­ سازی داده: ارائه مجموعه قابلیت ­های گسترده برای آماده ­سازی داده کد شده یا غیرکدشده
  3. بررسی[1] و مصورسازی[2] داده: ارائه گام ­های بررسی داده شامل مصورسازی تعاملی
  4. خودکارسازی: تسهیل خودکارسازی مهندسی فیچرها و تنظیم هایپر پارامترها
  5. رابط گرافیکی: ارائه یک محیط گرافیکی یکپارچه با پشتیبانی از ارائه پایپ لاین ­های مصور یا چارچوب­ های ترکیب مدل­ ها به صورت مصور
  6. یادگیری ماشین: ارائه رویکردهای گسترده یادگیری ماشین با امکان قابلیت دسترسی ساده و سریع از پلتفرم و یا ارائه بصورت از پیش پکیج شده توسط پلتفرم. همچنین ارائه پشتیبانی از رویکردهای مدرن یادگیری ماشین مانند تکنیک­ های ensemble (مانند جنگل تصادفی[3]، bagging، boosting) و یادگیری عمیق.
  7. ارائه قابلیت تحلیل های پیشرفته: یکپارچه ­سازی روش­ های آنالیز آماری، بهینه­ سازی، شبیه سازی، تحلیل متن، و تحلیل تصویر در محیط توسعه
  8. انعطاف­ پذیری، قابلیت گسترش[4]، و باز بودن[5]: یکپارچگی انواع کتابخانه ­های متن­ باز در پلتفرم. قابلیت ایجاد کارکردهای مورد نظر کاربران توسط خود آنها، چگونگی کار کردن پلتفرم با نوت­ بوک­ ها
  9. کارایی و مقیاس­ پذیری: قابلیت کنترل استقرارهای ابری، روی سرور، یا دسکتاپ. قابلیت ارائه پیکربندی های چند نوده و چند هسته ­ای.
  10. تحویل: پشتیبانی از قابلیت ایجاد API یا کانتینرها (مانند کد، PMML[6]، فرمت ­های پرتابل برای تحلیل (PFA)، و اپلیکیشن ­های پکیج شده) با هدف استقرار سریع در سناریوهای کسب ­و کاری
  11. مدیریت پروژه و پلتفرم: ارائه قابلیت­ های مدیریتی مانند مدیریت منابع محاسباتی، امنیت، استفاده مجدد، مدیریت نسخ پروژه­ ها، governance، تکرارپذیری و بررسی وابستگی ­های گذشته مدل ­ها[7]
  12. مدیریت مدل: ارائه قابلیت ­های نظارت بر مدل­ ها و بررسی و کالیبره کردن مجدد آنها. این ویژگی شامل قابلیت ­های تست مدل مانند K-fold cross-validation، آموزش، تقسیم­ بندی ­های مجموعه ­های اعتبارسنجی و تست، سطح زیر نمودار (AUC)، متریک ­های loss، ROC[8]، و تست کردن مدل­ ها به صورت گام به گام (مانند A/B Testing) می شود.
  13. راه حل­ های از پیش ­ساخته ­شده: ارائه راه­ حل­ هایی مانند تحلیل شبکه­ های اجتماعی، تشخیص تقلب، سیستم­ های توصیه­ گر، فروش متقابل[9]، تمایل به خرید، پیش ­بینی خطا و تشخیص ناهنجاری، و … که می­ توانند از طریق کتابخانه ­ها یا marketplace ها در راه­ حل ­ها یکپارچه شوند.
  14. ارائه محیط همکارانه: ارائه قابلیت همکاری افراد با مهارت ­های مختلف روی پروژه ­ها و جریان های کاری همسان، آرشیو شدن پروژه، کامنت­ گذاری، و قابلیت استفاده مجدد.
  15. همبستگی: ارائه قابلیت تحلیل کل پایپ لاین داده به صورت یکپارچه و سازگار. پلتفرم باید متاداده و قابلیت­ های یکپارچه­ سازی برای تمامی 14 قابلیت قبلی ارائه کند. همچنین پلتفرم باید یک تجربه انتها به انتها ارائه کند تا دانشمندان داده بتوانند با بازده بهتر روی پایپ­ لاین­ های داده و تحلیل داده از دسترسی به داده گرفته تا تولید بینش، توصیه عملکرد و اندازه ­گیری اثرگذاری الگوریتم متمرکز شوند. به این منظور لازم است ورودی­ ها و خروجی­ های داده تا حد امکان استاندارد باشند، بi طوری که ظاهر مولفه ­ها همسان بوده و ترم­ ها و اصطلاحات در سراسر پلتفرم یکپارچه باشند.

موسسه گارتنر نیز در سال 2019 طی گزارش سالانه خود برترین ارائه ­دهندگان پلتفرم­ های DSML را معرفی کرده است.

  1. exploration
  2. visualization
  3. random forests
  4. extensibility
  5. openness
  6. Predictive Model Markup Language
  7. auditing lineage
  8. receiver operating characteristic
  9. Cross Selling