ضرورت پلتفرم یکپارچه در ساخت و استقرار مدل ML

فناوری هوش مصنوعی که به واسطه روباتیک و دستگاه ­های خودکار، پردازش زبان طبیعی، عامل­ های مجازی، یادگیری ماشین و بسیاری دیگر از فناوری­ ها عملیاتی می­ شود، به عنوان دانشی قلمداد می ­شود که قوعد بازی کسب ­وکار را از طریق بهبود تولید، پایین آوردن قیمت­ ها، ایجاد شغل و فرصت­ های رشد تغییر خواهد داد. از آنجا که پس از سال 2030 دامنه آثار هوش مصنوعی هم در حوزه اقتصاد و هم در اجتماع افزایش چشم­گیری خواهد یافت، صنایع مختلف بایستی راهبردها و سرمایه ­گذاری­ های هدفمندی برای ایجاد سکوی پرتاب به سوی آینده فراهم آورده باشند. طبق آمار و ارقام ارائه شده توسط Statista تا سال 2019، که در شکل زیر قابل مشاهده است، سرمایه­ گذاری­ های هنگفتی در بخش ­ها و حوزه­ های مختلف این فناوری صورت گرفته است.

در حال حاضر نیز تنها 35 درصد سازمان ها اعلام کرده اند که توانسته اند مدل های تحلیلی ­شان را به صورت کامل استقرار دهند. بنابراین کاملا مشهود است که در استقرار مدل ها مشکلاتی وجود دارد. موانع معمول استقرار مدل ها عبارتند از:

– در محیط عملیاتی کارایی مدل به راحتی قابل مشاهده نیست.
– کد در محیط های مختلف به خوبی عمل نمی کند.
– مشکلات IT در زیرساخت وجود دارد.
– مشکلات MLOps
– جدا بودن گروه نرم افزاری از گروه یادگیری ماشین منجر به مشکلاتی در پیاده سازی مدل در محیط واقعی می شود.
– جریان های کاری را نمی توان بین محیط on-premises و ابر به راحتی جابجا کرد.

اگر از ابزارهای مجزا (سیلو شده و جدا جدا) در ساخت مدل استفاده شود، مدل آسیب پذیر است. باید از یک پلتفرم یکپارچه استفاده کنید که امکان مشاهده تمامی عملیات، تمام منابع داده و محیط های عملیاتی را از یک محل داشته باشید. این امر تیم را قادر می سازد تا مدل ها را از محیط آزمایشی سریعتر به محیط واقعی منتقل کرده و بینش هایی از کارایی متریک های فنی ارائه کند. با داشتن یک back-bone یکپارچه میتوان داده را مصور کرد، پیشرفت را بررسی کرد و تکرار روی مدل را به سرعت انجام داد. همچنین می توان قابلیت های خودکارسازی نیز ارائه کرد (مانند ارسال هشدار اگر بنچمارک مورد نظر برآورده نشود و یا آنومالی رخ دهد).

مراحل اولیه بررسی یادگیری ماشین به دستکاری منابع داده و آماده کردن آنها برای تست و مدلسازی نیاز دارد. به تدریج با درک بیشتر داده و مساله، مدل هم تکامل پیدا می کند. اگر تیم مهندسی داده و دانشمندان داده مستقلا عملا کنند، نهایتا کد یادگیری ماشین نمی تواند در محیط واقعی اجرا شود. مرور کد برای اجرا درمحیط واقعی، پیشرفت کار را به شدت تحت ثاثیر قرار داده و موجب از دست رفتن زمان و هزینه کرد بالا خواهد شد. برای رفع این چالش باید در مورد اینکه چه چیزی به محیط عملیاتی تحویل شود توجه کرده، و همچنین به همکاری بین تیم های علوم داده و تیم های نرم افزاری در محیط عملیاتی توجه شود.

یک پلتفرم می تواند دسترسی بلادرنگ به داده و مدل ها را به صورت یکپارچه مهیا کند. به این منظور باید MLOps استاندارد باشد. با انجام این عمل (توسط یک پلتفرم)، با یک زبان مشترک میان تیم ها و جریان های کاری محیط عملیاتی صحبت می شود. در نتیجه می توان اطمینان یافت که ساختاردهی داده، کد و مدل ها به گونه ای است که درمحیط عملیاتی چه روی ابر باشند چه on-premises به خوبی  عمل می کنند. علاوه بر این، با یک زیرساخت انتها به انتها از امن بودن جریان داده در زیرساخت و امن بودن مدل نیز اطمینان حاصل می شود.

هدف تیم علوم داده، یافتن ارزش های کسب و کاری بزرگ با استفاده از مدل ها، بهبود آنها، ایجاد بینش و پیش­بینی است. با استقرار مدل ها، به تدریج به فضای داده بیشتر و منابع محاسباتی بیشتری نیاز خواهید داشت. زیرساخت باید بتواند از این میزان بار پشتیبانی کند. همچنین داده و مدل باید بتوانند بین استقرار on-premises و ابر برای جریان های کاری به راحتی جابجا شوند (مثل jobهایی که بشدت به منابع محاسباتی نیاز دارند، یا استقرار مدل ها درون کسب و کار و یا از طریق وب). زیرساخت باید قابلیت تبادل و مقیاس پذیری برای چنین شرایطی را فراهم کند. در نتیجه پلتفرم باید جریان های کاری منعطفی ایجاد کند که می توانند مانیتور و مدیریت شوند، از سرویس ها استفاده کرده و لذا به راحتی تغییر مقیاس دهند.

پلتفرمهای هوش مصنوعی زیادی در جهان طی چند سال اخیر ایجاد شده اند که برخی از مهمترین آنها GoogleAI، IBM Studio، DataBricks و DataRobot هستند.

منبع: cloudera

دیدگاهتان را بنویسید