اینترنت اشیا، داده، و هوش مصنوعی

تعداد حسگرها و دستگاه های اینترنت اشیا به شدت در حال افزایش است و این تعداد به زودی به حدود 3 میلیارد خواهد رسید. این تعداد دستگاه، حجم عظیمی از داده های گوناگون از محیط جمع آوری می کنند. اساسا، داده نقش اساسی در اکوسیستم اینترنت اشیا دارد. در کاربردهای زیادی داده به صورت جریانی و با سرعت بالا علاوه بر حجم بسیار بالا تولید می شود. در واقع داده ها در اکوسیستم اینترنت اشیا اغلب از نوع کلان داده هستند. در اکوسیستم اینترنت اشیا، از فناوری های مختلفی استفاده می شود. رایانش ابری، کلان داده، پردازش در لبه/مه، یادگیری ماشین، یادگیری عمیق و شبکه های عصبی و به طور کلی انواع روش های هوشمندسازی، داده کاوی، انواع روش های پردازش جریان داده و پردازش داده های batch، پردازش رخدادهای پیچیده، فناوری های یکپارچه سازی، و .. تنها برخی از فناوری های این اکوسیستم هستند. اغلب فناوری های ذکرشده با داده مرتبط هستند. 

داده در اینترنت اشیا، در لایه های مختلف از محیط و حسگرها تا پلتفرم های ابری جریان می یابد. ابتدا داده های مختلفی از محیط و توسط دستگاه‌ها و حسگرها جمع آوری می شوند که برخی از آنها عبارت‌اند از:  

  • داده زمان اجرا و زمان راهاندازی برنامه های کاربردی روی دستگاه ها،
  • داده های حس شده از محیط و فراداده‌های دستگاه ها و وضعیت عملکرد آن‌ها،
  • رخدادها،
  • و لاگ برنامه های کاربردی و سیستم. 

حجم داده های جمع آوری شده بسیار بالاست و دستگاه ها به دلیل محدودیت در ذخیره سازی و توان محاسباتی، قادر به ذخیره کردن آنها به صورت محلی نیستند. لذا داده ها ابتدا به گیتوی منتقل می‌شود، و پس از کمی پردازش به پلتفرم های ابری ارسال می شود. داده خام محیط، در ابر پردازش و تحلیل شده و به اطلاعات، دانش، و نهایتا خِرَد تبدیل می شود. از بینش به دست آمده از تحلیل داده در تصمیم گیری و پیش بینی استفاده شده و نتایج تحلیل ها روی برنامه های کاربردی موبایل یا تبلت و یا داشبوردهای مدیریتی در اختیار کاربران قرار می‌گیرند. می توان گفت که داده تولید و جمع آوری شده از دستگاه ها، در یک پایپ لاین حرکت کرده و پردازش می شود تا نهایتا به کاربر نهایی تحویل شود. مراحل مختلف این پایپ لاین در شکل زیر نشان داده شده اند.

همانطور که دیده می شود، دو مرحله تحلیل روی داده قابل انجام است: مرحله اول در سمت محیط و در دستگاه های لبه، و مرحله دوم در بخش ابری و روی پلتفرم. در فرایندهای پیش پردازش و پردازش در این پایپ لاین، عملیاتی مانند فشردهسازی و تجمیع، تغییر شکل، تمیز کردن، و غنی‌سازی انجام می شود. در گام های مرتبط با تحلیل، انواع تحلیل های آماری و تحلیل های پیشرفته مبتنی بر هوش مصنوعی روی داده انجام می شود. 

 پیش پردازش ها، اغلب شامل گام های زیر هستند: 

تغییر شکل داده: تبدیل فرمت های داده ای مثل تبدیل فرمت های غیراستاندارد داده حسگر به فرمت های استاندارد و یا تبدیل ولتاژ سیگنال دریافتی از یک دستگاه به یک واحد کالیبره از دما.

تمیز کردن داده: حذف داده های اضافه و غیر ضروری از داده. 

یکپارچه سازی و غنی‌سازی داده: ترکیب داده تولید شده از دستگاه با متادیتایی که در مورد دستگاه موجود است یا دیتاست‌های دیگر (مثل داده ترافیک یا آب و هوا). داده غنی شده در گام های بعدی پیش پردازش مانند کاهش داده، و یا دیگر مراحل چرخه عمر داده (مانند تحلیل داده) به کار گرفته می شود و گاهی برای بهبود عملکرد دستگاه مورد استفاده قرار می گیرد. 

کاهش و تجمیع داده: داده را با استفاده از عملیات آماری فشرده کرده و آنرا خلاصه میکنند. 

پس از پردازش‌های اولیه، داده ها به شکل‌های مختلفی ذخیره می‌شوند. محل و روش ذخیره سازی (ذخیره در ابر، پایگاه داده، به صورت Storage as a service، به صورت توزیع شده) تعیین می شود. سپس داده و رخدادها تحلیل می شوند. داده های جمع‌آوری‌شده از محیط معمولاً از نوع کلان داده هستند و لازم است نیازمندی‌های خاص کلانداده در جمع آوری، ذخیره سازی و تحلیل آنها در نظر گرفته شود. بر اساس نوع داده، نوع پاسخ، نیاز تعامل کاربر، و پیچیدگی تحلیل، انواع مختلفی از پردازش و تحلیل مانند مانند تحلیل بلادرنگ، تحلیل داده batch، تحلیل جریان، تحلیل پیشگویانه، تحلیل تعاملی، و پردازش رخداد روی داده ها انجام می گیرد.

در پردازش و تحلیل batch دنبالهای از برنامهها و تسک ها بدون دخالت دستی روی داده اجرا می شود. به عبارت دیگر یک گروه/batch از اطلاعات باید جمع شده و برای پردازش ارسال شود. برای داده های در استراحت از پردازش batch استفاده می شود. 

در پردازش جریانی، داده به صورت پیوسته به ابزار تحلیل ارسال می شود. اغلب پردازش به صورت بلادرنگ و در یک محدود زمانی مشخص (زیر 4ثانیه) انجام می شود. برای داده های در حرکت، از پردازش جریانی یا بلادرنگ استفاده می شود. در پردازش های تعاملی یا تبادلی در هر لحظه یک تراکنش انجام شده و تراکنش در تعامل با کاربر است. 

انواع تحلیل های پیشرفته مبتنی بر هوش مصنوعی (با استفاده از یادگیری ماشین، شبکه عصبی، و …) و پردازش های بلادرنگ یا نزدیک به بلادرنگ نیز روی داده انجام می شود. نتایج تحلیل ها برای تصمیم سازی، عمل روی محیط، و یا پیش بینی یک رخداد مورد استفاده قرار می گیرد. نتایج به دست آمده مصورسازی شده و دانش استخراج شده در قالب نمودارها و گراف ها در اختیار کاربر نهایی قرار می‌گیرد. در مصورسازی، تحلیل تجاری و استخراج دانش تجاری از داده رخ میدهد. 

همانطور که دیده می شود، در پایپ لاین داده، تحلیل کلان داده و یادگیری ماشین نقش مهمی ایفا میکند. در واقع از یک طرف اینترنت اشیا حجم عظیمی از داده میلیون ها دستگاه تولید می کند و از طرف دیگر هوش مصنوعی با استفاده از داده بینش ایجاد می کند. یادگیری ماشین با استفاده از رفتارهای گذشته، الگوهای جدید را تعیین کرده و مدل هایی  را برای پیش بینی آینده ایجاد می نماید. 

پلتفرم DataSolouk با ارائه پلتفرم تحلیل کلان و یادگیری ماشین روی ابر اغلب نیازمندی های پردازش، ذخیره سازی و تحلیل پیشرفته داده در اینترنت اشیا را برآورده می کند. تحلیل برخط داده، تحلیل توزیع شده روی کلان داده، تحلیل های batch و جریانی، ساخت الگوریتم های یادگیری ماشین و اعمال تحلیل های پیشرفته روی داده، و ارائه مخزنی از انواع الگوریتم های یادگیری ماشین قابل اعمال روی داده برخی از ویژگی های ارائه شده توسط دیتاسلوک هستند که می توانند برای رفع نیازهای تحلیلی شرکت های ارائه کننده راهکارهای اینترنت اشیا مورد استفاده قرار گیرند. دیتاسلوک به شرکت های ارائه کننده راهکارهای اینترنت اشیا این امکان را می دهد که داده های با حجم بالا که با سرعت بالایی نیز تولید می شوند را به صورت برخط تحلیل کرده و ارزش داده را استخراج کنند و از آن برای کارا ساختن فرایندها، ایجاد فرصت های جدید، و بهبود تجربه مشتری استفاده می نماید.