مونا میرزایی تحریریه

پیوست » فناوری » هوش مصنوعی » چرا ۸۵ درصد از مدل‌های هوش مصنوعی شما ممکن است شکست بخورند؟

چرا ۸۵ درصد از مدل‌های هوش مصنوعی شما ممکن است شکست بخورند؟

مونا میرزایی تحریریه

۱۵ دی ۱۴۰۳

زمان مطالعه : ۱۰ دقیقه

هوش مصنوعی به عنوان یکی از قدرتمندترین فناوری‌های عصر حاضر، پتانسیل بالایی برای تحول در صنایع و کسب‌وکارها دارد. با این حال، علی‌رغم پیش‌بینی‌ها مبنی بر توانمندی روزافزون این فناوری، دستیابی به مزایای واقعی آن بدون توجه به یک عامل حیاتی، یعنی «کیفیت داده»، تقریباً غیرممکن است. گزارش‌ها نشان می‌دهند که درصد قابل توجهی از پروژه‌های هوش مصنوعی، حدود ۸۵ درصد، به دلیل مشکلات مرتبط با داده‌ها، از جمله کیفیت پایین، کمبود یا عدم وجود داده‌های مناسب، با شکست مواجه می‌شوند. این موضوع اهمیت پرداختن به چالش‌های مربوط به داده‌ها را در پروژه‌های هوش مصنوعی بیش از پیش نمایان می‌سازد.

هوش مصنوعی (AI) روزانه با تغییرات جالب در سیستم‌ها توجه جهان را بیش‌تر به به خود جلب می‌کند. این فناوری نشان از تحول در مراقبت‌های بهداشتی، تحریک رشد اقتصادی و تقویت نوآوری است. با این حال، وعده‌ها و قابلیت‌های کامل هوش مصنوعی هنوز در مراحل ابتدایی خود هستند. با گذشت زمان، هوش مصنوعی می‌تواند همه صنایع اصلی و بازارهای سرمایه را به روشی مشابه انقلاب صنعتی متحول کند، همانطور که انقلاب صنعتی از دهه 1760 به بعد شهرنشینی، سرمایه‌داری، نوآوری و ساختارهای شرکتی را تقویت کرد.

برای سازمان‌هایی در حوزه‌ی زنجیره تأمین، به‌ویژه در صنایع توزیع، تولید، لجستیک و تعمیر و نگهداری، انتظار می‌رود هوش مصنوعی به گسترش اقتصاد چرخشی، بهبود تحویل محصولات، افزایش حاشیه سود و کاهش ریسک‌های بازار کمک کند.

جمیل فرانسیس مدیرعامل شرکت فناوری کور (Kore Technologies) است، شرکتی که نرم‌افزار اتوماسیون داده ارائه می‌دهد و به سازمان‌ها در پیشبرد رشد و سودآوری کمک می‌کند. او در این مورد می‌گوید؛ با این حال، به همان اندازه که پیش‌بینی می‌شود هوش مصنوعی قدرتمند شود، دستیابی به مزایای مورد انتظار بدون کیفیت داده غیرممکن خواهد بود. طبق گفته گارتنر (از طریق VentureBeat)، 85 درصد از تمام مدل‌ها پروژه‌های هوش مصنوعی به دلیل کیفیت پایین داده یا کمبود یا عدم وجود داده‌های مرتبط شکست می‌خورند.

مدل‌های هوش مصنوعی با داده‌های ناقص شکست می‌خورند

کیفیت داده به شرایط داده‌ای مبتنی بر عواملی مانند دقت، سازگاری، کامل بودن، داده‌های واقعی و در لحظه، ارتباط داشتن مجموعه داده‌ها با یکدیگر، منحصر به فرد بودن و یکپارچگی اشاره دارد. اگر عناصر کیفیت داده در هنگام آموزش مدل‌های هوش مصنوعی حفظ نشوند، سازمان‌ها به پتانسیل کامل هوش مصنوعی دست نخواهند یافت.
تروی دمیر، یکی از بنیانگذاران گکو روبوتیکس که در زمینه توسعه ربات‌ها و نرم‌افزار‌های بازرسی و نگهداری زیرساخت‌های صنعتی فعالیت می‌کند؛ در کمیته امنیت داخلی مجلس نمایندگان ایالات متحده در سال ۲۰۲۴ توضیح داد: کاربرد‌های هوش مصنوعی به اندازه داده‌هایی که روی آن‌ها آموزش دیده‌اند، بستگی دارند و هرچه داده‌های با کیفیت در دسترس باشد کارایی آن بالاتر خواهد رفت.
بنابراین هوش مصنوعی قابل اعتماد به ورودی‌های داده‌ای قابل اعتماد نیاز دارد. به گفته دمیر در این جلسه، حتی پیشرفته‌ترین مدل‌های هوش مصنوعی که به داده‌های ناقص متکی هستند، توانایی آمریکا را برای مدیریت و حفظ زیرساخت‌های حیاتی خود محدود می‌کنند. کیفیت پایین داده نه تنها بر امنیت ملی تأثیر منفی می‌گذارد، بلکه بر سود و زیان سازمان‌ها نیز تأثیر می‌گذارد.
به عنوان مثال، طبق گزارش گارتنر در سال ۲۰۲۱، کیفیت پایین داده به طور متوسط سالانه ۱۲.۹ میلیون دلار برای سازمان‌ها هزینه دارد. به طور خاص برای سازمان‌های زنجیره تأمین، افزایش هزینه‌های عملیاتی مرتبط با داده‌های ناقص می‌تواند در انبار اضافی، تأخیر در تحویل، کمبود موجودی یا هزینه‌های سوخت اضافی منعکس شود.

رایج‌ترین شکست‌های مدل‌های هوش مصنوعی

برخی از رایج‌ترین شکست‌های مدل‌های هوش مصنوعی که شامل داده‌های ناکافی هستند عبارتند از:

بیش‌برازش (Overfitting): زمانی که مدل‌های هوش مصنوعی بیش از حد به الگوریتم پایبند هستند و داده‌های آموزش ندیده را در نظر نمی‌گیرند. یعنی بیش‌برازش زمانی اتفاق می‌افتد که یک مدل یادگیری ماشین، به جای یادگیری الگوهای کلی و معنادار در داده‌های آموزشی، تمام جزئیات، نویزها و حتی داده‌های پرت (outliers) موجود در داده‌های آموزشی را نیز به خاطر می‌سپارد. به عبارت دیگر، مدل به طور «بیش از حد» با داده‌های آموزشی «برازش» پیدا می‌کند.

غفلت از موارد حاشیه‌ای (Edge-case neglection): سناریویی که به ندرت رخ می‌دهد و توسط مدل‌های هوش مصنوعی نادیده گرفته می‌شود، اما یکی از دلایل مهم شکست مدل‌های هوش مصنوعی است. این مشکل زمانی رخ می‌دهد که مدل در طول آموزش، با نمونه‌های غیرمعمول یا نادر (موارد حاشیه‌ای) به اندازه کافی مواجه نمی‌شود و در نتیجه، در مواجهه با این موارد در دنیای واقعی، عملکرد ضعیفی از خود نشان می‌دهد و حتی ممکن است اشتباهات بحرانی مرتکب شود.

وابستگی به همبستگی (Correlation dependency): زمانی که یک مدل هوش مصنوعی به دلیل همبستگی سطحی، فرض‌های نادرستی می‌کند و منجر به نتایج غیرقابل اعتماد می‌شود. این مشکل زمانی رخ می‌دهد که مدل به جای شناسایی روابط علت و معلولی واقعی بین متغیرها، صرفاً به وجود همبستگی آماری بین آنها اکتفا می‌کند و بر اساس آن تصمیم‌گیری می‌کند.

سوگیری داده (Data bias): زمانی که مدل‌های هوش مصنوعی بر اساس داده‌های ناقص آموزش داده می‌شوند در نتیجه نتایجی را ایجاد می‌کنند که یک گروه خاص را در معرض ضرر قرار می‌دهد.

کم‌برازش (Underfitting): زمانی که الگوریتم‌های هوش مصنوعی برای آموزش موثر بر داده‌های ارائه شده، به اندازه کافی قوی نیستند. نقطه مقابل بیش‌برازش یعنی در کم‌برازش، مدل به قدری ساده است که حتی نمی‌تواند الگوهای اصلی داده‌های آموزشی را یاد بگیرد و در نتیجه هم در داده‌های آموزشی و هم در داده‌های جدید عملکرد ضعیفی دارد.

انحراف داده (Data drift): ناتوانی یک مدل هوش مصنوعی در تطبیق با تغییرات داده‌ها در طول زمان اتفاق می‌افتد. ساختن یک پایه قوی برای مدل‌های هوش مصنوعی هستند. زمانی رخ می‌دهد که توزیع داده‌هایی که مدل هوش مصنوعی با آن‌ها آموزش دیده است، با توزیع داده‌هایی که مدل در دنیای واقعی با آن‌ها مواجه می‌شود، به مرور زمان تغییر می‌کند. این تغییر می‌تواند به دلایل مختلفی رخ دهد و باعث کاهش دقت و کارایی مدل شود. به عبارت دیگر، مدلی که قبلاً عملکرد خوبی داشته، به دلیل تغییر در داده‌ها، دیگر نمی‌تواند به درستی پیش‌بینی کند.

یکپارچه‌سازی داده‌ها

توسعه تحول دیجیتال، در گذشته سیستم‌های غیرمتصل را به صورت آنلاین آورده و تولید داده‌های جهانی را به میزان قابل توجهی افزایش داده است. به عنوان مثال، طبق Statista، پیش‌بینی می‌شود که تولید داده‌های جهانی تا پایان سال ۲۰۲۵ به بیش از ۱۸۰ زتابایت برسد. با وجود چنین حجم عظیمی از داده‌ها، داشتن داده‌های با کیفیت با داشتن یک تصویر کامل از اطلاعات تولید شده توسط سازمان شما آغاز می‌شود.

رشد داده‌ها در سال‌های اخیر برای سازمان‌های زنجیره تأمین که معمولاً در پذیرش فناوری‌های مدرن کندتر هستند، حتی عمیق‌تر است. اتصال منابع داده‌های مختلف اپراتورهای زنجیره تأمین مانند پایگاه‌های داده ERP، TMS و WMS از طریق روش‌های یکپارچه‌سازی داده امکان‌پذیر است. یکپارچه‌سازی داده، منابع، سیستم‌ها و قالب‌های اطلاعات مختلف را قبل از تمیز کردن و تبدیل داده‌ها به یک دیدگاه واحد، جمع‌آوری می‌کند.

روش‌های مختلف یکپارچه‌سازی داده‌ها

چندین روش برای یکپارچه‌سازی داده‌ها وجود دارد، از جمله:

یکپارچه‌سازی مبتنی بر میان‌افزار:

داده‌های بلادرنگ را از فناوری‌ها، پایگاه‌های داده و ابزارهای مختلف پل‌زنی می‌کند. در این روش، از یک نرم‌افزار واسط (میان‌افزار) برای ارتباط و تبادل داده بین سیستم‌های مختلف استفاده می‌شود. میان‌افزار به عنوان پلی بین سیستم‌های ناهمگن عمل می‌کند و امکان تبادل داده‌ها را بدون نیاز به تغییرات اساسی در سیستم‌های اصلی فراهم می‌کند. این روش برای یکپارچه‌سازی داده‌های بلادرنگ (Real-time) بسیار مناسب است.

انعطاف‌پذیری بالا، قابلیت تطبیق با سیستم‌های مختلف، امکان تبادل داده در لحظه و کاهش پیچیدگی این روش یکپارچه‌سازی محسوب می‌شود. نصب و پیکربندی میان‌افزار نیازمند دانش فنی و تخصصی است. ممکن است لازم باشد تنظیمات پیچیده‌ای انجام شود تا میان‌افزار به درستی با سیستم‌های مختلف سازگار شود. خرید، نصب و نگهداری میان‌افزار می‌تواند هزینه‌بر و زمان‌بر باشد.

استخراج، تبدیل و بارگذاری (ETL):

حجم زیادی از داده‌ها را از منابع مختلف داده، تقریباً در زمان واقعی، ترکیب می‌کند و داده‌ها را برای تجزیه و تحلیل در یک محیط ذخیره‌سازی واحد مرحله‌بندی می‌کند. این روش فرآیندی در علم داده و انبار داده است که داده‌ها را از منابع مختلف جمع‌آوری، پاکسازی، تغییر شکل و در نهایت در یک مخزن داده (مانند انبار داده یا Data Warehouse) بارگذاری می‌کند. هدف اصلی ETL، آماده‌سازی داده‌ها برای تحلیل و گزارش‌گیری است.

استخراج، بارگذاری و تبدیل (ELT):

علاوه بر ETL، رویکرد دیگری به نام ELT (استخراج، بارگذاری، تبدیل) نیز وجود دارد. در ELT، ابتدا داده‌ها به صورت خام در مخزن داده بارگذاری می‌شوند و سپس عملیات تبدیل در همان مخزن انجام می‌شود. ELT معمولاً برای داده‌های حجیم و محیط‌های ابری مناسب‌تر است. داده‌ها هنگام ورود به محیط ذخیره‌سازی تبدیل نمی‌شوند، بلکه به صورت فرمت اصلی خود ذخیره می‌شوند تا زمان‌های بارگذاری سریع‌تر شود.

یکپارچه‌سازی نقطه به نقطه (P2P):

یک روش ساده برای اتصال مستقیم دو سیستم نرم‌افزاری به یکدیگر است. در این روش، از کد سفارشی (Custom Code) یا رابط‌های برنامه‌نویسی کاربردی (API) برای ایجاد ارتباط مستقیم بین دو سیستم استفاده می‌شود. این روش نسبتاً ساده است و می‌تواند به سرعت پیاده‌سازی شود، به خصوص برای اتصال دو سیستم که نیاز به تبادل داده محدودی دارند. توسعه‌دهندگان کنترل کاملی بر فرآیند یکپارچه‌سازی دارند و می‌توانند آن را دقیقاً مطابق با نیازهای خود پیکربندی کنند.

یکپارچه‌سازی مبتنی بر ابر:

یکپارچه‌سازی مبتنی بر ابر (Cloud-based Integration) به اتصال و تبادل داده بین برنامه‌ها و سیستم‌های مختلف از طریق زیرساخت ابری اشاره دارد. این نوع یکپارچه‌سازی، امکان اتصال برنامه‌های مستقر در ابر (Cloud-based Applications) با یکدیگر و همچنین اتصال آن‌ها با سیستم‌های درون‌سازمانی (On-Premise Systems) را فراهم می‌کند.

یکی از مهم‌ترین ویژگی‌های یکپارچه‌سازی ابری، انعطاف‌پذیری و مقیاس‌پذیری آن است. با استفاده از این روش، سازمان‌ها می‌توانند به راحتی سیستم‌های جدید را به زیرساخت خود اضافه یا حذف کنند و ظرفیت پردازش و ذخیره‌سازی را بر اساس نیاز خود افزایش یا کاهش دهند.

انتخاب روش یکپارچه‌سازی داده به عوامل مختلفی مانند محیط میزبانی، نیازهای تجاری و فنی و بودجه بستگی دارد. با این وجود، توانایی ادغام منابع داده مختلف به سازمان شما امکان می‌دهد تا مجموعه داده‌های با کیفیتی را که برای توسعه و بهره‌برداری از مدل‌ها و ابزارهای هوش مصنوعی مورد نیاز است، داشته باشد.

مدیریت کیفیت داده (DQM)

علاوه بر استفاده از یک روش یکپارچه‌سازی داده، سازمان باید رویکردی جامع برای اطمینان از استفاده مدل‌های هوش مصنوعی از داده‌های با بالاترین کیفیت اتخاذ کند. در همین موضوع است که مدیریت کیفیت داده (DQM) وارد عمل می‌شود و اهمیت بیش‌تر پیدا می‌کند. طبق موسسه SAS ،DQM باجمع‌آوری فرهنگ سازمانی، سیاست‌ها، فناوری و داده‌ها به تولید نتایج دقیق و مفید کمک می‌کند.

اولین قدم در اجرای DQM در تیم شما، حکمرانی داده است که مسئولیت‌ها، استانداردها و نقش‌ها را پوشش می‌دهد. حکمرانی داده شرکت شما باید نوع داده و مناطقی که اطلاعات در آن‌ها ذخیره یا پردازش می‌شوند را در نظر بگیرد. به عنوان مثال، داده‌های مرتبط با سلامت در ایالات متحده باید دستورالعمل‌های قانون قابلیت حمل و پاسخگویی بیمه سلامت (HIPAA) را در نظر بگیرند، در حالی که سازمان‌های اروپایی باید قوانین مقررات عمومی حفاظت از داده‌ها (GDPR) را در نظر بگیرند.

دومین مورد در مدیریت، در تیم سازمانی باید فرهنگی ایجاد شود که تولید داده‌های با کیفیت را اولویت‌بندی کنند. این کار از رهبری سازمان آغاز می‌شود و به تحلیلگران داده‌ای که سیستم‌های داده را مدیریت می‌کنند، گسترش می‌یابد. اگر داده‌های با کیفیت در مجموعه به‌عنوان یک امر حیاتی در نظر گرفته نشود، مشکلاتی مانند داده‌های ناقص و قدیمی به روال عادی تبدیل خواهند شد. در نهایت، سازمان باید فناوری‌هایی را اتخاذ کند که به پاکسازی، اعتبارسنجی، نظارت بر کیفیت و حل مشکلات داده کمک می‌کنند.

داشتن داده‌های با کیفیت یک الزام برای توسعه مدل‌ها و ابزارهای دقیق هوش مصنوعی است. به همین دلیل، سازمان شما باید اطمینان حاصل کند که داده‌های انتخاب‌شده برای آموزش مدل‌های هوش مصنوعی دقیق، کامل و به‌روز هستند. دو روش اصلی برای ایجاد زیرساختی برای اطمینان از کیفیت بالای داده وجود دارد:

۱.اجرای روش‌های یکپارچه‌سازی داده

۲.ایجاد یک برنامه جامع مدیریت کیفیت داده (DQM)

فعال کردن و حفظ کیفیت داده ممکن است در زمانی که سازمان شما می‌خواهد به سرعت با هوش مصنوعی به بازار عرضه شود، پر‌اهمیت است. با این حال، نادیده گرفتن این مرحله پرهزینه خواهد بود و سبب می‌شود احتمال شکست ۸۵ درصد از مدل‌های هوش مصنوعی شما افزایش یابد.

داده هوش مصنوعی

https://pvst.ir/jy8

0 نظر

ارسال دیدگاه لغو پاسخ