skip to Main Content
محتوای اختصاصی کاربران ویژهورود به سایت

فراموشی رمز عبور

با شبکه های اجتماعی وارد شوید

عضو نیستید؟ عضو شوید

ثبت نام سایت

با شبکه های اجتماعی وارد شوید

عضو نیستید؟ وارد شوید

فراموشی رمز عبور

وارد شوید یا عضو شوید

جشنواره نوروزی آنر

مسیر ارزش‌آفرینی با هوش مصنوعی از بهبود کیفیت داده‌های غیرساختاریافته می‌گذرد

۱۱ خرداد ۱۴۰۴

زمان مطالعه : ۱۱ دقیقه

محتوای داخلی و اختصاصی شرکت‌ها در عصر هوش مصنوعی بیش از هر زمان دیگری اهمیت دارد. این محتوا، که عمدتا به صورت در قالب داده‌های غیرساختاریافته همچون ایمیل‌ها، قراردادها، فرم‌ها، فایل‌های شیرپوینت، محتوای جلسات و سایر اسناد تولیدشده در فعالیت‌های سازمان، در دسترس است، می‌تواند نقش مهمی در موفقیت پروژه‌های هوش مصنوعی مولد(Gen AI) ایفا کند.

بسیاری از شرکت‌ها به این نتیجه رسیده‌اند که ارزش هوش مصنوعی مولد در گرو ترکیب زبان، استدلال و دانش عمومی مدل‌های زبانی برگ (LLMها) با محتوای اختصاصی است. چنین ترکیبی برای مثال در سطح کاربرد‌های هوش مصنوعی مولد تجاری در بخش خدمات مشتریان، بازاریابی، حقوق و توسعه نرم‌افزار و پیشنهادات محصولی/خدمتی برای مشتریان،  ضرورت پیدا می‌کند.

به گفته یکی از مدیران ارشد داده: «فقط با نصب ابزارهایی مانند CoPilot نباید انتظار بازگشت سرمایه داشت.» درواقع، ارزش‌آفرینی واقعی از پروژه‌های Gen AI در گروی ترکیب قدرت زبانی، استدلالی و دانشی مدل‌های زبانی بزرگ (LLM) با محتوای اختصاصی شرکت‌هاست.

در این گزارش، به بررسی چرایی و چگونگی بهبود کیفیت داده‌های غیرساختاریافته برای استفاده موثر از هوش مصنوعی مولد براساس مقاله هاروارد بیزینس ریویو (HBR) به قلم توماس ایچ دیون‌پورت، راجر دابلیو هورل و توماس سی ردمن می‌پردازیم. نگارندگان همچنین فرایندی شش‌مرحله‌ای برای بهینه‌سازی این نوع داده‌ها ارائه می‌کنند.

ارزش ترکیب LLM و محتوای اختصاصی

زمانی می‌توان از حداکثر ارزش هوش مصنوعی مولد بهره‌برداری کردکه مدل‌های زبانی توانمند مانند چت‌جی‌پی‌تی یا جمنای با محتوای خاص سازمانی ترکیب شوند. این ترکیب در کاربردهایی مانند خدمات مشتریان، بازاریابی، امور حقوقی، توسعه نرم‌افزار و حتی در محصولات و خدمات ارائه‌شده به مشتریان نقش کلیدی دارد.

متداول‌ترین رویکرد برای ترکیب محتوای سازمانی با مدل بزرگ زبانی، استفاده از معماری «تولید تقویت‌شده با بازیابی» (Retrieval Augmented Generation یا RAG) است. در این روش، محتوای مورد نیاز از منابع ذخیره‌شده بازیابی شده و در توانمندی‌های مدل بزرگ زبانی برای پاسخ‌گویی به سؤالات ترکیب می‌شود. اما اثربخشی این رویکرد وابسته به کیفیت داده‌های غیرساختاریافته بستگی است.

کیفیت پایین داده‌های غیرساختاریافته

مشکل اساسی در پیاده‌سازی موفق RAG، کیفیت پایین داده‌های غیرساختاریافته است. این داده‌ها اغلب قدیمی، تکراری، ناقص، بی‌ساختار و فاقد زمینه معنایی کافی هستند. در حالی که شرکت‌ها حتی در مدیریت داده‌های ساختاریافته که روزانه در تراکنش‌های تجاری استفاده می‌شوند نیز عملکرد مطلوبی ندارند، شرایط برای داده‌های غیرساختاریافته از این هم وخیم‌تر است.

آخرین تلاش‌های جدی برای سامان‌دهی داده‌های غیرساختاریافته به دهه‌های ۱۹۹۰ و ۲۰۰۰ بازمی‌گردد، زمانی که مدیریت دانش شهرت بالایی داشت. با این حال، اغلب این تلاش‌ها ناموفق بودند و اکنون و با ظهورهوش مصنوعی مولد، مدیران ارشد به‌تدریج به این نتیجه رسیده‌اند که ضعف کیفیت داده‌های غیرساختاریافته مانع جدی در مسیر موفقیت پروژه‌های هوش مصنوعی است.

منظور از «کیفیت» در داده‌های غیرساختاریافته چیست؟

همان‌طور که برای داده‌های ساختاریافته، دستیابی به کیفیت مطلوب نیازمند تلاش متمرکز، رهبری قوی، تیم متخصص و تعهد مداوم است، در مورد داده‌های غیرساختاریافته نیز همین اصل صدق می‌کند. الکس بورک، مشاوره حوزه داده‌ها در این باره می‌گوید: «وقتی هوش مصنوعی کار نمی‌کند، اغلب نشان دهنده نقایصی در سیستم انسانی است.»

برآوردها نشان می‌دهد که حدود ۸۰ درصد زمان صرف‌شده در پروژه‌های هوش مصنوعی به داده‌ها اختصاص دارد. برای مثال، تیمی در بانک مورگان استنلی در فیلیپین پیش از راه‌اندازی ابزار هوش مصنوعی مولد خود به نام AI @ Morgan Stanley، چندین سال‌ را صرف پاک‌سازی گزارش‌های پژوهشی کردند.

موفقیت رویکرد RAG مستلزم دسترسی به اسنادی است که مرتبط، به‌روز، دقیق و بدون محتوای تکراری باشند. همچنین همان‌گونه که سث ایرلی (متخصص داده) می‌گوید: «اگر قرار باشد که یک مدل بزرگ زبانی به درستی این مستندات را تفسیر کند، شما باید اطلاعات زمینه‌ای کافی را در اختیار آن بگذارید.»

داده‌های غیرساختار یافته محتوای زمینه‌ای مورد نیاز را در خود ندارند و هوش مصنوعی مولد در بیشتر موارد نمی‌تواند تشخیص دهد که بهترین اطلاعات برای حل یک سوال یا مشکل تجاری چیست. هوش مصنوعی مولد در «تجزیه هویت» نیز عملکرد خوبی ندارد و برای مثال نمی‌تواند متوجه شود که آیا «این نام جان اسمیت در مستند الف، درمورد مشتریان، همان جی ای استمیت در مستند ب درمورد فروشندگان است و/یا همان شخص نام برده شده به عنوان آقای جی اسمیت در مستند پ درمورد کمک مالی به بنیاد ما؟»

بهترین داده‌‌های ساختار یافته در یک مدل یا فرهنگ لغت داده‌ها تعریف می‌شوند. در نتیجه محتوای زمینه‌ای در اختیار مدل قرار می‌گیرد و می‌تواند مساله جان اسمیت یا جی ای اسمیت در مثال بالا را حل کند. در داده‌های ساختاریافته راحت‌تر می توان داده‌های مطلب را پیدا کرد، مسئول آن را تشخیص داد و معنای داده‌ها را درک کرد.

جان دانکان، رئیس حاکمیت داده یک خرده‌فروشی بزرگ خودرو به نام CarMax می‌گوید، داده غیرساختاریافته نیازمند شفاف‌سازی مالکیت داده، فرایند‌ها، مشتریان و متولیان است. همچنین استاندارد‌هایی برای آستانه کیفیت داده، شجره‌نامه داده، کنترل دسترسی و طول زمان نگهداری هم مفید هستند. چنین متا داده‌ای معمولا در یک دیکشنری داده یافت می‌شود.

با این حال به ندرت یک دیکشنری داده برای داده‌های غیرساختاریافته داریم. معمولا هیچ مدیریت مرکزی برای چنین محتوایی وجود ندارد؛ مستندات با استفاده از نام‌گذاری‌های مختلف و در کامپیوتر‌ها و ابرهای متعدد ذخیره می‌شوند. هیچ تعریف واحدی از یک نوع از محتوا وجود ندارد؛ رهبر بخش داده‌های یکی از آژانس های تبلیغاتی اعتراف می‌کند که در تمام آژانس یک تعریف واحد برای واژه «pitch» یا «ارائه» وجود ندارد.

به طور کلی مستندات غیرساختاریافته معمولا با هدفی به جز ارائه به هوش مصنوعی مولد تولید شده‌اند. برای مثال قرارداد با یک عرضه کننده به گونه‌ای طراحی نشده که سطح خطر در رابطه با عرضه‌کننده را در بر گیرد. به‌قول چارلز هندی، متفکر حوزه مدیریت: «به ندرت پیش می‌آید اطلاعاتی که برای یک هدف جمع‌آوری شده‌اند، برای دیگری مفید باشند.»

فرایند شش‌مرحله‌ای بهبود کیفیت داده‌های غیرساختاریافته

نویسندگان مقاله HBR برای ارتقای کیفیت داده‌های غیرساختاریافته و استفاده موثر از آن در پروژه‌های هوش مصنوعی مولد، فرایندی شش‌مرحله‌ای پیشنهاد می‌دهند:

۱. مشکلات کیفی داده‌های غیرساختاریافته را به‌صورت موردی حل کنید، نه یک‌باره

۲. داده‌ها را برای استفاده شناسایی و ارزیابی کنید

۳. برای رفع مشکل یک تیم تشکیل دهید

۴. داده‌ها را با استفاده از انسان (D1) و در صورت لزوم هوش مصنوعی (D2)، آماده‌سازی کنید

۵. اپلیکیشن خود را توسعه داده و عملکرد آن را بررسی کنید

۶. از اپلیکیشن پشتیبانی و برای نهادینه‌کردن کیفیت در فرایند‌های تولید محتوا تلاش کنید

در ادامه هرکدام از این مراحل را توضیح می‌دهیم:

۱. مشکلات کیفی داده‌های غیرساختاریافته را به‌صورت موردی حل کنید، نه یک‌باره

داده‌های غیرساختاریافته بسیار زیاد و متنوع هستند و نمی‌توان همه آن‌ها را همزمان سامان‌دهی کرد. بنابراین، شرکت‌ها باید پروژه‌ها را بر اساس ارزش تجاری مسئله و نیز میزان آمادگی داده‌ها اولویت‌بندی کنند. در مواردی که داده‌ها به‌طور طبیعی ساختارمندتر هستند یا موارد تکراری کمتر دارند، شانس موفقیت بالاتر است و باید در اولویت بالاتری قرار گیرند. برای مثال، شرکت W&B Services در اپلیکیشن بازیابی دانش خود برای تکنسین‌های خدماتی از نقشه‌های فنی حدود ۲۰ مدل یخچالی که دو تولیدکننده ارائه کرده‌اند، استفاده می‌کند.

۲. داده‌ها را برای استفاده شناسایی و ارزیابی کنید

از آنجایی که داده در موفقیت یک پروژه دانشی مبتنی بر هوش مصنوعی مولد نقش حیاتی دارد، در مراحل ابتدایی پروژه باید داده‌های مرتبط شناسایی و ارزیابی کرد. این وسوسه انسانی وجود دارد که از هر سند ممکن در یک RAG استفاده کرد، اما باید با دیدگاه «کمتر بهتر است» به موضوع نگریست. اگر یک دلیل خوب برای اعتماد به یک مستند یا منبع محتوا وجود ندارد، آن را حذف کنید.

از آنجایی که بررسی تمام مستندات تقریبا غیرممکن است، تیم شما می‌تواند با بررسی نمونه‌ای کوچک از اسناد، میزان خطا، ناسازگاری، وضوح و اعتبار محتوا را ارزیابی کند. داده‌های نامناسب را کنار بگذارید و داده‌های پاک را نگه دارید. اگر داده‌ها در وضعیت بسیار بدی هستند یا نمی‌توانید داده‌های مناسب کافی پیدا کنید، پروژه نیاز به بازبینی و تجدید نظر دارد.

۳. برای رفع مشکل یک تیم تشکیل دهید

فرایند پاک‌سازی و بهبود کیفیت داده‌ها مستلزم مشارکت انسانی است. اعضای تیم باید علاوه بر تخصص فنی، تجربه کار با داده‌های موضوعی را داشته باشند و تنها یک تیم متخصصان کوچک نمی‌توانند کار رفع مشکل را به پایان برسانند. آنهایی که هرروز با داده‌ها کار می‌کنند معمولا ایده بهتری درمورد داده‌های با کیفیت بالا و نحوه دستیابی به آن دارند.

برای مثال تجربه بانک Scotiabank نشان می‌دهد که واگذاری مسئولیت کیفیت پایگاه دانش به کارکنان مرکز تماس، منجر به ارتقای قابل توجه در پاسخ‌گویی چت‌بات‌ها می‌شود.

۴. آماده‌سازی داده‌ها

الف) با نیروی انسانی (D1)

حالا که متوجه شدید برای بهبود کیفیت داده ساختارنیافته به کمک انسانی نیاز است، زمان مشارکت فرا رسیده است. مشارکت انسانی باید شامل توافق روی اصطلاحات کلیدی همچون «قرارداد»، «پیشنهاد»، «نکته فنی» و «مشتری» باشد و همچنین درمورد نحوه تعریف آنها نیز میان طرفین به اتفاق نظر برسید. این فعالیت را به صورت یک واژه‌نامه تجاری ثبت کنید. چنین کاری ممکن است دشوار باشد: براساس قانون «Davenport» که اولین بار بیش از ۳۰ سال پیش مطرح شد، هرچه یک سازمان بیشتر درمورد یک عنصر اطلاعاتی خاص می‌داند یا به آن اهمیت می‌دهد، احتمال اینکه یک اصطلاح و معنای مشترک برای آن وجود داشته باشد، کمتر می‌شود. برای غلبه بر این مشکل می‌توان از «مشاجره داده» (نه ساختاربندی داده) کمک گرفت، تا زمانی یک اتفاق نظر در داخل سازمان حاصل شود.

همچنین برای ساماندهی انسانی باید مشخص کنید که کدام مستندات یا منابع محتوایی بهترین مورد برای یک مشکل مشخص هستند و آن را با متا داده نشانه‌گذاری کنید و به محتوا را براساس مشخصه‌هایی مثل شفافیت، ارتباط با موضوع و تازگی امتیاز بدهید. بانک مورگان استنلی تیمی متشکل از ۲۰ تحلیلگر در فیلیپین دارد که اسناد را با استفاده از ۲۰ معیار مختلف ارزیابی و نمره‌دهی می‌کنند.

ب) با هوش مصنوعی (D2)

هوش مصنوعی نیز خود می‌تواند برخی از وظایف آماده‌سازی داده‌های ساختارنیافته برای استفاده در هوش مصنوعی مولد را برعهده بگیرد. برای مثال هوش مصنوعی می‌تواند محتوا را خلاصه‌سازی کند، مستندات را براساس دسته محتوایی دسته‌بندی کند و عناصر کلیدی داده را نشانه‌گذاری کند. برای مثال شرکت CarMax از هوش مصنوعی مولد برای ترجمه زبان خاص هرکدام از تولیدکنندگان خودرو برای توصیف اجزای خودرو و قابلیت‌ها استفاده می‌کند تا توصیفی استاندارد بسازد و مشتری از طریق آن بتواند خودروهای تولیدکنندگان مختلف را مقایسه کند.

هوش مصنوعی همچنین می‌تواند پیش‌نویس‌های اولیه خوبی از «نمودار‌های دانش» بسازد یا نشان دهد که کدام اطلاعات به دیگر اطلاعات یک شبکه مرتبط است. نمودار‌های دانش به توانایی RAG در تشخیص سریع بهترین محتوا، کمک می‌کنند. هوش مصنوعی مولد در حذف تکرار یا فرایند پیدا کردن نسخه‌های یکسان یا مشابه از مستندات و حذف همه موارد به جز یکی از آنها نیز عملکرد خوبی دارد. از آنجایی که RAG براساس ملاک مشخصی مستندات را انتخاب می‌:ند، می‌توان این ملاک‌ها را تغییر داد تا وزن بیشتری برای ملاک‌های مشخص در جستجوی محتوایی قائل شوند.

با این حال نویسندگان مقاله HBR دریافتند که هوش مصنوعی مولد هنوز در تشخیص بهترین سند بین اسناد مشابه، دقت کافی ندارد. در چنین مواردی، کمک گرفتن از انسان برای بازبینی ضرورت دارد و نگارندگان پیشنهاد می‌کنند که انسان‌ها هدف اصیل و کاری که باید انجام شود را مشخص کنند و از ماشین‌ها گسترش مقیاس و کاهش هزینه استفاده شود.

۵. اپلیکیشن خود را توسعه داده و عملکرد آن را بررسی کنید

پس از آماده‌سازی داده‌ها، اپلیکیشن RAG باید توسط تیم فنی توسعه یابد. اما پیش از استقرار، ضروری است سیستم با دقت مورد بررسی قرار گیرد؛ به ویژه در موارد حساس که اپلیکیشن در صنایع تحت نظارت شدیدی قانونی یا مرتبط با سلامت انسان استفاده می‌شوند.

یکی از روش‌های موثر، طراحی «۵۰ سوال طلایی» است که براساس آن یک تیم سوالاتی را که RAG باید پاسخ صحیح به آنها بدهد مشخص می‌کند و سپس عملکرد آن در پاسخگویی مورد بررسی قرار می‌گیرد. این ارزیابی باید به مرور زمان انجام گیرد زیرا مدل‌های بزرگ زبانی معمولا با گذشت زمان تغییر می‌کنند.

برای مثال، یک شرکت بیمه اروپایی در فرآیند اعتبارسنجی اپلیکیشن خود متوجه شد که پاسخ‌های منابع مختلف مانند قراردادها، کارمندان مرکز تماس و پایگاه دانش با یکدیگر سازگار نیستند. در نهایت، بخش خسارت به عنوان مرجع پاسخ صحیح معرفی شد و بقیه منابع متناسب با آن اصلاح شدند.

۶. از اپلیکیشن پشتیبانی و برای نهادینه‌کردن کیفیت در فرایند‌های تولید محتوا تلاش کنید

هیچ اپلیکیشنی از همان ابتدا کامل نیست. حتی بهترین مدل‌های RAG نیز ممکن است گاهی دچار خطا یا «توهم» شوند. همچنین با گسترش موارد استفاده، به تغییرات جدید نیاز است. بنابراین، وجود سیستم بازخورد، تحلیل علت خطا، تعریف معیار‌های «کیفیت»، آموزش تولیدکنندگان محتوا، و برنامه‌ای برای مدیریت کیفیت مستمر ضرورت دارد.

برای مثال، در حوزه‌هایی مانند پزشکی، حقوق یا خدمات مالی، وجود «انسان متخصص در حلقه» برای نظارت بر عملکرد سیستم الزامی است.

به طور کلی ترکیب محتوای اختصاصی سازمان‌ها با مدل‌های زبانی بزرگ، یکی از موثرترین روش‌ها برای ارزش‌آفرینی با هوش مصنوعی مولد است. اما این مسیر تنها در صورتی موفق خواهد بود که داده‌های غیرساختاریافته از کیفیت کافی برخوردار باشند.

گرچه چالش‌های فنی، فرهنگی و سازمانی زیادی در این مسیر وجود دارد، اما با اجرای گام‌های ذکرشده و به‌کارگیری رویکردی مبتنی بر مشارکت، مدیریت داده و تکنولوژی، رسیدن به داده‌های باکیفیت برای Gen AI نه تنها ممکن، بلکه ضروری است. همان‌گونه که تجربه شرکت‌های پیشرو نشان می‌دهد، سازمان‌هایی که به‌موقع بر روی داده‌های خود سرمایه‌گذاری می‌کنند، در آینده از مزیت رقابتی قابل‌توجهی برخوردار خواهند شد.

 

None

0 نظر

ارسال دیدگاه

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

*

برای بوکمارک این نوشته
Back To Top
جستجو