متا میخواهد صنعت تبلیغات دیجیتال را با هوش مصنوعی بازتعریف کند
شرکت متا طبق گزارش اختصاصی والاستریت ژورنال در تلاش است تا فرایند تبلیغات دیجیتال را…
۱۲ خرداد ۱۴۰۴
۱۱ خرداد ۱۴۰۴
زمان مطالعه : ۱۱ دقیقه
محتوای داخلی و اختصاصی شرکتها در عصر هوش مصنوعی بیش از هر زمان دیگری اهمیت دارد. این محتوا، که عمدتا به صورت در قالب دادههای غیرساختاریافته همچون ایمیلها، قراردادها، فرمها، فایلهای شیرپوینت، محتوای جلسات و سایر اسناد تولیدشده در فعالیتهای سازمان، در دسترس است، میتواند نقش مهمی در موفقیت پروژههای هوش مصنوعی مولد(Gen AI) ایفا کند.
بسیاری از شرکتها به این نتیجه رسیدهاند که ارزش هوش مصنوعی مولد در گرو ترکیب زبان، استدلال و دانش عمومی مدلهای زبانی برگ (LLMها) با محتوای اختصاصی است. چنین ترکیبی برای مثال در سطح کاربردهای هوش مصنوعی مولد تجاری در بخش خدمات مشتریان، بازاریابی، حقوق و توسعه نرمافزار و پیشنهادات محصولی/خدمتی برای مشتریان، ضرورت پیدا میکند.
به گفته یکی از مدیران ارشد داده: «فقط با نصب ابزارهایی مانند CoPilot نباید انتظار بازگشت سرمایه داشت.» درواقع، ارزشآفرینی واقعی از پروژههای Gen AI در گروی ترکیب قدرت زبانی، استدلالی و دانشی مدلهای زبانی بزرگ (LLM) با محتوای اختصاصی شرکتهاست.
در این گزارش، به بررسی چرایی و چگونگی بهبود کیفیت دادههای غیرساختاریافته برای استفاده موثر از هوش مصنوعی مولد براساس مقاله هاروارد بیزینس ریویو (HBR) به قلم توماس ایچ دیونپورت، راجر دابلیو هورل و توماس سی ردمن میپردازیم. نگارندگان همچنین فرایندی ششمرحلهای برای بهینهسازی این نوع دادهها ارائه میکنند.
زمانی میتوان از حداکثر ارزش هوش مصنوعی مولد بهرهبرداری کردکه مدلهای زبانی توانمند مانند چتجیپیتی یا جمنای با محتوای خاص سازمانی ترکیب شوند. این ترکیب در کاربردهایی مانند خدمات مشتریان، بازاریابی، امور حقوقی، توسعه نرمافزار و حتی در محصولات و خدمات ارائهشده به مشتریان نقش کلیدی دارد.
متداولترین رویکرد برای ترکیب محتوای سازمانی با مدل بزرگ زبانی، استفاده از معماری «تولید تقویتشده با بازیابی» (Retrieval Augmented Generation یا RAG) است. در این روش، محتوای مورد نیاز از منابع ذخیرهشده بازیابی شده و در توانمندیهای مدل بزرگ زبانی برای پاسخگویی به سؤالات ترکیب میشود. اما اثربخشی این رویکرد وابسته به کیفیت دادههای غیرساختاریافته بستگی است.
مشکل اساسی در پیادهسازی موفق RAG، کیفیت پایین دادههای غیرساختاریافته است. این دادهها اغلب قدیمی، تکراری، ناقص، بیساختار و فاقد زمینه معنایی کافی هستند. در حالی که شرکتها حتی در مدیریت دادههای ساختاریافته که روزانه در تراکنشهای تجاری استفاده میشوند نیز عملکرد مطلوبی ندارند، شرایط برای دادههای غیرساختاریافته از این هم وخیمتر است.
آخرین تلاشهای جدی برای ساماندهی دادههای غیرساختاریافته به دهههای ۱۹۹۰ و ۲۰۰۰ بازمیگردد، زمانی که مدیریت دانش شهرت بالایی داشت. با این حال، اغلب این تلاشها ناموفق بودند و اکنون و با ظهورهوش مصنوعی مولد، مدیران ارشد بهتدریج به این نتیجه رسیدهاند که ضعف کیفیت دادههای غیرساختاریافته مانع جدی در مسیر موفقیت پروژههای هوش مصنوعی است.
همانطور که برای دادههای ساختاریافته، دستیابی به کیفیت مطلوب نیازمند تلاش متمرکز، رهبری قوی، تیم متخصص و تعهد مداوم است، در مورد دادههای غیرساختاریافته نیز همین اصل صدق میکند. الکس بورک، مشاوره حوزه دادهها در این باره میگوید: «وقتی هوش مصنوعی کار نمیکند، اغلب نشان دهنده نقایصی در سیستم انسانی است.»
برآوردها نشان میدهد که حدود ۸۰ درصد زمان صرفشده در پروژههای هوش مصنوعی به دادهها اختصاص دارد. برای مثال، تیمی در بانک مورگان استنلی در فیلیپین پیش از راهاندازی ابزار هوش مصنوعی مولد خود به نام AI @ Morgan Stanley، چندین سال را صرف پاکسازی گزارشهای پژوهشی کردند.
موفقیت رویکرد RAG مستلزم دسترسی به اسنادی است که مرتبط، بهروز، دقیق و بدون محتوای تکراری باشند. همچنین همانگونه که سث ایرلی (متخصص داده) میگوید: «اگر قرار باشد که یک مدل بزرگ زبانی به درستی این مستندات را تفسیر کند، شما باید اطلاعات زمینهای کافی را در اختیار آن بگذارید.»
دادههای غیرساختار یافته محتوای زمینهای مورد نیاز را در خود ندارند و هوش مصنوعی مولد در بیشتر موارد نمیتواند تشخیص دهد که بهترین اطلاعات برای حل یک سوال یا مشکل تجاری چیست. هوش مصنوعی مولد در «تجزیه هویت» نیز عملکرد خوبی ندارد و برای مثال نمیتواند متوجه شود که آیا «این نام جان اسمیت در مستند الف، درمورد مشتریان، همان جی ای استمیت در مستند ب درمورد فروشندگان است و/یا همان شخص نام برده شده به عنوان آقای جی اسمیت در مستند پ درمورد کمک مالی به بنیاد ما؟»
بهترین دادههای ساختار یافته در یک مدل یا فرهنگ لغت دادهها تعریف میشوند. در نتیجه محتوای زمینهای در اختیار مدل قرار میگیرد و میتواند مساله جان اسمیت یا جی ای اسمیت در مثال بالا را حل کند. در دادههای ساختاریافته راحتتر می توان دادههای مطلب را پیدا کرد، مسئول آن را تشخیص داد و معنای دادهها را درک کرد.
جان دانکان، رئیس حاکمیت داده یک خردهفروشی بزرگ خودرو به نام CarMax میگوید، داده غیرساختاریافته نیازمند شفافسازی مالکیت داده، فرایندها، مشتریان و متولیان است. همچنین استانداردهایی برای آستانه کیفیت داده، شجرهنامه داده، کنترل دسترسی و طول زمان نگهداری هم مفید هستند. چنین متا دادهای معمولا در یک دیکشنری داده یافت میشود.
با این حال به ندرت یک دیکشنری داده برای دادههای غیرساختاریافته داریم. معمولا هیچ مدیریت مرکزی برای چنین محتوایی وجود ندارد؛ مستندات با استفاده از نامگذاریهای مختلف و در کامپیوترها و ابرهای متعدد ذخیره میشوند. هیچ تعریف واحدی از یک نوع از محتوا وجود ندارد؛ رهبر بخش دادههای یکی از آژانس های تبلیغاتی اعتراف میکند که در تمام آژانس یک تعریف واحد برای واژه «pitch» یا «ارائه» وجود ندارد.
به طور کلی مستندات غیرساختاریافته معمولا با هدفی به جز ارائه به هوش مصنوعی مولد تولید شدهاند. برای مثال قرارداد با یک عرضه کننده به گونهای طراحی نشده که سطح خطر در رابطه با عرضهکننده را در بر گیرد. بهقول چارلز هندی، متفکر حوزه مدیریت: «به ندرت پیش میآید اطلاعاتی که برای یک هدف جمعآوری شدهاند، برای دیگری مفید باشند.»
نویسندگان مقاله HBR برای ارتقای کیفیت دادههای غیرساختاریافته و استفاده موثر از آن در پروژههای هوش مصنوعی مولد، فرایندی ششمرحلهای پیشنهاد میدهند:
۱. مشکلات کیفی دادههای غیرساختاریافته را بهصورت موردی حل کنید، نه یکباره
۲. دادهها را برای استفاده شناسایی و ارزیابی کنید
۳. برای رفع مشکل یک تیم تشکیل دهید
۴. دادهها را با استفاده از انسان (D1) و در صورت لزوم هوش مصنوعی (D2)، آمادهسازی کنید
۵. اپلیکیشن خود را توسعه داده و عملکرد آن را بررسی کنید
۶. از اپلیکیشن پشتیبانی و برای نهادینهکردن کیفیت در فرایندهای تولید محتوا تلاش کنید
در ادامه هرکدام از این مراحل را توضیح میدهیم:
دادههای غیرساختاریافته بسیار زیاد و متنوع هستند و نمیتوان همه آنها را همزمان ساماندهی کرد. بنابراین، شرکتها باید پروژهها را بر اساس ارزش تجاری مسئله و نیز میزان آمادگی دادهها اولویتبندی کنند. در مواردی که دادهها بهطور طبیعی ساختارمندتر هستند یا موارد تکراری کمتر دارند، شانس موفقیت بالاتر است و باید در اولویت بالاتری قرار گیرند. برای مثال، شرکت W&B Services در اپلیکیشن بازیابی دانش خود برای تکنسینهای خدماتی از نقشههای فنی حدود ۲۰ مدل یخچالی که دو تولیدکننده ارائه کردهاند، استفاده میکند.
از آنجایی که داده در موفقیت یک پروژه دانشی مبتنی بر هوش مصنوعی مولد نقش حیاتی دارد، در مراحل ابتدایی پروژه باید دادههای مرتبط شناسایی و ارزیابی کرد. این وسوسه انسانی وجود دارد که از هر سند ممکن در یک RAG استفاده کرد، اما باید با دیدگاه «کمتر بهتر است» به موضوع نگریست. اگر یک دلیل خوب برای اعتماد به یک مستند یا منبع محتوا وجود ندارد، آن را حذف کنید.
از آنجایی که بررسی تمام مستندات تقریبا غیرممکن است، تیم شما میتواند با بررسی نمونهای کوچک از اسناد، میزان خطا، ناسازگاری، وضوح و اعتبار محتوا را ارزیابی کند. دادههای نامناسب را کنار بگذارید و دادههای پاک را نگه دارید. اگر دادهها در وضعیت بسیار بدی هستند یا نمیتوانید دادههای مناسب کافی پیدا کنید، پروژه نیاز به بازبینی و تجدید نظر دارد.
فرایند پاکسازی و بهبود کیفیت دادهها مستلزم مشارکت انسانی است. اعضای تیم باید علاوه بر تخصص فنی، تجربه کار با دادههای موضوعی را داشته باشند و تنها یک تیم متخصصان کوچک نمیتوانند کار رفع مشکل را به پایان برسانند. آنهایی که هرروز با دادهها کار میکنند معمولا ایده بهتری درمورد دادههای با کیفیت بالا و نحوه دستیابی به آن دارند.
برای مثال تجربه بانک Scotiabank نشان میدهد که واگذاری مسئولیت کیفیت پایگاه دانش به کارکنان مرکز تماس، منجر به ارتقای قابل توجه در پاسخگویی چتباتها میشود.
حالا که متوجه شدید برای بهبود کیفیت داده ساختارنیافته به کمک انسانی نیاز است، زمان مشارکت فرا رسیده است. مشارکت انسانی باید شامل توافق روی اصطلاحات کلیدی همچون «قرارداد»، «پیشنهاد»، «نکته فنی» و «مشتری» باشد و همچنین درمورد نحوه تعریف آنها نیز میان طرفین به اتفاق نظر برسید. این فعالیت را به صورت یک واژهنامه تجاری ثبت کنید. چنین کاری ممکن است دشوار باشد: براساس قانون «Davenport» که اولین بار بیش از ۳۰ سال پیش مطرح شد، هرچه یک سازمان بیشتر درمورد یک عنصر اطلاعاتی خاص میداند یا به آن اهمیت میدهد، احتمال اینکه یک اصطلاح و معنای مشترک برای آن وجود داشته باشد، کمتر میشود. برای غلبه بر این مشکل میتوان از «مشاجره داده» (نه ساختاربندی داده) کمک گرفت، تا زمانی یک اتفاق نظر در داخل سازمان حاصل شود.
همچنین برای ساماندهی انسانی باید مشخص کنید که کدام مستندات یا منابع محتوایی بهترین مورد برای یک مشکل مشخص هستند و آن را با متا داده نشانهگذاری کنید و به محتوا را براساس مشخصههایی مثل شفافیت، ارتباط با موضوع و تازگی امتیاز بدهید. بانک مورگان استنلی تیمی متشکل از ۲۰ تحلیلگر در فیلیپین دارد که اسناد را با استفاده از ۲۰ معیار مختلف ارزیابی و نمرهدهی میکنند.
هوش مصنوعی نیز خود میتواند برخی از وظایف آمادهسازی دادههای ساختارنیافته برای استفاده در هوش مصنوعی مولد را برعهده بگیرد. برای مثال هوش مصنوعی میتواند محتوا را خلاصهسازی کند، مستندات را براساس دسته محتوایی دستهبندی کند و عناصر کلیدی داده را نشانهگذاری کند. برای مثال شرکت CarMax از هوش مصنوعی مولد برای ترجمه زبان خاص هرکدام از تولیدکنندگان خودرو برای توصیف اجزای خودرو و قابلیتها استفاده میکند تا توصیفی استاندارد بسازد و مشتری از طریق آن بتواند خودروهای تولیدکنندگان مختلف را مقایسه کند.
هوش مصنوعی همچنین میتواند پیشنویسهای اولیه خوبی از «نمودارهای دانش» بسازد یا نشان دهد که کدام اطلاعات به دیگر اطلاعات یک شبکه مرتبط است. نمودارهای دانش به توانایی RAG در تشخیص سریع بهترین محتوا، کمک میکنند. هوش مصنوعی مولد در حذف تکرار یا فرایند پیدا کردن نسخههای یکسان یا مشابه از مستندات و حذف همه موارد به جز یکی از آنها نیز عملکرد خوبی دارد. از آنجایی که RAG براساس ملاک مشخصی مستندات را انتخاب می:ند، میتوان این ملاکها را تغییر داد تا وزن بیشتری برای ملاکهای مشخص در جستجوی محتوایی قائل شوند.
با این حال نویسندگان مقاله HBR دریافتند که هوش مصنوعی مولد هنوز در تشخیص بهترین سند بین اسناد مشابه، دقت کافی ندارد. در چنین مواردی، کمک گرفتن از انسان برای بازبینی ضرورت دارد و نگارندگان پیشنهاد میکنند که انسانها هدف اصیل و کاری که باید انجام شود را مشخص کنند و از ماشینها گسترش مقیاس و کاهش هزینه استفاده شود.
پس از آمادهسازی دادهها، اپلیکیشن RAG باید توسط تیم فنی توسعه یابد. اما پیش از استقرار، ضروری است سیستم با دقت مورد بررسی قرار گیرد؛ به ویژه در موارد حساس که اپلیکیشن در صنایع تحت نظارت شدیدی قانونی یا مرتبط با سلامت انسان استفاده میشوند.
یکی از روشهای موثر، طراحی «۵۰ سوال طلایی» است که براساس آن یک تیم سوالاتی را که RAG باید پاسخ صحیح به آنها بدهد مشخص میکند و سپس عملکرد آن در پاسخگویی مورد بررسی قرار میگیرد. این ارزیابی باید به مرور زمان انجام گیرد زیرا مدلهای بزرگ زبانی معمولا با گذشت زمان تغییر میکنند.
برای مثال، یک شرکت بیمه اروپایی در فرآیند اعتبارسنجی اپلیکیشن خود متوجه شد که پاسخهای منابع مختلف مانند قراردادها، کارمندان مرکز تماس و پایگاه دانش با یکدیگر سازگار نیستند. در نهایت، بخش خسارت به عنوان مرجع پاسخ صحیح معرفی شد و بقیه منابع متناسب با آن اصلاح شدند.
هیچ اپلیکیشنی از همان ابتدا کامل نیست. حتی بهترین مدلهای RAG نیز ممکن است گاهی دچار خطا یا «توهم» شوند. همچنین با گسترش موارد استفاده، به تغییرات جدید نیاز است. بنابراین، وجود سیستم بازخورد، تحلیل علت خطا، تعریف معیارهای «کیفیت»، آموزش تولیدکنندگان محتوا، و برنامهای برای مدیریت کیفیت مستمر ضرورت دارد.
برای مثال، در حوزههایی مانند پزشکی، حقوق یا خدمات مالی، وجود «انسان متخصص در حلقه» برای نظارت بر عملکرد سیستم الزامی است.
به طور کلی ترکیب محتوای اختصاصی سازمانها با مدلهای زبانی بزرگ، یکی از موثرترین روشها برای ارزشآفرینی با هوش مصنوعی مولد است. اما این مسیر تنها در صورتی موفق خواهد بود که دادههای غیرساختاریافته از کیفیت کافی برخوردار باشند.
گرچه چالشهای فنی، فرهنگی و سازمانی زیادی در این مسیر وجود دارد، اما با اجرای گامهای ذکرشده و بهکارگیری رویکردی مبتنی بر مشارکت، مدیریت داده و تکنولوژی، رسیدن به دادههای باکیفیت برای Gen AI نه تنها ممکن، بلکه ضروری است. همانگونه که تجربه شرکتهای پیشرو نشان میدهد، سازمانهایی که بهموقع بر روی دادههای خود سرمایهگذاری میکنند، در آینده از مزیت رقابتی قابلتوجهی برخوردار خواهند شد.