متا با مولد ویدیو به جنگ اوپنایآی و گوگل میرود (+ویدیو)
شرکت مادر فیسبوک و اینستاگرام با یک ابزار جدید هوش مصنوعی که براساس پرامپتهای متنی…
۱۴ مهر ۱۴۰۳
۶ خرداد ۱۴۰۳
زمان مطالعه : ۷ دقیقه
مدلهای بزرگ زبانی به تبحر در ارائه پاسخهای ساختگی شهرت دارند. موضوعی که از آن به عنوان توهم هوش مصنوعی یاد میشود و باعث شده تا بسیاری نتوانند واقعیت و دروغ این ابزارها را از یکدیگر تشخیص دهند، موضوعی که خطراتی را به دنبال دارد.
به گزارش پیوست، استارتآپی به نام Cleanlab که برآمد از آزمایشگاه رایانش کوانتومی دانشگاه MIT است، ابزاری برای کاربران حساس طراحی کرده تا با استفاده از آن اعتبار مدلها را بسنجند. این ابزار که Trustworthy Language Model نام دارد براساس اعتبار خروجی مدل بزرگ زبانی به آن امتیازی بین ۰ و ۱ میدهد. با این کار مردم میتوانند پاسخهای قابل اعتماد و غیرقابل اعتماد را از یکدیگر تشخیص دهند.
استارتآپ Cleanlab امیدوار است که با این ابزار از مدلهای بزرگ زبانی گزینه جذابتری برای کسبوکارهایی بسازد که نگران اعتبار و درستی پاسخها هستند. کرتیس نورتکات، مدیرعامل Cleanlab، میگوید: «به نظرم مردم میدانند که LLMها جهان را تغییر میدهند اما این توهمهای لعنتی است که جلودارشان شده است.»
چتباتها به سرعت در حال تبدیل شدن به اولین منبع اطلاعاتی هستند.موتورهای جستجو نیز روند بازطراحی خود پیرامون این فناوری را طی میکنند. نرمافزار آفیس که میلیاردها نفر هرروز از آن برای کارهای متخلف استفاده میکنند حالا یک چتبات بومی را در کنار خود دارد. با این حال مطالعهای که در ماه نوامبر توسط Vectara، استارتآپی که توسط کارکنان سابق گوگل بنیانگذاری شده است، منتشر شد نشان میدهد چتباتها حداقل ۳ درصد از مواقع اطلاعات را از خودشان تولید میکند. شاید از نظر یک کاربر معمولی این نرخ اشتباه چندان زیاد نباشد اما کسبوکارها تحمل این سطح از خطر را ندارند.
ابزار شرکت Cleanlab را در حال حاضر چند شرکت از جمله گروه تحقیقاتی برکلی، یک شرکت مشاوره مستقر در انگلستان که در حوزه نزاعها و تفحصهای شرکت تخصص دارد، استفاده میکنند. ایتیون کاتروپ، نایبرئیس شرکت تحقیقاتی برکلی، میگوید Trustworthy Language Model یا TLM اولین راهحل کارآمدی است که برای مشکل توهم دیده است: «TLM از شرکت Cleanlab قدرت هزاران پژوهشگر داده را در اختیار ما میگذارد.»
شرکت Cleanlab در سال ۲۰۲۱ فناوری را توسعه داد که خطاهای موجود در ۱۰ پایگاه داده مشهور در حوزه الگوریتمهای یادگیری ماشینی را شناسایی کرد؛ این فناوری خروجی مدل را در قیاس با چندین مدل مختلف که براساس همان داده آموزش دیدهاند ارزیابی میکند. چندین شرکت بزرگ از جمله گوگل، تسلا و Chase، غول حوزه بانکی، در حال حاضر از این فناوری استفاده میکنند. TLM همان ایده را گرفته و بر چتباتها اعمال میکند.
نورتکات در دمویی که هفته گذشته شرکت Cleanlab در اختیار مجله فناوری امآیتی قرار داد، سوال سادهای را از ChatGPT میپرسد: «حرف n چند مرتبه در کلمه enter وجود دارد؟» چتبات در پاسخ گفت «حرف n یک بار در کلمه enter وجود دارد.» این پاسخ صحیح نشانگر اعتبار است اما اگر این سوال را چند مرتبه دیگر بپرسید، ChatGPT در پاسخ میگوید: «حرف n دو بار در کلمه enter وجود دارد.»
همین مثال ساده نکته را روشن میکند. نورتکات، می؛وید بدون امتیازممکن است تصور کنید که پاسخ چتبات صحیح است. مشکل اینجاست که پژوهشگران دادهای که مدلهای بزرگ زبانی را در شرایط پر خطر آزمایش میکنند با چند پاسخ صحیح گرماه شده و فرض را بر صحبت پاسخهای آینده میگذارند: «آنها امتحان میکنند، آنها چند مثال را بررسی میکنند و تصور میکنند که جواب میدهد. سپس کارهایی میکنند که به تصمیمات تجاری بدی منجر میشود.»
مدل TLM از چندین تکنیک برای برآورد امتیاز خود استفاده میکند. اول از همه پرسشی که از ابزار صورت گرفته به یک یا چند مدل بزرگ زبانی ارسال میشود. نورتکات میگوید این فناوری برای تمامی مدلها از جمله سری GPT از اوپنایآی جواب و یا مدلهای متن بازی مثل DBRX که توسط شرکت هوش مصنوعی Databricks ساخته شده جواب میدهد. اگر پاسخ تمامی این مدلها یکسان یا مشابه باشد، امتیاز بیشتری به پاسخ اختصاص مییابد.
در همین حال، TLM نسخههایی از پرسش را با کمی تفاوت برای هرکدام از این مدلها ارسال میکند که در آنها چند کلمه جابجا شده اما معنای آن یکسان است. در اینجا هم اگر پاسخها به هم شبیه یا یکسان باشند امتیاز بیشتری به پاسخ داده میشود. نورتاکت میگوید: «ما به طرق مختلف با آنها بازی میکنیم تا خروجیهای متفاوتی بگیریم و ببینیم آیا آنها موافق هستند.»
این ابزار از مدلها میخواهد تا پاسخهای یکدیگر را نیز بررسی کنند: «مثل اینکه بگوییم، این پاسخ من است، تو چه فکری میکنی؟ خب این پاسخ من، نظر تو چیست؟ میگذاریم صحبت کنند.» این تعاملات تحت نظارت قرار گرفته و سنجیده میشوند و سپس در امتیاز لحاظ خواهند شد.
نیک مککنا، پژوهشگر کامپیوتر در موسسه تحقیقاتی مایکروسافت در کمبریج انگلستان، که روی مدل های بزرگ زبانی برای تولید کد کار میکند امیدوار است که این رویکرد میتواند مفید باشد. با این حال او به بینقص بودن چنین رویکردی مشکوک است. او میگوید: «یکی از مشکلاتی که در توهمهای مدل میبینیم این است که آنها میتوانند خیلی ماهرانه این کار را انجام دهند.»
با این حال شرکت Cleanlab در چندین آزمای از مدلهای بزرگ زبانی نشان میدهد که امتیاز این شرکت رابطه خوبی با دقت این پاسخها دارد. به عبارت دیگر، نمرات نزدیک به ۱ با پاسخ های صحیح همراه می شوند و نمرات نزدیک به ۰ هم با پاسخهای نادرست. آنها در آزمایش دیگری دریافتند که استفاده از TLM برای GPT-4 به پاسخهای قابل اعتمادتری نسبت به استفاده از GPT-4 به تنهایی منتهی میشود.
مدلهای بزرگ زبانی متن را با پیش بینی محتملترین کلمه بعدی در جملات تولید میکنند. شرکت Cleanlab در نسخههای بعدی ابزار خود قرار است با اتکا به احتمالاتی که مدل برای پیشبینی خود استفاده کرده است،دقت امتیاز خود را افزایش دهد. این شرکت میخواهد به ارقامی که مدل به هر کلمه در فرهنگ لغت اختصاص میدهد دسترسی یابد. همین ارقام برای محاسبه احتمالات استفاده می شوند. یک سری از پلتفرمها از جمله Bedrock از شرکت آمازون که کسبوکارها از آن برای اجرای مدلهای بزرگ زبان استفاده میکنند، چنین اطلاعاتی را ارائه میکنند.
شرکت Cleanlab این رویکرد را با دادههای ارائه شده از گروه تحقیقاتی برکلی آزمایش کرده است. این شرکت باید ارجاعاتی که به مشکلات بهداشتی در هزاران مستند شرکتی ارائه شده را جستجو میکرد. چنین کاری به صورت دستی هفتهها زمان میبرد. گروه تحقیقاتی برکلی با استفاده از TLM برای بررسی این مستندات متوجه شد که چتبات درمورد کدام مستندات کمترین اطمینان را دارد و در نتیجه این دسته از مستندات به صورت دستی بازبینی شدند. نورتکات میگوید این رویکرد بار کاری را تا ۸۰ درصد کاهش داد.
در آزمایش دیگری، شرکت Cleanlab با بانک بزرگی همکاری کرده است (نورتکات نام بانک را فاش نمیکند زیرا یکی از رقبای گلدمن ساکس است.) این بانک نیز همچون شرکت تحقیقاتی برکلی باید ارجاعات مربوط به بیمه را در ۱۰۰ هزار مستند جستجو میکرد. این بار هم TLM توانست تعداد مستنداتی که نیاز به بررسی دستی داشتند را به بیش از نصف کاهش دهد.
ارائه چندباره هر پرسش برای چندین مدل هزینه و زمان را به نسبت استفاده از یک چتبات افزایش میدهد اما Cleanlab میگوید TLM یک خدمت پر هزینه برای خودکارسازی وظایف مهمی است که در گذشته به مدلهای بزرگ زبانی واگذار نمیشدند. قرار نیست چتباتها جایگزین شوند بلکه شرایطی ایجاد میشود تا این ابزارها کار متخصصان انسانی را انجام دهند. نورتکات میگوید اگر این ابزار بتواند زمان مورد نیاز برای استخدام یک اقتصاددان یا وکیل را کاهش دهد، ارزش هزینه کردن را دارد.
نورتکات امیدوار است که این فناوری در بلند مدت با کاهش ابهام درمورد پاسخهای چتبات به کاربران بیشتری در استفاده از مدلهای بزرگ زبانی کمک کند. او میگوید: «توهم تنها مشکل مدل بزرگ زبانی نیست، مساله اصلی شک است.»