skip to Main Content
محتوای اختصاصی کاربران ویژهورود به سایت

فراموشی رمز عبور

با شبکه های اجتماعی وارد شوید

عضو نیستید؟ عضو شوید

ثبت نام سایت

با شبکه های اجتماعی وارد شوید

عضو نیستید؟ وارد شوید

فراموشی رمز عبور

وارد شوید یا عضو شوید

جشنواره نوروزی آنر

مدل‌های کوچک زبانی، آینده بزرگ هوش مصنوعی هستند

۲۱ فروردین ۱۴۰۴

زمان مطالعه : ۱۲ دقیقه

 مدل‌های زبانی کوچک با وجود اندازه به ظاهر کوچکشان، می‌توانند نقشی کلیدی در دسترس‌پذیرتر کردن، کارآمدتر کردن و تخصصی‌تر کردن هوش مصنوعی ایفا کنند. در حالی که غول‌های فناوری بر ساخت مدل‌های عظیم با میلیاردها پارامتر تمرکز کرده‌اند، مدل‌های زبانی کوچک با مزایای منحصربه‌فرد خود، مسیری نوآورانه را در دنیای هوش مصنوعی باز می‌کنند.

 ورود بازیگران قدرتمندی همچون ایلان ماسک با شرکت xAI و جذب سرمایه هنگفت ۵ میلیارد دلاری از سوی غول‌های سرمایه‌گذاری مانند Andreessen Horowitz و همچنین سرمایه‌گذاری ۴ میلیارد دلاری آمازون در Anthropic، رقیب OpenAI، نشان از شدت رقابت و عزم جدی برای پیشبرد مرزهای دانش در این عرصه دارد. اما در میان این رقابت برای ساخت مدل‌های زبانی بزرگ و قدرتمند، رویکردی دیگر با تمرکز بر مدل‌های زبانی کوچک نیز در حال ظهور است.

به نظر می‌رسد هوش مصنوعی با این سرمایه‌گذاری‌های کلان، آماده یک جهش بزرگ باشد. شرکت‌های بزرگی مثل مایکروسافت،گوگل و آمازون میلیاردها دلار خرج می‌کنند تا مدل‌های هوش مصنوعی همه کاره بسازند که نیازهای هر کسب‌وکاری است. ممکن است یک مدل هوش مصنوعی که برای یک شرکت بزرگ عالی کار می‌کند، برای کسب‌وکار کوچک شما مناسب نباشد. در این شرایط، مدیران باید به خوبی درک کنند که چه نوع هوش مصنوعی برای کسب‌وکارشان بهترین است تا بتوانند از این فناوری به بهترین شکل ممکن استفاده کنند.

استارت‌آپ‌های فعال در حوزه مدل‌های زبانی بزرگ (LLM) به رایانه‌ها این امکان را داده‌اند که حجم عظیمی از داده‌ها را پردازش کرده و به پرسش‌های زبان طبیعی پاسخ دهند. امروزه هوش مصنوعی مبتنی بر LLM به یک ابزار ضروری برای کسب‌وکارها در سراسر جهان تبدیل شده است.

مت گارمن، مدیرعامل خدمات وب آمازون AWS، در خصوص گسترش همکاری و سرمایه‌گذاری‌های این شرکت‌ گفت: بازخورد مشتریان ما که از مدل‌های هوش مصنوعی مولد Anthropic در پلتفرم Amazon Bedrock استفاده می‌کنند، شگفت‌انگیز بوده است. از طرفی دیگر شرکت Anthropic خانواده‌ای از مدل‌های هوش مصنوعی مولد به نام Claude را توسعه داده است که برای انجام وظایف متنوعی مانند نوشتن ایمیل، توضیح تصاویر و حل مسائل ریاضی و برنامه‌نویسی طراحی شده‌اند.

همچنین مت گارمن اشاره کرد: با گسترش استفاده از این مدل‌ها در Bedrock و همکاری با Anthropic برای توسعه تراشه‌های سفارشی Trainium، به نوآوری و گسترش قابلیت‌های هوش مصنوعی مولد کمک خواهیم کرد و مرزهای آنچه مشتریان می‌توانند با این فناوری به‌‌دست‌ آورند را جابه‌جا خواهیم کرد. چنین همکاری‌های در شرکت‌های بزرگ فناوری نشان می‌دهد که چگونه هوش مصنوعی مولد به‌سرعت در حال تبدیل شدن به یکی از محرک‌های اصلی پیشرفت کسب‌وکارها و صنایع مختلف است.

مدل‌های زبانی بزرگ برای همه کسب‌وکارها مناسب نیستند

برای بسیاری از شرکت‌ها، مدل‌های زبانی بزرگ (LLM) همچنان بهترین گزینه برای اجرای پروژه‌های خاص هستند. با این حال اجرای این مدل‌ها برای برخی کسب‌وکارها  از جمله هزینه‌های مالی، مصرف انرژی و نیاز به منابع محاسباتی قوی می‌تواند بسیار هزینه‌بر باشد. بر اساس گزارش IDC، هزینه‌های جهانی مرتبط با هوش مصنوعی طی چهار سال آینده به ۶۳۲ میلیارد دلار خواهد رسید که این رقم تقریباً دو برابر هزینه‌های فعلی است. در این میان، هوش مصنوعی مولد با سرعت زیادی رشد کرده و پیش‌بینی می‌شود ۳۲ درصد از کل این هزینه‌ها را شامل شود.

با این وجود، جایگزین‌های نوظهوری در حال توسعه هستند که در برخی موارد می‌توانند عملکرد بهتری ارائه دهند. این موضوع توسط بسیاری از مدیران عامل شرکت‌ها نیز تأیید شده است. برای‌مثال، استیو مک‌میلان،رئیس و مدیرعامل شرکت Teradata، یکی از بزرگ‌ترین پلتفرم‌های تحلیل ابری که بر هماهنگ‌سازی داده‌ها با هوش مصنوعی متمرکز است، به یک رویکرد جایگزین اشاره می‌کند.

او می‌گوید: در آینده، ما معتقدیم که مدل‌های زبان کوچک، متوسط و محیط‌های کنترل‌شده مانند مدل‌های زبانی خاص این حوزه می‌توانند راه‌حل‌های بسیار بهتری برای برخی کسب‌وکارها ارائه دهند. این دیدگاه نشان می‌دهد که به جای تمرکز صرف بر مدل‌های بزرگ و عمومی، مدل‌های تخصصی‌تر و کوچک‌تر نیز می‌توانند در بسیاری از سناریوها، عملکردی کارآمدتر و مقرون‌به‌صرفه‌تر داشته باشند.

 مدل‌های کوچک زبان (SLM)  برای محصولات AI مورد نیاز هستند

مدل‌های کوچک زبانی (SLM)، نسخه‌های تخصصی‌تر و متمرکزتری از مدل‌های هوش مصنوعی هستند که فقط روی یک نوع داده خاص آموزش دیده‌اند. به همین دلیل، خروجی‌هایی سفارشی و دقیق‌تر ارائه می‌دهند.

یکی از مزیت‌های کلیدی این مدل‌ها حفظ امنیت داده‌ها است؛ چرا که اطلاعات سازمانی داخل سیستم‌های محافظت‌شده باقی می‌ماند و مدل‌های خارجی به داده‌های حساس دسترسی پیدا نمی‌کنند. علاوه بر این، مدل‌های کوچک زبانی با نیازهای واقعی پروژه تنظیم می‌شوند، به این معنی که مصرف منابع محاسباتی و انرژی را بهینه می‌کنند. این ویژگی نه‌تنها هزینه‌های عملیاتی را کاهش می‌دهد بلکه تأثیرات زیست‌محیطی را نیز محدود می‌کند.

از سوی دیگر، مدل‌های بزرگ زبانی (LLM) مخصوص یک حوزه، روی یک مجموعه داده تخصصی متمرکز هستند. برخلاف مدل‌های عمومی که دانش گسترده‌ای دارند، این مدل‌ها برای درک عمیق یک حوزه خاص طراحی شده‌اند. به‌عنوان مثال، یک LLM ویژه بازاریابی می‌تواند گزارش‌های تحلیلی دقیق‌تری برای مدیران بازاریابی ارائه دهد یا یک مدل تخصصی مالی، مشاوره‌های مالی بهتری ارائه کند.

به‌طور خلاصه، مدل‌های کوچک زبانی امنیت و بهینه‌سازی را برای سازمان‌ها فراهم می‌کنند، درحالی‌که مدل‌های بزرگ زبانی تخصصی، پاسخ‌هایی دقیق‌تر و متناسب با نیازهای یک حوزه خاص ارائه می‌دهند.

چالش‌های توهم، قدرت و آموزش هوش مصنوعی

مدل‌های بزرگ زبان LLM برای پردازش حجم بالایی از داده‌ها نیاز به هزاران تراشه پردازش هوش مصنوعی GPU دارند و ساخت آن‌ها هزینه‌های زیادی، به ویژه در مراحل آموزش و پاسخگویی به درخواست‌های کاربران، به همراه دارد.

انجمن دانشمندان داده اعلام کرده است که آموزش مدل GPT-3 با 175 میلیارد پارامتر تقریباً 1287 مگاوات ساعت MWh برق مصرف کرده است. این مقدار معادل مصرف انرژی یک خانوار متوسط آمریکایی در طول 120 سال است و فقط مربوط به مرحله آموزش است و شامل مصرف انرژی پس از عمومی شدن مدل نمی‌شود.

در مقایسه، گزارش شده که برای راه‌اندازی یک مدل زبان کوچک‌تر با 7 میلیارد پارامتر برای یک میلیون کاربر، تنها 55.1 مگاوات ساعت انرژی مصرف می‌شود. این به این معناست که مصرف انرژی این مدل کمتر از 5% مصرف انرژی مدل‌های بزرگ زبان است. بنابراین، با رعایت توصیه‌های مک‌میلان در طراحی راه‌حل‌های هوش مصنوعی، می‌توان به صرفه‌جویی قابل توجهی دست یافت.

مدل‌های بزرگ زبان معمولاً به قدرت محاسباتی بسیاری از آنچه که در دستگاه‌های فردی موجود است نیاز دارند، به همین دلیل معمولاً روی سرورهای ابری اجرا می‌شوند. این موضوع برای شرکت‌ها عواقبی دارد، از جمله از دست دادن کنترل فیزیکی بر داده‌های خود هنگام انتقال به ابر و افزایش زمان پاسخگویی به دلیل سفر داده‌ها در اینترنت. همچنین، به دلیل وسعت دانش این مدل‌ها، آن‌ها ممکن است دچار توهم شوند؛ یعنی پاسخ‌هایی ارائه دهند که در ابتدا درست به نظر می‌رسند اما در واقع اشتباه هستند. این اشتباهات معمولاً ناشی از استفاده از اطلاعات نادرست یا غیرقابل اعتماد در فرآیند آموزش مدل‌هاست.

تفاوت‌های کلیدی بین مدل‌های زبانی بزرگ (LLM) و مدل‌های زبانی کوچک (SLM)

حجم: مدل‌های بزرگ زبانی LLM مانند Claude 3 و Olympus دارای حدود ۲ تریلیون پارامتر هستند. در مقابل، مدل‌های کوچک‌تر مانند Phi-2 تنها ۲.۷ میلیارد پارامتر دارند. با این حال، Phi-2 توانایی‌های قوی‌ای در زمینه‌هایی مانند ریاضیات و کدنویسی نشان داده است و گاهی حتی بهتر از مدل‌های بسیار بزرگ عمل کرده است. برای مثال، Phi-2 در انجام وظایفی که نیاز به استدلال چندمرحله‌ای دارند، از مدل Llama-2-70B بهتر عمل کرده است، که نشان می‌دهد مدل‌های کوچک هم می‌توانند نتایج عالی ارائه دهند.

داده‌های آموزشی: مدل‌های LLM مانند GPT-4 برای تولید متنی دقیق و جزئی به داده‌های گسترده‌ای از کتاب‌ها، وب‌سایت‌ها و منابع دیگر نیاز دارند. در مقابل، مدل‌های کوچک زبانی مانند Phi-2 تمرکز خود را بر روی داده‌های با کیفیت و خاص می‌گذارند که شامل ۱.۴ تریلیون توکن از مجموعه‌های داده مصنوعی و محتوای انتخابی از وب است.

زمان آموزش: آموزش یک مدل بزرگ مانند GPT-3 می‌تواند چندین ماه طول بکشد و نیاز به قدرت پردازشی زیادی دارد که معمولاً از چندین GPU قدرتمند استفاده می‌شود. در عوض، Phi-2 تنها در ۱۴ روز و بر روی ۹۶ GPU A100 آموزش دیده است. این نشان می‌دهد که مدل‌های کوچک زبانی می‌توانند سریع‌تر توسعه یابند که برای سازمان‌ها که نیاز به مدل‌های قابل تکرار سریع دارند، بسیار مفید است.

قدرت پردازشی و منابع: مدل‌های LLM مانند GPT-4 نیاز به قدرت پردازشی و حافظه زیادی دارند که ممکن است برای اجرا پرهزینه باشند. اما مدل‌های کوچک زبانی می‌توانند به‌طور مؤثر بر روی سخت‌افزار استاندارد اجرا شوند، که آن‌ها را برای کاربردهای گسترده‌تر و بودجه‌های کمتر در دسترس‌تر می‌سازد.

مهارت‌ها: در حالی که مدل‌های LLM در انجام طیف‌وسیعی از وظایف پیچیده مانند نوشتن خلاقانه، تحلیل‌های دقیق یا ترجمه زبان‌ها خوب عمل می‌کنند، مدل‌های SLM به‌ویژه در وظایف خاص مانند کدنویسی و استدلال برتری دارند. به‌طور خاص، Phi-2 در آزمون کدنویسی HumanEval امتیاز ۵۳.۷ را کسب کرده است و از بسیاری از مدل‌های بزرگ‌تر پیشی گرفته است.

  • تخصص: مدل‌های SLM معمولاً برای وظایف خاص یک حوزه یا کاربرد طراحی شده‌اند و به راحتی قابل تنظیم مجدد هستند، در حالی که مدل‌های LLM راه‌حل‌های عمومی‌تری ارائه می‌دهند.
  • دقت و عملکرد: مدل‌های LLM معمولاً دقت و عملکرد بالاتری در انجام طیف وسیعی از وظایف دارند، در حالی که مدل‌های SLM در کاربردهای خاص و تخصصی عملکرد بهتری دارند.

انطباق: انطباق مدل‌های بزرگ مانند BERT با نیازهای خاص می‌تواند زمان‌بر و دشوار باشد. در مقابل، مدل‌های کوچک مانند TinyBERT به راحتی برای وظایف خاصی مانند تحلیل احساسات تنظیم می‌شوند که آن‌ها را انعطاف‌پذیرتر و آسان‌تر برای سفارشی‌سازی می‌کند.

استنتاج: مدل‌های بزرگ به سخت‌افزار قوی و معمولاً خدمات ابری برای عملیات نیاز دارند که به این معناست که برای استفاده از آن‌ها باید اتصال اینترنتی داشته باشید. اما Phi-2 به اندازه‌ای جمع و جور است که می‌تواند بر روی دستگاه‌های کوچک مانند Raspberry Pi یا حتی تلفن همراه اجرا شود، که این موضوع انعطاف‌پذیری بیشتری ایجاد می‌کند چون نیازی به اتصال به اینترنت ندارد.

تاخیر: اگر تا به حال از یک مدل بزرگ برای دستیار صوتی یا کاربرد مشابه استفاده کرده‌اید، ممکن است تاخیر در پاسخ‌ها را تجربه کرده باشید. مدل‌های کوچک‌تر به دلیل اندازه کوچکتر خود می‌توانند درخواست‌ها را بسیار سریع‌تر پردازش کنند که این امر تجربه کاربری را در کاربردهای زمان واقعی بهبود می‌بخشد.

هزینه: اجرای مدل‌های بزرگ می‌تواند پرهزینه باشد زیرا به منابع پردازشی زیادی نیاز دارند. از آنجا که مدل‌های کوچک زبانی نیاز به قدرت کمتری دارند، اجرای آن‌ها ارزان‌تر است و این می‌تواند مزیت بزرگی برای سازمان‌هایی باشد که به دنبال کاهش هزینه‌ها هستند.

کنترل: استفاده از مدل‌های بزرگ به این معناست که شما به‌روزرسانی‌ها را از توسعه‌دهندگان آن مدل‌ها دریافت می‌کنید که این می‌تواند منجر به مشکلاتی مانند تغییرات ناخواسته مدل شود. با مدل‌های کوچک مانند Phi-2، می‌توانید آن‌ها را بر روی سرورهای خود اجرا کنید، به نیازهای خود تنظیم کنید و آن‌ها را در طول زمان ثابت نگه دارید. این به شما کنترل بیشتری می‌دهد و برای کسب‌وکارهایی که به حریم خصوصی داده‌ها و پایداری مدل‌ها اهمیت می‌دهند، بسیار حیاتی است.

مزایای مدل‌های زبانی کوچک (SLM) در مقایسه با مدل‌های زبانی بزرگ (LLM)

مدل‌های کوچک زبانی (SLM) می‌توانند به کسب‌وکارها کمک کنند تا عملکرد بهتری داشته باشند. اگرچه این مدل‌ها از نظر فنی مشابه مدل‌های بزرگ زبانی (LLM) هستند که امروزه به‌طور گسترده استفاده می‌شوند، اما برای داده‌های خاص و استفاده‌های ویژه آموزش دیده‌اند و به همین دلیل پاسخ‌های دقیق‌تری ارائه می‌دهند. این مدل‌ها چون با تعداد کمتری پارامتر آموزش می‌بینند، می‌توانند پاسخ‌های بهتری ارائه کنند و کمتر دچار اشتباهات و توهمات می‌شوند. علاوه بر این، چون کمتر به منابع پردازشی نیاز دارند، به‌طور کارآمدتر عمل می‌کنند.

مزایای SLM نسبت به LLM‌ها:

  • سرعت بیشتر
  • هزینه کمتر
  • تأثیر زیست‌محیطی کمتر

از آنجا که مدل‌های کوچک زبانی به خوشه‌های بزرگ پردازش ابری مانند LLM‌ها نیاز ندارند، می‌توانند به‌صورت محلی حتی در برخی موارد بر روی یک دستگاه واحد اجرا شوند. این ویژگی به کسب‌وکارها این امکان را می‌دهد که کنترل بیشتری بر داده‌ها و نحوه انطباق آنها داشته باشند.

مک‌میلان، مدیر پروژه این محصولات هوش مصنوعی، توضیح می‌دهد که هدف شرکت او قفل کردن مشتریان به یک راه‌حل خاص یا یک مدل LLM نیست. او می‌گوید: ما اعتقاد داریم که کسب‌وکارها باید از همه این فناوری‌ها استفاده کنند و به مشتریان این امکان را بدهیم که از مدل‌های زبانی دلخواه خود در اکوسیستم شرکت بهره ببرند تا بتوانند به داده‌ها و تحلیل‌های حاصل از آن‌ها به روش مؤثر و کارآمدی اعتماد کنند.

موارد استفاده SLM: آنچه که اکنون برای کسب‌وکارها می‌تواند انجام دهد،هنگام باز کردن استقرارهای SLM تأثیرات بازی‌سازی در بخش‌هایی مانند موارد زیر وجود دارد:

مدل‌های کوچک زبانی در خدمت تحلیل رفتار مشتری 

مدل‌های کوچک زبان می‌توانند به‌طور مؤثری برای تجزیه و تحلیل سریع احساسات مشتری و شکایات استفاده شوند. این مدل‌ها با استفاده از داده‌هایی که برای شرکت‌ها بسیار ارزشمند و درون سیستم‌های داخلی نگهداری می‌شوند، می‌توانند خلاصه‌های مفیدی تولید کنند. این خلاصه‌ها می‌توانند در سیستم‌های مدیریت ارتباط با مشتری (CRM) ادغام شوند تا بهبود اقدامات حل مسئله را تسهیل کنند.

علاوه بر این، مدل‌های کوچک زبان در تجزیه و تحلیل یادداشت‌های پزشکان نیز ارزش خود را اثبات کرده‌اند. این حوزه نیز به دلیل حساسیت اطلاعات، نیازمند احتیاط در انتقال داده‌هاست. با استفاده از هوش مصنوعی برای استخراج و تفسیر اطلاعات، ارائه‌دهندگان مراقبت‌های بهداشتی می‌توانند بیشتر بر روی مراقبت از بیماران تمرکز داشته باشند و به جای اینکه وقت خود را صرف نگاه کردن به صفحه نمایش رایانه کنند، با بیماران ارتباط برقرار کنند.

نقش مدل‌های کوچک زبانی در حوزه مالی

مدل‌های زبان کوچک SLM به‌ویژه در حوزه‌های مالی و خرده‌فروشی می‌توانند نقش مهمی ایفا کنند. در حوزه مالی، کسب‌وکارها می‌توانند از این مدل‌ها برای شناسایی و علامت‌گذاری ایمیل‌ها یا اسنادی که ممکن است تأثیرات انطباق یا حاکمیت نظارتی داشته باشند، استفاده کنند. این کار به سادگی با یک مدل کوچک انجام می‌شود که می‌تواند به راحتی روی سرورهای محلی اجرا شود و از نیاز به ذخیره‌سازی اضافی یا هزینه‌های بالای پردازش جلوگیری کند.

 صنعت خرده‌فروشی؛ استفاده از مدل‌های کوچک زبانی

در صنعت خرده‌فروشی، شرکت‌هایی مانند والمارت، کروگر و تارگت به دنبال ارائه توصیه‌های محصول مبتنی بر هوش مصنوعی هستند. این توصیه‌ها معمولاً به داده‌های داخلی کسب‌وکار، شامل اطلاعات مشتری و تاریخچه خرید وابسته‌اند. مدل‌های زبان کوچک می‌توانند با استفاده از تکنیک‌های تحلیلی مانند خوشه‌بندی و شباهت برداری، به تولید این توصیه‌ها کمک کنند و تجربه خرید مشتریان را بهبود بخشند.

در حالی که مدل‌های بزرگ مانند ChatGPT-4 و LLaMA 2 قادر به پردازش حجم بالایی از داده‌ها هستند، اما در موارد خاص، مانند درک اصطلاحات تخصصی یا مسائل خاص کسب‌وکار، ممکن است کارایی لازم را نداشته باشند. در اینجا، مدل‌های زبان کوچک با قابلیت محدود کردن نوع داده‌ها و خروجی‌ها، می‌توانند راهکارهای سفارشی و مقیاس‌پذیری ارائه دهند که برای نیازهای خاص هر کسب‌وکار طراحی شده‌اند.

به‌طور کلی، مدل‌های زبان کوچک می‌توانند به عنوان ابزارهای مؤثر در تسهیل تجزیه و تحلیل داده‌ها و بهبود تعاملات مشتری در صنایع مختلف عمل کنند، بدون اینکه نیاز به منابع سنگین و پیچیده داشته باشند.

https://pvst.ir/kt2

0 نظر

ارسال دیدگاه

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

*

برای بوکمارک این نوشته
Back To Top
جستجو