انواع هوش مصنوعی و ابزارهای نوین اتوماسیون
این مقاله به بررسی چهار نوع اصلی هوش مصنوعی شامل هوش خودکار، هوش خودمحتار، هوش…
۲۴ فروردین ۱۴۰۴
۲۱ فروردین ۱۴۰۴
زمان مطالعه : ۱۲ دقیقه
مدلهای زبانی کوچک با وجود اندازه به ظاهر کوچکشان، میتوانند نقشی کلیدی در دسترسپذیرتر کردن، کارآمدتر کردن و تخصصیتر کردن هوش مصنوعی ایفا کنند. در حالی که غولهای فناوری بر ساخت مدلهای عظیم با میلیاردها پارامتر تمرکز کردهاند، مدلهای زبانی کوچک با مزایای منحصربهفرد خود، مسیری نوآورانه را در دنیای هوش مصنوعی باز میکنند.
ورود بازیگران قدرتمندی همچون ایلان ماسک با شرکت xAI و جذب سرمایه هنگفت ۵ میلیارد دلاری از سوی غولهای سرمایهگذاری مانند Andreessen Horowitz و همچنین سرمایهگذاری ۴ میلیارد دلاری آمازون در Anthropic، رقیب OpenAI، نشان از شدت رقابت و عزم جدی برای پیشبرد مرزهای دانش در این عرصه دارد. اما در میان این رقابت برای ساخت مدلهای زبانی بزرگ و قدرتمند، رویکردی دیگر با تمرکز بر مدلهای زبانی کوچک نیز در حال ظهور است.
به نظر میرسد هوش مصنوعی با این سرمایهگذاریهای کلان، آماده یک جهش بزرگ باشد. شرکتهای بزرگی مثل مایکروسافت،گوگل و آمازون میلیاردها دلار خرج میکنند تا مدلهای هوش مصنوعی همه کاره بسازند که نیازهای هر کسبوکاری است. ممکن است یک مدل هوش مصنوعی که برای یک شرکت بزرگ عالی کار میکند، برای کسبوکار کوچک شما مناسب نباشد. در این شرایط، مدیران باید به خوبی درک کنند که چه نوع هوش مصنوعی برای کسبوکارشان بهترین است تا بتوانند از این فناوری به بهترین شکل ممکن استفاده کنند.
استارتآپهای فعال در حوزه مدلهای زبانی بزرگ (LLM) به رایانهها این امکان را دادهاند که حجم عظیمی از دادهها را پردازش کرده و به پرسشهای زبان طبیعی پاسخ دهند. امروزه هوش مصنوعی مبتنی بر LLM به یک ابزار ضروری برای کسبوکارها در سراسر جهان تبدیل شده است.
مت گارمن، مدیرعامل خدمات وب آمازون AWS، در خصوص گسترش همکاری و سرمایهگذاریهای این شرکت گفت: بازخورد مشتریان ما که از مدلهای هوش مصنوعی مولد Anthropic در پلتفرم Amazon Bedrock استفاده میکنند، شگفتانگیز بوده است. از طرفی دیگر شرکت Anthropic خانوادهای از مدلهای هوش مصنوعی مولد به نام Claude را توسعه داده است که برای انجام وظایف متنوعی مانند نوشتن ایمیل، توضیح تصاویر و حل مسائل ریاضی و برنامهنویسی طراحی شدهاند.
همچنین مت گارمن اشاره کرد: با گسترش استفاده از این مدلها در Bedrock و همکاری با Anthropic برای توسعه تراشههای سفارشی Trainium، به نوآوری و گسترش قابلیتهای هوش مصنوعی مولد کمک خواهیم کرد و مرزهای آنچه مشتریان میتوانند با این فناوری بهدست آورند را جابهجا خواهیم کرد. چنین همکاریهای در شرکتهای بزرگ فناوری نشان میدهد که چگونه هوش مصنوعی مولد بهسرعت در حال تبدیل شدن به یکی از محرکهای اصلی پیشرفت کسبوکارها و صنایع مختلف است.
برای بسیاری از شرکتها، مدلهای زبانی بزرگ (LLM) همچنان بهترین گزینه برای اجرای پروژههای خاص هستند. با این حال اجرای این مدلها برای برخی کسبوکارها از جمله هزینههای مالی، مصرف انرژی و نیاز به منابع محاسباتی قوی میتواند بسیار هزینهبر باشد. بر اساس گزارش IDC، هزینههای جهانی مرتبط با هوش مصنوعی طی چهار سال آینده به ۶۳۲ میلیارد دلار خواهد رسید که این رقم تقریباً دو برابر هزینههای فعلی است. در این میان، هوش مصنوعی مولد با سرعت زیادی رشد کرده و پیشبینی میشود ۳۲ درصد از کل این هزینهها را شامل شود.
با این وجود، جایگزینهای نوظهوری در حال توسعه هستند که در برخی موارد میتوانند عملکرد بهتری ارائه دهند. این موضوع توسط بسیاری از مدیران عامل شرکتها نیز تأیید شده است. برایمثال، استیو مکمیلان،رئیس و مدیرعامل شرکت Teradata، یکی از بزرگترین پلتفرمهای تحلیل ابری که بر هماهنگسازی دادهها با هوش مصنوعی متمرکز است، به یک رویکرد جایگزین اشاره میکند.
او میگوید: در آینده، ما معتقدیم که مدلهای زبان کوچک، متوسط و محیطهای کنترلشده مانند مدلهای زبانی خاص این حوزه میتوانند راهحلهای بسیار بهتری برای برخی کسبوکارها ارائه دهند. این دیدگاه نشان میدهد که به جای تمرکز صرف بر مدلهای بزرگ و عمومی، مدلهای تخصصیتر و کوچکتر نیز میتوانند در بسیاری از سناریوها، عملکردی کارآمدتر و مقرونبهصرفهتر داشته باشند.
مدلهای کوچک زبانی (SLM)، نسخههای تخصصیتر و متمرکزتری از مدلهای هوش مصنوعی هستند که فقط روی یک نوع داده خاص آموزش دیدهاند. به همین دلیل، خروجیهایی سفارشی و دقیقتر ارائه میدهند.
یکی از مزیتهای کلیدی این مدلها حفظ امنیت دادهها است؛ چرا که اطلاعات سازمانی داخل سیستمهای محافظتشده باقی میماند و مدلهای خارجی به دادههای حساس دسترسی پیدا نمیکنند. علاوه بر این، مدلهای کوچک زبانی با نیازهای واقعی پروژه تنظیم میشوند، به این معنی که مصرف منابع محاسباتی و انرژی را بهینه میکنند. این ویژگی نهتنها هزینههای عملیاتی را کاهش میدهد بلکه تأثیرات زیستمحیطی را نیز محدود میکند.
از سوی دیگر، مدلهای بزرگ زبانی (LLM) مخصوص یک حوزه، روی یک مجموعه داده تخصصی متمرکز هستند. برخلاف مدلهای عمومی که دانش گستردهای دارند، این مدلها برای درک عمیق یک حوزه خاص طراحی شدهاند. بهعنوان مثال، یک LLM ویژه بازاریابی میتواند گزارشهای تحلیلی دقیقتری برای مدیران بازاریابی ارائه دهد یا یک مدل تخصصی مالی، مشاورههای مالی بهتری ارائه کند.
بهطور خلاصه، مدلهای کوچک زبانی امنیت و بهینهسازی را برای سازمانها فراهم میکنند، درحالیکه مدلهای بزرگ زبانی تخصصی، پاسخهایی دقیقتر و متناسب با نیازهای یک حوزه خاص ارائه میدهند.
مدلهای بزرگ زبان LLM برای پردازش حجم بالایی از دادهها نیاز به هزاران تراشه پردازش هوش مصنوعی GPU دارند و ساخت آنها هزینههای زیادی، به ویژه در مراحل آموزش و پاسخگویی به درخواستهای کاربران، به همراه دارد.
انجمن دانشمندان داده اعلام کرده است که آموزش مدل GPT-3 با 175 میلیارد پارامتر تقریباً 1287 مگاوات ساعت MWh برق مصرف کرده است. این مقدار معادل مصرف انرژی یک خانوار متوسط آمریکایی در طول 120 سال است و فقط مربوط به مرحله آموزش است و شامل مصرف انرژی پس از عمومی شدن مدل نمیشود.
در مقایسه، گزارش شده که برای راهاندازی یک مدل زبان کوچکتر با 7 میلیارد پارامتر برای یک میلیون کاربر، تنها 55.1 مگاوات ساعت انرژی مصرف میشود. این به این معناست که مصرف انرژی این مدل کمتر از 5% مصرف انرژی مدلهای بزرگ زبان است. بنابراین، با رعایت توصیههای مکمیلان در طراحی راهحلهای هوش مصنوعی، میتوان به صرفهجویی قابل توجهی دست یافت.
مدلهای بزرگ زبان معمولاً به قدرت محاسباتی بسیاری از آنچه که در دستگاههای فردی موجود است نیاز دارند، به همین دلیل معمولاً روی سرورهای ابری اجرا میشوند. این موضوع برای شرکتها عواقبی دارد، از جمله از دست دادن کنترل فیزیکی بر دادههای خود هنگام انتقال به ابر و افزایش زمان پاسخگویی به دلیل سفر دادهها در اینترنت. همچنین، به دلیل وسعت دانش این مدلها، آنها ممکن است دچار توهم شوند؛ یعنی پاسخهایی ارائه دهند که در ابتدا درست به نظر میرسند اما در واقع اشتباه هستند. این اشتباهات معمولاً ناشی از استفاده از اطلاعات نادرست یا غیرقابل اعتماد در فرآیند آموزش مدلهاست.
حجم: مدلهای بزرگ زبانی LLM مانند Claude 3 و Olympus دارای حدود ۲ تریلیون پارامتر هستند. در مقابل، مدلهای کوچکتر مانند Phi-2 تنها ۲.۷ میلیارد پارامتر دارند. با این حال، Phi-2 تواناییهای قویای در زمینههایی مانند ریاضیات و کدنویسی نشان داده است و گاهی حتی بهتر از مدلهای بسیار بزرگ عمل کرده است. برای مثال، Phi-2 در انجام وظایفی که نیاز به استدلال چندمرحلهای دارند، از مدل Llama-2-70B بهتر عمل کرده است، که نشان میدهد مدلهای کوچک هم میتوانند نتایج عالی ارائه دهند.
دادههای آموزشی: مدلهای LLM مانند GPT-4 برای تولید متنی دقیق و جزئی به دادههای گستردهای از کتابها، وبسایتها و منابع دیگر نیاز دارند. در مقابل، مدلهای کوچک زبانی مانند Phi-2 تمرکز خود را بر روی دادههای با کیفیت و خاص میگذارند که شامل ۱.۴ تریلیون توکن از مجموعههای داده مصنوعی و محتوای انتخابی از وب است.
زمان آموزش: آموزش یک مدل بزرگ مانند GPT-3 میتواند چندین ماه طول بکشد و نیاز به قدرت پردازشی زیادی دارد که معمولاً از چندین GPU قدرتمند استفاده میشود. در عوض، Phi-2 تنها در ۱۴ روز و بر روی ۹۶ GPU A100 آموزش دیده است. این نشان میدهد که مدلهای کوچک زبانی میتوانند سریعتر توسعه یابند که برای سازمانها که نیاز به مدلهای قابل تکرار سریع دارند، بسیار مفید است.
قدرت پردازشی و منابع: مدلهای LLM مانند GPT-4 نیاز به قدرت پردازشی و حافظه زیادی دارند که ممکن است برای اجرا پرهزینه باشند. اما مدلهای کوچک زبانی میتوانند بهطور مؤثر بر روی سختافزار استاندارد اجرا شوند، که آنها را برای کاربردهای گستردهتر و بودجههای کمتر در دسترستر میسازد.
مهارتها: در حالی که مدلهای LLM در انجام طیفوسیعی از وظایف پیچیده مانند نوشتن خلاقانه، تحلیلهای دقیق یا ترجمه زبانها خوب عمل میکنند، مدلهای SLM بهویژه در وظایف خاص مانند کدنویسی و استدلال برتری دارند. بهطور خاص، Phi-2 در آزمون کدنویسی HumanEval امتیاز ۵۳.۷ را کسب کرده است و از بسیاری از مدلهای بزرگتر پیشی گرفته است.
انطباق: انطباق مدلهای بزرگ مانند BERT با نیازهای خاص میتواند زمانبر و دشوار باشد. در مقابل، مدلهای کوچک مانند TinyBERT به راحتی برای وظایف خاصی مانند تحلیل احساسات تنظیم میشوند که آنها را انعطافپذیرتر و آسانتر برای سفارشیسازی میکند.
استنتاج: مدلهای بزرگ به سختافزار قوی و معمولاً خدمات ابری برای عملیات نیاز دارند که به این معناست که برای استفاده از آنها باید اتصال اینترنتی داشته باشید. اما Phi-2 به اندازهای جمع و جور است که میتواند بر روی دستگاههای کوچک مانند Raspberry Pi یا حتی تلفن همراه اجرا شود، که این موضوع انعطافپذیری بیشتری ایجاد میکند چون نیازی به اتصال به اینترنت ندارد.
تاخیر: اگر تا به حال از یک مدل بزرگ برای دستیار صوتی یا کاربرد مشابه استفاده کردهاید، ممکن است تاخیر در پاسخها را تجربه کرده باشید. مدلهای کوچکتر به دلیل اندازه کوچکتر خود میتوانند درخواستها را بسیار سریعتر پردازش کنند که این امر تجربه کاربری را در کاربردهای زمان واقعی بهبود میبخشد.
هزینه: اجرای مدلهای بزرگ میتواند پرهزینه باشد زیرا به منابع پردازشی زیادی نیاز دارند. از آنجا که مدلهای کوچک زبانی نیاز به قدرت کمتری دارند، اجرای آنها ارزانتر است و این میتواند مزیت بزرگی برای سازمانهایی باشد که به دنبال کاهش هزینهها هستند.
کنترل: استفاده از مدلهای بزرگ به این معناست که شما بهروزرسانیها را از توسعهدهندگان آن مدلها دریافت میکنید که این میتواند منجر به مشکلاتی مانند تغییرات ناخواسته مدل شود. با مدلهای کوچک مانند Phi-2، میتوانید آنها را بر روی سرورهای خود اجرا کنید، به نیازهای خود تنظیم کنید و آنها را در طول زمان ثابت نگه دارید. این به شما کنترل بیشتری میدهد و برای کسبوکارهایی که به حریم خصوصی دادهها و پایداری مدلها اهمیت میدهند، بسیار حیاتی است.
مدلهای کوچک زبانی (SLM) میتوانند به کسبوکارها کمک کنند تا عملکرد بهتری داشته باشند. اگرچه این مدلها از نظر فنی مشابه مدلهای بزرگ زبانی (LLM) هستند که امروزه بهطور گسترده استفاده میشوند، اما برای دادههای خاص و استفادههای ویژه آموزش دیدهاند و به همین دلیل پاسخهای دقیقتری ارائه میدهند. این مدلها چون با تعداد کمتری پارامتر آموزش میبینند، میتوانند پاسخهای بهتری ارائه کنند و کمتر دچار اشتباهات و توهمات میشوند. علاوه بر این، چون کمتر به منابع پردازشی نیاز دارند، بهطور کارآمدتر عمل میکنند.
مزایای SLM نسبت به LLMها:
از آنجا که مدلهای کوچک زبانی به خوشههای بزرگ پردازش ابری مانند LLMها نیاز ندارند، میتوانند بهصورت محلی حتی در برخی موارد بر روی یک دستگاه واحد اجرا شوند. این ویژگی به کسبوکارها این امکان را میدهد که کنترل بیشتری بر دادهها و نحوه انطباق آنها داشته باشند.
مکمیلان، مدیر پروژه این محصولات هوش مصنوعی، توضیح میدهد که هدف شرکت او قفل کردن مشتریان به یک راهحل خاص یا یک مدل LLM نیست. او میگوید: ما اعتقاد داریم که کسبوکارها باید از همه این فناوریها استفاده کنند و به مشتریان این امکان را بدهیم که از مدلهای زبانی دلخواه خود در اکوسیستم شرکت بهره ببرند تا بتوانند به دادهها و تحلیلهای حاصل از آنها به روش مؤثر و کارآمدی اعتماد کنند.
موارد استفاده SLM: آنچه که اکنون برای کسبوکارها میتواند انجام دهد،هنگام باز کردن استقرارهای SLM تأثیرات بازیسازی در بخشهایی مانند موارد زیر وجود دارد:
مدلهای کوچک زبان میتوانند بهطور مؤثری برای تجزیه و تحلیل سریع احساسات مشتری و شکایات استفاده شوند. این مدلها با استفاده از دادههایی که برای شرکتها بسیار ارزشمند و درون سیستمهای داخلی نگهداری میشوند، میتوانند خلاصههای مفیدی تولید کنند. این خلاصهها میتوانند در سیستمهای مدیریت ارتباط با مشتری (CRM) ادغام شوند تا بهبود اقدامات حل مسئله را تسهیل کنند.
علاوه بر این، مدلهای کوچک زبان در تجزیه و تحلیل یادداشتهای پزشکان نیز ارزش خود را اثبات کردهاند. این حوزه نیز به دلیل حساسیت اطلاعات، نیازمند احتیاط در انتقال دادههاست. با استفاده از هوش مصنوعی برای استخراج و تفسیر اطلاعات، ارائهدهندگان مراقبتهای بهداشتی میتوانند بیشتر بر روی مراقبت از بیماران تمرکز داشته باشند و به جای اینکه وقت خود را صرف نگاه کردن به صفحه نمایش رایانه کنند، با بیماران ارتباط برقرار کنند.
مدلهای زبان کوچک SLM بهویژه در حوزههای مالی و خردهفروشی میتوانند نقش مهمی ایفا کنند. در حوزه مالی، کسبوکارها میتوانند از این مدلها برای شناسایی و علامتگذاری ایمیلها یا اسنادی که ممکن است تأثیرات انطباق یا حاکمیت نظارتی داشته باشند، استفاده کنند. این کار به سادگی با یک مدل کوچک انجام میشود که میتواند به راحتی روی سرورهای محلی اجرا شود و از نیاز به ذخیرهسازی اضافی یا هزینههای بالای پردازش جلوگیری کند.
در صنعت خردهفروشی، شرکتهایی مانند والمارت، کروگر و تارگت به دنبال ارائه توصیههای محصول مبتنی بر هوش مصنوعی هستند. این توصیهها معمولاً به دادههای داخلی کسبوکار، شامل اطلاعات مشتری و تاریخچه خرید وابستهاند. مدلهای زبان کوچک میتوانند با استفاده از تکنیکهای تحلیلی مانند خوشهبندی و شباهت برداری، به تولید این توصیهها کمک کنند و تجربه خرید مشتریان را بهبود بخشند.
در حالی که مدلهای بزرگ مانند ChatGPT-4 و LLaMA 2 قادر به پردازش حجم بالایی از دادهها هستند، اما در موارد خاص، مانند درک اصطلاحات تخصصی یا مسائل خاص کسبوکار، ممکن است کارایی لازم را نداشته باشند. در اینجا، مدلهای زبان کوچک با قابلیت محدود کردن نوع دادهها و خروجیها، میتوانند راهکارهای سفارشی و مقیاسپذیری ارائه دهند که برای نیازهای خاص هر کسبوکار طراحی شدهاند.
بهطور کلی، مدلهای زبان کوچک میتوانند به عنوان ابزارهای مؤثر در تسهیل تجزیه و تحلیل دادهها و بهبود تعاملات مشتری در صنایع مختلف عمل کنند، بدون اینکه نیاز به منابع سنگین و پیچیده داشته باشند.