پیوست » اخبار » با سیستم ارزیابی LLMهای فارسی آشنا شوید: بررسی دقیق‌تر مدل‌های زبانی ایرانی

با سیستم ارزیابی LLMهای فارسی آشنا شوید: بررسی دقیق‌تر مدل‌های زبانی ایرانی

۲۷ آبان ۱۴۰۳

زمان مطالعه : ۴ دقیقه

مرکز تحقیقات هوش مصنوعی پارت و آزمایشگاه پردازش زبان طبیعی دانشگاه صنعتی امیرکبیر سیستم جامعی برای ارزیابی LLMهای فارسی (Open Persian LLM Leaderboard) و امکان مقایسه مدل‌های زبانی فارسی را با هدف افزایش اعتبار این مدل‌های زبانی توسعه داده‌اند.

به گزارش روابط عمومی مرکز تحقیقات هوش مصنوعی پارت، مدل‌های زبانی فارسی متنوعی از جانب شرکت‌های فعال در حوزه هوش مصنوعی در دسترس کاربران و توسعه‌دهندگان قرار گرفته‌اند. این LLMها اما تا زمانی که توسط سنجه‌های معتبر مورد ارزیابی قرار نگیرند، کیفیت عملکرد آنها مشخص نمی‌شود و مورد اعتماد اکوسیستم هوش مصنوعی قرار نمی‌گیرند.

یکی از چالش‌های اساسی زیست‌بوم هوش مصنوعی کشور، موانعی است که بر سر راه سنجش مدل‌های زبانی فارسی وجود دارد. سنجه‌های مشهور و معتبر خارجی، پشتیبانی مناسبی از زبان فارسی ندارند و سنجه‌های بومی که تاکنون عرضه شدند نیز جامعیت لازم را برای ارزیابی مدل‌ها نداشتند، از همین رو، نتیجه ارزیابی LLMهای فارسی از اعتبار کافی برخوردار نبود و امکان مقایسه موشکافانه آنها وجود نداشت.‍

به‌منظور رفع این مانع، مرکز تحقیقات هوش مصنوعی پارت و آزمایشگاه پردازش زبان طبیعی دانشگاه صنعتی امیرکبیر به سرپرستی سعیده ممتازی، از اساتید برتر هوش مصنوعی، کار بر روی یک سیستم ارزیابی جامع LLMهای فارسی (Open Persian LLM Leaderboard) را آغاز کردند و موفق شدند دقیق‌ترین سنجه LLMهای فارسی را در اختیار توسعه‌دهندگان، محققان و علاقه‌مندان عرصه هوش مصنوعی کشور قرار دهند.

این سیستم ارزیابی شامل بیش از ۴۰ هزار نمونه است که در آن، حجم زیادی از کلان‌داده‌های فارسی از پایه (From scratch) جمع‌آوری و برچسب‌زنی شده تا باکیفیت‌ترین داده‌ها برای سنجش مدل‌های زبانی ارائه شود. به علاوه، این چارچوب، تعدادی از بنچمارک‌های معتبر جهانی را نیز در دل خود جای داده که به همت توسعه‌دهندگان، به زبان فارسی بازگردانده شده و بومی‌سازی‌های لازم بر روی آنها صورت گرفته است تا به طور کامل با نیاز زیست‌بوم هوش مصنوعی کشور منطبق شود. شایان ذکر است، با افزایش مستمر تعداد نمونه‌ها و به‌روزرسانی مداوم، عملکرد این سیستم برای ارزیابی LLMها بهبود می‌یابد.

همراه با این چارچوب ارزیابی، یک جدول رتبه‌بندی نیز عرضه شده که امکان مقایسه و ارزیابی کلی مدل‌ها را فراهم می‌کند. با بهبود کیفیت مدل‌ها، جایگاه آنها در جدول نیز ارتقا پیدا می‌کند و بیش از پیش مورد توجه کاربران قرار می‌گیرند. این سازوکار، فضایی رقابتی را شکل می‌دهد که نتیجه آن را می‌توان در بهبود روزافزون کیفیت مدل‌های زبانی فارسی و در مقیاس کلان‌تر، در رشد صنعت هوش مصنوعی کشور مشاهده کرد. علاوه‌بر این، محققان و توسعه‌دهندگانی که قصد ورود به بازار LLMها را دارند، این فرصت ارزشمند را به دست می‌آورند که با کسب جایگاه در جدول رتبه‌بندی، مدل خود را به هزاران مخاطب این حوزه معرفی کنند.

سنجه‌های فارسی که تاکنون عرضه شده‌اند، تنها تا سقف دانش دبیرستانی قادر به محک‌زدن توانایی مدل‌های بودند. این نکته باعث شده بود تا LLMهای بزرگ و توانمند، نتوانند به‌خوبی پتانسیل خود را به نمایش بگذارند. این درحالی است که سیستم ارزیابی مدل‌های فارسی، از دانشی هم‌سطح کارشناسی ارشد در حوزه‌های پزشکی، اقتصاد، صنعت، حقوق، منطق، مهندسی،‌ علوم‌انسانی و… برخوردار است و می‌تواند مدل‌ها را به شیوه‌ای حرفه‌ای مورد سنجش قرار دهد. این سیستم ارزیابی در کنار داده‌های متنی، از اعداد و فرمول‌های ریاضی هم برای سنجش عملکرد مدل‌ها استفاده می‌کند تا هر LLM از ابعاد مختلفی مورد بررسی قرار گیرد.

مجموعه پارت، تقویت همکاری میان دانشگاه و صنعت را یکی از راهکارهای مؤثر برای رفع چالش‌ها و نیازهای توسعه‌دهندگان فارسی‌زبان می‌داند و از عرضه موفقیت‌آمیز سیستم ارزیابی LLMهای فارسی به‌عنوان شاهدی بر این موضوع یاد می‌کند. پارت با تأمین زیرساخت‌های ضروری و پایپ‌لاین ارزیابی منطبق با استانداردهای Open LLM Leaderboard، زمینه خلق این سنجه پیشرفته را فراهم کرده و امیدوار است که این فرایند نتیجه‌بخش، در آینده نیز به توسعه ابزارهای نوآورانه بیشتری بینجامد.

این سنجه به لطف تلاش‌های سعیده ممتازی، مجوزهای لازم را از جانب «Open LLM Leaderboard» دریافت کرده و نتایج ارزیابی مدل‌های فارسی در این مرجع نیز معتبر شناخته می‌شود. در نتیجه، LLMهای داخلی این امکان را دارند که در سطح جهانی مطرح شوند و مورد استفاده قرار بگیرند. شما می‌توانید با مراجعه به درگاه HuggingFace این سیستم ارزیابی، لیست مقایسه مدل‌های زبانی فارسی را مشاهده کنید و در صورت تمایل، LLM خود را با بخشی از این سیستم ارزیابی کنید.

https://pvst.ir/ji6

0 نظر

ارسال دیدگاه لغو پاسخ