مهدی جعفری مترجم

پیوست » فناوری » هوش مصنوعی » انتروپیک از مدل Claude Sonnet 4.5 رونمایی کرد: تمرکز ویژه بر کدنویسی و ادغام سازمانی

انتروپیک از مدل Claude Sonnet 4.5 رونمایی کرد: تمرکز ویژه بر کدنویسی و ادغام سازمانی

مهدی جعفری مترجم

۸ مهر ۱۴۰۴

زمان مطالعه : ۶ دقیقه

شرکت انتروپیک، از بازیگران مهم هوش مصنوعی در آمریکا، مدل جدیدی تحت عنوان Claude Sonnet 4.5 را طی یک پست وبلاگی معرفی کرد. مدل جدید این استارت‌آپ،‌ تمرکز ویژه‌ای بر مهارت‌های کدنویسی، خودکارسازی‌های پیچیده و کار با کامپیوتر دارد. شرکت انتروپیک مدعی است که Claude Sonnet 4.5، با جهش چشمگیر از لحاظ اجرای پروژه‌های کدنویسی بلندمدت، پیشتازی عرصه «کدنویسی خودکار» را در اختیار می‌گیرد.

به گزارش پیوست، انتروپیک در پست وبلاگی خود می‌گوید Claude Sonnet 4.5 برترین مدل کدنویسی جهان، قوی‌ترین مدل در ساخت عامل‌های پیچیده و بهترین گزینه برای تعامل با کامپیوترها است. این مدل علاوه بر بهبودهای کلی در زمینه استدلال و ریاضی، چندین قابلیت و ابزار جدید در را در اختیار توسعه‌دهندگان قرار می‌دهد و برای کاربردهای سازمانی عملکرد بهتری خواهد داشت.

قابلیت‌های جدید مدل Sonnet 4.5

در پست وبلاگی انتروپیک از جمله قابلیت‌های جدید و ارتقا یافته این مدل به موارد زیر اشاره شده است:

اضافه شدن checkpoints در Claude Code که امکان ذخیره وضعیت کار و بازگشت به نقاط قبلی را برای توسعه‌دهندگان فراهم می‌کند.
رابط جدید درگاهی و افزونه بومی برای VS Code.
ویژگی ویرایش محتوایی و ابزار حافظه جدید در رابط برنامه‌نویسی مدل جدید انتروپیک که عامل‌ها با استفاده از آن می‌توانند بهتر و برای مدت طولانی‌تری فعالیت کنند.
امکان اجرای کد و تولید فایل‌هایی مثل صفحات گسترده، اسلایدها و اسناد در خود محیط مکالمه چت‌بات Claude
عرضه Claude Agent SDK برای توسعه‌دهندگان که به آنها اجازه می‌دهد با استفاده از زیرساخت‌های Claude، عامل‌های هوشمند خودشان را بسازند.

شرکت انتروپیک مدعی است که Sonnet 4.5 قوی‌ترین مدل از نظر تطابق اخلاقی است و در جلوگیری از رفتارهای نامطلوب از جمله چاپلوسی، دروغ‌سازی یا انحراف از اهداف تعریف‌شده، پیشرفت چشمگیری داشته است.

کاهش شدید رفتار‌های نامطلوب از جمله چاپلوسی و انحراف در مدل جدید Sonnet 4.5

چه تغییراتی نسبت به مدل قبلی رخ داده؟

برای درک بهتر نوآوری‌های Sonnet 4.5، باید آن را با نسخه پیشین، یعنی Claude Sonnet 4 مقایسه کرد. طبق پست وبلاگی شرکت این مدل نسبت به نسخه پیشین در موارد زیر پیشرفت چشمگیری داشته است:

عملکرد در آزمون‌های کدنویسی (SWE-bench Verified):
مدل Sonnet 4.5 در این سنجه عملکرد بهتری را به ثبت رسانده و نسبت به نسخه پیشین پیشرفت محسوسی داشته است.
همچنین در بنچمارک OSWorld، که مهارت مدل‌ها در کار با سیستم‌عامل واقعی را بررسی می‌کند هم Sonnet 4.5 امتیاز ۶۱.۴ درصد کسب کرده است، در حالی که نسخه Sonnet 4 تنها موفق به کسب امتیاز ۴۲.۲ درصدی شده بود.
مدت زمان تمرکز و کار مستقل (Long-horizon tasks):
یکی از تغییرات بزرگ مدل جدید انتروپیک، توانایی تمرکز طولانی‌تر است. مدل Sonnet 4.5 می‌تواند بیش از ۳۰ ساعت بر روی وظایف پیچیده و چندمرحله‌ای به صورت مستقل تمرکز و کار کند. این در مقایسه با محدودیت ۷ ساعتی مدل قبلی، جهش قابل‌توجهی به شمار می‌رود.
کار با کامپیوتر و تعامل با محیط سیستم عامل:
مدل Sonnet 4.5 طبق اعلام انتروپیک، عملکرد بهتری از لحاظ تعامل با ابزارهای کامپیوتری دارد؛ از جستجو و پیمایش وب گرفته، تا مدیریت فایل‌ها و اجرای دستورهای ترمینال، در محیطی که قالب مکالمه‌ای دارد. افزون بر این، در نسخه جدید، قابلیت مدیریت زمینه‌های مکالمه طولانی و پاک‌سازی تاریخچه ابزارها برای کاهش مصرف توکن اضافه شده است.
سازگاری با زیرساخت‌های سازمانی:
با معرفی Sonnet 4.5 به پلتفرم‌های همچون Amazon Bedrock، این مدل به شکلی کامل در زیرساخت سازمانی ادغام شده و امکاناتی مانند پشتیبانی از عامل‌ها، تفکیک و بررسی جلسات و ابزارهای نظارتی برای استقرار در محیط‌های حساس را در اختیار سازمان‌ها می‌گذارد.
همچنین، در GitHub Copilot نیز دسترسی به این مدل برای مشترکان Pro، Business و Enterprise فراهم است.
ارتقای ابزارهای جانبی:
مدل جدید با افزونه جدید کروم، ویرایشگر بومی، ابزار حافظه و SDK همراه است تا توسعه‌دهندگان بتوانند از امکانات پیشرفته آن بهره ببرند با دست بازتری استفاده کنند.

مهارت کدنویسی در مرکز توجه انتروپیک

آن‌چه Claude Sonnet 4.5 را از نگاه انتروپیک نسبت به رقبا متمایز می‌سازد، تمرکز ویژه این مدل بر توانایی‌های کدنویسی و اجرای مستقل وظایف در پروژه‌های کدنویسی است. طبق پست وبلاگی انتروپیک،‌ این مدل در بنچمارک SWE-bench Verified که وظایف واقعی مهندسی نرم‌افزار را مورد بررسی قرار می‌دهد، عملکردی بهتر از مدل‌های پیشین شرکت و جدید‌ترین مدل‌ شرکت اوپن‌ای‌آی (GPT-5) و گوگل (Gemini 2.5 Pro) به ثبت رسانده است.

همچنین، مدل جدید انتروپیک می‌تواند بهتر از دیگر مدل‌ها توالی‌های بزرگ کد را مدیریت کند، بازخورد بگیرد، بازسازی کند و در چند عامل همزمان به فعالیت خود ادامه دهد.

اپلیکیشن Claude نیز از این پس امکان اجرای کد و ساخت فایل‌ها را در مکالمات در اختیار کاربران می‌گذارد، به شکلی که توسعه‌دهنده می‌تواند در حین گفتگو تغییرات نرم‌افزاری را اعمال کنند.

ابزار checkpoints نیز که پیشتر به آن اشاره کردیم، به کاربر اجازه می‌دهد تا در زمان توسعه، وضعیت کار را ذخیره کرده و اگر خطایی رخ داد، امکان بازگشت به نسخه سالم فراهم گردد.

از این رو مدل جدید شرکت انتروپیک (Sonnet 4.5) نه فقط یک ارتقای عملکردی ساده، بلکه نشانگر تلاش روز افزون این استارت‌آپ برای ایفای نقش پررنگ‌تر در عصری است که مدل‌های هوش مصنوعی هرچه بیشتر در برنامه‌نویسی و توسعه نرم‌افزار ادغام می‌شوند و پروژه‌های نرم‌افزاری را با حداقل دخالت انسان به پیش می‌برند.

تشدید رقابت با گوگل اوپن‌ای‌آی

مدل جدید شرکت انتروپیک به‌وضوح با رهبران دیگر مدل‌های کدنویسی مانند GPT-5-Codex و مدل‌های جمنای در رقابت است و حتی برخی کاربران آن را بهتر از گزینه‌های پیشین می‌دانند.

عملکرد مدل جدید انتروپیک در وظایف مختلف از جمله کدنویسی عامل‌محور، استفاده از کامپیوتر و تجزیه‌تحلیل مالی

به لطف همکاری نزدیک این شرکت با آمازون و تطابق هرچه بیشتر با زیرساخت‌هایی مانند Amazon Bedrock و GitHub Copilot، مدل جدید انتروپیک در محیط‌های سازمانی و تولیدی نیز به خوبی ادغام می‌شود (حوزه‌ای که شرکت‌های هوش مصنوعی تمرکز ویژه‌ای بر آن دارند) و کاربران بیشتری می‌توانند از آن استفاده کنند.

علاوه بر این این مدل با قیمتی برابر با نسخه قبلی (۳ دلار برای هر میلیون توکن ورودی و ۱۵ دلار برای هر میلیون توکن خروجی) عرضه شده و در نتیجه شرکت با وجود ارتقای عملکرد، در تلاش است تا نفوذ این مدل را در میان کاربران تسریع کند.

توانایی اجرا و تمرکز بلند‌مدت بر پروژه‌ها نیز که پیشتر از سوی شرکت‌ اوپن‌ای‌آی و با مدل GPT-5 شاهد تمرکز ویژه‌ای بر آن بودیم، بدون شک تلاش دیگری برای افزایش توان رقابتی است و انتروپیک امیدوار است این مدل به لطف توانایی کار با حافظه و پوشش زمینه‌های گسترده و خودکفایی در کدنویسی می‌تواند در پروژه‌های تولیدی و خودکارسازی‌های پیچیده نفوذ بیشتری پیدا کند.

این مطالب را هم بخوانید: