پیوست » فناوری » هوش مصنوعی » متا از یک مدل متن‌باز با امکان تولید و درک محتوای صوتی و متنی برای استفاده غیرتجاری رونمایی کرد

متا از یک مدل متن‌باز با امکان تولید و درک محتوای صوتی و متنی برای استفاده غیرتجاری رونمایی کرد

مهدی جعفری مترجم

۲۸ مهر ۱۴۰۳

زمان مطالعه : ۵ دقیقه

شرکت متا که به عنوان پیشتاز مدل‌های متن‌باز در جهان شناخته می‌شود از یک مدل زبانی جدید به نام روح یا Spirit LM رونمایی کرده است که امکان تولید و درک چند وجهی و با رویکرد تازه‌ای به بهبود روند درک و تولید گفتار در هوش مصنوعی کمک می‌کند. جامعه علمی می‌تواند از این مدل و مشتقات آن برای اهداف پژوهشی و غیرتجاری استفاده کنند.

به گزارش پیوست به نقل از ونچربیت، این مدل زبانی می‌تواند در ورودی و خروجی خود از تلفیق متن و صوت پشتیبانی کند و از این رو در رقابت با GPT-4o (که از ابتدا امکان فعالیت چندوجهی داشت) و دیگر مدل‌های مشابه مثل EVI 2 از شرکت Hume قرار می‌گیرد.

این مدل که توسط تیم تحقیقات بنیادین هوش مصنوعی (FAIR) در شرکت‌ متا طراحی شده است، به دنبال رفع خلا موجود در تجربه هوش مصنوعی صوتی و تولید گفتار جذاب و طبیعی است و همچنین یادگیری وظایفی در حوزه‌های مختلف از جمله تشخیص بیان خودکار (ASR)، متن به گفتار (TTS) و دسته‌بندی گفتار است.

با این حال کارآفرینان و رهبران تجاری امکان استفاده از این مدل را در محصولات خود ندارند و براساس جواز متا، تنها استفاده غیرتجاری و تحقیقاتی از این مدل امکان‌پذیر است. بر این اساس کاربران تنها برای اهداف غیرتجاری می‌توانند از مدل‌های Spirit LM در بازتولید، اصلاح و خلق آثار استفاده کنند.

هرگونه توزیع این مدل‌ها و مشتقات آن نیز باید مطابق با محدودیت‌های استفاده غیرتجاری باشد.

رویکرد تازه‌ای به متن و گفتار

مدل‌های سنتی تولید صوت، از تشخیص گفتار خودکار برای پردازش ورودی بیانی و سپس ترکیب آن با مدل زبانی استفاده می‌کنند. ورودی در چند مرحله ابتدا به متن و سپس مجدد به گفتار تبدیل شود.

چنین فرآیندی با وجود کارآمدی بالا باعث می‌شود تا ویژگی‌های بیانی گفتار انسان از جمله لحن و احساس آن نادیده گرفته شود. مدل Spirit LM شرکت متا با توکن‌های آوایی، گام و لحن صدا، یک راه‌حل جدید و پیشرفته را برای رفع این محدودیت‌ها به کار گرفته است.

مدل روح شرکت متا در دو نسخه منتشر شده است:

مدل پایه یا Base: از توکن‌های آوایی برای پردازش و تولید گفتار استفاده می‌کند.

مدل بیانگر یا Expressive: توکن‌های دیگری برای گام و لحن گفتار دارد و در نتیجه این مدل می‌تواند حالت‌های احساسی جدیدتری مثل هیجان یا غم را درک کند و یا آنها را در گفتار تولید شده بازتاب دهد.

هردو مدل براساس ترکیبی از دیتاست‌های متن و صوت آموزش دیده‌اند و در نتیجه Spirit LM می‌تواند وظایف میان وجهی مثل تبدیل گفتار به متن و متن به گفتار را با حفظ ماهیت بیانی گفتار انجام دهد.

متن باز، غیرتجاری و مختص پژوهش

متا در راستای تعهد دیرینه خود به جامعه آزاد علمی، مدل زبانی روح به صورت کاملا متن‌باز و به همراه وزن‌ها، کد و مستندات پشتیبان، در اختیار پژوهشگران و توسعه دهندگان قرار می‌گیرد.

متا امیدوار است که ماهیت متن‌باز Spirit LM جامعه تحقیقات هوش مصنوعی را مجاب کند تا روش‌های تازه‌ای را برای ترکیب گفتار و متن در سیستم‌های هوش مصنوعی مورد بررسی قرار دهند.

همراه با عرضه این مدل، یک مقاله تحقیقاتی درمورد معماری و توانمندی‌های آن نیز در اختیار کاربران قرار گرفته است.

مارک زاکربرگ، مدیرعامل متا، یکی از حامیان بزرگ هوش مصنوعی متن‌باز، به تازگی در نامه سرگشاده‌ای تصریح کرد که هوش مصنوعی پتانسیل «افزایش بهره‌وری،‌خلاقیت و کیفیت زندگی انسان» را در کنار تسریع پیشرفت در حوزه‌هایی مثل تحقیقات درمانی و اکتشافات علمی دارد.

کاربرد‌ها و پتانسیل آینده

مدل زبانی Spirit LM برای یادگیری وظایف جدید در وجه‌های مختلف طراحی شده است که از جمله آنها می‌توان به موارد زیر اشاره کرد:

تشخیص گفتار خودکار (ASR): تبدیل زبان گفتاری به متن نوشتاری.
متن به گفتار (TTS):‌ شناسایی و دسته‌بندی گفتار براساس محتوا یا لحن احساسی.

مدل بیانگر Spirit LM یک گام فراتر رفته و شاخصه‌های احساسی را نیز در فرایند تولید گفتار خود تلفیق می‌کند.

برای مثال این مدل می‌تواند حالت خشم، تعجب یا شادی را در ورودی خود شناسایی و در خروجی ادغام کند که ماحصل آن یک هوش مصنوعی انسان‌مانند و جذاب است.

چنین پیشرفتی از جمله برای دستیار‌های مجازی، روبات‌های خدمات مشتری و دیگر سیستم‌های تعاملی که ارتباط ظریف و بیانگر در آنها اهمیت بالایی دارد بسیار مهم است.

تلاشی گسترده‌تر

مدل روح بخشی از یک مجموعه‌تر از ابزارها و مدل‌های تحقیقاتی از بخش FAIR شرکت متا است. از جمله این دیگر ابزارها و مدل‌ها می‌تواند به Segment Anything Model 2.1 یا SAM 2.1 برای تقسیم و بخش‌بندی عکس و ویدیو اشاره کرد که در حوزه‌های مختلفی مثل عکس‌برداری درمانی و هواشناسی و تحقیقات مربوط به بهبود بازدهی مدل‌های بزرگ زبانی، کاربرد دارد.

هدف نهایی متا تحقق هوش پیشرفته ماشینی (AMI) با تاکید بر سیستم‌های هوش مصنوعی قدرتمند و قابل دسترسی است.

تیم FAIR بیش از یک دهه است که تحقیقات خود را با جامعه علمی و مردم به اشتراک می‌گذارد و به دنبال پیشرفت هوش مصنوعی به گونه‌ای مفید برای جامعه در کنار بخش فناوری است. مدل روح بخشی مهمی از این تلاش محسوب می‌شود که در کنار پیشبرد مرزهای هوش مصنوعی در پرداز زبان طبیعی، جامعه آزاد علمی و بازتولیدپذیری را حمایت می‌کند.

گام بعدی Spirit LM چیست؟

متا با عرضه Spirit LM گام بزرگی به سمت ادغام متن و گفتار در سیستم‌های هوش مصنوعی برداشته است. این شرکت با رویکردی طبیعی و بیانگر به گفتار هوش مصنوعی و فعالیت متن باز، جامعه پژوهشی را در اکتشاف احتمالات جدید برای اپلیکیشن‌های هوش مصنوعی توانمندتر می‌کند.

مدل روح در حوزه ASR،‌ TTS یا فراتر از آن، پیشرفت امیدوارکننده‌ای در حوزه یادگیری ماشینی است و می‌تواند نسل جدیدی از تعاملات انسان‌گونه را برای هوش مصنوعی امکان‌پذیر سازد.

این مطالب را هم بخوانید: