معرفی سیزده هوش مصنوعی تولید و پردازش تصویر: خلق از حروف ساده
امروزه و با توسعه هوش مصنوعی ابزار پردازش تصویر بسیاری برای تبدیل متن به تصویر…
۳۰ آبان ۱۴۰۳
۲۸ مهر ۱۴۰۳
زمان مطالعه : ۵ دقیقه
شرکت متا که به عنوان پیشتاز مدلهای متنباز در جهان شناخته میشود از یک مدل زبانی جدید به نام روح یا Spirit LM رونمایی کرده است که امکان تولید و درک چند وجهی و با رویکرد تازهای به بهبود روند درک و تولید گفتار در هوش مصنوعی کمک میکند. جامعه علمی میتواند از این مدل و مشتقات آن برای اهداف پژوهشی و غیرتجاری استفاده کنند.
به گزارش پیوست به نقل از ونچربیت، این مدل زبانی میتواند در ورودی و خروجی خود از تلفیق متن و صوت پشتیبانی کند و از این رو در رقابت با GPT-4o (که از ابتدا امکان فعالیت چندوجهی داشت) و دیگر مدلهای مشابه مثل EVI 2 از شرکت Hume قرار میگیرد.
این مدل که توسط تیم تحقیقات بنیادین هوش مصنوعی (FAIR) در شرکت متا طراحی شده است، به دنبال رفع خلا موجود در تجربه هوش مصنوعی صوتی و تولید گفتار جذاب و طبیعی است و همچنین یادگیری وظایفی در حوزههای مختلف از جمله تشخیص بیان خودکار (ASR)، متن به گفتار (TTS) و دستهبندی گفتار است.
با این حال کارآفرینان و رهبران تجاری امکان استفاده از این مدل را در محصولات خود ندارند و براساس جواز متا، تنها استفاده غیرتجاری و تحقیقاتی از این مدل امکانپذیر است. بر این اساس کاربران تنها برای اهداف غیرتجاری میتوانند از مدلهای Spirit LM در بازتولید، اصلاح و خلق آثار استفاده کنند.
هرگونه توزیع این مدلها و مشتقات آن نیز باید مطابق با محدودیتهای استفاده غیرتجاری باشد.
مدلهای سنتی تولید صوت، از تشخیص گفتار خودکار برای پردازش ورودی بیانی و سپس ترکیب آن با مدل زبانی استفاده میکنند. ورودی در چند مرحله ابتدا به متن و سپس مجدد به گفتار تبدیل شود.
چنین فرآیندی با وجود کارآمدی بالا باعث میشود تا ویژگیهای بیانی گفتار انسان از جمله لحن و احساس آن نادیده گرفته شود. مدل Spirit LM شرکت متا با توکنهای آوایی، گام و لحن صدا، یک راهحل جدید و پیشرفته را برای رفع این محدودیتها به کار گرفته است.
مدل روح شرکت متا در دو نسخه منتشر شده است:
مدل پایه یا Base: از توکنهای آوایی برای پردازش و تولید گفتار استفاده میکند.
مدل بیانگر یا Expressive: توکنهای دیگری برای گام و لحن گفتار دارد و در نتیجه این مدل میتواند حالتهای احساسی جدیدتری مثل هیجان یا غم را درک کند و یا آنها را در گفتار تولید شده بازتاب دهد.
هردو مدل براساس ترکیبی از دیتاستهای متن و صوت آموزش دیدهاند و در نتیجه Spirit LM میتواند وظایف میان وجهی مثل تبدیل گفتار به متن و متن به گفتار را با حفظ ماهیت بیانی گفتار انجام دهد.
متا در راستای تعهد دیرینه خود به جامعه آزاد علمی، مدل زبانی روح به صورت کاملا متنباز و به همراه وزنها، کد و مستندات پشتیبان، در اختیار پژوهشگران و توسعه دهندگان قرار میگیرد.
متا امیدوار است که ماهیت متنباز Spirit LM جامعه تحقیقات هوش مصنوعی را مجاب کند تا روشهای تازهای را برای ترکیب گفتار و متن در سیستمهای هوش مصنوعی مورد بررسی قرار دهند.
همراه با عرضه این مدل، یک مقاله تحقیقاتی درمورد معماری و توانمندیهای آن نیز در اختیار کاربران قرار گرفته است.
مارک زاکربرگ، مدیرعامل متا، یکی از حامیان بزرگ هوش مصنوعی متنباز، به تازگی در نامه سرگشادهای تصریح کرد که هوش مصنوعی پتانسیل «افزایش بهرهوری،خلاقیت و کیفیت زندگی انسان» را در کنار تسریع پیشرفت در حوزههایی مثل تحقیقات درمانی و اکتشافات علمی دارد.
مدل زبانی Spirit LM برای یادگیری وظایف جدید در وجههای مختلف طراحی شده است که از جمله آنها میتوان به موارد زیر اشاره کرد:
مدل بیانگر Spirit LM یک گام فراتر رفته و شاخصههای احساسی را نیز در فرایند تولید گفتار خود تلفیق میکند.
برای مثال این مدل میتواند حالت خشم، تعجب یا شادی را در ورودی خود شناسایی و در خروجی ادغام کند که ماحصل آن یک هوش مصنوعی انسانمانند و جذاب است.
چنین پیشرفتی از جمله برای دستیارهای مجازی، روباتهای خدمات مشتری و دیگر سیستمهای تعاملی که ارتباط ظریف و بیانگر در آنها اهمیت بالایی دارد بسیار مهم است.
مدل روح بخشی از یک مجموعهتر از ابزارها و مدلهای تحقیقاتی از بخش FAIR شرکت متا است. از جمله این دیگر ابزارها و مدلها میتواند به Segment Anything Model 2.1 یا SAM 2.1 برای تقسیم و بخشبندی عکس و ویدیو اشاره کرد که در حوزههای مختلفی مثل عکسبرداری درمانی و هواشناسی و تحقیقات مربوط به بهبود بازدهی مدلهای بزرگ زبانی، کاربرد دارد.
هدف نهایی متا تحقق هوش پیشرفته ماشینی (AMI) با تاکید بر سیستمهای هوش مصنوعی قدرتمند و قابل دسترسی است.
تیم FAIR بیش از یک دهه است که تحقیقات خود را با جامعه علمی و مردم به اشتراک میگذارد و به دنبال پیشرفت هوش مصنوعی به گونهای مفید برای جامعه در کنار بخش فناوری است. مدل روح بخشی مهمی از این تلاش محسوب میشود که در کنار پیشبرد مرزهای هوش مصنوعی در پرداز زبان طبیعی، جامعه آزاد علمی و بازتولیدپذیری را حمایت میکند.
متا با عرضه Spirit LM گام بزرگی به سمت ادغام متن و گفتار در سیستمهای هوش مصنوعی برداشته است. این شرکت با رویکردی طبیعی و بیانگر به گفتار هوش مصنوعی و فعالیت متن باز، جامعه پژوهشی را در اکتشاف احتمالات جدید برای اپلیکیشنهای هوش مصنوعی توانمندتر میکند.
مدل روح در حوزه ASR، TTS یا فراتر از آن، پیشرفت امیدوارکنندهای در حوزه یادگیری ماشینی است و میتواند نسل جدیدی از تعاملات انسانگونه را برای هوش مصنوعی امکانپذیر سازد.