معرفی سیزده هوش مصنوعی تولید و پردازش تصویر: خلق از حروف ساده
امروزه و با توسعه هوش مصنوعی ابزار پردازش تصویر بسیاری برای تبدیل متن به تصویر…
۳۰ آبان ۱۴۰۳
۱۱ مرداد ۱۴۰۲
زمان مطالعه : ۳ دقیقه
متا هوش مصنوعی متنباز جدیدی به نام AudioCraft را منتشر کرده که به کاربران اجازه میدهد با استفاده از هوش مصنوعی مولد، موسیقی و صوت تولید کنند.
به گزارش پیوست، متا همچنان بر رویکرد متن باز خود برای هوش مصنوعی تاکید دارد و این شرکت که به تازگی نسل جدید هوش مصنوعی مولد خود را عرضه کرده حالا به سراغ جهان موسیقی آمده است.
ورج میگوید این هوش مصنوعی جدید از سه مدل هوش مصنوعی تشکیل میشود که هرکدام بخشهایی از تولید صوت را برعهده میگیرند. مدلی به نام MusicGen، ورودی متنی را به موسیقی تبدیل میکند. این مدل براساس «۲۰ هزار ساعت موسیقی تحت مالکیت متا یا دارای مجوز برای چنین کاربردی» آموزش دیده است. مدل AudioGen نیز براساس دستورهای متنی محتوا صوتی تولید میکند، میتواند صدای حیوانات یا قدمهای انسان را شبیهسازی کند و براساس صداهای عمومی آموزش دیده است. نسخه تقویت شدهای از EnCodec متا هم به کاربران اجازه میدهد تا صدایی با مصنوعات کمتر داشته باشند.
متا نسخهای از صوت تولید شده با AudioCraft را در اختیار رسانهها قرار داده است. صوت ارائه شده به نسبت طبیعی به نظر میرسد و با اینکه صدای گیتار هم حس و حال واقعی دارد اما هنوز ردپایی از صدای مصنوعی در آن قابل درک است.
متا تنها شرکتی نیست که موسیقی را با هوش مصنوعی ترکیب میکند. گوگل نیز پیشتر هوش مصنوعی MusicLM را ارائه کرده است. این مدل زبانی بزرگ میتواند براساس دستور متنی دقایقی صوت تولید کنند و البته تنها برای محققان قابل دسترسی است. چندی پیش هم شاهد وایرال شدن یک قطعه موسیقی از دریک و ویکند، خوانندههای معروف آمریکایی، در شبکههای اجتماعی بودیم. فعالان حوزه موسیقی از جمله گریمز نیز دیگران را تشویق کردهاند تا از صدایشان در آهنگهای ساخته هوش مصنوعی استفاده کنند.
البته که فعالان موسیقی مدتها است در حال آزمایش صداهای الکترونیکی هستند. اما موسیقی کامپیوتری در واقع صدایی است که با دستکاری صداهای واقعی به دست میآید. AudioCraft و دیگر مولدهای هوش مصنوعی تنها براساس متن و کتابخانهای عظیم از دادهها موسیقی خود را تولید میکنند.
مدل هوش مصنوعی متا فعلا شبیه به ابزاری است که میتوان از آن برای تولید صدای آسانسور استفاده کرد و فایده چندانی برای صنعت موسیقی یا تولید یک ترک محبوب ندارد. اما متا معتقد است که این مدل جدید میتواند به موج جدیدی از آهنگ و موسیقی منتهی شود، درست همانند زمانی که ابزارهای اصلاح دیجیتالی به جهان موسیقی آمدند.
متا در پست وبلاگی خود گفت: «از نظر ما MusicGen میتواند به یکی از آلات موسیقی تبدیل شود-درست شبیه به ابتدای پیدایش سینتیسایزرها.» با این حال متا به دشواری ساخت مدلهای هوش مصنوعی برای تولید موسیقی معترف است، زیرا چنین ابزاری میلیونها نقطه فعالیت دارد و با مدلهای متنی از جمله Llama 2، که تنها هزاران نقطه فعالیت دارند، قابل مقایسه نیست.
به گفته این شرکت AudioCraft برای تنوع بیشتر دادههای آموزشی باید منبع باز باشد.
به گفته متا: «ما میدانیم مجموعهدادههایی که برای مدلهایمان استفاده کردیم تنوع کافی را ندارند. به ویژه دادههای موسیقی استفاده شده بیشتر موسیقی سبک غربی را شامل شده و تنها جفتهای صوت-متن را با متاداده انگلیسی در بر گرفتهاند. با اشتراکگذاری کد AudioCraft، امیدواریم که محققان دیگری بتوانند رویکردهای جدیدی برای کاهش یا از بین بردن سوگیری و سو استفاده از مدلها را به کار بگیرند.»
خطر هوش مصنوعی پیش از این برای ناشران موسیقی و هنرمندان به صدا درآمده بود و مدلهای مختلفی برای آموزش از محتوایی استفاده میکنند که ناقض حق کپیرایت است. یکی از این نمونهها Napster بود و اسپاتیفای نیز پس از آن به دلیل نقض حق کپیرایت با شکایتی میلیارد دلاری مواجه شد.