هوش مصنوعی جدید متا برای تولید موسیقی

مهدی جعفری مترجم

۱۱ مرداد ۱۴۰۲

زمان مطالعه : ۳ دقیقه

متا هوش مصنوعی متن‌باز جدیدی به نام AudioCraft را منتشر کرده که به کاربران اجازه می‌دهد با استفاده از هوش مصنوعی مولد، موسیقی و صوت تولید کنند.

به گزارش پیوست، متا همچنان بر رویکرد متن باز خود برای هوش مصنوعی تاکید دارد و این شرکت که به تازگی نسل جدید هوش مصنوعی مولد خود را عرضه کرده حالا به سراغ جهان موسیقی آمده است.

ورج می‌گوید این هوش مصنوعی جدید از سه مدل هوش مصنوعی تشکیل می‌شود که هرکدام بخش‌هایی از تولید صوت را برعهده می‌گیرند. مدلی به نام MusicGen، ورودی متنی را به موسیقی تبدیل می‌کند. این مدل براساس «۲۰ هزار ساعت موسیقی تحت مالکیت متا یا دارای مجوز برای چنین کاربردی» آموزش دیده‌ است. مدل AudioGen نیز براساس دستور‌های متنی محتوا صوتی تولید می‌کند، می‌تواند صدای حیوانات یا قدم‌های انسان را شبیه‌سازی کند و براساس صداهای عمومی آموزش دیده است. نسخه تقویت شده‌ای از EnCodec متا هم به کاربران اجازه می‌دهد تا صدایی با مصنوعات کمتر داشته باشند.

متا نسخه‌ای از صوت تولید شده با AudioCraft را در اختیار رسانه‌ها قرار داده است. صوت ارائه شده به نسبت طبیعی به نظر می‌رسد و با اینکه صدای گیتار هم حس و حال واقعی دارد اما هنوز ردپایی از صدای مصنوعی در آن قابل درک است.

متا تنها شرکتی نیست که موسیقی را با هوش مصنوعی ترکیب می‌کند. گوگل نیز پیشتر هوش مصنوعی MusicLM را ارائه کرده است. این مدل زبانی بزرگ می‌تواند براساس دستور متنی دقایقی صوت تولید کنند و البته تنها برای محققان قابل دسترسی است. چندی پیش هم شاهد وایرال شدن یک قطعه موسیقی از دریک و ویکند، خواننده‌های معروف آمریکایی، در شبکه‌های اجتماعی بودیم. فعالان حوزه موسیقی از جمله گریمز نیز دیگران را تشویق کرده‌اند تا از صدایشان در آهنگ‌های ساخته هوش مصنوعی استفاده کنند.

البته که فعالان موسیقی مدت‌ها است در حال آزمایش صداهای الکترونیکی هستند. اما موسیقی کامپیوتری در واقع صدایی است که با دستکاری صدا‌های واقعی به دست می‌آید. AudioCraft و دیگر مولد‌های هوش مصنوعی تنها براساس متن و کتابخانه‌ای عظیم از داده‌ها موسیقی خود را تولید می‌کنند.

مدل هوش مصنوعی متا فعلا شبیه به ابزاری است که می‌توان از آن برای تولید صدای آسانسور استفاده کرد و فایده چندانی برای صنعت موسیقی یا تولید یک ترک محبوب ندارد. اما متا معتقد است که این مدل جدید می‌تواند به موج جدیدی از آهنگ و موسیقی منتهی شود، درست همانند زمانی که ابزارهای اصلاح دیجیتالی به جهان موسیقی آمدند.

متا در پست وبلاگی خود گفت: «از نظر ما MusicGen می‌تواند به یکی از آلات موسیقی تبدیل شود-درست شبیه به ابتدای پیدایش سینتی‌سایزر‌ها.» با این حال متا به دشواری ساخت مدل‌های هوش مصنوعی برای تولید موسیقی معترف است، زیرا چنین ابزاری میلیون‌ها نقطه فعالیت دارد و با مدل‌های متنی از جمله Llama 2، که تنها هزاران نقطه فعالیت دارند، قابل مقایسه نیست.

به گفته این شرکت AudioCraft برای تنوع بیشتر داده‌های آموزشی باید منبع باز باشد.

به گفته متا: «ما می‌دانیم مجموعه‌داده‌هایی که برای مدل‌هایمان استفاده کردیم تنوع کافی را ندارند. به ویژه داده‌های موسیقی استفاده شده بیشتر موسیقی سبک غربی را شامل شده و تنها جفت‌های صوت-متن را با متا‌داده انگلیسی در بر گرفته‌اند. با اشتراک‌گذاری کد AudioCraft، امیدواریم که محققان دیگری بتوانند رویکرد‌های جدیدی برای کاهش یا از بین بردن سو‌گیری و سو استفاده از مدل‌ها را به کار بگیرند.»

خطر هوش مصنوعی پیش از این برای ناشران موسیقی و هنرمندان به صدا درآمده بود و مدل‌های مختلفی برای آموزش از محتوایی استفاده می‌کنند که ناقض حق کپی‌رایت است. یکی از این نمونه‌ها Napster بود و اسپاتیفای نیز پس از آن به دلیل نقض حق کپی‌رایت با شکایتی میلیارد دلاری مواجه شد.

این مطالب را هم بخوانید: