ابزار صوتی اوپن‌ای‌آی متن را خوانده و صداها را تقلید می‌کند

مهدی جعفری مترجم

۱۱ فروردین ۱۴۰۳

زمان مطالعه : ۴ دقیقه

شرکت اوپن‌ای‌آی نتایج اولیه مربوط به آزمایش قابلیت جدیدی را به اشتراک گذاشته که می‌تواند با صدایی شبیه به انسان کلمات را بخواند. به نظر می‌رسد که این شرکت هوش مصنوعی پس از متن، تصویر و ویدیو حالا به سراغ شبیه‌سازی صوت می‌رود.

به گزارش پیوست به نقل از بلومبرگ، شرکت دموهای اولیه و موارد استفاده یک پیش‌نمایش محدود از مدل متن به صوتی به نام Voice Engine را با حدود ۱۰ توسعه دهنده به اشتراک‌ گذاشته است. اوپن‌ای‌آی هنوز قصد عرضه گسترده این ابزار را ندارد.

سخنگوی اوپن‌ای‌آی می‌؛وید شرکت قرار است عرضه را برای دریافت بازخورد از طرفینی مثل سیاست‌گذاران، متخصصان صنعتی، آموزگاران و فعالان خلاق به تعویق اندازد. شرکت در ابتدا قرار بود این ابزار را از طریق یک اپلیکیشن در اختیار ۱۰۰ توسعه دهنده بگذارد.

اوپن‌ای‌آی روز جمعه در یک پست وبلاگی گفت: «می‌دانیم که ابزاری برای تولید صوتی که می‌تواند صدای افراد را شبیه‌سازی کند خطراتی جدی به دنبال دارد که به ویژه در سال انتخابات اهمیت دارند. به همین دلیل ما برای تضمین توجه به بازخورد‌ها در مراحل توسعه با شرکای آمریکایی و بین‌المللی در دولت، رسانه، سرگرمی، آموزش، جامعه مدنی و فراتر از آن همکاری می‌کنیم.»

در حال حاضر نیز از فناوری‌های هوش مصنوعی دیگری برای تقلید صدا استفاده شده است. در ماه ژانویه یک تماس پر اشکال اما با صدای نسبتا واقعی از جو بایدن، رئیس جمهوری آمریکا، منتشر شد که در آن از شهروندان نیو همپشیر خواسته بود تا در انتخابات اولیه رای ندهند.

ابزار Voice Engine برخلاف تلاش‌های پیشین شرکت اوپن‌ای‌آی برای تولید محتوای صوتی، صداهای خاص را کاملا با آهنگ و لحن خاص تولید می‌کند. این نرم‌افزار برای فعالیت خود به ۱۵ ثانیه صدای ضبط شده از فرد نیاز دارد.

بلومبرگ هنگام پیش نمایش این ابزار به کلیپی از سم آلتمن، مدیرعامل اوپن‌ای‌آی، گوش داده است که با صدایی غیرقابل تشخیص از صدای واقعی او که توسط هوش مصنوعی تولید شده بود، نحوه عملکرد این فناوری را توضیح می‌دهد.

جف هریس، یکی از مدیران محصولی شرکت اوپن‌ای‌آی، می‌گوید: «اگر تنظیمات صوتی مناسبی داشته باشید، در واقع با یک صدای در سطح انسان روبرو هستید. کیفیت فنی بسیار خیره‌کننده‌ای است. با این حال روشن است که تقلید دقیق صدای انسان در کنار خود مسائل حساس زیادی را دارد.»

یکی از شرکای توسعه دهنده فعلی اوپن‌ای‌آی که از این ابزار استفاده کرده است موسسه مغزواعصاب Norman Prince است. این موسسه در حال حاضر با استفاده از این تکنولوژی به بازیابی صدای بیماران کمک می‌کند. برای مثال این ابزار به بیماری که در نتیجه تومور مغزی قدرت تکلم خود را از دست داده بود صدای دوباره‌ای داده است.

مدل صوتی اوپن‌ای‌آی همچنین می‌تواند صدای فرد را به زبان‌های مختلف ترجمه کند. چنین ابزاری به ویژه برای شرکت‌های فعالی در حوزه صوتی مثل اسپاتیفای کاربرد دارد. اسپاتیفای در حال حاضر از یک ابزار بومی برای ترجمه صدای پادکستر‌های محبوب خود استفاده می‌کند. اوپن‌ای‌آی همچنین به کاربرد‌های آموزشی این فناوری نیز اشاره کرده است.

اوپن‌ای‌آی در طرح آزمایشی خود گفت که شرکت از شرکا خواسته تا با سیاست‌های استفاده از این ابزار موافقت کنند و پیش از استفاده از صدای هر فردی رضایت آن را بگیرند. همچنین شنوندگان باید مطلع شوند که به صدای ساخته هوش مصنوعی گوش می‌کنند. این شرکت همچنین یک واترمارک صوتی غیرقابل شنیدن را روی تولیدات ابزار خود هک می‌کند تا با استفاده از ابزاری‌های مناسب بتوان ساخته‌های هوش مصنوعی را تشخیص داد.

اوپن‌ای‌آی می‌گوید پیش از عرضه گسترده این قابلیت ابتدا به بازخورد متخصصان رسیدگی می‌کند. شرکت در پست وبلاگی خود گفت: «مردم سراسر جهان باید درک کنند که این فناوری به کدام سو می‌رود، آیا ما خودمان از آن استفاده گسترده می‌کنیم یا خیر.»

اوپن آی‌آی همچنین می‌نویسد که امیدوار است پیش‌نمایش نرم‌افزار این شرکت به توجه بیشتر درمورد مشکلات احتمالی فناوری‌های‌ هوش مصنوعی منجر شود. برای مثال، شرکت از بانک‌ها خواسته تا تایید صوتی را از بخش اقدامات امنیتی خود برای دسترسی به حساب بانک و اطلاعات حساس حذف کنند. همچنین شرکت به دنبال آموزش عمومی در زمینه محتواهای گمراه‌کننده هوش مصنوعی و توسعه ترفند‌های بیشتر برای تشخیص محتوای واقعی از تولیدات مصنوعی است.

این مطالب را هم بخوانید: