هوش مصنوعی قدرت تکلم را به بیماران بازمی‌گرداند

مهدی جعفری مترجم

۲۷ بهمن ۱۴۰۳

زمان مطالعه : ۵ دقیقه

جولز رودریگز، مردی که در سال ۲۰۲۰ متوجه شد به بیماری اسکلروز جانبی آمیوتروفیک (ALS) مبتلا است، اکتبر ۲۰۲۳ توانایی صحبت کردن خود را از دست داد. ضعف عضلات در اثر این بیماری باعث شد که او به تدریج قدرت تکلم خود را از دست بدهد و در نهایت، پزشکان برای حفظ توانایی تنفس او مجبور به عمل تراکئوستومی (ایجاد یک لوله در نای) شدند. این جراحی جان او را نجات داد، اما قدرت تکلم را از او گرفت.

به گزارش پیوست، مقاله‌ای از نشریه فناوری MIT می‌گوید فناوری هوش مصنوعی با شبیه‌سازی صوتی به یاری رودریگز و دیگر بیماران مبتلا به ALS آمده است. الگوریتم‌های هوش مصنوعی در این روش نسخه‌های موجود از صدای بیمار را تجزیه تحلیل کرده و تقلید از صدای فرد را می‌آموزد. فرد سپس با استفاده از هوش مصنوعی می‌تواند قدرت تکلم خود را، البته با یک سری چالش‌ها، احیا کند.

رودریگز و همسرش با کمک همین فناوری موفق شدند نسخه دیجیتالی از صدای او را بازسازی کنند. این تحول جدید که با فناوری شبیه‌سازی صوتی (Voice Cloning) ممکن شده، نه‌تنها به رودریگز اجازه داده است که دوباره با صدای خود صحبت کند، بلکه او را قادر ساخته است تا دوباره اجرای استندآپ کمدی داشته باشد.

فناوری شبیه‌سازی صوتی چیست و چگونه کار می‌کند؟

فناوری شبیه‌سازی صوتی از الگوریتم‌های هوش مصنوعی برای تحلیل و بازآفرینی صدا استفاده می‌کند. در گذشته، بیماران مبتلا به ALS و دیگر بیماری‌های تحلیل عضلانی می‌توانستند صدای خود را بانک صوتی کنند، به این معنی که صدها یا هزاران جمله را ضبط می‌کردند تا بعدا از آن استفاده کنند. اما این روش زمان‌بر و محدود بود و صدای تولیدی آن اغلب غیرطبیعی و رباتیک به نظر می‌رسید.

اکنون، فناوری جدیدی از شرکتElevenLabs که در ابتدا برای دوبله و صداگذاری در فیلم و تلویزیون توسعه یافته بود، این فرآیند را به طرز چشمگیری بهبود بخشیده است. کاربران می‌توانند تنها چند دقیقه از صدای خود را ضبط یا از کلیپ‌های قدیمی مانند پیام‌های صوتی یا ویدئوهای خانوادگی استفاده کنند تا هوش مصنوعی صدای آن‌ها را به طور واقع‌گرایانه بازسازی کند. با استفاده از این فناوری، بیماران صحبت‌های خود را برای هوش مصنوعی تایپ می‌کنند و سپس این فناوری نوشته‌های آن‌ها را با صدای خودشان بازسازی و پخش می‌کند.

برای افرادی که به دلیل بیماری قدرت تکلم خود را از دست داده‌اند، شنیدن دوباره صدای خود تجربه‌ای عمیق و احساسی است. رودریگز می‌گوید: «شنیدن دوباره صدایم، بعد از مدت‌ها، روحیه‌ام را بهتر کرد.»

همسرش ماریا فرناندز نیز می‌گوید، اولین باری که صدای دیجیتالی همسرش را شنید، احساسی پیچیده داشت: «در ابتدا، احساس غم و اندوه داشتم، زیرا این صدا یادآور زندگی گذشته او بود. اما در نهایت، حس شگفتی و خوشحالی غلبه کرد. انگار معجزه‌ای رخ داده بود.»

این فناوری علاوه بر احیای صدا، تأثیر زیادی در برقراری روابط اجتماعی بیماران دارد. بسیاری از بیماران ALS به دلیل مشکلات گفتاری منزوی می‌شوند، اما داشتن یک صدای واقعی و آشنا، باعث می‌شود دوستان و اعضای خانواده راحت‌تر با آن‌ها تعامل کنند.

چالش‌های شبیه‌سازی صوتی

هرچند که فناوری شبیه‌سازی صوتی پیشرفت قابل توجهی داشته، اما این فناوری هنوز با مشکلاتی همچون نبود احساس در صدا روبرو است. از جمله چالش‌های این فناوری می‌توان به موارد زیر اشاره کرد:

نبود احساسات در صدا: صدای بازسازی‌شده گاهی فاقد لحن و احساسات طبیعی است. رودریگز می‌گوید: «گاهی اوقات، وقتی یک جمله طولانی می‌نویسم، به نظر می‌رسد که صدای دیجیتالی‌ام خسته می‌شود و تن صدایم یکنواخت می‌شود.»
سرعت پایین مکلمات زنده: افراد مبتلا به ALS معمولا باید متن را تایپ کنند تا هوش مصنوعی آن را بخواند. این امر سرعت مکالمات را کاهش می‌دهد و باعث وقفه‌های طولانی در گفتگو می‌شود.
عدم وجود امکانات کامل در اپلیکیشن‌ها: برخی از بیماران، مانند جویس اسر که به بیماری نورون حرکتی (MND) مبتلاست، از عدم وجود تایپ سریع و روان در اپلیکیشن‌های مربوط به این فناوری گلایه دارند. او ترجیح می‌دهد که یک دستگاه ساده داشته باشد که بتواند با سرعت بیشتری تایپ کرده و صحبت کند.

آینده فناوری‌های ارتباطی برای بیماران ALS

پیشرفت‌های اخیر در حوزه هوش مصنوعی، نوید امکانات بیشتر و بهتری را برای افراد دارای ناتوانی‌های گفتاری می‌دهد.

یکی از پروژه‌های آینده، ترکیب فناوری شبیه‌سازی صوتی با آواتارهای دیجیتالی است. بنیاد اسکات-مورگان در حال توسعه آواتارهای هوشمندی است که می‌توانند حالات چهره و حرکات لب بیمار را شبیه‌سازی کنند.

با این حال، متخصصان گفتاردرمانی تاکید دارند که این فناوری‌ها نباید جایگزین تعامل انسانی شوند. ریچارد کیو، متخصص گفتاردرمانی، دراین‌باره می‌گوید:« آنچه ما اکنون داریم، صدای واقعی است. اما چیزی که هنوز به آن نیاز داریم، احساسی واقعی در صدا و حرکات چهره است.»

فناوری شبیه‌سازی صوتی با هوش مصنوعی یک پیشرفت بزرگ برای افرادی است که توانایی تکلم خود را از دست داده‌اند. این فناوری نه‌تنها به بیماران ALS امید دوباره‌ای بخشیده است، بلکه باعث افزایش تعاملات اجتماعی، کاهش انزوا و بهبود کیفیت زندگی آن‌ها شده است.

با پیشرفت مداوم این فناوری و توسعه قابلیت‌هایی مانند افزودن لحن و احساسات واقعی به صدا و ایجاد آواتارهای دیجیتالی همزمان با صدا، آینده‌ای روشن در انتظار بیمارانی است که تاکنون از ارتباط با دیگران محروم بودند.

این مطالب را هم بخوانید: