متا با مولد ویدیو به جنگ اوپنایآی و گوگل میرود (+ویدیو)
شرکت مادر فیسبوک و اینستاگرام با یک ابزار جدید هوش مصنوعی که براساس پرامپتهای متنی…
۱۴ مهر ۱۴۰۳
۱۵ اردیبهشت ۱۴۰۳
زمان مطالعه : ۱۲ دقیقه
تاریخ بهروزرسانی: ۱۲ اردیبهشت ۱۴۰۳
منبع باز و رایگان بودن ابزارهای هوش مصنوعی امری تصادفی نیست. چرا که بسیاری از این ابزارها در دانشگاهها ایجاد شدهاند. با این حال، در اینجا، ما قصد پرداختن به چارچوبها و کتابخانهها را نداریم، بلکه در این مقاله در مورد برنامههای کاربردی و مفید هوش مصنوعی که میتوانید روی کامپیوتر شخصی خود نصب کنید، صحبت خواهیم کرد. اصطلاح هوش مصنوعی روشهای مختلف مانند شبکههای عصبی، یادگیری ماشینی، یادگیری عمیق یا پردازش زبان طبیعی را در برمیگیرد. در ادامه مهمترین ابزارهای آفلاین هوش مصنوعی برای اجرا روی کامپیوتر را به شما معرفی میکنیم.
رویکردهای مختلفی برای تشخیص الگو، درختهای تصمیم گیری و اتوماسیون وظایف براساس دادههای آموزشی و مدلهای مختلف وجود دارد که از قبل آماده شده هستند. در دسترس بودن این دادهها یکی از عمده دلایلی است که امروزه تکنیکهای مفید هوش مصنوعی در نرم افزارهای رایگان را تحت تأثیر قرار داده است.
در گذشته، توسعه مدلها اغلب سالها به طول میانجامید اما امروزه، با افزایش قدرت محاسباتی سخت افزار رایانههای شخصی، توسعه رایج مدلهای هوش مصنوعی و تجزیه و تحلیل دادههای آموزشی در چند سال اخیر پیشرفتهای خوبی را داشته است. در ادامه ما نگاهی به مهمترین ابزارهای آفلاین هوش مصنوعی برای اجرا روی کامپیوتر نگاهی خواهیم انداخت.
مقیاس گرافیکی بیت مپ با بزرگ کردن پیکسلها منجر به کاهش شدید کیفیت خواهد شد. به لطف ابزار Final 2x، با بزرگنمایی بیت مپها کاهش کیفیت را مشاهده نخواهید کرد. برنامه Final 2x به لطف شبکههای عصبی و مدلهای ارائه شده، موفق به ارتقا مقیاسهای گرافیکی و نرم کردن آنها شده است.
با استفاده از الگوریتمهای Real Cugan، Real Esrgan، Waifu 2x و SRMD برنامه Final 2x چهار روش برای مقیاسبندی تصاویر به منظور رسیدن به بهترین کیفیت از تصاویر ارائه داده است. این برنامه همچنین میتواند تصاویری که پیکسلی شده است را با فرمت JPG با استفاده از نویز و مصنوعات قوی به میزان قابل توجهی بهبود ببخشد.
نحوه نصب: برنامه Final 2x در ابتدای معرفی ابزارهای مفید هوش مصنوعی ما قرار دارد. چرا که نصب آن در ویندوز بسیار راحت است و همچنین نیازی به سخت افزارهای اضافی ندارد چرا که شبکههای عصبی و الگوریتمهای مورد استفاده برای Final 2x روی تراشههای AMD، Nvidia و Intel اجرا میشود. یک CPU یکپارچه سازی شده نیز برای این برنامه کافی است.
با این حال، همانطور که برای بسیاری از ابزارهای هوش مصنوعی صادق است، رم با ظرفیت بالا میتواند کمک زیادی به اجرای بهتر برنامه کند. برای ویندوز، توسعه دهنده نصب کننده آسان Final2x-windows-x64- setup.exe (260 MB) را در صفحه گیت هاب خود ارائه کرده است که نصب و راهاندازی آن تنها با چند کلیک کامل انجام میشود.
نحوه انجام کار: در شروع برنامه، Final 2x یک فیلد ورودی ارائه میکند که در آن فایلهای تصویری با فرمت JPG یا PNG را با کشیدن و رها کردن میپذیرد. با کلیک کردن روی آیکون چرخ دنده در پایین سمت چپ صفحه تنظیمات باز میشود. در زیر Device، CPU/GPU میتواند برای محاسبه انتخاب شود و چندین مورد دیگر نیز در دسترس است.
Model کیفیت تصویر را تعیین میکند. الگوریتم Real-ESRGAN برای تصاویر بسیار مناسب است، در حالی که Waifu 2x برای طراحیهای تخصصی است. ضریب مقیاس بندی توسط قسمت Custom Scale تعیین میشود. همچنین، توصیه میشود تا گزینه TTA را فعال کنید تا بتوانید نتایج خوبی را به دست آورید.
یک اسکنر سه بعدی اشیای واقعی را با استفاده از لیزر اسکن میکند و یک فایل از دادهها را برای استفاده بیشتر در برنامههای CAD و انیمیشن ایجاد میکند. در واقع، کارهایی که بسیار پیچیده به نظر میرسد در مقیاس کوچک با استفاده از گوشیهای هوشمند معمولی یا دوربینهای دیجیتالی و نرمافزار رایگان Meshroom به راحتی قابل انجام است. این برنامه تحت کتابخانههای فتوگرامتری توسعه دهنده Alicevision است و به صورت منبع باز برای ویندوز (۶۴ بیتی) در دسترس است. از طریق آنالیزهای سری تصاویر، شکل یک تصویر عکس گرفته شده را محاسبه و یک فایل شبکهای ایجاد میکند.
نحوه نصب: به دلیل رابط Cuda که برای محاسبات مورد نیاز است، Meshroom به کارت گرافیک انویدیا با پشتیبانی حداقلی از Cuda 2.0 نیاز دارد. درایورهای کودا از انویدیا برای ویندوز دارای حجم ۳ گیگابایت است.
پس از راهاندازی سختافزار انویدیا، میتوانید برنامه Meshroom را نصب کنید. با کارت گرافیک AMD و تراشههای اینتل، Meshroom فقط در حالت sketch اجرا میشود. همچنین برای محاسبات سریعتر میتوانید از نسخه جایگزین Meshroom بدون Cuda استفاده کنید.
نحوه انجام کار: در هنگام عکسبرداری از شی مورد نظر بسیار مهم است که اتاق خالی و تا حد امکان از وسایل دیگر دور باشد. دهها تصویر از اطراف مختلف و با زوایای مختلف با عمق میدان زیاد و بدون تار شدن مورد نیاز است. بسیار اهمیت دارد که از تصاویر بیش از ۱۰ مگاپیکسل استفاده نشود. سپس فایلها به قسمت Images در سمت چپ Meshroom کشیده میشوند تا محاسبه آغاز شود، این محاسبات حتی با کارت گرافیک Nvidia چند ساعت طول میکشد.
این ویرایشگر ویدئویی رایگان به مدت دو سال است که به بازار آمده است. ردیابی حرکت، به معنای ردیابی خودکار اشیاء در کلیپهای ویدئویی است که میتواند موتیفهای شناسایی شده را با ماسک ارائه دهد و سپس جلوههای هدفمند را روی آنها اعمال کند.
نحوه نصب: Kdenlive به عنوان یک برنامه منبع باز برای ویندوز ۶۴ بیتی با یک فایل راهانداز به اندازه ۱۰۰ مگابایت در دسترس است. بنابراین به سرعت نصب میشود. علاوه بر این، دادههای مدل برای الگوریتم ردیابی حرکت به آن اضافه شده است.
این موارد سه فایل “dasiamrpn_ kernel_cls1.onnx”، “dasiamrpn_kernel_r1.onnx” و “dasiamrpn_model.onnx” است که توسط برنامهنویسان Kdenlive توسعه پیدا کرده است.
هر سه فایل باید در دایرکتوری نصب Kdenlive قرار گیرند. برای انجام این کار باید آدرس %AppData%/kdenlive را در نوار آدرس ویندوز اکسپلورر وارد کرده و یک زیر پوشه جدید به نام opencvmodels ایجاد کنید. سپس سه فایل مدل دانلود شده در آنجا قرار میگیرند.
نحوه انجام کار: در Kdenlive، ردیابی حرکت به عنوان یک افکت در دسترس است. برای استفاده از این قابلیت، یک کلیپ از لیست در بالای سمت چپ در زیر جدول زمانی قرار دهید، به تب Effects در نوار منوی میانی بروید و Alpha، Mask یا Keying Motion Tracker را در آنجا انتخاب کنید. با کشیدن افکت روی کلیپ مورد نظر، تنظیمات افکت باز میشود و یک مربع قرمز در پنجره پیش نمایش نشان داده میشود. در تنظیمات باید نوعDaSIAM به عنوان الگوریتم Tracker انتخاب شود. در تایم لاین، به اولین فریم بروید و فریم انتخاب قرمز رنگ را در اطراف شی قرار دهید و سپس روی Analysis کلیک کنید تا فریمهای کلیدی اطراف شی محاسبه شود.
با استفاده از این برنامه میتوانید قطعات آماده موسیقی را به آهنگهای جداگانه تبدیل کنید. ابزار هوش مصنوعی Spleeter دو سال قبل پس از اولین ارائه خود، مورد توجه زیادی قرار گرفت. این برنامه میتواند موسیقی را در فرمتهای MP3 به دو یا چهار یا 5 قطعه جداگانه با استفاده از مدلهای برنامهریزی شده تقسیم بندی کند.
Spleeter دستهبندیهایی مانند آواز، باس، درام و ریتم را تشخیص میدهد. این ابزار خط فرمان از کتابخانه هوش مصنوعی Tensorflow برای تجزیه و تحلیل جریان داده در قطعات موسیقی و رمزگذار Ffmpeg برای انکودر کردن آهنگهای جدا شده به فایلهای MP3 استفاده میشود.
نحوه نصب: به لطف محبوبیت زیاد این برنامه، نسخه ویندوز Spleeter نیز وجود دارد که با آن نیازی به نصب اجزای منفرد برنامه پایتون نیست. این بسته فشرده برای ویندوز از طریق مدیریت بسته Chocolately در دسترس است که ابتدا باید آن را نصب کنید. برای این کار از طریق منوی استارت به Windows Power Shell بروید که با کلیک راست و انتخاب گزینه Run as administrator باز میشود. در این خط فرمان دستور:
Set-ExecutionPolicy AllSigned
اجرا را با ورود j فعال میشود. سپس دستور:
Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://chocolatey.org/install.ps1'))
Windows package manager Chocolately را نصب میکند.
سپس package manager میتواند Spleeter را در Powershell با این ورودی نصب کند:
choco install spleeter-msvc-exe
اکنون، نصب مدلهای یادگیری ضروری است. برای این منظور، بچ فایل download_models.bat” در دایرکتوری جدید ” C:\ProgramData\chocolatey\lib\spleeter-msvc-exe\tools\models” مورد استفاده قرار میگیرد. دانلودها برای نصب مدلهای یادگیری در حدود ۱.۲ گیگابایت داده است. در نهایت، Spleeter نیاز به نصب Visual C++ Redistributable مایکروسافت را دارد.
نحوه انجام کار: پس از تکمیل تمامی مراحل نصب، میتوانید از طریق Powershell یا در خط فرمان کار را با وارد کردن دستور زیر ادامه دهید:
spleeter.exe datei.mp3
یک فایل MP3 را به سازها و آوازهای مختلف تقسیم بندی میکند و در فایلهای جداگانهای در پوشه قرار میدهد. این برنامه همچنین، برای موسیقیهای پاپ، آهنگهای اضافی مانند درام و باس را برای جداسازی تشخیص میدهد.
spleeter.exe -m 4stems datei.mp3
در این مثال، Spleeter از تشخیص الگوی خود برای جستجوی چهار آهنگ مجزا در یک قطعه موسیقی، یعنی آواز، باس، درام و ریتم/ همنوایی استفاده میکند. در اینجا، محاسبات مورد نیاز کمی بیشتر طول میکشد تا اینکه این آهنگها به عنوان فایلهای MP3 منفرد در فهرست کار نوشته شوند.
اگر در قطعه موسیقی مورد نظر، ویژگی هم نوازی دارای ویژگی منحصر بفردی باشد، Spleeter میتواند آن را به پنج ترک تقسیمبندی کند، که بهترین نتیجه را با وکال، بیس، درام، پیانو و ریتم نتیجه میدهد.
spleeter.exe -m 5stems datei.mp3
Spleeter یک ابزار خط فرمان است که از هوش مصنوعی و مدل سازی گسترده برای تقسیم بندی فایلهای موسیقی در فرمت MP3 به آهنگهای جداگانه با سازهای مجزا استفاده میکند.
مایکروسافت در حال کار روی ارتقا برنامههای روزمره با استفاده از تکنیکهای هوش مصنوعی است. به طور حتم، قابلیتهای جدید مرورگر وب Edge برای ارتقا خودکار تصاویر و حتی ویدئوها، توانسته است تا نتایج بسیار خوبی را برای صفحه نمایشهایی با وضوح بالا ایجاد کند.
نحوه نصب: اگرچه Microsoft Edge به صورت پیش فرض روی ویندوز نصب شده است، تکنیکهای هوش مصنوعی مرورگر برای بهبود تصویر فقط در نسخه دولوپر آن موجود است.
نحوه انجام کار: مرورگر، بهبود تصویر را به صورت لوکال روی رایانه انجام نمیدهد، بلکه تصاویر را به سرورهای مایکروسافت ارسال میکند، در آنجا تصاویر اصلاح و سپس به مرورگر ارسال میشوند. این فرآیند، به معنای آن است که مایکروسافت روی تصاویری که کاربران در وب بازیابی میکنند نظارت دارد. بنابراین، این گزینه به صورت پیش فرض فعال نیست و از طریق آدرس edge://settings/privacy/enhanceImages از طریق سوئیچ نمایش داده میشود.
این برنامه در ابتدا برای لینوکس توسعه داده شد و سپس به ویندوز نیز منتقل شد. قابلیتهای این برنامه قابل توجه است و علاوه بر مرتب سازی و دسته بندی تصاویر برای آلبومها، امکانات دیگری مانند تگها و کلمات کلیدی به همراه گزینههای مرتب سازی پیشرفتهای نیز در آن ارائه شده است. تشخیص چهره و درجه بندی خودکار کیفیت تصاویر دو قابلیت جدیدتر هستند که مبتنی بر هوش مصنوعی است.
نحوه نصب: این برنامه به راحتی در ویندوز ۶۴ بیتی از طریق یک برنامه راه انداز نصب میشود. برنامه نصب برخی از جزئیات را با تنظیمات پیش فرض از کاربر میپرسد. پس از نصب، این برنامه پیشنهاد میکند که دادههای مدل هوش مصنوعی مورد نیاز برای تشخیص چهره موجود را دانلود کنید.
نحوه انجام کار: این برنامه از نسخه ۲.۰ با تشخیص چهره در تصاویر مبتنی بر شبکههای عصبی استفاه میکند. اما تنها از نسخه 7.2 است که توانسته است خود را به عنوان یک نرمافزار حرفهای ثابت کند. پس از باز کردن تصویر یک نماد از شخص با علامت پلاس نشان میدهد. این برای علامت گذاری دستی چهره و نامگذاری آن استفاده میشود.
این کار با تصاویر دیگر برای همان فرد تکرار میشود، سپس از لیست نمایش داده شده انتخاب میشود. سپس کل مجموعه عکس را میتوان از طریق آیتم منو Search > People برای همان شخص جستجو کنید.
ابزار دیگری که توانسته است تا ساعتها در وقت افراد برای ایجاد تصاویر جذاب صرفه جویی کند، Hugin است. برنامه Hugin تصاویر پانوراما را از مجموعههای از تصاویر منفرد ایجاد میکند. پانوراما به ویژه برای ثبت تصاویر دراماتیک جذاب است. با این حال، Hugin امکان کنترل دقیق روی نتیجه را فراهم میکند و همچنین میتواند تصاویر جداگانه را در ردیفهای عمودی ترکیب کند. چندین سال است که چنین قابلیتهایی از طریق اپلیکیشنهای موبایل فراهم شده است. با این حال، Hugin امکان کنترل دقیق بر روی نتیجه را فراهم میکند.
نحوه نصب: Hugin یک برنامه تحت ویندوز است و به سادگی از طریق فایل ZIP اجرا میشود. فایل اجرایی را میتوان به صورت hugin.exe در زیر پوشه bin یافت.
نحوه انجام کار: Hugin یک ابزار برای افراد حرفهای است و تا زمانی که به آن مسلط نشدهاید همچنان باید با آزمایشهای مختلف بیشتر به امکانات آن پی ببرید. برای رسیدن به نتایج بهتر، همیشه باید فاصله کانونی را برای متادادههای هر عکس اضافه کنید. افزودن نقاط کنترلی بین تصاویر همپوشان از طریق تبی با همین نام، نتیجه را به میزان قابل توجهی بهبود میبخشد.
وب سایتهای زیادی وجود دارند که قابلیت ایجاد زیرنویس را برای کاربران فراهم میآورند. اما از جمله مشکلاتی که برای ایجاد زیرنویس وجود دارد عدم تطابق زیرنویسها با کلمات گفته شده در فیلم است. ابزار رایگان Subsync میتواند چنین مشکلاتی را از طریق تشخیص گفتار و هوش مصنوعی برطرف کنند و فایل زیرنویس را با فایل ویدئویی همگام سازی میکند.
نحوه نصب: برای نصب این برنامه نیز نیازی به استفاده از خط فرمان نیست. در وب سایت این برنامه به آدرس https://github.com/sc0ty/subsync/releases یک نصب کننده و یک نسخه پرتابل برای تمام نسخههای ویندوز 64 بیتی وجود دارد.
نحوه انجام کار: در رابط برنامه، مسیر فایلهای زیرنویس با فرمت SRT در فیلد بالا به نام Subtitles وارد میشود و زبان این فایل در کنار آن وارد میشود. فیلد References انتظار دریافت فایل ویدئویی را دارد و از همان جا میتوانید زبان مورد نظر را انتخاب کنید.
پس از کلیک روی Start، برنامه فایلهای دیکشنری مناسب برای زبانهای انتخاب شده را دانلود میکند. پس از آن، همگام سازی براساس موارد منطبق یافت شده آغاز میشود و Subsync برای انجام این کار، مهرهای زمانی فایل SRT را بازنویسی میکند.
انتخاب برنامهای که مبتنی بر هوش مصنوعی باشد به نیاز شما بستگی دارد. به دنبال حل کدام مشکل با استفاده از هوش مصنوعی هستید؟ آیا به رابط گرافیکی نیاز دارید که مبتنی بر خط فرمان باشد؟ فناوریهایی که در اینجا معرفی کردیم، دارای جامعه بزرگی از پشتیبانها هستند و در سناریوهای واقعی بارها مورد آزمایش قرار گرفتهاند.
منبع: pcworld