skip to Main Content
محتوای اختصاصی کاربران ویژهورود به سایت

فراموشی رمز عبور

با شبکه های اجتماعی وارد شوید

عضو نیستید؟ عضو شوید

ثبت نام سایت

با شبکه های اجتماعی وارد شوید

عضو نیستید؟ وارد شوید

فراموشی رمز عبور

وارد شوید یا عضو شوید

جشنواره نوروزی آنر

پلاس

سینا حسن‌زاده نویسنده میهمان

یادگیری ماشین بدون نظارت، همه چیز درباره Unsupervised ML

سینا حسن‌زاده
نویسنده میهمان

۱ خرداد ۱۴۰۲

زمان مطالعه : ۸ دقیقه

یادگیری ماشین بدون نظارت

در این مطلب می‌خوانید

    یادگیری ماشین یکی از دستاوردهای هوش مصنوعی است که تاثیرات بسیاری را در زندگی انسان‌ها به‌وجود آورده است. این یادگیری در دو نوع با نظارت و بدون نظارت تعریف می‌شود. یادگیری ماشین بدون نظارت شامل الگوریتم‌هایی است که نیازی به نظارت ندارد و می‌توان به راحتی توسط این فناوری کارهای سخت و پیچیده را انجام داد و به نتیجه رساند.

    یادگیری بدون نظارت چیست؟

    یادگیری بدون نظارت یا Unsupervised learning نوعی یادگیری ماشین است که کاربران لازم نیست بر مدل آن نظارت کنند. در عوض، مدل کنونی روی خود کار می‌کند تا الگوها و اطلاعات شناسایی‌ نشده را کشف کند. اغلب کار این مدل با داده‌های برچسب‌نخورده است.

    الگوریتم‌های یادگیری بدون نظارت

    یادگیری ماشین بدون نظارت

    کاربران با استفاده از الگوریتم‌های یادگیری بدون نظارت می‌توانند کارهایی با پردازش پیچیده‌تر را در مقایسه با یادگیری با نظارت انجام دهند. گرچه که یادگیری بدون نظارت نسبت به دیگر شیوه‌های یادگیری طبیعی پیش‌بینی‌ناپذیرتر است. الگوریتم‌های یادگیری بدون نظارت شامل خوشه‌بندی، شناسایی ناهنجاری، شبکه‌های عصبی و غیره می‌شود.

    مثالی از یادگیری ماشین بدون نظارت

    برای درک بهتر و بیشتر با این مثال به توضیح یادگیری ماشین بدون نظارت می‌پردازیم. یک نوزاد برای اینکه سگ خانه‌ای خودشان را بشناسد و در ذهنش بماند مدتی این سگ را می‌بیند و با ظاهر و حرکاتش آشنا می‌شود. مدتی بعد یک سگ جدید را مشاهده می‌کند. این سگ سعی می‌کند با نوزاد بازی کند و با او ارتباط برقرار کند. نوزاد برای اولین بار است که این سگ جدیدرا می‌بیند، با این حال او ویژگی‌های زیادی را تشخیص می‌دهد؛ از جمله ۲ گوش، ۲ چشم و راه رفتن با دست و پا که مشابع سگ خانه‌ای خودشان است. بنابراین نوزاد این حیوان جدید را که شباهت بسیار زیادی به سگ خانه‌ای خودشان دارد به عنوان سگ شناسایی می‌کند.

    یادگیری ماشین با نظارت

    مثال بالا نوعی یادگیری بدون نظارت به‌شمار می‌رود. در این مثال، به نوزاد چیزی آموزش داده نشده، اما از روی داده‌ها (مشخصات سگ خانه‌ای‌ خودشان) یاد می‌گیرد. اگر شخصی به نوزاد درباره حیوان جدید توضیح می‌داد که سگ است، شیوه یادگیری به Supervised یا بانظارت تغییر پیدا می‌کرد.

    چرا یادگیری بدون نظارت؟

    اصلی‌ترین دلایل استفاده از یادگیری بدون نظارت در یادگیری ماشین شامل موارد زیر می‌شود:

    • یادگیری ماشین بدون نظارت، تمام الگوهای ناشناخته و پنهان در داده‌ها را می‌یابد.
    • شیوه‌های بدون نظارت در پیداکردن ویژگی‌های مناسب و دسته‌بندی‌کردن مفید است.
    • یادگیری بدون نظارت در لحظه اتفاق می‌افتد، یعنی همه داده‌های ورودی به‌محض یادگیری تحلیل و برچسب زده می‌شود.
    • گرفتن داده‌های برچسب‌ نخورده از کامپیوتر ساده‌تر است تا داده‌های برچسب‌ خورده که نیاز به مداخله دستی دارد.

    انواع خوشه‌بندی الگوریتم‌های بدون نظارت

    در زیر، انواع خوشه‌بندی الگوریتم‌های یادگیری ماشین بدون نظارت را می‌بینید. مشکلات یادگیری بدون نظارت به دو گروه مشکلات خوشه‌بندی و اتحاد تقسیم می‌شوند.

    خوشه‌بندی

    خوشه‌بندی یکی از مفاهیم پراهمیت در حوزه یادگیری بدون نظارت است. این مفهوم بیشتر با پیداکردن ساختار و الگو در مجموعه‌ای از داده‌های دسته‌بندی‌ نشده کار دارد. الگوریتم‌های خوشه‌بندی یادگیری بدون نظارت، داده‌های شما را پردازش کرده و در صورت وجود خوشه‌های (گروه‌ها) طبیعی، آنها را پیدا می‌کند. همچنین، می‌توانید تعداد خوشه‌هایی را که الگوریتم‌های شما باید آن را پیدا کنند، تغییر دهید. خوشه‌بندی انواع مختلفی دارد که می‌توان آنها را به‌کار گرفت.

    در ادامه به معرفی انواع خوشه‌بندی یادگیری ماشین می‌پردازیم:
    • خوشه‌بندی درختی
    • خوشه‌بندی K-means
    • K-NN (K nearest neighbors)
    • آنالیز اجزای اصلی
    • تجزیه مقدار تکی
    • آنالیز اجزای مستقل

    خوشه‌بندی درختی

    خوشه‌بندی درختی، الگوریتمی است که سلسله‌ مراتبی از خوشه‌ها را می‌سازد. این نوع خوشه‌بندی با داده‌ای شروع می‌شود که به خوشه خودش ضمیمه شده‌ است. در خوشه‌بندی درختی، دو خوشه نزدیک به‌ هم در یک خوشه قرار می‌گیرند. الگوریتم زمانی تمام می‌شود که تنها یک خوشه باقی مانده‌باشد.

    خوشه‌بندی K-means

    K-means الگوریتم خوشه‌بندی تکرارشونده‌ای است که به یافتن بیشترین مقدار برای هر تکرار کمک می‌کند. ابتدا تعداد خوشه‌ها را انتخاب می‌کنیم. شما باید نقاط داده‌ را در این روش به گروه‌های K خوشه‌بندی کنید. K بزرگتر یعنی گروه‌های کوچک‌تر با جزئیات بیشتر و K کوچک‍تر یعنی گروه‌های بزرگ‌تر با جزئیات کم‌تر.

    خروجی الگوریتم، گروهی از برچسب‌هاست. هر گروه در خوشه‌بندی K-means با ایجاد نقطه مرکزی برای هر خوشه تعریف می‌شود. نقاط مرکزی قلب هر خوشه هستند که نزدیکترین نقاط به خود را جذب و به خوشه اضافه می‌کنند.

    خوشه‌بندی K-means به دو زیرگروه تقسیم می‌شود:
    • خوشه‌بندی تجمعی
    • دندروگرام
    خوشه‌بندی تجمعی

    تعداد خوشه‌های این نوع از خوشه‌بندی K-means در ابتدا ثابت است. همه داده‌ها به تعداد خوشه‌های ثابتی اختصاص داده می‌شود. در این روش به شماره خوشه‌های K به عنوان ورودی نیازی نداریم. فرآیند تجمعی با شکل‌دادن هر داده به خوشه تکی آغاز می‌شود.

    خوشه‌بندی تجمعی از طریق ادغام فرآیندها و با استفاده از اندازه‌گیری مسافت، تعداد خوشه‌ها (یکی در هر تکرار) را کاهش می‌دهد. در نهایت، یک خوشه بزرگ وجود دارد که تمام مدل‌ها را در بر می‌گیرد.

    دندروگرام

    هر سطح در خوشه‌بندی دندروگرام نماینده خوشه‌ای امکان‌پذیر است. ارتفاع دندروگرام نشان‌دهنده سطح شباهت بین دو خوشه پیوندی است. خوشه‌ها هرچه نزدیک‌تر به پایین فرآیند باشند، به خوشه‌ای شباهت بیشتری دارند که در حال یافتن گروهی از دندروگرامی است که غیرطبیعی و ذهنی است.

    K-Nearest Neighbors

    نزدیکترین همسایه K، ساده‌ترین مرتب‌کننده در حوزه یادگیری ماشین است. KNN با بقیه روش‌ها تفاوت دارد که یکی از آنها عدم تولید هیچ‌گونه مدلی است. الگوریتم ساده این بخش، همه موارد در دسترس را ذخیره کرده و براساس معیار شباهت، دسته‌بندی می‌کند.

    زمانی که بین مثال‌ها فاصله باشد، این روش به‌ خوبی جواب می‌دهد. اگر مجموعه‌ داده بزرگ و محاسبات فواصل پیچیده باشد، سرعت یادگیری پایین می‌آید.

    آنالیز اجزای اصلی

    آنالیز اجزای اصلی زمانی به‌دردتان می‌خورد که فضایی با ابعاد بالاتر بخواهید. شما باید مبنایی برای آن فضا انتخاب کنید و تنها ۲۰۰ مورد مهم آن را مبنا قرار دهید. به این مبنا، جزء اصلی می‌گویند. زیرمجموعه‌ای که از ترکیب آن انتخاب می‌کنید، فضای جدیدی به‌شمار می‌رود که نسبت به فضای اصلی کوچک‌تر است. بدین ترتیب، پیچیدگی داده‌ها تا حد امکان حفظ می‌شود.

    انحصاری (پارتیشن‌بندی)

    داده‌ها در این روش به شکلی گروه‌بندی می‌شوند که هر داده تنها متعلق به یک گروه است.

    مثال: K-means

    تجمعی

    هر داده در این روش یک خوشه محسوب می‌شود. واحدهای تکرارشونده بین دو خوشه نزدیک، تعداد خوشه‌ها را کاهش می‌دهد.

    مثال: Hierarchical Clustering

    دارای همپوشانی

    ما در این روش از مجموعه‌های مبهم برای خوشه‌بندی داده‌ها استفاده می‌کنیم. هر نقطه به دو یا چند خوشه با سطح عضویت متفاوت تعلق دارد. در این روش، هر داده با مقدار مناسب عضویت خود مرتبط می‌شود.

    مثال: C-mean

    احتمالی

    ما در این روش از توزیع احتمالی برای ایجاد خوشه‌ها بهره می‌بریم.

    مثال: کلمات کلیدی زیر:

    • کفش مرد
    • کفش زن
    • دستکش زن
    • دستکش مرد

    اتحاد

    قوانین اتحاد، مجوزی برای برقرار ارتباط بین مدل‌های داده در پایگاه‌های داده بزرگ است. روش بدون نظارت اتحاد به‌ دنبال کشف ارتباطی جالب بین متغیرهای دیتابیسی بزرگ است. برای مثال، افرادی که خانه جدید می‌خرند، احتمالا علاقه‌مند به خرید اسباب اثاثیه جدید نیز هستند.

    مثال‌های دیگر:
    • گروه‌بندی فیلم‌ها براساس نمراتی که بینندگان داده‌اند.
    • زیرگروهی از بیماران سرطانی براساس اندازه‌گیری‌های بیان ژنی خود گروه‌بندی شده‌اند.
    • گروهی از مشتریان که براساس تاریخچه وب‌گردی و پرداخت آنلاین خود دسته‌بندی شده‌اند.

    یادگیری ماشین بدون نظارت و با نظارت

    تفاوت‌های اصلی بین یادگیری ماشین بدون نظارت و با نظارت به شرح زیر است:

    پارامترها تکنیک یادگیری ماشین با نظارتتکنیک یادگیری ماشین بدون نظارت
    داده ورودی الگوریتم‌ها با استفاده از داده برچسب‌خورده آموزش می‌بینندالگوریتم‌ها در برابر داده‌هایی استفاده می‌شوند که برچسب نخورده‌اند.
    پیچیدگی محاسباتی یادگیری با نظارت روش ساده‌تری استیادگیری بدون نظارت از لحاظ محاسباتی پیچیده‌تر است
    دقت دقت بالا و روشی مطمئنروشی با دقت و اطمینان کمتر

    برنامه‌های یادگیری ماشین بدون نظارت

    برخی از برنامه‌های یادگیری ماشین بدون نظارت عبارتند از:

    • خوشه‌بندی به‌ طور خودکار مجموعه داده‌ها را بر اساس شباهت‌هایشان گروه‌بندی می‌کند.
    • شناسایی ناهنجاری ممکن است به کشف نقاط داده غیرمعمول در مجموعه‌ داده‌های شما شود که برای پیداکردن تراکنش‌های جعلی مفید است.
    • استخراج اتحادها، مجموعه‌هایی را شناسایی می‌کند که اغلب در دیتاست با هم رخ می‌دهند.
    • مدل‌های متغیر پنهان استفاده گسترده‌ای در پیش‌پردازش داده‌ها دارند. برای مثال می‌توان به کاهش تعداد ویژگی‌ها در مجموعه داده یا تجزیه مجموعه داده به اجزای مختلف اشاره کرد.

    معایب یادگیری بدون نظارت

    • اطلاعات دقیقی به‌دست نمی‌آورید زیرا مرتب‌سازی داده و خروجی که به عنوان داده در یادگیری بدون نظارت استفاده می‌شود، برچسب‌نخورده و ناشناخته است.
    • نتایج دقت کمتری دارند زیرا داده‌های ورودی ناشناخته‌اند و افراد آن را برچسب نزده‌اند. بدین ترتیب، ماشین اول باید این کار را خودش انجام دهد.
    • طبقه‌های طیفی همیشه ارتباط نزدیکی با طبقه‌های اطلاعاتی ندارند.
    • کاربر باید طبقه‌ها را تفسیر کند و به تبعیت از طبقه‌بندی، برچسب بزند.
    • مشخصات طیفی طبقه‌ها در طول زمان می‌تواند تغییر کند. مثلا هنگام رفتن از یک تصویر به تصویر دیگر، اطلاعات طبقه دیگر یکسان نیست.

    خلاصه مطالب

    • یادگیری بدون نظارت، تکنیکی برای یادگیری ماشین است که لازم نیست بر مدل آن نظارت کنید.
    • به کمک یادگیری ماشین بدون نظارت می‌توانید همه الگوهای ناشناخته در داده‌های را پیدا کنید.
    • خوشه‌بندی و اتحاد دو نوع یادگیری بدون نظارت هستند.
    • چهار نوع روش خوشه‌بندی عبارتند از انحصاری، تجمعی، دارای همپوشانی و احتمالی.
    • انواع مهم خوشه‌بندی عبارتند از خوشه‌بندی درختی، خوشه‌بندی K-means، K-NN، آنالیز اجزای اصلی، تجزیه مقدار تکی، آنالیز اجزای مستقل.
    • قوانین اتحاد مجوزی برای برقرار ارتباط بین مدل‌های داده در پایگاه‌های داده بزرگ هستند.
    • الگوریتم‌ها در یادگیری با نظارت، با استفاده از داده برچسب‌خورده آموزش می‌بینند؛ در حالی‌که الگوریتم‌ها در یادگیری بدون نظارت در برابر داده برچسب‌نخورده استفاده می‌شوند.
    • شناسایی ناهنجاری ممکن است به کشف نقاط داده غیرمعمول در مجموعه‌ داده‌های شما شود که برای پیداکردن تراکنش‌های جعلی مفید است.
    • بزرگترین مشکل یادگیری بدون نظارت این است که نمی‌توانید اطلاعات دقیقی از مرتب‌سازی داده‌ها به‌دست بیاورید.
    https://pvst.ir/ex4

    0 نظر

    ارسال دیدگاه

    نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

    *

    برای بوکمارک این نوشته
    Back To Top
    جستجو