skip to Main Content
محتوای اختصاصی کاربران ویژهورود به سایت

فراموشی رمز عبور

با شبکه های اجتماعی وارد شوید

عضو نیستید؟ عضو شوید

ثبت نام سایت

با شبکه های اجتماعی وارد شوید

عضو نیستید؟ وارد شوید

فراموشی رمز عبور

وارد شوید یا عضو شوید

جشنواره نوروزی آنر

پیوست جهان

متیو مارگ

رسیدن به مجموعه متن (Corpus) با استفاده از جمع‌سپاری

تولید جمعی زبان طبیعی

متیو مارگ

۴ دی ۱۳۹۳

زمان مطالعه : ۸ دقیقه

شماره ۲۰

تاریخ به‌روزرسانی: ۱۰ دی ۱۳۹۸

جمع‌سپاری به یکی از داغ‌ترین موضوعات جامعه هوش مصنوعی در سال‌های اخیر بدل شده است. استفاده از آن در فعالیت‌های پردازش زبان و گفت‌وگو مانند متن کردن سخنرانی جذابیت بسیار زیادی داشته است اما برای ایجاد مجموعه متن چطور؟ آیا می‌توانیم از قدرت جمع‌سپاری جهت بهبود مجموعه داده‌های آموزشی برای برنامه‌های پردازش زبان گفتاری مانند سیستم‌های گفت‌وگو استفاده کنیم؟ویلیام یانگ وانگ، دانشجوی دکترا در موسسه فناوری دانشگاه CMU و همکارانش دان بوهوس، ایس کامار و اریک هورتویتز در موسسه تحقیقاتی مایکروسافت معتقدند می‌توان چنین کاری کرد. آنها در مقاله‌ای که در کارگروه فناوری زبان گفتاری IEEE در سال 2012 منتشر شد، پروژه‌ای برای ارزیابی جمع‌آوری مجموعه متن با استفاده از تکنیک‌های جمع‌سپاری آغاز کردند. دقیق‌تر اینکه جملاتی از شرکت‌کنندگان در این جمع‌سپاری با هدف ایجاد مجموعه متن برای برنامه‌های پردازش طبیعی، جمع‌آوری کردند. منافع جمع‌آوری مجموعه متن با استفاده از تکنیک‌های جمع‌سپاری بسیار متنوع است - جمع‌آوری داده ارزان، سریع و متنوع است اما چنین عملکردی بدون خطراتی مانند کنترل کیفیت و شرکت‌کنندگانی نخواهد بود که تلاش می‌کنند با سیستم «بازی» کنند. فعالیت وانگ به این مساله می‌پردازد که آیا این تکنیک جمع‌آوری داده می‌تواند در دیگر جوامع پردازش‌کننده زبان گفتاری نیز به کار ‌آید. وانگ درباره این پروژه و مسیر آینده آن با ما صحبت کرد.

انگیزه جمع‌آوری مجموعه متن با استفاده از جمع‌سپاری چیست؟ یکی از اساسی‌ترین چالش‌های تحقیق روی زبان گفتاری به جمع‌آوری داده برمی‌گردد. یک داستان واقعی اینکه وقتی دوره آزمایش کارم را در بخش تحقیقات مایکروسافت یا MSR آغاز کردم، از ما خواستند به طور مستقیم مساله ایجاد یک جزء برای سیستم‌های گفت‌وگو با جهان باز را بررسی کنیم اما مشخص شد رسیدن به مجموعه داده زبان طبیعی مناسب که انواع کاربردهای زبان متناسب با نیت کاربر را شامل شود، واقعا مشکل پیچیده‌ای است. همچنین متوجه شدیم بسیاری از مردم نیز با مشکلی مشابه مواجه هستند. لذا تصمیم گرفتیم ابتدا به این مشکل مهم رسیدگی کنیم. بنابراین در مراحل اولیه، تولیدکنندگان سیستم معمولا از سیستم مکالمه یا جمع‌آوری داده‌های تعاملات طبیعی بین کاربران استفاده می‌کنند. البته حتی پیش از این نیز، این داده‌ها برای ایجاد سیستم اولیه مورد نیاز خواهد بود. پس به نوعی مشکل مرغ و تخم مرغ است. معمولا تولیدکنندگان سیستم به این روش عمل می‌کنند که یک گرامر اولیه، به صورت دستی یا مبتنی بر مطالعات در مقیاس پایین ایجاد می‌کنند. وقتی این بخش انجام شد، داده‌های جدید جمع‌آوری و گرامرهای مدل به‌روزرسانی می‌شوند. البته این روش نواقصی هم دارد. اول آنکه گرامر ابتدایی ممکن است به خوبی در مورد تمام کاربران واقعی کلی‌سازی نشوند و عملکرد ضعیف سیستم در مراحل ابتدایی نیز می‌تواند به جهت‌گیری ورودی کاربران بعدی و داده‌های جمع‌آوری‌شده منجر شود. دوم آنکه چرخه حیات توسعه برنامه هزینه‌های بالایی دارد و بهبود عملکرد سیستم نیز زمان زیادی می‌برد. سوم، سیستم‌ها در مراحل اولیه با مشکل عدم پذیرش مواجه هستند. منظورم این است که به دلیل محدودیت کاربرد و عدم انسجام، یافتن کاربر -حتی کاربران دانشگاهی- برای امتحان سیستم‌های ابتدایی دشوار است. به‌علاوه هر بار که کارکرد یا توانایی جدیدی به سیستم اضافه می‌شود، برنامه‌نویسان با مشکل جمع‌آوری داده‌های اولیه جدید و توسعه گرامر برای آن عملکرد...

شما وارد سایت نشده‌اید. برای خواندن ادامه مطلب و ۵ مطلب دیگر از ماهنامه پیوست به صورت رایگان باید عضو سایت شوید.

وارد شوید

عضو نیستید؟ عضو شوید

این مطلب در شماره ۲۰ پیوست منتشر شده است.

ماهنامه ۲۰ پیوست
دانلود نسخه PDF
http://pvst.ir/28v

0 نظر

ارسال دیدگاه

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

*

برای بوکمارک این نوشته
Back To Top
جستجو