متا دادههای گفتگوهای کاربران با هوش مصنوعی را برای نمایش تبلیغات هدفمند استفاده میکند
شرکت متا روز چهارشنبه اعلام کرد که از تاریخ ۱۶ دسامبر (۲۵ آذر) سیاست حریم…
۹ مهر ۱۴۰۴
۹ مهر ۱۴۰۴
زمان مطالعه : ۴ دقیقه
بخش آلمانی بنیاد ویکیمدیا، مالک ویکیپدیا، روز چهارشنبه از راهاندازی پروژهای جدیدی با عنوان Wikidata Embedding Project خبر داد که هدف آن ایجاد دسترسی به حجم عظیمی از دانش ویکیپدیا و پلتفرمهای وابسته این وبسایت برای مدلهای هوش مصنوعی است.
به گزارش پیوست به نقل از تککرانچ، این پروژه با بهرهگیری از جستوجوی معنایی مبتنی بر بردار (vector-based semantic search) و پشتیبانی از پروتکل Model Context Protocol (MCP) امکان درک بهتر روابط و مفاهیم موجود در دادهها را برای سیستمهای هوش مصنوعی فراهم میکند.
طبق اعلام ویکیمدیا، پایگاه داده جدید شامل نزدیک به ۱۲۰ میلیون ورودی است که از ویکیپدیا و پروژههای مرتبط با آن استخراج شده و امکان استفاده از آن برای پرسوجوهای طبیعی رایج در مدلهای زبانی بزرگ (LLM) وجود دارد و سازگاری کامل با این مدلها امکانپذیر است.
این پروژه ماحصل همکاری ویکیمدیای آلمان با شرکت Jina.AI، متخصص جستوجوی عصبی و شرکت DataStax (زیرمجموعه IBM) است. اگرچه ویکیدیتا سالهاست دادههای خود را به صورت ماشینخوان در دسترس قرار داده است، اما ابزارهای پیشین تنها از جستوجوی کلیدواژهای و زبان تخصصی SPARQL پشتیبانی میکردند. سیستم جدید اما برای استفاده در RAG (retrieval-augmented generation) یا تولید تکمیل شده با استخراج، طراحی شده است؛ روشی که به مدلهای زبانی اجازه میدهد اطلاعات بیرونی را بهطور مستقیم در خروجی خود بگنجانند تا بر پایه دادههای تاییدشده توسط ویراستاران ویکیپدیا پاسخ معتبر تولید کنند و از ارائه اطلاعات اشتباه بپرهیزند.
یکی از ویژگیهای کلیدی این پروژه، ساختار معنایی دادهها است. به عنوان نمونه، جستوجوی واژه «scientist» نه تنها فهرستی از دانشمندان هستهای یا پژوهشگران را در اختیار مدل قرار میدهد، بلکه موارد دیگری از معنای گستردهتر این واژه از جمله ترجمههای مختلف، تصاویری تاییدشده از سوی ویکیمدیا و ارتباط آن با مفاهیم نزدیک همچون «researcher» و «scholar» را نیز شامل میشود.
این پایگاه داده تازه بر روی پلتفرم Toolforge به صورت عمومی در دسترس قرار گرفته است. همچنین ویکیدیتا اعلام کرده روز ۹ اکتبر یک وبینار آموزشی برای توسعهدهندگان علاقهمند برگزار خواهد کرد تا نحوه کار با این سیستم و کاربردهای آن در پروژههای هوش مصنوعی را توضیح دهد.
این پروژه در شرایطی معرفی میشود که توسعه دهندگان هوش مصنوعی به دنبال دسترسی به منابع داده گسترده و در عین حال باکیفیت هستند. مدلهای زبانی پیشرفته برای اینکه دقت بیشتری پیدا کنند، به دادههای دقیق و گزینش شده نیاز دارند. بسیاری از مدلهای کنونی همچنان بر منابع گسترده و عمومی چون Common Crawl متکی هستند که هرچند حجم بسیار بالایی دارند، اما اغلب از دقت و اعتبار کافی برخوردار نیستند. دادههای ویکیپدیا اما به دلیل نظارت انسانی و فرآیندهای ویرایشی این منبع، هم از دقت بالایی برخوردارند و هم تا حد زیادی قابل اتکا هستند.
علاوه بر این ویکیمدیا این طرح را مستقل از غولهای فناوری در پیش گرفته است و در نتیجه میتواند به کاهش تمرکز در این صنعت با ایجاد دسترسی برای توسعه دهندگان کوچک کمک کند. فیلیپ سعده، مدیر پروژه هوش مصنوعی ویکیدیتا، در بیانیهای تاکید کرد که این طرح برخلاف بسیاری از پروژههای مشابه، مستقل از غولهای فناوری پیش میرود. او گفت: «راهاندازی Embedding Project نشان میدهد که هوش مصنوعی قدرتمند لازم نیست در انحصار چند شرکت بزرگ باشد. این فناوری میتواند باز، مشارکتی و در خدمت همه طراحی شود.»
با توجه به رشد سریع مدلهای زبانی و نیاز روزافزون به منابع دادهای دقیق، پروژه جدید ویکیمدیا میتواند به عنوان یک گام کلیدی در دموکراتیزهکردن دسترسی به دانش معتبر عمل کند و جایگزینی قابلاتکا برای منابع پراکنده و پرخطا باشد؛ گرچه شرکتهای بزرگ فناوری با سرمایهگذاری گسترده و گزینش داده میتوانند دیتابیسهای دقیقتری را برای آموزش مدلهای خود گردآوری کنند، اما دادههای جدید ویکیمدیا راهکاری برای توسعه دهندگانی است که به دادههای دقیق و گسترده نیاز دارند اما توان همپایی با فعالیتهای غولهای فناوری را ندارند.