مهدی جعفری مترجم

پیوست » فناوری » هوش مصنوعی » طرح جدیدی برای عرضه آزاد داده‌های ویکی‌پدیا به جامعه توسعه‌دهندگان هوش مصنوعی

طرح جدیدی برای عرضه آزاد داده‌های ویکی‌پدیا به جامعه توسعه‌دهندگان هوش مصنوعی

مهدی جعفری مترجم

۹ مهر ۱۴۰۴

زمان مطالعه : ۴ دقیقه

بخش آلمانی بنیاد ویکی‌مدیا، مالک ویکی‌پدیا، روز چهارشنبه از راه‌اندازی پروژه‌ای جدیدی با عنوان Wikidata Embedding Project خبر داد که هدف آن ایجاد دسترسی به حجم عظیمی از دانش ویکی‌پدیا و پلتفرم‌های وابسته این وبسایت برای مدل‌های هوش مصنوعی است.

به گزارش پیوست به نقل از تک‌کرانچ،‌ این پروژه با بهره‌گیری از جست‌وجوی معنایی مبتنی بر بردار (vector-based semantic search) و پشتیبانی از پروتکل Model Context Protocol (MCP) امکان درک بهتر روابط و مفاهیم موجود در داده‌ها را برای سیستم‌های هوش مصنوعی فراهم می‌کند.

طبق اعلام ویکی‌مدیا، پایگاه داده جدید شامل نزدیک به ۱۲۰ میلیون ورودی است که از ویکی‌پدیا و پروژه‌های مرتبط با آن استخراج شده و امکان استفاده از آن برای پرس‌وجو‌های طبیعی رایج در مدل‌های زبانی بزرگ (LLM) وجود دارد و سازگاری کامل با این مدل‌ها امکان‌پذیر است.

این پروژه ماحصل همکاری ویکی‌مدیای آلمان با شرکت Jina.AI، متخصص جست‌وجوی عصبی و شرکت DataStax (زیرمجموعه IBM) است. اگرچه ویکی‌دیتا سال‌هاست داده‌های خود را به صورت ماشین‌خوان در دسترس قرار داده است، اما ابزارهای پیشین تنها از جست‌وجوی کلیدواژه‌ای و زبان تخصصی SPARQL پشتیبانی می‌کردند. سیستم جدید اما برای استفاده در RAG (retrieval-augmented generation) یا تولید تکمیل شده با استخراج، طراحی شده است؛ روشی که به مدل‌های زبانی اجازه می‌دهد اطلاعات بیرونی را به‌طور مستقیم در خروجی خود بگنجانند تا بر پایه داده‌های تاییدشده توسط ویراستاران ویکی‌پدیا پاسخ معتبر تولید کنند و از ارائه اطلاعات اشتباه بپرهیزند.

ساختار داده با بافت معنایی

یکی از ویژگی‌های کلیدی این پروژه، ساختار معنایی داده‌ها است. به عنوان نمونه، جست‌وجوی واژه «scientist» نه تنها فهرستی از دانشمندان هسته‌ای یا پژوهشگران را در اختیار مدل قرار می‌دهد، بلکه موارد دیگری از معنای گسترده‌تر این واژه از جمله ترجمه‌های مختلف، تصاویری تاییدشده از سوی ویکی‌مدیا و ارتباط آن با مفاهیم نزدیک همچون «researcher» و «scholar» را نیز شامل می‌شود.

این پایگاه داده تازه بر روی پلتفرم Toolforge به صورت عمومی در دسترس قرار گرفته است. همچنین ویکی‌دیتا اعلام کرده روز ۹ اکتبر یک وبینار آموزشی برای توسعه‌دهندگان علاقه‌مند برگزار خواهد کرد تا نحوه کار با این سیستم و کاربردهای آن در پروژه‌های هوش مصنوعی را توضیح دهد.

داده‌های با کیفیت: راهی برای کاهش سلطه غول‌های فناوری

این پروژه در شرایطی معرفی می‌شود که توسعه دهندگان هوش مصنوعی به دنبال دسترسی به منابع داده گسترده و در عین حال باکیفیت هستند. مدل‌های زبانی پیشرفته برای اینکه دقت بیشتری پیدا کنند، به داده‌های دقیق و گزینش شده نیاز دارند. بسیاری از مدل‌های کنونی همچنان بر منابع گسترده و عمومی چون Common Crawl متکی هستند که هرچند حجم بسیار بالایی دارند، اما اغلب از دقت و اعتبار کافی برخوردار نیستند. داده‌های ویکی‌پدیا اما به دلیل نظارت انسانی و فرآیندهای ویرایشی این منبع، هم از دقت بالایی برخوردارند و هم تا حد زیادی قابل اتکا هستند.

علاوه بر این ویکی‌مدیا این طرح را مستقل از غول‌های فناوری در پیش گرفته است و در نتیجه می‌تواند به کاهش تمرکز در این صنعت با ایجاد دسترسی برای توسعه دهندگان کوچک کمک کند. فیلیپ سعده، مدیر پروژه هوش مصنوعی ویکی‌دیتا، در بیانیه‌ای تاکید کرد که این طرح برخلاف بسیاری از پروژه‌های مشابه، مستقل از غول‌های فناوری پیش می‌رود. او گفت: «راه‌اندازی Embedding Project نشان می‌دهد که هوش مصنوعی قدرتمند لازم نیست در انحصار چند شرکت بزرگ باشد. این فناوری می‌تواند باز، مشارکتی و در خدمت همه طراحی شود.»

با توجه به رشد سریع مدل‌های زبانی و نیاز روزافزون به منابع داده‌ای دقیق، پروژه جدید ویکی‌مدیا می‌تواند به عنوان یک گام کلیدی در دموکراتیزه‌کردن دسترسی به دانش معتبر عمل کند و جایگزینی قابل‌اتکا برای منابع پراکنده و پرخطا باشد؛ گرچه شرکت‌های بزرگ فناوری با سرمایه‌گذاری گسترده و گزینش داده می‌توانند دیتابیس‌های دقیق‌تری را برای آموزش مدل‌های خود گردآوری کنند، اما داده‌های جدید ویکی‌مدیا راهکاری برای توسعه دهندگانی است که به داده‌های دقیق و گسترده نیاز دارند اما توان هم‌پایی با فعالیت‌های غول‌های فناوری را ندارند.

این مطالب را هم بخوانید: