بهناز ملکی تحریریه

پیوست » فناوری » هوش مصنوعی » داده‌های کاربران هوش مصنوعی چه می‌شود؟ اقامت ۳۰ روزه روی دیتابیس‌ها

داده‌های کاربران هوش مصنوعی چه می‌شود؟ اقامت ۳۰ روزه روی دیتابیس‌ها

بهناز ملکی تحریریه

۱۵ مهر ۱۴۰۴

زمان مطالعه : ۹ دقیقه

استفاده فراگیر از فناوری هوش مصنوعی، کسب‌وکاری با عنوان «تجمیع‌کنندگان دستیارهای هوش مصنوعی» به وجود آورده است. این گروه از پلتفرم‌ها داده‌های کاربران را ابتدا روی دیتابیس‌های خود ذخیره می‌کنند اما اعلام می‌کنند که داده کاربران را ظرف ۳۰ روز از روی فضای ابری و دیتابیس‌های خود حذف می‌کنند.

به گزارش پیوست، دستیارهای متصل به مدل‌های زبانی بزرگ معمولاً دادهای کاربران را به‌صورت رمزنگاری ذخیره می‌کنند تا برای مواردی مانند آموزش خود مدل زبانی بزرگ استفاده شوند. در چنین روندی همواره این پرسش برای کاربران به وجود می‌آید: «آیا کسی داده‌های مرا می‌بیند؟»

این سوالی است که وقتی پلتفرم‌های تجمیع دستیارهای هوش مصنوعی شروع به کار کردند با جدیت بیشتری پرسیده شد. چراکه این پلتفرم‌ها ابتدا داده کاربران سازمانی یا غیر سازمانی خود را روی دیتابیس پلتفرم ذخیره می‌کنند و سپس آن را برای دریافت پاسخ به سمت دستیار هوش مصنوعی می‌فرستند.

اما پلتفرم‌ها می‌گویند داده‌ها یا با دستور خود کاربر یا بعد از مدت‌زمان ۳۰ روز خودبه‌خود حذف می‌شوند؛ اما چه کسی به دیتابیس دسترسی دارد و در مدت زمان سی روزه چه اتفاقی برای داده‌های ذخیره شده کاربر روی پلتفرم می‌افتد؟

اگر قوه قضائیه بخواهد داده کاربران را در اختیار او می‌گذاریم

«هوش نو» یکی از تجمیع‌کنندگان پلتفرم‌های هوش مصنوعی است. نعیم حشم‌بان، مدیرعامل این پلتفرم با اشاره به اینکه هوش نو به تمام مدل‌های متنی دسترسی دارد توضیح می‌دهد: اکنون حدود ۷۹ مدل زبانی هوش مصنوعی در هوش نو تجمیع شده است. در ادامه مدل‌های تصویرساز هم اضافه شدند.

او در ادامه درباره تصمیم هوش نو برای همکاری با نهادهای دولتی می‌گوید: قصد ورود به این حوزه را داریم اما هنوز اقدام عملی در این راستا نکرده‌ایم. اما به ارگان‌ها و نهادهای دولتی برای همکاری اعلام آمادگی کرده‌ایم.

حشم‌بان در توضیح چگونگی نگهداری داده کاربران روی پلتفرم توضیح می‌دهد: تمام داده‌ها به مدت سی روز نگهداری می‌شوند. بعد از این مدت داده کاربران خودبه‌خود بدون اینکه پلتفرم هیچ‌گونه دسترسی داشته باشد حذف می‌شود. حذف دیتا با حذف اکانت نیز اتفاق می‌افتد.

مدیرعامل هوش نو توضیح می‌دهد اگر از سوی قوه قضاییه و با حکم قضایی اطلاعات و داده کاربر تقاضا شود، هوش نو داده‌ها را در اختیار نهاد قضایی می‌گذارد. به همین دلیل نیز این پلتفرم برای جلوگیری از چنین اتفاقاتی پیشاپیش دسترسی به محتوای غیراخلاقی و سیاسی را مسدود کرده است.

مدعیان دسترسی‌نداشتن به داده‌های کاربران نهایی دروغ‌گو هستند

مدیرعامل هوش نو در پاسخ به این سوال که در مدت‌زمان سی‌روزه چه اتفاقی برای داده‌های کاربران رخ می‌دهد، عنوان کرد: هر کسی بگوید دسترسی ندارد دروغ است. مگر اینکه یک باکت در کلودفر درست کنند.

باکت کلودفر در واقع یک مخزن امن در فضای ابری است و برای نگهداری امن داده‌ها از آن استفاده می‌شود؛ داده‌ها در باکت رمزنگاری می‌شوند و امکان مشاهده آنها وجود ندارد. حشم‌بان می‌گوید داده‌های ورودی کاربران هوش نو روی باکت کلودفر قرار می‌گیرند.

او در ادامه توضیح می‌دهد: اما این داده‌ها ابتدا روی دیتابیس ذخیره می‌شود و بعد روی کلودفر قرار می‌گیرد. به عبارتی مستقیم روی باکت قرار نمی‌گیرد به همین خاطر هم قطعاً یک ورژن از داده‌ها روی دیتابیس پلتفرم وجود دارد اما بعد از سی روز داده‌ها از دیتابیس حذف می‌شوند. از لحاظ سیستمی هم تنها خود من هستم که به دیتابیس دسترسی دارم و نفر دومی در این میان وجود ندارد البته دسترسی من به دلیل لزوم دسترسی به هاست و سرور اجباری است.

۵۰ درصد کاربران عادی هستند و ۵۰ درصد دیگر کسب‌وکارها

«اولAI» یکی از پلتفرم‌های شناخته شده در حوزه تجمیع دستیارهای هوش مصنوعی است. در این پلتفرم بیش از ۳۰۰ مدل زبانی وجود دارد. همچنین اولAI به توسعه‌دهندگان استارت‌آپ‌ها API با قیمت جهانی به فروش می‌رساند.

احسان عزیزی، هم‌بنیان‌گذار اولAI با اشاره به چالش‌های مالی در ابتدای راه‌اندازی اولAI درباره اولویت‌های این پلتفرم در روزهای ابتدایی می‌گوید: سعی کردیم زیرساخت‌ها را توسعه دهیم و امن‌سازی انجام دهیم تا اول ای آی برای شرکت‌های بزرگ هم قابل اتکا باشد. گفتنی است که از ابتدای سال جاری نیز به جذب استارت‌آپ‌ها و شرکت‌های موفق ایرانی پرداختیم که این گروه از بخش توسعه‌دهنده یا API ما استفاده می‌کنند و این اقدام در مبحث توسعه و فروش بسیار کمک کرده است.

احسان عزیزی، مدیرعامل اول‌Ai — احسان عزیزی، هم‌بنیان‌گذار اول‌Ai

او می‌گوید در ابتدا بیشتر کاربران اول دانشجویان و افراد عادی بوده‌اند اما حالا این پلتفرم از ابتدای سال جاری بیشتر روی کسب‌وکارها تمرکز کرده است. عزیزی در این باره می‌گوید: پیش‌بینی ما این است که بازار B2B جذاب‌تر خواهد بود. اما در حال حاضر مشتریان ما ۵۰ درصد مخاطبان و افراد عادی هستند و ۵۰ درصد هم از میان کسب‌وکارها هستند.

عزیزی می‌گوید این پلتفرم در بخش ارائه خدمات به توسعه‌دهندگان داده‌ها را ذخیره نمی‌کند: یکی از مسائلی که از ابتدا بر آن حساسیت داشته‌ایم موضوع حریم خصوصی کاربران است. بنابراین در بخش توسعه‌دهندگان و API، ذخیره اطلاعات انجام نمی‌شود. دلیل اول این کار این بود که اصلاً برنامه‌ای برای توسعه مدل زبانی نداریم زیرا ذخیره داده بیشتر برای توسعه مدل‌های زبانی است. همچنین دردسرهای ذخیره دیتا مانند نشر احتمالی آن ما را بر آن داشت تا از ابتدا داده کاربران را ذخیره نکنیم. از سوی دیگر به دلیل این که کاربران بیشتر از گروه کسب‌وکارها هستند بر داده‌های خود حساسیت بیشتری دارند.

عزیزی همچنین عنوان می‌کند در بیشتر گفت‌وگوها داده‌ها تا ۳۰ روز به صورت N2N یا رمزنگاری شده نگهداری می‌شوند و بعد از سی روز هم داده‌ها پاک می‌شوند.

استفاده از مدل زبانی داخلی برای حفظ امنیت داده‌های سازمانی

حسین صمدزاده، مدیر مارکتینگ «کلمه»، می‌گوید پلتفرم کلمه با هدف تسهیل دسترسی به تمام دستیارهای هوش مصنوعی برای سازمان‌ها کار خود را آغاز کرد اما در ادامه به دلیل ظرفیتی که در بازار B2C به وجود آمد، محصول خود را برای استفاده کاربران نهایی نیز ارائه کرد. این پلتفرم API مورد نیاز کسب‌وکارها را نیز با هدف تسهیل راه‌اندازی بخش هوش مصنوعی در استارت‌آپ‌ها، فراهم می‌کند.

او در ادامه می‌گوید: از آنجایی که در حوزه B2C ،API به خدمت‌دهنده بیرونی ارائه می‌شود باید امکان تعهدات SLAها و ارتباطاتی که مربوط به کسب‌وکار آنها می‌شود را بپذیریم. به دلیل زیرساختی که خودمان توان فراهم‌آوردن آن را داریم به این فضا وارد شده‌ایم. از سویی دیگر در استقرارهای سازمانی هم به دلیل اتفاقاتی که از جنس Shadow AI می‌افتد دغدغه‌های جدی برای سازمان‌ها وجود دارد.

صمدزاده توضیح می‌دهد که سازمان‌ها به واسطه هوش مصنوعی بسیاری از نیازهای خود را برطرف می‌کنند اما از سویی دیگر اطلاعات محرمانه خود را در اختیار مدل‌های زبانی خارجی قرار می‌دهند.

او توضیح می‌دهد: برای اینکه اطلاعات کاربران سازمانی در اختیار مدل‌های زبانی خارجی قرار نگیرد، کلمه یک کانال واسط ایجاد کرده است؛ به این صورت که سیستم یا با نظارت سازمان کار می‌کند یا از مدل زبانی داخلی استفاده می‌شود که کیفیتی مشابه مدل‌های آفلاین دارد. این مدل از جنس لامای ۴ است که می‌توانیم استقرار اولیه آن را روی زیرساخت سازمان انجام داد و نیازمندی آنها روی مدل‌های از پیش تعیین شده تعریف می‌شود. همچنین پایگاه دانش‌هایی که NDA دارد را در اختیار مدل آفلاین قرارداد. در چنین سیستمی تنها سوالات غیر حساس برای مدل‌های بیرونی مطرح می‌شود.

مشتریان کسب‌وکاری و سازمانی «کلمه» مالک داده کاربران نهایی خود هستند

او در پاسخ به این به این سوال که سازمان در خصوص امنیت داده‌های کاربران چه مسئولیتی دارد توضیح می‌دهد: در قراردادهایی که سازمان‌ها دارند مالکیت معنوی اطلاعات کاربران با آنهاست و به واسطه استفاده از قراردادهای محرمانگی موظف هستند که روی داده‌ها کنترل داشته باشد.

به گفته صمدزاده کلمه در استقرارهای سازمانی به دو لایه مختلف رسیده است. لاینی که انحصارا دارای اطلاعات محرمانه است و نیازمند سطح دسترسی خاص برای مدیران ارشد و افراد نیازمند دسترسی به این لایه است.

او توضیح می‌دهد: لایه دیگر عمومی‌تر است. لایه مربوط به کارشناس‌ها است. سطوح مختلف در متوسط پایین متوسط نیازمند دسترسی به آنها هستند. لایه‌ای که نیازمند اتصال به وب است و اطلاعات محرمانه را نیز در برنمی‌گیرد، دارای یک نظارت اولیه است. گفتنی است که چت‌هایی که در این لایه با هوش مصنوعی انجام می‌شود عموماً اطلاعات حساسی نیست و مصرف کاری روزانه دارد. چنین قابلیتی باعث می‌شود تا اطلاعات سازمان در دست مدل‌های زبانی خارجی نباشد و جلوی اتفاقاتی مانند ایجاد سازمان مشابه رقیب را بگیرد.

صمدزاده می‌گوید: استقرار آنلاین و استقرار پیش از آنلاین هم وجود دارد به عبارتی اول دیتا چک می‌شود تا محرمانه نباشد اگر محرمانه نبود در اختیار ای پی آی بیرونی قرار می‌گیرد و به اینترنت متصل می‌شود. انگار که یک دستگاه هوش مصنوعی داریم که اطلاعات محرمانه و غیرمحرمانه را از هم جدا می‌کند.

صمد‌زاده می‌گوید در برخی موارد سازمان با اطلاعات خصوصی کاربر نهایی در ارتباط است. برای مثال پرونده‌های پزشکی در سیستم‌های مشاوره پزشکی آنلاین وجود دارد. اما در نهایت تعهد امنیت داده به عهده صاحب کسب‌وکار است. از آنجایی که کلمه این اطلاعات را به صورت توکن‌شده تحویل می‌گیرد و به صورت توکن شده تحویل می‌دهد هیچ دسترسی به کر اطلاعات کاربران سازمان‌ها ندارد. به گفته او در روش دیگری برای حفظ داده‌های ثبت‌شده خود پلتفرم کلمه با سازمان قرارداد محرمانگی امضا می‌کند.

بعد از ۳۰ روز داده کاربران را پاک می‌کنیم

البته باید تکلیف داده‌های کاربران نهایی که از کلمه استفاده می‌کنند نیز مشخص شود. صمدزاده در توضیح این مورد نیز می‌گوید: ما در ساختار تستی اولیه کاربران، داده‌های کاربران نهایی را به مدت یک تا دو ماه نگهداری می‌کنیم.

او همچنین توضیح می‌دهد که بسیاری از قوانین افتا و رگولاتوری به پلتفرم اجازه مشاهده داده‌های کاربران را نمی‌دهد در حالی که پلتفرم موظف به ذخیره‌سازی داده‌ها است برای مثال پیام‌رسان‌ها اجازه دسترسی به چت کاربران خود را ندارند و در صورت لزوم باید مجوز قوه قضاییه را داشته باشند.

در اینجا صمدزاده توضیح می‌دهد که در صورت درخواست نهادهای دولتی برای دریافت داده‌های کاربران چه اقدامی می‌کند توضیح می‌دهد: هیچ نهاد دولتی نمی‌تواند فراتر از قانون یا به صورت فله اطلاعات و داده کاربران را بخواهد زیرا چنین اقدامی قانونی نیست. اما زمانی هست که برای قسمت مشخصی از داده‌ها شاکی وجود دارد. پلتفرم برای دسترسی به داده‌ای که از آن شکایت شده است می‌تواند داده‌ها را ارائه کند. اما هیچ زمان این اتفاق رخ نمی‌دهد که کل دیتابیس را به یک نهاد امنیتی تحویل دهد.

صمدزاده می‌گوید: نکته‌ای که وجود دارد این است که هیچ‌گاه داده‌های یک فرد مشخص برای حاکمیت اهمیت ندارد و حاکمیت در بحران‌های امنیتی بیشتر به دنبال جریان بزرگ داده‌ها است. اگر این شرایط را بپذیریم می‌توانیم با هر نهاد امنیتی مذاکره کنیم.

با توجه به توضیحات کارشناسان به نظر می‌رسد بالاخره داده‌های کاربران هوش مصنوعی در جایی و حداقل برای مدت‌زمان مشخصی نگهداری می‌شوند. حشم‌بان در آخر برای جلوگیری از بروز مشکل برای حریم خصوصی کاربران پیشنهاد کرد: کاربران به‌طورکلی داده‌های حساس خود را با مدل‌های زبانی در میان نگذارند و حتی کار تحلیل و بررسی کسب‌وکار و وب‌سایت را نیز به هوش مصنوعی محول نکنند.

https://pvst.ir/mkf

0 نظر

ارسال دیدگاه لغو پاسخ