چگونه میتوان با هوش مصنوعی مولد سازمانها را متحول کرد
تحولات جدید در دنیای کسبوکار با ورود هوش مصنوعی مولد (Gen AI) در حال شکلگیری…
۱۹ مهر ۱۴۰۳
۲۲ مرداد ۱۴۰۲
زمان مطالعه : ۱۲ دقیقه
برای شهروندان روسیه امکان فرار از یاندکس وجود ندارد. این غول تکنولوژی که از آن به عنوان «گوگل روسیه» یاد میشود، بخش مهمی از زندگی روزمره میلیونها شهروند این کشور است. این شرکت بر صنایع جستجوی آنلاین، تاکسی آنلاین و استریم موسیقی سلطه کامل دارد و خدماتی مشهور دیگری همچون نقشه، خدمات پرداخت و ایمیل را زیر چتر خود میگیرد. اما همانند تمام غولهای تکنولوژی، گستردگی بیحد و مرز یاندکس نیمه تاریکی دارد: این شرکت حجم زیادی اطلاعات را جمعآوری میکند.
به گزارش پیوست، ابتدای مرداد ماه سال گذشته (۱۴۰۱) بود که چندی پس از سفر عیسی زارعپور، وزیر ارتباطات ایران، به روسیه و تاکید بر فراهم کردن زمینه فعالیت پلتفرمهای روسی در ایران، یاندکس یا همان گوگل روسیه در ایران رفع فیلتر شد. پیرو رفع فیلتر، فرضیههای مختلفی درمورد احتمال برنامه دولت برای جایگزین کردن این موتور جستجو به جای گوگل شکل گرفت، اما حالا پس از یک سال یاندکس هنوز نتوانسته جای پای خود را در ایران سفت کند. گوگل روسی گرفتار بحران تازهای است که مجله وایرد ابعاد آن را بررسی کرده است.
حادثهای دور از انتظار در ماه ژانویه گریبان یاندکس را گرفت. یاندکس عضو جدید گروه بختبرگشتهای از شرکتهای بزرگ است که کد منبعشان به اینترنت درز کرده است. یک کاربر ناشناس وبسایت هکری بریکفوریم (BreachForums)، ۴۵ گیگابایت از کش مربوط به کد یاندکس را در اختیار عموم قرار دارد. فاجعهای که ظاهرا به یکی از کارمندان ناراضی شرکت برمیگردد با اینکه هیچ دادهای از کاربران را شامل نشده اما نمای خوبی از نحوه فعالیت اپلیکیشنها و خدمات این شرکت ارائه میکند.
اسرار تمامی خدمات، از موتور جستجو، نقشه و دستیار صوتی هوش مصنوعی گرفته تا تاکسی اینترنتی، اپلیکیشن ایمیل و خدمات ابری یاندکس برملا شده است.
افزون بر این، کد مربوط به دو سیستم کلیدی یاندکس در این اطلاعات خودنمایی میکند: خدمت تحلیل وب این شرکت که اطلاعات مرور کاربران را ثبت میکند و ابزار قدرتمند تحلیل رفتاری یاندکس که هسته اصلی کسبوکار میلیون دلاری تبلیغات به حساب میآید. چنین سیستم تبلیغاتی در واقع زیرساخت اصلی اقتصاد اینترنتی است و شرکتهایی مثل گوگل و فیسبوک و هزاران خریدار تبلیغات از تکنولوژی مشابهی استفاده میکنند. اما بیشتر این سیستمها یک جعبه سیاه ناشناخته هستند.
حالا کیلیگ مککریا، مهندس حریم خصوصی شرکت امنیت سایبری کانفاینت (Confiant)، با بررسی دقیق این کد منبع برای اولین بار سازوکار این سیستمها را تا حدی روشن کرده است. براساس یافتههای کانفاینت، تکنولوژیهای شرکت یاندکس حجم زیادی از اطلاعات را درمورد مردم جمعآوری میکنند و پس از «تطابق و تحلیل» چنین دادههایی با دیگر اطلاعات یاندکس میتوان علایق کاربران را مشخص کرد.
به گفته مککریا، کد یاندکس نشان میدهد این شرکت چطور برای کسانی که در کنار هم زندگی میکنند یک نمایه خانوار تشکیل میدهد و علایق خاص مردم را شناسایی میکند. از نگاه او این موضوع از لحاظ حریم خصوصی «به شدت نگرانکننده است» و ماجرا لایههای عجیب و متعددی دارد. طبق یافتههای کانفاینت، یاندکس با یک تکنولوژی خاص بخشی از اطلاعات خود را با شرکت ارتباطات Rostelecom روسیه که از حمایت دولت این کشور برخوردار است، به اشتراک می گذارد.
ایوان چروکو، مامور ارشد حریم خصوصی یاندکس، در پاسخ دقیق به سوالات مجله وایرد گفت، این «پارههای کد» قدیمی هستند و با آنچه در حال حاضر استفاده میشود تفاوت دارند. همچنین بخشی از این کد منبع «هیچگاه در عمل» استفاده نشده است. به گفته او: «یاندکس دادههای کاربر را تنها برای ساخت خدمات جدید و بهبود خدمات فعلی استفاده میکند» و این «دادهها هیچگاه به فروش نرفته و یا بدون رضایت کاربر در اختیار شخص ثالثی قرار نمیگیرند.»
در حالی کد منبع این غول روسی زیر ذرهبین قرار گرفته که تحولات زیادی را در ساختار این شرکت شاهد هستیم. در پی حمله روسیه به اوکراین، یاندکس در تلاش است تا شرکت مادر مستقر در هلند را از فعالیتهای روسی خود جدا کند. تحلیلگران میگویند چنین اقدامی به رابطه نزدیکتر با کرملین و به خطر افتادن اطلاعات منجر میشود.
ناتالیا کراپیوا، مشاور تکنولوژی-حقوقی سازمان خیریه حقوق دیجیتال Access Now، میگوید: «آنها سعی دارند تصویری از یک شرکت مستقل و غرب گرا را به نمایش بگذارند که هر از چند گاهی هم به قوانین و دستورات سرکوبگرانه اعتراض میکند و آنهم با هدف جذب سرمایهگذار و قراردادهای تجاری. اما یاندکس در عمل استقلال خود را از دست داده و به درخواستهای دولت روسیه تمکین میکند. آینده این شرکت مبهم است اما احتمالا بخش مستقر در روسیه این شرکت استقلال ناچیز فعلیاش را هم از دست خواهد داد.»
درز اطلاعات یاندکس مساله مهمی است. این کد منبع ۴۵ گیگابایتی تقریبا تمامی خدمات اصلی یاندکس را در بر میگیرد و ماحصل کار هزاران مهندس نرمافزار این شرکت را به تصویر میکشد. این کد به نظر مربوط به ژوئیه ۲۰۲۲ است و به زبان انگلیسی و روسی است.
مککریا دو بخش از این کد را به صورت دستی بررسی کرده است: متریکا (Metrica) و کریپتا (Crypta). متریکا شبیه به گوگل آنالیتیکس است و از طریق اپمتریکا (AppMetrica)، کدی را داخل وبسایتها و اپلیکیشنهای عضو قرار میدهد و میتواند همه چیز مراجعه کنندگان تا حرکتان نشانگر موس را ردیابی کند. اپمتریکا که در بیش از ۴۰ هزار اپلیکیشن و ۵۰ کشور حضور دارد، سالگذشته به نگرانیهای امنیت ملی در آمریکا منجر شد.
مککریا میگوید این دادهها به کریپتا منتقل میشود. این ابزار رفتار آنلاین مردم را تجزیهتحلیل کرده و در نهایتا تبلیغاتی مرتبط با علایقشان را برای آنها به نمایش میگذارد. براساس دادههای وبسایت یاندکس، بیش از ۳۰۰ فاکتور بررسی میشوند و الگوریتمهای یادگیری ماشینی کاربران را براساس علایقشان گروهبندی میکنند. مککریا میگوید: «تمام اپلیکیشنها و خدمات یاندکس، که بیش از ۹۰ مورد هستند، داده را به شکلهای مختلف برای این بخشهای تبلیغاتی به کریپتا ارسال میکنند.»
برخی از دادهها مثل مکان فرد برروی نقشه، هنگام استفاده از خدمات یاندکس به اشتراک گذاشته میشوند. بقیه دادهها معمولا به صورت خودکار جمعآوری میشوند. به طور کلی این شرکت میتواند اطلاعاتی درمورد دستگاه، مکان، تاریخچه جستجو، مکان خانه، محل کار، تاریخچه موسیقیها و فیلمهای دیده شده، دادههای ایمیل و غیره را جمعآوری کند.
کد منبع نشان میدهد که اپمتریکا دادههای مربوط به مکان دقیق کاربران از جمله ارتفاع، جهت و سرعت حرکت آنها را جمعآوری میکند. کاربرد این دادهها برای تبلیغات از نگاه مککریا بحثبرانگیز است. اپمتریکا همچنین نام شبکههای بیسیمی که کاربران به آن متصل میشوند را هم ثبت میکند. محققان میگویند این دادهها به کریپتا رفته و نام شبکه بیسیم به شناسه کلی فرد در یاندکس (Yandex ID)، متصل میشود. سیستمهای یاندکس گاه تلاش میکنند تا ارتباطی بین چندین ID مختلف برقرار سازند.
گریگوری باکونوف، مهندس و معاون مدیر ارشد تکنولوژی یاندکس که سال ۲۰۱۹ از این شرکت جدا شده، میگوید: «حجم دادههایی که یاندکس از طریق متریکا به دست میآورد خیلی زیاد است، حتی تصور آن هم غیرممکن است. [این دادهها] برای ایجاد هرگونه گروهبندی یا بخشبندی مخاطب کافی است.» این دستهها که توسط کریپتا ایجاد میشوند به نظر خیلی بهخصوص هستند و قدرت گردآوری داده در زندگی آنلاین ما را نشان میدهد. یک سری دستههای تبلیغاتی مختص افرادی است که از اسپیکر هوشمند آلیس متعلق به یاندکس استفاده میکنند، «عاشقان فیلم» را میتوان براساس ژانر مورد علاقه گروهبندی کرد، گروه کاربران لپتاپ را داریم، کسانی که «برای رادیسون (هتل روسی) روی نقشه جستجو کردهاند» و گیمرهای موبایلی که علاقه بلندمدت دارند.
مککریا میگوید بعضی از دستهها بیشتر از بقیه به چشم میآیند. او میگوید دسته «سیگاریها» به نظر کسانی را دنبال میکند که اقلام کشیدنی مثل سیگار الکتریکی را خریداری میکنند. دسته دیگر به نام «ساکنان تابستان» مربوط به کسانی است که ویلای تفریحی دارند و یاندکس برای تشخیص این موضع از دادههای مکانی استفاده میکند. دسته دیگری هم به «مسافران» اختصاص دارد و از دادههای مکانی برای ردیابی مقصد سفر از محل زندگی استفاده میکند و مناطق بینالمللی و داخلی را در بر میگیرد. یکی از بخشهای این کد به نظر دادههای اپلیکیشن Mail را استخراج میکند و بخشهایی درمورد «پاسپورت» و «هتل» را در خود دارد.
به گفته مککریا، بعضی از این دادهها برای تبلیغات آنلاین «عجیب به نظر نمیرسند». اما او میگوید سوال اصلی اینجاست که آیا تبلیغات شخصیسازی شده دلیل خوبی برای جمعآوری «چنین اطلاعات تهاجمی» محسوب میشود؟ تبلیغات رفتاری مدتها است که در فضای وب دیده میشود و شرکتها دادههای مردم را به طرق عجیبی گردآوری میکنند. رگولاتورها قادر به کنترل این مساله نیستند و برخی میگویند چنین روشی باید به طور کامل ممنوع شود. مککریا میگوید: «وقتی فکر میکنید که در صورت توان این نوع نتیجه گیری، چه کارهای دیگری از شما و آنهم در روسیه بر میآید موضوع ترسناک میشود.» به گفته او برای مثال میتوان دستهای را به مردهای سن خدمت ارتش اختصاص داد که به دنبال خروج از روسیه هستند.
چروکو از شرکت یاندکس میگوید گروهبندی کاربران براساس علایق یک «فعالیت استاندارد صنعت» است و تبلیغاتچیها امکان شناسایی اشخاص مشخص را ندارند. چروکو میگوید با جمعآوری اطلاعات میتوان تبلیغات ویژه را به کاربران نمایش داد: «محصولات باغداری برای دستهای از کاربران که به خانههای تابستانی علاقه دارند و قطعات خودرو برای کسانی که به پمپ بنزین میروند.» به گفته چروکو، کریپتا با تجزیهتحلیل رفتار آنلاین فرد، «احتمال» قرارگیری او در یک گروه خاص را محاسبه میکند.
او مدعی است: «از نگاه کریپتا هر کاربر به صورت یک سری شناسه ارائه میشود و سیستم نمیتواند آنها را با یک انسان واقعی در جهان واقعی مرتبط کند. این شکل از دستهبندی تنها براساس احتمال است.» او افزود که کریپتا به ایمیل افراد دسترسی ندارد و دادههای Mail که در این کد به پاسپورت و هتل اشاره میکنند «آزمایشی» بودند. کریپتا «تنها اطلاعات غیرقابلشناسایی را درمورد گروه مورد نظر از Mail دریافت میکند» و این روش از سال ۲۰۱۹ در حال استفاده است. او اضافه کرد که یاندکس «مکان جغرافیایی کاربر» را که توسط اپمتریکا جمعآوری میشود ۱۴ روز بعد حذف میکند.
در حالی که کد درز کرده نمای دقیق از عملکرد احتمالی سیستمهای یاندکس را به تصویر میکشد، اما نمای کاملی نیست. آرتور هاچویان، محقق داده و هوش مصنوعی در روسیه که شرکتی در حوزه تجزیهتحلیل مشابه کریپتا دارد، میگوید هنگام بررسی این کد هیچ مدل یادگیری ماشینی از پیش آموزش دیده یا اشاره به منابع داده و دیتابیسهای خارجی شرکای یاندکس را مشاهده نکرده است. همچنین مثلا واضح نیست که کدام بخشهای کد در عمل استفاده نشدهاند.
بررسیهای مککریا نشان میدهد که یاندکس شناسه خانوار را به هرفرد اختصاص میدهد. او میگوید این کد اطلاعاتی مثل تعداد افراد یک خانوار، جنسیت افراد و حتی حضور کودکان یا افراد مسن را شامل میشود. به گفته چروکو، برای گروهبندی مردم به عنوان یک خانوار، از دادههای مکانی استفاده میشود و درصورت «همپوشانی» آدرس IP هم میتوان آنها را در این گروه قرار داد. به گفته او این گروهبندیها برای تبلیغات استفاده میشوند. «اگر فرض کنیم فرد مسنی در یک خانوار حضور دارد، پس میتوان از تبلیغاتچیها برای نمایش تبلیغات مراکز نگهداری با یک محیط قابل دسترسی دعوت کرد.»
همچنین، این کد نشان میدهد که یاندکس چطور میتواند دادههای خدمات مختلف خود را ترکیب کند. مککریا میگوید طی یک فرایند پیچیده، میتوان دادههای جستجوی یک فرد بزرگسال را از ابزار جستجوی یاندکس، اپمتریکا و اپلیکیشن تاکسی این شرکت گرفت تا فهمید آیا کودکی در خانوار خود دارد یا خیر. بخشی از این کد، کودکان خانوار را به زیر ۱۳ سال و بالاتر تقسیم میکند (چروکو میگوید مردم میتوانند تاکسی با صندلی کودک سفارش دهند که نشان میدهد آنها «ممکن است به محتوای خاص یک فرد بچهدار علاقه داشته باشند.»)
یکی از عناصر کد کریپتا نیز نشان میدهد که چطور میتوان این دادهها را در کنار هم قرار داد. یک رابط کاربری در این بین به عنوان نمایهای از فرد عمل میکند: وضعیت تاهل، درآمد احتمالی، داشتن فرزند و سه علاقه-از موضوعات مختلف مثل لوازم خانه، غذا، لباس و استراحت-را نشان میدهد. چروکو میگوید این یک «ابزار داخلی یاندکس» است و کارکنان به وسیله آن دستهبندی الگوریتمهای کریپتا برای خودشان را مشاهده میکنند و تنها به اطلاعات شخصی خودشان دسترسی دارند. او میگوید «ما تا به حال هیچ حادثهای مربوط به سو استفاده از دسترسی نداشتیم.»
یاندکس در حال فروشکست است. یاندکس NV، سازمان مادر مستقر در هلند، در نوامبر ۲۰۲۲ اعلام کرد در پی حمله روسیه به اوکراین راهش را از کسبوکار روسی خود جدا میکند. این شرکت که در سطح بینالمللی قرار است نام خود را تغییر دهد، به دنبال پیشبرد تکنولوژی رایانش ابری و فاصله گرفته از صنعت جستجو، تبلیغات و دیگر خدمات روسی است. چندین تاجر روسی با فروش احتمالی یاندکس ارتباط دارند.
در حالی که روند فروشکست یاندکس در حال اجرایی شدن است، روسیه هم برای کنترل بیشتر بر اینترنت و افزایش سانسور تلاش میکند. چندین قانون جدید شرکتها و خدمات دولتی کشور را به استفاده از تکنولوژی بومی ملزم کرده است. برای مثال، هفته گذشته، رگولاتورهای داده فنلاند و نروژ، اپلیکیشن تاکسی بینالمللی یاندکس را به دلیل همین قانون جدید روسی از ارسال داده به روسیه منع کردند. قانون روسی که از ماه سپتامبر به اجرا گذاشته میشود به نیروی امنیت فدرال (FSB) اجازه میدهد تا به دادههای تاکسی دسترسی پیدا کند.
این تلاشهای ملیگرایانه و تغییر مالکیت احتمالی یاندکس باعث شده تا بسیاری بیش از پیش نگران دسترسی کرملین به دادههای این شرکت باشند. اتانیلاف شکریوف، مدیر ارشد تکنولوژی گروه حقوق دیجیتال Roskomsvoboda در روسیه و بنیانگذار سازمان توسعه تکنولوژی Privacy Accelerator، میگوید پیشتر تلاش کرده تا در مقابل درخواستهای دولت مقاومت کند و بهتر از دیگر شرکتها خود را اثبات کرده است. (این شرکت در ماه ژوئن به دلیل عدم ارائه اطلاعات به سرویس امنیتی روسیه ۲ میلیون روبل (۲۴ هزار دلار) جریمه شد.) اما از نظر شکریوف شرایط در حال تغییر است. او میگوید: «به نظرم نمیآید که بخواهند یاندکس را ملی کنند و درنتیجه، مدیریت و سیاست آن تغییر خواهد کرد. بنابراین دادههای کاربر در معرض تهدید بزرگتری درمقایسه با امروز قرار میگیرد.»
باکونوف، مهندس سابق یاندکس، که بخشی از یافتههای مککریا را به درخواست وایرد بررسی کرده میگوید پتانسیل سو استفاده از اطلاعات او را میترساند.