مسیر ورود نسل زد به اکوسیستم استارتآپی هوش مصنوعی، با هکاتون هموار میشود
رویداد هکاتون «هوش مصنوعی برای همه»، با تمرکز ویژه بر نقش هوش مصنوعی در تولید…
۴ آذر ۱۴۰۳
۲۳ اردیبهشت ۱۴۰۰
زمان مطالعه : ۱۳ دقیقه
تاریخ بهروزرسانی: ۱۷ آبان ۱۴۰۰
سال 1997 است. شما لباس مد همان زمان مثلا یک کت جین به تن دارید و درمورد فیلم مورد علاقهتان Austin Powers از مایک میر با دوست خود صحبت میکنید. فیلم را تعریف میکنید و دوستتان میگوید که فوقالعاده است. اما جریان عوض میشود. دوست شما میگوید «به نظر من بازی رندی کوئید فوقالعاده بود». شما با عصبانیت میپرسید «رندی کوئید؟ رندی اصلا در Austin Power نیست.» سعی میکنید این موضوع را به دوستتان توضیح دهید: «فکر میکنم او را با کلینت هاوارد اشتباه گرفته باشی»-اما دوست شما پافشاری میکند. برای پایان دادن به این بحث و باقی ماندن دوستی کامپیوتر 40 کیلوییتان را روشن میکنید. چهل دقیقه بعد بالاخره توانستید به اینترنت وصل میشوید. اما سوال اینجاست: باید به کجا رجوع کرد؟ پیش از گوگل مردم چطور اختلاف نظرها را حل میکردند یا اطلاعات اینچنین را از کجا پیدا میکردند؟ متخصصان هرکدام نظرهای متفاوتی در این زمینه دارند. برخی میگویند مردم اولی موتورهای جستجو بودهاند و برخی دیگر میگویند پیش از گوگل روزهای تاریکی را پشت سر گذاشتهاند.
امیلیا آکر، استادیار اطلاعات در دانشگاه آستین تگزاس، که تحقیقاتش به پیدایش، استاندارد سازی و حفظ اشیا جدید اطلاعات در موبایل و پلتفورمهای شبکه اجتماعی مربوط است معتقد است :«موتور جستجوی گوگل 90 درصد از بازار جستجو را که بازیگرانی مثل یاهو، بینگ و DuckDuckGo هم در آن حضور دارند به خود اختصاص داده است. اما پیش از اینکه الگوریتمهای جستجو شخصی سازی شده و تبلیغات محور گوگل بر این صنعت کام شود، وبسایتهای فهرست و موتورهای جستجوی رده بندی کننده، منابع اینترنتی را براساس موضوع دسته بندی میکردند.»
او میگوید: «اولین موتورهای جستجوی اینترنت وبسایتهای فهرستی بودند که مردم آنها را تنظیم میکردند. اینترنت شناسانی که یاهو آنها را «surfers» مینامید تمامی صفحات اینترنتی مربوط به یک موضوع را مطالعه و رده بندی میکردند. در نهایت این مدل انسان-محور جای خود را به وبسایتهای مجهز به ربات (که گاهی عنکبوت نامیده میشدند) داد و پس از آنهم یافتهها براساس ارتباط و اعتبار منبع ردهبندی شدند. » به گفته او در اوایل دهه ۱۹۹۰، حدود بیست موتور جستجوی مختلف از جمله WebCrawler، Lycos، AltaVista و Yandex وجود داشتند. فهرست این موتورهای جستجوی همانند کاتالوگهای کتابخانه براساس تیتر، محتوا، ساختار و موضوع دسته بندی میشد. او تاکید میکند که هدف از موتورهای جستجوی اولیه هدایت کاربران به منابع مهم از جمله خبر، سفر، ورزش و تجارت بود. چندین دسته پر از لینکهای آبی در این موتورهای جستجو وجود داشت که آنها را به فهرست شلوغ کتابها بدل میکرد.
او میگوید: «باید به یاد داشته باشید که جستجوی اینترنت در دهه ۱۹۹۰ با اهداف متفاوتی انجام میگرفت و انگیزه مردم برای اینترنتگردی متفاوت بود. در فرهنگهای اولیه فضای آنلاین، هدف از جستجو تایید یک حقیقت یا پیدا کردن محصول نبود. در عوض، موتورهای جستجو به مردم کمک میکردند تا به منابع دیجیتال دسترسی یافته و آنها را بررسی کنند و به طور کلی شبکه جهانی وب را تجربه کنند.»
براساس گفتههای او جستجوی وب در دهه ۱۹۹۰ تبلیغات کمتری داشت و کنترل اکتشافات را در دست کاربران بود، اما نتایج ابتدایی بودند و محتوای غیراخلاقی به خوبی سانسور نمیشد. او میگوید در آن ابتدا جستجوی وب برخلاف امروز همانند یک ماموریت بود، ماموریتی که شما درآن نقش فعال در هدایت و یافتن محتوا را برعهده داشتید، برخلاف جستجوی تحت پلتفورمهایی مثل گوگل و فیسبوک که شخصی سازی شده و البته مملو از تبلیغات هدفمند است. بگذارید برایتان مثالی از سفر پر پیچ و خم جستجو در روزهای اول اینترنت بزنم. در آن دوران اگر متن آهنگ «Small Town Boy» را جستجو میکردید شاید سر از اولین صفحه طرفداران آلمانی جیمی سامرویل در میآوردید. این روزها، اگر شما متن یک آهنگ را جستجو کنید، گوگل متن آن را از وبسایتهایی مانند LyricFind.com در اختیار شما قرار میدهد. وقتی از یک تجربه ماموریتی به تجربه الگوریتمی و دقیق می روید، جستجوی به یک امر معمول و ساده تبدیل می شود. با اینکه شاید موتور جستجوی گوگل دقیقا همان چیزی که میخواهید را در اختیار شما بگذارد اما از بسیاری قابلیتهای دشوار اینترنت اولیه و مسیر عجیب رسیدن به محتوای محروم میمانید.
پرفسور کریستین ال. بورگمن، ممتاز و محقق در مطالعات اطلاعاتی دانشگاه لس آنجلس کالیفرنیا است معتقد است که در ابتدا یاهو و Altavista خیلی خوب کار میکردند؛ اما بازیابی اطلاعات کامپیوتری یک عرصه بسیار قدیمی است که قدمت آن حداقل به دهه ۱۹۵۰ باز میگردد. اولین سیستمهای تجاری آنلاین و دسترسی از راه دور در دهه 1970 راه اندازی شدند. او بر این باور است که گوگل به هیچ وجه قابلیت جستجوی اطلاعات را اختراع نکرده است. براساس توضیحات او این شرکت طبق روشهای بسیار قدیمی مستندسازی از جمله روشهای پاول آتلت که دستهبندی اعشاری جهانی را در دهه ۱۹۳۰ اختراع کرد و از جمله بنیانگذاران علم اطلاعات مدرن است پایه گذاری شده است.
او میگوید: «تاریخچه جستجوی اطلاعات به تفکیک رشتههای مختلف است یعنی فهرستسازی تخصصی بسیار عمیق در رشتههای پزشکی، متالورژی، علم مواد، شیمی، مهندسی، آموزش،علوم اجتماعی. ما پایگاههای داده خیلی خوبی را در اوایل دهه ۱۹۷۰ به صورت آنلاین داشتیم که به صورت تجاری ارائه میشدند، باید برای هر دقیقه اتصال به پایگاه داده پول پرداخت میکردید.»
او ادامه داد: «برخی از سادهترین اصول گوگل مربوط به td-idf (یا تکرار متن تقسیم بر تکرار مستند) است که از پایان نامه دکترای کارن اسپارک جون در سال ۱۹۵۸ در دانشگاه کمبریج گرفته شده. براساس روش کارن، میزان تکرار یک عبارت در بدنه کار گرفته شده و تعداد مستندات حاوی آن تقسیم میشود. او واقعا در این حوزه پیشتاز بود و بعدا در کنار چندین دانشمند شناخته شده حوزه اطلاعات به گوگل مشاوره داد. پیج و برین (دو بنیانگذار اصلی گوگل) مطمئنا در این تاریخچه تاثیرگذار بودند.»
به باور او گوگل از دل طرح کتابخانههای دیجیتال بیرون آمد، پروژهای از بنیاد علوم ملی که ۸ یا ۱۰ آژانس مختلف فدرال را شامل می شد: «من از آنها بودجه دریافت کردم و جلسهای که برین و پیج در آن پوستری با طرح گوگل را نشان دادند به یاد دارم. به یاد دارم که فکر میکردم: این خیلی خوب است، آنها تحلیل دو متغیره (bibliometrics) را برای وب بازسازی کردهاند.تحلیل دو متغیره به معنای ایجاد ارتباط به مستندات و سپس دنبال کردن شبکه است. این روش به ویژه برای دنبال کردن موضوعاتی که عبارات متغییر دارند بسیار مهم است. برای مثال، اگر شما میخواستید مباحث مدرن سقط جنین را دنبال کنید، باید به بحثی از Roe v. Wade در اواسط دهه ۱۹۷۰ رجوع کرده و به دنبال همه چیزهایی که در این بحث به آن اشاره شده و همه متونی که به این بحث اشاره کردهاند بگردید، پس باید دو مسیر را طی کنید.»
براساس توضیحات او فهرست اشارات علمی نیز در دهه ۱۹۵۰ آغاز شد و اصول قدیمی علم کتابخانه داری را به تکنولوژی مدرن وارد کرد. تحلیل دو تغییره و فهرست بندی اشارات ایدههایی هستند که میتوان تاریخچه آنها را تا نوشتههای کتاب مقدس دنبال کرد.
سوفیا اوموجا نوبل، استادیار مطالعات اطلاعات و مشاور مسئول مشترک مرکز اطلاعات ضروری اینترنت در دانشگاه لس آنجلس کالیفرنیا (UCLA) هم حضور متخصصان را یکی از مهمترین جنبههای روزهای ابتدایی اشتراک گذاری اطلاعات در اینترنت است. به باور او از کتابدارها گرفته تا متخصصان کنجکاو همگی سعی داشتند که به کشت و سازماندهی دانش کمک کنند. درنهایت هم همین موضوع باعث شد تا با وجود ساخته شدن هوش مصنوعی و ابزارهای جستجو، انسان در این روند نقش پررنگی داشته باشد. او میگوید: «ما دریافتیم این قدرت انسانی است که همرسانی آنلاین را امکان پذیر کرده و سعی کردیم براساس بستههای وبسایتهایی که سازمانها به ویژه دانشگاهها و سازمانهای تحقیقی مدیریت میکردند، مطالب معتبر را مشخص کنیم.»
او اعتقاد دارد اولین موتورهای جستجوی در واقع کتابخانههای مجازی بودند و بسیاری از مردم ارزش کتابخانهها را به عنوان یک کالای عمومی درک میکردند. با افزایش خودکار سازی و زمانی که کتابداران و متخصصان با هوش مصنوعی جایگزین شدند، خیلی چیزها از دست رفت. این کالای عمومی که در دسترس همه بود با پلتفورمهای عظیم تبلیغاتی مثل یاهو و گوگل جایگزین شد.
او میگوید که حالا تخصص از بیرون تامین میشود و معمولا هزینه محتوای بهینه سازی شده را بالاترین پیشنهاد در جهان تبلیغات پرداخت میکند. این موضوع باعث شده که شکاف بین دانش و تبلیغات در موتورهای جستجو بیشتر شود این مسئله به ویژه در مورد موضوعات پیچیده وجود دارد: «به نحوی میتوان گفت که جستجو اعتماد ما به تخصص و تفکر اساسی که با حقایق تحقیقی پشتیبانی میشود را خدشه دار کرده و احتمال دستکاری اطلاعات بالا رفته است. موتورهای جستجو شاید راه خوبی برای رسیدن به اطلاعات پیش پا افتاده باشند، اما باعث شدهاند تا دیگر کسی برای تحقیق آهسته و حساب شده ارزش قائل نباشد.»
ایان میلیگان، استادیار تاریخ در دانشگاه واترلو هم معتقد است که گوگل اولین موتور جستجوی وب نبوده است. طبق ادعای او در سال ۱۹۹۳ وبسایت Wandex (یا مسافر شبکه جهانی وب) را داشتیم که وب را مورد سنجش قرار میداد و فهرستی قابل جستجو ارائه میکرد؛ پس از آنهم Lycos و Infoseek در ۱۹۹۴و فهرستهایی مثل یاهو در ۱۹۹۵ وجود داشته است.
میلیگان تاکید میکند با این حال اکثر این موتورهای جستجو با فهرستهای اولیه نسبتا محدود بودندو اگر شما یک سازنده وبسایت بودید، برای اضافه شدن به این فهرستها باید یک فرم پر میکردید یا خیلی اوقات باید تگهای زیادی را به کد HTML وبسایت خود اضافه میکردید. براساس اظهارات او در اوایل دهه 1990، با اینکه افراد بیشتری به ساخت وبسایت روی آوردند و روی پلتفورمهای شخص ثالث میزبانی شدند، خیلی اوقات وبسایتهای خود را در این فهرستها و موتورهای جستجو ثبت نمیکردند. دلیلش این بود که در آن زمان وبسایتها میتوانستند از هایپرلینک برای جذب بازدید کننده استفاده کنند.
او میگوید: «WebRing مثال خوبی از این روش است. وبرینگ در سال ۱۹۹۵ توسط سیج ویل یک توسعه دهنده نرمافزاری جوان راهاندازی شد. وب رینگها گروه وبسایتهایی بودند که موضوع مشترک داشتند. درنتیجه کسانی که مثلا به ماشینهای قدیمی علاقه داشتند به وبرینگ عاشقان ماشین میپیوستند و دوستاران گربه هم به وبرینگ متمرکز روی گربه و به همین ترتیب. در انتهای هر صفحه رابطه کاربری وب رینگ وجود داشت که به کاربران اجازه میداد وبسایت قبلی یا بعدی را مشاهده کنند یا فهرستی کلی از وبسایتهای موجود دریافت کنند.» او ادامه داد: «این راهکار، روشی دموکراتیک و آسان برای یافتن وبسایت بود. هرکسی میتوانست یک وبرینگ آغاز کند و هرکسی میتوانست به این جامعه بپیوندد که البته مدیر باید تشخیص میداد برای جامعه مناسب است. مهم این است که آنها راه جدیدی برای ارتباط مردم ایجاد کردند. روزهای اوج وبرینگها تا حدود سال 2000 ادامه داشت و در آن سال یاهو به دوران اوج این تکنولوژی پایان داد و برخی تغییرات مدیریتی باعث شد تا کاربران کاملا وبرینگها را رها کنند.»
اتان زاکرمن، استادیار تمرین در هنرهای رسانهای و علوم در آزمایشگاه رسانه MIT، مدیر مرکز رسانه مدنی در MIT از روزهای تاریکی یاد میکند که از چندین موتور جستجو استفاده میکردهاند که براساس دو فلسفه فعالیت داشتند: TFIDF و سرپرستی انسانی
TF-IDF مخفف «تکرار عبارت تقسیم بر تکرار مستند» است که یعنی موتور جستجو عبارتی که شما ارائه میکنید را گرفته و به دنبال مستنداتی که حاوی آن عبارت هستند میگردد. اما در عین حال تکرار عبارت به طور کلی را هم در نظر میگیرد تا برای عبارتهای رایج نتایج بیش از حد و نامربوط ارائه نکند. پس هنگام جستجو برای عبارت «mule power»، موتور TF-IDF احتمالا مستنداتی که کلمه Mule در آنها وجود دارد را به آنهایی که به Power اشاره کردهاند ترجیح میدهد زیرا Power عبارت رایج تری است.
این روش نسبت به یک یک هک خاص آسیبپذیر است. اگر میخواستید یک مرورگر مجهز به Mule power بفروشید، کافی بود صفحهای طراحی کنید که کلمه «mule power» را بارها و بارها تکرار کند. هیچ متنی از این تکرار کلمه بهتر نیست و درصورت جستجو به عنوان نتیجه شماره ۱ نمایش داده میشود. این نقطه ضعف باعث شد تا لری پیج و سرگی برین روی الگوریتم رتبه بندی صفحه Page Rank کار کنند. ایده این بود که احتمال ارجاع لینک به صفحات جعلی کم است در حالی که صفحات مفید لینکهای دریافتی زیادی خواهند داشت. درنتیجه گوگل برای راهاندازی موتور جستجوی اولیه خود اساسا TF-IDF را در کنار Page Rank قرار داد (اما مردم نحوه بازی دادن page rank را هم یاد گرفتند و برای این کار مزارعی از صفحات وب ایجاد میکردند که همگی «mule power» را تکرار کرده و به یکدیگر لینکی را ارجاع میدادند. گوگل در پاسخ به این مشکل الگوریتمهای پیچیده تری ساخت).
زاکرمن در مورد کمکش به راهاندازی Lycos میگوید: «Lycos که من مدتی کوتاه و پس از اینکه شرکت Tripod که در راهاندازیاش کمک کرده بودم را خریداری کرد در آن کار میکردم و موتورهای جستجوی Excite، HotWired و Altavista براساس TF-IDF فعالیت میکردند و به یاد دارم که Lycos بهترین آنها بود.»
به باور اوTFIDF هیچگاه عملکرد خیلی خوبی نداشت. با گذشت زمان، موتورهای جستجوی هوشمند دریافتند که ۳۰ تا ۵۰ درصد از جستجوها را میتوان با صفحات جستجوی دستی پاسخ داد. برای مثال، اگر شما «mule race results» را جستجو میکردید، پیدا کردن صفحهای که این عبارت را تکرار کند برایتان فایدهای نداشت،بهتر این بود که به صفحه اصلی AMF هدایت شوید. Lycos تا زمانی که در سال ۱۹۹۹ زاکرمن از آنجا خارج شد ۳۰ درصد از نتایج را به صورت دستی مشخص میکرد.
براساس توضیحات زاکرمن یاهو اما در ابتدا به صورت تمام انسانی فعالیت میکرد. یاهو یک موتور جستجو نبود بلکه فهرستی از وبسایتها بود. زمانی که عبارت «mule racing» (مسابقه قاطر) را جستجوی میکردید، یاهو نتایج را در چندین پله به شما نشان میداد:
جالب این بود که این موضوع نشان میداد چطور یک نهاد (AMF) در جهان بزرگتری به نام مسابقه قاطرها جای میگیرد. این موضوع به ویژه برای شرکتهای تحقیقاتی فوقالعاده بود و میتوانستند سریعا رقبای احتمالی و عرضه کنندگان مختلف را پیدا کنند. اما ساخت آن بسیار سخت بود و برای این کار متخصصان طبقه بندی انسانی باید پس از بررسی وبسایتها، محل آنها را در این رده بندی مشخص میکردند. و خدا نکند کسی چیز جدیدی مثل مسابقه قاطر با قدرت بخار را اختراع میکرد. آیا این عبارت زیرمجموعه مسابقه قاطرها قرار میگیرد یا قدرت بخار؟ یا هردو؟ یا یک دسته کاملا مجزا؟
یاهو در اولین سالهای حضور در وب عملکرد خوبی داشت اما در حدود سال ۱۹۹۷ یا همان حدود با مشکل مواجه شد، آنها نتایج جستجو خود را برعهده دیگر شرکتها گذاشتند (آن زمان Excite… و حالا Bing). زاکرمن میگوید فقط به این دلیل که مردم راهکارهای تازهای برای سازماندهی دانش انسانی پیدا میکردند دلش برای آن زمان تنگ شده است.
تصور بازگشت یاهو خیلی سخت است، کارهای عقب افتاده خیلی زیاد است. به نوعی میتوان گفت که صفحات جستجو با سرپرستی انسانی دوباره بازگشتهاند. بسیاری از نتایج صفحه گوگل از نوع TF-IDF نیست بلکه صفحهای متشکل از اطلاعات پایگاههای داده متعدد است، آب و هوا را جستجو کنید و گوگل از موقعیت مکانی استفاده میکند تا اخبار آب و هوایی منطقه شما را نمایش دهد. زاکرمن در این مورد میگوید: «تصور میکنم که صفحات تحت سرپرسی انسان-کتابدارانی که به شکل ویکی پدیا مانند کار کنند-ایده خوبی برای رفع مشکل موضوعات جدیدی هستند که تندروها یا دروغ گویان از آن سو استفاده میکنند.اما دلم برای muleها تنگ شده است. مرورگر مجهز به mule من آرام بود اما من دلم برای ریتم زیبای یافتن چراییهای وب تنگ شده است.»
منبع: GIZMODO