مفهوم «دادههای تاریک» در سیستمهای فناوری اطلاعات سالهاست وجود دارد، اما افزایش استفاده از Hadoop و دیگر فناوریها باعث شده این مفهوم بیشتر و بیشتر آشکار شود. هدوپ یک فریمورک کلی پردازشی است که برای اجرای پرسوجوها و دیگر عملیات تکراری روی مجموعههای دادهای عظیم با حجمهای ترابایت و حتی پتابایتی طراحی شده است. در این نرمافزار دادهها در یک سیستم فایلی مخصوص و توزیعیافته با عنوان HDFS (Hadoop Distributed File System) ذخیرهسازی و بارگذاری میشوند. موسسه گارتنر دادههای تاریک را «داراییهای اطلاعاتی» میخواند «که سازمانها طی فعالیت کسبوکار روزانه خود جمعآوری، پردازش و ذخیره میکنند، اما نمیتوانند برای اهداف دیگر از این دادهها بهره ببرند». در حال حاضر قابلیتهای خوشههای هدوپ (Hadoop) و پایگاه دادههای NoSQL برای پردازش حجم عظیمی از داده به کار میرود که در طولانیمدت نادیده گرفته میشدند و اکنون ارزش کسبوکاری این دادهها مشخص میشود. NoSQL مخفف not only sql، به معنای «نه تنها اسکیوال»، نامی است فراگیر برای رده گستردهای از سامانههای مدیریت پایگاه داده که با نوع سنتی پایگاههای داده رابطهای تفاوتهای آشکار دارند. روشنترین این تفاوتها عدم استفاده از اسکیوال به عنوان زبان پرسش نخستین در noSQL است. شرکتهای بزرگ اینترنت از جمله گوگل (BigTable)، آمازون (Dynamo)، لینکدین (Project Voldemort)، فیسبوک (Cassandra و HBase) سورس فورژ (MongoDB) و اوبونتو (CouchDB) طراحی و راهاندازی گروه پایگاههای داده NoSQL را بر عهده دارند. بخش قابل توجهی از این پروژهها متنباز و آزاد است. بر اساس گفتههای اشیش چاندرا، معاون بخش مدرنسازی اپلیکیشنها در شرکت Sears Holdings: «داده بایگانیشده که قبلاً وجود داشت، تبدیل به معدن طلای بالقوهای برای سازمانها شده که دیگر صرفاً مخزنی از اطلاعات نیست که باید برای اهداف مربوط به رگولاتوری نگهداری شود.» چاندرا که مدیر مدرنسازی سیستمهای بزرگداده شرکت نیز هست، استفاده از این دادهها را اینطور وصف میکند: «جهانی که متفاوت است… میتوانید با استفاده از هدوپ، دادهها را...