بزرگ دادهها موضوع بسیار داغی است. امروزه نیز شاهدیم بسیاری از شرکتهای تجاری وارد حوزه بزرگ دادهها شدهاند یا برای گسترش محصولات خود ـ درست یا غلط ـ به بزرگ دادهها روی آوردهاند تا سهمی در این موج بزرگ داشته باشند. هدف از این یادداشت آشنایی با چند مفهوم کلیدی درباره بزرگ دادههاست (نه بخشهای جزئی)، طوری که بتوان بین دادهها و بزرگ دادهها تمایز قائل شد. 1 بزرگ دادهها دادههایی توزیعیاند بزرگ دادهها اصطلاحی است عمومی با تعاریف متفاوت. یک نکته اساسی که باید به خاطر داشت این است که در عصر حاضر، بزرگ دادهها دادههایی توزیعیاند. منظور این است که این دادهها آنقدر گستردهاند که نمیتوان با یک (node) نود ساده آنها را ذخیره یا پردازش کرد. دیگر گذشت آن روزهایی که یک سرور فلزی بزرگ از «آیبیام» یا «سان» میخریدیم تا همه اطلاعات تجاری لازم را برای خود ذخیره و در آن پردازش کنیم. گوگل، آمازون، فیسبوک و دیگر وبسایتها نشان دادهاند که بهترین راه برای پردازش فوری و ارزان دادهها، استفاده از سختافزارهایی است که فعالیتهای مرتبط با ذخیره و پردازش دادههای فراوان ما را در میان نودهای مختلف توزیع و در صورت لزوم نودهایی را اضافه یا کم میکنند. 2 نامهایی مثل هادوپ و مپ ردیوس در نظرمان آشناتر میشوند هادوپ چیست؟ هادوپ یک پلتفرم متنباز برای گردآوری، ترکیب و شناخت دادهها در سطحی گسترده است. هدف کلی این پلتفرم افزایش توان ما برای گرفتن تصمیمهای تجاری بهتر است. هادوپ نوعی فناوری است که به ما این امکان را میدهد تا زیرساختارهای تحلیلی بزرگ دادهها را تقویت کنیم. هادوپ دو بخش کلیدی دارد: «سیستم فایل توزیعشده هادوپ» موسوم به HDFS که به ما این امکان را میدهد تا دادههای خود را در نودهای متعدد ذخیره کنیم. «مپ ردیوس» (MapReduce )که به ما این امکان را میدهد تا دادههای خود را به صورت همزمان در چندین...
شما وارد سایت نشدهاید. برای خواندن ادامه مطلب و ۵ مطلب دیگر از ماهنامه پیوست به صورت رایگان باید عضو سایت شوید.