BIG DATA

“বিগ ডেটা এন্ড ক্লাউড কম্পিউটিং”

আজ থেকে মাত্র কয়েকবছর আগেও মানুষের দৈনন্দিন জীবনে ডেটা শব্দটি খুব একটা গুরুত্বপূর্ণ ছিলনা ৷ বেশি  ডেটাকে হয়তো বোঝাও মনে করা হতো  ৷ অথচ এই ডেটা কে ব্যবহার করেই যে চতুর্থ শিল্পবিপ্লব পৃথিবীতে আসবে এটি সাধারণ মানুষের কল্পনার বাইরে ছিল ৷ টেকনোলজির ওপর ভিত্তি করে গড়ে ওঠা চতুর্থ শিল্পবিপ্লবের ফুয়েল হিসেবে ব্যবহৃত এই ডেটা আজকের দুনিয়ায় সোনা রুপার চেয়ে বেশি দামি ৷

বিগ ডেটা আসলে কি?

ডেটার প্রয়োজনীয়তা এবং বহুমুখী ব্যবহার আজ এতোটাই বেড়ে গিয়েছে যে স্বয়ং শব্দটিই পরিবর্তন হয়ে গেছে ৷ এখন অনেকেই ডেটাকে শুধু ডেটা বলে ব্যবহার করতে নারাজ ৷ ডিজিটাল টেকনোলজির আর্বিভাবের পূর্বে মানুষ নিজে  ডেটা সংগ্রহ করতো ৷ এখন আর দরকার হয়না, এখন মানুষের হয়ে মানুষের তৈরী করা বিভিন্ন সিস্টেম ডেটা জেনারেট করে, যেমন বিভিন্ন সফটওয়্যার বা প্রোগ্রাম, কিংবা বিভিন্ন মেশিন ৷ মানুষ ডেটা সংগ্রহ করে ক্লান্ত হয়ে পড়তো কিন্তু মেশিন হয়না ৷ এর ফলে আজ প্রতিনিয়তই অসংখ্য, মিলিয়ন, বিলিয়ন ইউনিট ডেটা মানুষের নাগালে চলে আসছে, যা ব্যবহার করে মানুষ তার দৈনন্দিন জীবনকে করতে পারে সহজ থেকে সহজতর, বিজনেসকে করতে পারে আরও গতিময়, আরো প্রসারিত, এবং সর্বোপরি, আরো লাভজনক ৷

যে ডেটা এতকিছু করার দুয়ার খুলে দিয়েছে সেই ডেটাই মূলত বিগ ডেটা ৷

বিগ ডেটা আসলে কতটা বিগ?

আচ্ছা, আপনি দিনে কতটা সময় ইন্টারনেট ব্রাউজ করেন? একটা ওয়েবসাইট ব্রাউজ করার সময় কতটা সেকশনে ঘুরে দেখেন বা ক্লিক করেন? বা কয়ঘন্টা সোশ্যাল মিডিয়াতে কাটান? কয়টা সোশ্যাল মিডিয়াতে কি কি করেন? ভেবে দেখেছেন কি? শুধু আপনি নয়, পৃথিবীর প্রায় পাঁচ বিলিয়ন ইন্টারনেট ব্যবহারকারী রয়েছে!

টেকনোলজির এই যুগে আপনি যখন কোন ওয়েব সাইট ব্রাউজ করছেন, বা ক্লিক করছেন বা যাই করছেন, সবকিছুই কিন্তু বিভিন্ন Analytics Tool ব্যবহার করে বিশ্লেষণ করা সম্ভব এবং তা থেকে প্রয়োজনীয় Insight  বের করে এনে নিজের কাজে লাগিয়ে ভ্যালু বাড়ানো সম্ভব ৷ সবচেয়ে মজার ব্যাপার হলো এই পুরো প্রসেসটাই এখন সম্ভব অত্যন্ত কম সময়ে এবং অত্যন্ত কম খরচে ৷

প্রশ্ন আসতে পারে কিভাবে সম্ভব?

চলুন জেনে নেয়া যাক বিগ ডেটার ব্যবহার সম্পর্কিত বেশ কয়েকটি ইস্যু:

-স্টোরেজ ইস্যু: বিগ ডেটাকে আর গিগাবাইট বা টেরাবাইটে হিসাব করা সম্ভব নয় ৷ এখন বিগ ডেটার ইউনিট হিসেবে ব্যবহৃত হয় পেটাবাইট (১ টেরাবাইটের ১,০০০ গুণ ), এক্সাবাইট (১ পেটাবাইটের ১,০০০ গুণ) বা জেটাবাইট (১ এক্সাবাইটের ১,০০০ গুণ) বা এর চেয়েও বড় কোন ইউনিট ৷ স্বভাবতই প্রশ্ন আসতে পারে এত এত ডেটা কিভাবে কম্পিউটারে স্টোর করে রাখা সম্ভব? কিন্তু মজার ব্যাপার হল এত বড় প্রশ্নটি নিয়ে আমাদের আসলে ভাবতেই হয়না ৷ কারণ এ দায়িত্ব নিয়ে নিয়েছে এমাজন, মাইক্রোসফট বা গুগলের মতো ক্লাউড সার্ভিস ভেন্ডররা ৷ কোন Physical Infrastructure তৈরী না করেই আপনি স্টোর করতে পারছেন আপনার জেটাবাইট স্কেল ডেটা, তাও আবার কোন এডভান্স নয় বরং Pay As You Go পলেসি তে ৷ ক্লাউড বলে আপনি আপনার কোর বিজনেসে ইনভেস্ট করুন, ডেটার ব্যাপরটা তারা সামলিয়ে নেবে ৷

-ডেটা সিকিউরিট ইস্যু: ডেটা যেমন বড় হয়েছে, এর সাথে সম্পর্কিত সিকিউরিটি ইস্যুগুলোও গুরুত্বপূর্ণ হয়ে দাড়িয়েছে ৷ প্রশ্ন আসতে পারে ক্লাউডে ডেটা রাখা কতটুকু সেইফ ৷ আপনার এই প্রশ্নের উত্তর দিতে ক্লাউড ভেন্ডররা সাজিয়ে রেখেছে তাদের হাজারো সিকিউরিটি টুল, যা আপনাকে দেবে কনফিডেন্স ৷ যেমন Cloudwatch বা GuradDuty হল এমাজনের AWS ক্লাউডে সিকিউরিটি ইস্যুগুলো Address করার জন্য ব্যবহৃত কিছু টুল ৷

-ডেটা ম্যানেজমেন্ট ইস্যু: সন্দেহ জাগতেই পারে জেটাবাইট স্কেলের ডেটার যথাযথ ম্যানেজমেন্ট কতই না কঠিন ৷ তবে ক্লাউড এটি সহজ করে দিয়েছে ৷ শুধু ম্যানেজমেন্টই নয় বরং এত বড় পরিমান ডাটার Scalability এর ইস্যুটিও ক্লাউড ভেন্ডর নিজেই অপটিমাইজ করে দেয় ৷ RDS বা Dynamo DB হল এমাজনের AWS ক্লাউড ব্যবহারকারীদের জন্য এবং DB2 হল IBM ক্লাউড ব্যবহারকারীদের জন্য ডেটাবেজ সলিউশন যা আপনি পাচ্ছেন শুধুমাত্র Pay as you go ফি প্রদান করার মাধ্যমে ৷ অথবা ফি প্রদান করতেও চাচ্ছেন না? তাতেও সমস্যা নেই ৷ আপনার জন্য রয়েছে MySQL/PostgreSQL বা NoSQL CouchDB/MongoDB এর মতো ফ্রি এবং ওপেন সোর্স ডেটাবেজ সলিউশন ৷

-ডেটা কুয়েরি ইস্যু: ভেবে দেখুন তো, কয়েক লাখ রেকর্ড সংবলিত একটি ডেটাবেজের কুয়েরি রেজাল্ট পেয়ে গেলেন রান করার মাত্র কয়েক সেকেন্ডের মধ্যে! হ্যা এটিই সম্ভব করেছে BigQuery. BigQuery হল পেটাবাইট স্কেল ডেটা কুয়েরি টুল, যা Google Cloud Platform এর মাধ্যমে ব্যবহার করা যায় ৷

-ডেটা প্রসেসিং ইস্যু: এতো এতো ডেটা প্রসেসিং কি আসলেই খুব কঠিন? একদমই নয় ৷ এর জন্য আছে Apache Hadoop/Spark এর মতো নোড ভিত্তিক Clustered Computing Framework যা কয়েট পেটাবাইট ডেটাকে খুব সহজেই প্রসেস করে ফেলতে পারে ৷ আর খরচ? Apache Hadoop সম্পূর্ণ ফ্রি এবং ওপেন সোর্স!

-ডেটা এনালাইসিস ইস্যু: বিগ ডেটা এখন সহজেই এনালাইসিস করা যায় ৷ এর জন্য রয়েছে অসংখ্য Open source এবং Commercial টুল ৷

-ডেটা ভিজুয়ালাইজেশন ইস্যু: এক্সেলের ব্যাসিক ভিজুয়ালাইজেশন এখন আর বিগ ডাটার ক্ষেত্রে যথেষ্ট নয় ৷ ডেটা ভিজুয়ালাইজেশনের কনসেপ্টকে আরো ‘ভিজুয়াল’ চলে এসেছে Tableau, Google Charts, Microsoft PowerBI, IBM Congnos Analytics বা SAP Analytics.

-প্রোগ্রামিং ল্যাংগুয়েজে ডেটার ব্যবহার: প্রোগ্রামিং ল্যাংগুয়েজসমূহ আজ ডেটা এনালাইসিস এবং ভিজুয়ালাইজেশন এ ব্যবহৃত হয়ে থাকে ৷ যেমন R বা Python ব্যবহার করে এডভান্সড লেভেলের এনালাইসিস এবং ভিজুয়ালাইজেশন সম্ভব ৷ মজার বিষয় হল এটি যে কেউ করতে পারে এবং এর জন্য আপনাকে তেমন কোডিং শিখতে হবে না ৷ Python এ আপনি পাচ্ছেন অসংখ্য সমৃদ্ধ লাইব্রেরি যা খুব সহজেই ব্যবহারযোগ্য ৷ আরো মজার বিষয় হল এসব কোডিং, শেয়ারিং, এনালাইসিস, ভিজুয়ালাইজেশন সবই আপনি করতে পারেন ক্লাউড বেজড Environment এ, কোন সফটওয়্যার ইন্সটল করা ছাড়াই ৷ যেমন Jupyter Notebook বা Apache Zeppelin এ ধরণের কয়েকটি প্লাটফর্ম ৷

-ডেটা ব্যবহার করে সফটওয়্যার ডেভেলপমেন্ট: এত এত ডেটা ব্যবহার করে প্রোগ্রাম ডেভেলপ না করতে পারলে তো ডেটা আসলেই বৃথা তাই না? বিগ ডেটা প্রোগ্রামকে বানিয়েছে আরো Purposeful এবং Customized আর ক্লাউড Environment সফটওয়্যার ডেভেলপমেন্টক  করেছে আরো সহজতর ৷

-ডেটা ব্যবহার করে AI/ML মডেল তৈরী: Artificial Intelligence নিয়ে আজ আমরা এতো কথা বলতে পারছি শুধুই বিগ ডেটার কারণে ৷ যত বেশি ডেটা দিয়ে আপনি একটি মেশিন লার্নিং মডেলকে ট্রেইন করাতে পারবেন, মডেলটির আউটপুট ততবেশি Accurate এবং Perfect হবে ৷ তবে মজার বিষয় হল আজকাল একটা ML মডেল নিয়ে কাজ করতেও  ইঞ্জিনিয়ার হতে হয় না, যদি আপনার কাছে থাকে বিগ ডেটা আর ক্লাউড ৷ Pytorch বা Tensorflow এর মতো ফ্রি এবং ওপেন সোর্স  লাইব্রেরি আপনাকে এ ব্যাপারে হেল্প করতে পারে ৷ কোডিং শিখতে চাননা? তাতেও সমস্যা নেই ৷ শুধু ক্লাউড ভেন্ডরের কনসোল ব্যবহার করে কয়েক মিনিটেই আপনার বিজনেসের জন্য  তৈরী করে ফেলতে পারেন চ্যাটবটের মতো ছোটখাট একটি ML মডেল!

এখন ভেবে দেখুন, বিগ ডেটা বা ক্লাউড কম্পিউটিং এর যুগে আমরা আসলে কতটা পাওয়ারফুল!

–Jakariya Utshab

Leave a Comment