परिचय

प्रमुख डेटा परियोजनाओं के साथ काम करने वाले कई अधिकारियों को आम डेटा शर्तों के बारे में भ्रम का सामना करना पड़ता है। बड़े डेटा, डेटा लेक, डेटा वेयरहाउस और डेटा मार्ट में क्या अंतर है? बड़ा डेटा "बड़ा पर्याप्त" कब है? इससे क्या फर्क पड़ता है?

इस लेख में, हम विभिन्न शब्दों के बीच के अंतरों को तोड़ते हैं ताकि आप किसी भी डेटा-संबंधित मीटिंग, प्रोजेक्ट ब्रीफ़, या स्टाफिंग पहल में होशियार ध्वनि कर सकें।

पहला- डेटा, वैसे भी क्या है?

डेटा, इसके मूल में, मात्रात्मक और गुणात्मक जानकारी का भंडारण है। आपके व्यवसाय में, इस बारे में जानकारी हो सकती है:

  •  आपके आंतरिक कर्मचारी
  •  आपके ग्राहक
  • आपकी आंतरिक प्रक्रियाएँ
  • आपका वित्तीय डेटा
  • हेल्पडेस्क टिकट नंबर

और इतना अधिक कि आयामों और उपायों के पार एक ही दस्तावेज़ में सूचीबद्ध करना असंभव है। आपका डेटा आपके संगठन के भीतर और बिना कई सिस्टम, डेटाबेस और समूहों में फैला हुआ है।

आपका डेटा प्रासंगिकता, सटीकता, समयबद्धता और पहुंच के विभिन्न राज्यों में भी है। इसमें से कुछ अन्य डेटा के साथ संरेखित है, और कुछ इसमें नहीं है।

यदि आपका संगठन 95% से अधिक कंपनियों की तरह है, तो आपके पास असंरचित, अशुद्ध डेटा की बहुतायत है। वह अवस्था जिसे हम अक्सर "डेटा लेक" कहते हैं।

डेटा लेक क्या है

डेटा लेक एक ऐसी जगह है जहां आपका डेटा एकत्र किया जाता है और इसकी प्राकृतिक अवस्था में। इसका मतलब यह हो सकता है कि पाइपलाइनों में उपयोग के लिए डेटा संरचित, स्पष्ट या उपलब्ध नहीं है। डेटा झीलें आपके पास सभी डेटा को संग्रहीत करती हैं, जिसमें सभी समय के लिए ऐतिहासिक डेटा शामिल है।

आपके डेटा झील के लिए भंडारण आमतौर पर सस्ता है और ज्यादातर अप्रबंधित है।

जब डेटा "बिग डेटा" बन जाता है?

एक और शब्द जो बहुत आस-पास फेंका गया है वह है बड़ा डेटा- और अच्छे कारण के लिए। बिग डेटा एक बढ़ती हुई घटना है जो डेटा स्टोरेज की उपलब्धता, स्टोरेज की सामर्थ्य और दैनिक आधार पर डेटा जेनरेट करने वाले सिस्टम और डिवाइस की संख्या के लिए धन्यवाद है।

बड़ा डेटा एक आम परिभाषा के अनुसार है, "डेटा जिसमें अधिक मात्रा में बढ़ते हुए और कभी-कभी उच्च वेग के साथ आने वाले विभिन्न प्रकार होते हैं। "

आपका डेटा आपकी सबसे बड़ी संपत्ति है और आपका सबसे बड़ा जोखिम ... फिर भी यह तभी उपयोगी है जब आप वास्तव में इसका अर्थ बना सकते हैं।

यही कारण है कि डेटा मौसा इतने मददगार हैं।

डेटा मार्ट क्या है?

डेटा मार्ट एक डेटा वेयरहाउस का एक विषय-केंद्रित खंड है जो विशिष्ट प्रश्नों का उत्तर दे सकता है, अक्सर विशिष्ट व्यावसायिक क्षेत्रों या प्रमुख व्यावसायिक समस्याओं के बारे में। इससे भी बेहतर, एक डेटा मार्ट का निर्माण मांग पर सवालों के जवाब देने में सक्षम होने और डेटा पर भरोसा करने के लिए किया जाता है, जैसा कि डेटा झील के विपरीत है, जो अशुद्ध और असंरचित हो सकता है।

एक डेटा गोदाम आमतौर पर कई अलग-अलग डेटा मौसा का एक संयोजन है।

डाटा वेयरहाउस क्या है

एक डेटा वेयरहाउस विकिपीडिया के अनुसार, "... एक या अधिक विवादित स्रोतों से एकीकृत डेटा के केंद्रीय भंडार। वे वर्तमान और ऐतिहासिक डेटा संग्रहीत करते हैं और इसका उपयोग वरिष्ठ प्रबंधन रिपोर्टिंग जैसे वार्षिक और त्रैमासिक तुलनाओं के लिए ट्रेंडिंग रिपोर्ट बनाने के लिए किया जाता है। "

डेटा लेक के विपरीत, एक डेटा वेयरहाउस संरचित डेटा का एक जानबूझकर स्रोत है। आगे भी, यह कई स्रोतों का एक एकल भंडार है ... जिनमें से कई स्वयं डेटा झील हैं।

हमारी डैशबोर्डिंग सेवाएं मजबूत डेटा वेयरहाउस और पाइपलाइनों को विकसित करने से बनी हैं ताकि आपकी टीम आपके डेटा को आसानी से देख, विश्लेषण और कल्पना कर सके।

अपने अगले कदम कैसे निर्धारित करें

अधिकांश भाग के लिए, डेटा झीलों से डेटा वेयरहाउस या डेटा मार्ट में जाने से डेटा क्लीनअप, ईटीएल प्रक्रियाओं और डेटा पाइपलाइन जैसी डेटा इंजीनियरिंग गतिविधियों का एक बहुत कुछ शामिल है।

इससे पहले कि आप अपने अगले डेटा प्रोजेक्ट के लिए किसी को भी नियुक्त करने का फैसला करें, यह समझना महत्वपूर्ण है कि आप अभी कहाँ हैं।

आपकी टीम से पूछने के लिए यहां कुछ प्रश्न दिए गए हैं:

  • हमारा डेटा कितना खामोश है?
  • हमारा डेटा कितना साफ है?
  • क्या हमारे पास पहल के लिए एक बड़ा पर्याप्त डेटा सेट है?
  • क्या हमारे पास स्पष्ट उपयोग का मामला है?
  • परियोजना के कौन से हिस्से हमारी आंतरिक टीम अब संभाल सकती है?
  • हम किस तरह के आरओआई की तलाश कर रहे हैं?
  • क्या हम जानते हैं कि हमें किस क्षेत्र में दूसरों की तुलना में अधिक तत्काल आवश्यकता हो सकती है?
  • क्या हम वास्तव में केवल एमएल की कोशिश करने से पहले विज़ुअलाइज़ेशन की आवश्यकता है?

यदि आप कुछ विशेषज्ञ को यह पता लगाने में मदद करना चाहते हैं कि डेटा, मैनपावर, टूल्स और बजट के संदर्भ में आपको कहाँ से क्या शुरू करना है और क्या चाहिए, तो हम मदद कर सकते हैं। हमारी कई परियोजनाओं में डेटा से संबंधित पहल शामिल हैं, खासकर जब से अब हमारे पास मेक्सिको सिटी, मैक्सिको में पायथन सेंटर ऑफ एक्सीलेंस है।

20 से अधिक वर्षों के अनुभव के साथ, Aptude's Data टीम आपको यह पता लगाने में मदद कर सकती है कि आपको कौन सी क्षमताओं की आवश्यकता है, एक प्रोजेक्ट रोडमैप विकसित करें और अनुभवी टीम के सदस्यों के साथ अपने प्रोजेक्ट का संचालन करें। हमारी प्रक्रिया एक बातचीत और एक एनडीए के साथ शुरू होती है, इसलिए आप यह सुनिश्चित कर सकते हैं कि भले ही आप हमारे साथ काम न करने का निर्णय लें, लेकिन आपकी जानकारी सुरक्षित है।

बातचीत शुरू करने के लिए हमसे संपर्क करें।

आज एक डेटा विज्ञान जानकारी किट का अनुरोध करें।

हमें हमारी टीम के साथ एक बैठक बुलाने या बुक करने के लिए काफी तैयार नहीं हैं? वह ठीक है! हमने एक आसान जानकारी किट लगाई है ताकि आप हमारे डेटा-संबंधित अनुभव, क्षमताओं और सफल परियोजनाओं के लिए बेहतर अनुभव प्राप्त कर सकें।

अपने मुफ़्त डेटा विज्ञान जानकारी किट का अनुरोध करने के लिए फ़ॉर्म भरें।