परिचय

आप्ट्यूड ने दुनिया की कुछ जानी-मानी कंपनियों में विशेषज्ञ डेटा सलाहकार के रूप में काम किया है, जिनमें से कुछ का नाम हम नहीं ले सकते हैं। हमारे ग्राहक लगभग हर उद्योग का विस्तार करते हैं और विभिन्न प्रकार की परियोजनाओं में हमारी मदद करने के लिए कहते हैं। जबकि हम लगभग कुछ भी कर सकते हैं, हमारे कुछ सर्वोत्तम कार्यों में डेटा विज्ञान में गहरी विशेषज्ञता शामिल है, खासकर जब यह पायथन और डेटा विज्ञान की बात आती है।

फिर भी हम सबसे पहले यह स्वीकार करेंगे कि कई कंपनियों को डेटा वैज्ञानिक की आवश्यकता नहीं है, अकेले एक पूरी टीम को जाने दें। अभी नहीं।

इस लेख में, हम चर्चा करेंगे कि हम क्यों मानते हैं कि आपका पहला डेटा किराया (चाहे आंतरिक या बाहरी) डेटा वैज्ञानिक नहीं होना चाहिए। हम आपको डेटा विज्ञान परियोजनाओं के लिए अपनी तत्परता निर्धारित करने के लिए पूछने के लिए प्रश्न भी देंगे।

आपको डेटा साइंटिस्ट की आवश्यकता नहीं हो सकती है। यहाँ पर क्यों।

जैसा कि हमने डेटा इंजीनियरिंग, डेटा विश्लेषण और डेटा साइंस की तुलना करने वाले एक अन्य ब्लॉग में चर्चा की, उन्नत डेटा विज्ञान जैसे मशीन लर्निंग को बड़ी मात्रा में डेटा - "बड़ा डेटा" की आवश्यकता होती है - डेटा वेयरहाउस में जहां डेटा का आसानी से उपभोग किया जा सकता है।

ऐसा करने के लिए, डेटा केवल उपलब्ध नहीं होना चाहिए। इसे साफ किया जाना चाहिए, संरचित किया जाना चाहिए, और पाइपलाइनों में डाला जाना चाहिए, जिसे आपकी विश्लेषिकी टीमों द्वारा एक्सेस किया जा सकता है। इसमें बहुत सारे काम शामिल हैं, क्योंकि केवल ऐतिहासिक डेटा का मालिक होना पर्याप्त नहीं है। डेटा को समझ में आना चाहिए और एक दूसरे से संबंधित होना चाहिए जो कि प्रयोग करने योग्य हो।

उदाहरण के लिए, मान लें कि आपके पास विभिन्न डेटाबेस में पहले नाम फ़ील्ड हैं। आपकी बिक्री टीम द्वारा उपयोग किए जाने वाले एक डेटाबेस में, पहला नाम "First_Name" के रूप में जाना जाता है और इसमें 50 तक वर्णमाला वर्ण हो सकते हैं। एक अन्य डेटाबेस में, मार्केटिंग द्वारा उपयोग किए जाने वाले, पहले नाम को FIRSTNAME के ​​रूप में जाना जाता है और इसमें 75 अल्फ़ान्यूमेरिक वर्ण और विशेष वर्ण जैसे हाइफ़न और एपोस्ट्रोफ़ शामिल हो सकते हैं। यह स्पष्ट होना चाहिए कि ये दोनों क्षेत्र संरेखित नहीं हैं। क्या होता है जब आप इन दो असमान स्रोतों में से पहला नाम डेटा खींचना चाहते हैं?

यह सुंदर नहीं है, खासकर जब आप विचार करते हैं कि कुछ डेटाबेस भाषाएं कुछ गणितीय क्षेत्रों की गणना अन्य भाषाओं की तुलना में अलग करती हैं; दो और दो चार नहीं हो सकते हैं!

ज्यादातर कंपनियों के लिए, पहले चरण में अत्याधुनिक इंजीनियरिंग और क्लीनअप को शामिल करना चाहिए, बजाय अत्याधुनिक पूर्वानुमानों में संलग्न होने के।

इसका एक और भी बड़ा कारण है: मशीन लर्निंग जैसी उन्नत तकनीकों को काम करने के लिए बड़ी मात्रा में डेटा की आवश्यकता होती है। यदि आपके पास पर्याप्त स्वच्छ डेटा नहीं है, तो परियोजना आपके डेटा वैज्ञानिकों के लिए कितना अनुभवी और प्रतिभाशाली है, इससे कोई फर्क नहीं पड़ेगा।

यही कारण है कि हम कहते हैं कि आपको डेटा वैज्ञानिक की आवश्यकता नहीं हो सकती है - फिर भी।

डेटा साइंस प्रोजेक्ट लॉन्च करने से पहले पूछे जाने वाले प्रश्न।

आप्टूडे में, हम उन परियोजनाओं पर काम करना पसंद करते हैं जिनमें जटिल एल्गोरिदम शामिल हैं जो अत्यधिक चुनौतीपूर्ण और आरओआई-चालित उपयोग के मामलों को हल करते हैं, हम जानते हैं कि मशीन सीखने के साथ शुरू करना हमेशा संभव नहीं होता है।

आपकी टीम से पूछने के लिए यहां कुछ प्रश्न दिए गए हैं:

  • हमारा डेटा कितना खामोश है?
  • हमारा डेटा कितना साफ है?
  • क्या हमारे पास पहल के लिए एक बड़ा पर्याप्त डेटा सेट है?
  • क्या हमारे पास स्पष्ट उपयोग का मामला है?
  • परियोजना के कौन से हिस्से हमारी आंतरिक टीम अब संभाल सकती है?
  • हम किस तरह के आरओआई की तलाश कर रहे हैं?
  • क्या हम जानते हैं कि हमें किस क्षेत्र में दूसरों की तुलना में अधिक तत्काल आवश्यकता हो सकती है?
  • क्या हम वास्तव में केवल एमएल की कोशिश करने से पहले विज़ुअलाइज़ेशन की आवश्यकता है?
  • हम किन सवालों का जवाब देना चाहते हैं ... और हमें किन सवालों के जवाब देने की जरूरत है?
  • इसके लिए हम कौन से उपकरण का उपयोग करना चाहेंगे? (आकाशवाणी, Hadoop, पायथन, एसक्यूएल सर्वर, पावर बीआई, झांकी)

जब डेटा संग्रह, प्रबंधन और गुणवत्ता आश्वासन की बात आती है, तो इन सवालों का जवाब देना आपके संगठन की अलमारी में कंकालों पर प्रकाश डालना चाहिए। और आपको इस बात की अच्छी समझ होनी चाहिए कि प्रगति करने के लिए आपको किस दिशा में जाने की आवश्यकता है ... भले ही उस दिशा में आपके हितधारकों और निर्णय लेने वालों को आपके संगठन के डेटा साइलो के बारे में बात करने के लिए एक कमरे में अधिक बार मिल रहा हो।

अगर डाटा साइंस नहीं, तो क्या?

अधिकांश डेटा परियोजनाओं के लिए, आप निर्धारित करने के लिए पूरी तरह से डेटा ऑडिट में गलत नहीं हो सकते हैं:

  • सब आपके संगठन में ऐतिहासिक डेटा के स्रोत
  • इन डेटा स्रोतों में से प्रत्येक का स्थान और प्रबंधन
  • इन स्रोतों में से प्रत्येक में डेटा की गुणवत्ता और पूर्णता
  • इन स्रोतों के बीच डेटा का संरेखण
  • जिन सवालों का जवाब आप अपने मौजूदा डेटा से दे सकते हैं
  • जिन सवालों का जवाब आप अपने मौजूदा डेटा से नहीं दे सकते हैं

यदि आप कुछ विशेषज्ञ को यह पता लगाने में मदद करना चाहते हैं कि कहां से शुरू करें और आपको डेटा, मैनपावर, टूल्स और बजट के संदर्भ में क्या चाहिए, तो हम मदद कर सकते हैं। हमारी कई परियोजनाओं में डेटा-संबंधी पहल शामिल हैं, खासकर जब से अब हमारे पास ए मेक्सिको सिटी, मेक्सिको में पायथन सेंटर ऑफ एक्सीलेंस। हमारी सहायता प्राप्त करना उतना ही आसान है जितना कि cके माध्यम से हमें ontacting ईमेल, प्रपत्रया, फ़ोन.