परिचय

डेटा विज्ञान परियोजना पर विचार करते समय, जो नाम चारों ओर फेंके जाते हैं, वे शब्द सलाद की तरह महसूस कर सकते हैं। काफ्का? स्पार्क? Keras? ये सभी शब्द क्या हैं, और ये डेटा विज्ञान के लिए इतने महत्वपूर्ण क्यों हैं?

इस ब्लॉग में, हम प्रोग्रामिंग फ्रेमवर्क के क्यों प्रस्तुत करेंगे और फिर आपको 31 प्रोग्रामिंग फ्रेमवर्क और इंटरफेस से परिचित कराएंगे, जो अक्सर डेटा प्रोजेक्ट्स में उपयोग किए जाते हैं। अंत में, हम आपको दिखाएंगे कि यदि आप अपने संगठन में डेटा विज्ञान का पता लगाने के बारे में अधिक जानने में रुचि रखते हैं, तो आप हमसे कैसे मदद ले सकते हैं।

प्रोग्रामिंग फ्रेमवर्क क्या है?

लेकिन सबसे पहले, यह समझना महत्वपूर्ण है कि प्रोग्रामिंग फ्रेमवर्क क्या है। अधिकांश लोगों को शायद एक बुनियादी समझ है कि प्रोग्रामिंग में कोड की लाइनें लिखना शामिल है। हालांकि, प्रत्येक परियोजना के लिए खरोंच से कोड की पंक्तियाँ लिखना थकाऊ है। चौखटे और पुस्तकालय रचनात्मक प्रक्रिया को छोटा करते हैं और प्रोग्रामर को सामान्य समस्याओं के लिए आजमाए गए और सच्चे प्रोग्रामेटिक समाधानों का लाभ उठाने की अनुमति देते हैं।

यह डेटा विज्ञान के लिए विशेष रूप से सच है, जहां हल की जाने वाली समस्याएं इतनी प्रभावशाली हैं कि उन्हें त्रुटि के लिए नहीं छोड़ा जा सकता ... और इतना जटिल कि हर बार खरोंच से शुरू होने में बहुत समय लग सकता है।

कोड बनाने के लिए फ्रेमवर्क और लाइब्रेरी अनिवार्य रूप से ब्लॉक शुरू कर रहे हैं; इन कोड ब्लॉक का निर्माण, परीक्षण और एक समुदाय द्वारा अनुकूलित किया गया है।

डेटा वैज्ञानिकों के लिए चौखटे के तीन लाभ

फ्रेमवर्क डेटा वैज्ञानिकों और उनके द्वारा काम करने वाली प्रौद्योगिकी टीमों को कई लाभ प्रदान करते हैं।

  • फ्रेमवर्क बेहतर कोड बनाएँ। चौखटे बेहतर डिजाइन पैटर्न बनाने में मदद करते हैं और डुप्लिकेट या असुरक्षित कोड से बचते हैं। बाद के कोड को लिखना आसान है, परीक्षण करना आसान है, और डीबग करना आसान है।
  • फ्रेमवर्क प्री-टेस्टेड और प्री-ऑप्टिमाइज़्ड हैं। डेटा विज्ञान दल खरोंच से शुरू करने के बजाय पूर्व-परीक्षण और पूर्व-अनुकूलित कोड का उपयोग करके खुद को समय बचा सकते हैं।
  • तेज़ कार्यान्वयन। कार्यान्वयन रनवे छोटा होता है जब टीमें ऐसे कोड का उपयोग करती हैं जो भारी दस्तावेज, परीक्षण और अनुकूलित किए गए हैं। टीमें कम समय डिजाइनिंग और परीक्षण और अधिक समय का विश्लेषण और मॉडलों के अनुकूलन में खर्च कर सकती हैं।

इसके बाद, हम आपको 31 सामान्य डेटा साइंस फ्रेमवर्क (और इंटरफेस) से परिचित कराएंगे जो आप डेटा साइंस की दुनिया में सुनेंगे।

31 डेटा साइंस फ्रेमवर्क और इंटरफेस

1. अपाचे काफ्का

अपाचे काफ्का एक ओपन-सोर्स, स्केलेबल मैसेजिंग प्लेटफॉर्म है जो जावा और स्काला पर बनाया गया है और लिंक्डइन द्वारा बनाया गया है। एक स्ट्रीमिंग प्लेटफ़ॉर्म ("अंतर्ग्रहण रीढ़") के रूप में, यह वास्तविक समय में एक दिन में खरबों की घटनाओं को संभालने में सक्षम है। कफ़्का का उपयोग उन परियोजनाओं में डेटा विज्ञान ढांचे के रूप में किया जाता है जिन्हें वास्तविक समय के डेटा की बहुत बड़ी मात्रा तक पहुंचने और संभालने की आवश्यकता होती है।

अपाचे काफ्का के बारे में अधिक जानें https://kafka.apache.org/.

2. एडब्ल्यूएस डीप लर्निंग एएमआई

जबकि प्रति फ्रेमवर्क नहीं, एडब्ल्यूएस डीप लर्निंग एएमआई एक उपकरण है जो डेटा वैज्ञानिकों को तेजी से और बेहतर काम करने की अनुमति देता है। अमेज़ॅन के अनुसार, "एडब्ल्यूएस डीप लर्निंग एएमआई किसी भी पैमाने पर क्लाउड में गहरी शिक्षा में तेजी लाने के लिए बुनियादी ढांचे और उपकरणों के साथ मशीन लर्निंग चिकित्सकों और शोधकर्ताओं को प्रदान करता है।" इस लेखन के समय, एडब्ल्यूएस डीएल वातावरण टेंसोरफ्लो, पाइरॉच, अपाचे एमएक्सनेट, चैनर, माइक्रोसॉफ्ट कॉग्निटिव टूलकिट, ग्लूऑन, होरोवोड और केरस के साथ पूर्व-कॉन्फ़िगर किया गया है।

एडब्ल्यूएस डीप लर्निंग एएमआई के बारे में अधिक जानें https://aws.amazon.com/machine-learning/amis/.

3. बोकेह

बोकेह एक ओपन-सोर्स पायथन डेटा विज़ुअलाइज़ेशन लाइब्रेरी है जिसका उपयोग ब्राउज़रों के अंदर इंटरैक्टिव, स्केलेबल विज़ुअलाइज़ेशन बनाने के लिए किया जाता है। बोकेह के साथ, "अन्तरक्रियाशीलता" एक महत्वपूर्ण हिस्सा है, और डेटा वैज्ञानिकों ने इसे विज़ुअलाइज़ेशन के लिए उपयोग करना पसंद किया है। बोकेह को परतों में बनाया गया है, पहले आंकड़े, फिर तत्वों और फिर अंत में ग्लिफ़्स से शुरू होता है। उसके बाद, उपयोगकर्ता इंटरैक्शन को सक्षम करने के लिए "निरीक्षकों" को जोड़ा जा सकता है।

बोकेह के बारे में अधिक जानें https://bokeh.org/.

4. CAFFE

Caffe (अब Caffe2, PyTorch का एक हिस्सा) "अभिव्यक्ति, गति और मन में गतिशीलता के साथ बनाया गया एक गहन शिक्षण ढांचा है" जो C ++ में लिखा गया है। कैफ पहले से कॉन्फ़िगर किए गए प्रशिक्षण मॉड्यूल के साथ आता है, जिससे यह मशीन सीखने के लिए नए शुरुआती लोगों के लिए एक शानदार ढांचा है। कैफ़ स्टोर और डेटा को "ब्लॉब्स" में हेरफेर करता है, जो एक मानक सरणी और एकीकृत मेमोरी इंटरफ़ेस है। बूँद गुणों का वर्णन है कि कैसे एक तंत्रिका नेटवर्क की परतों में जानकारी संग्रहीत और संचारित की जाती है। डेटा वैज्ञानिक जो कैफ की खोज कर रहे हैं, वे टेंसोरफ्लो, थीनो, वेल और माइक्रोसॉफ्ट कॉग्निटिव टूलकिट की भी कोशिश कर रहे हैं।

कैफ के बारे में अधिक जानें https://caffe2.ai/.

5. चेज़र

चेज़र एक ओपन-सोर्स न्यूरल नेटवर्क पायथन फ्रेमवर्क है जिसे टोक्यो में मशीन लर्निंग और रोबोटिक्स स्टार्टअप द्वारा बनाया गया है। चेज़र को इसकी गति के लिए जाना जाता है, विशेष रूप से अन्य "परिष्कृत" फ्रेमवर्क की तुलना में जैसे टेंसरफ्लो। चेज़र सबसे पहले "डिफाइंड-बाय-रन" न्यूरल नेटवर्क परिभाषा प्रदान करने के लिए था, जो तंत्रिका नेटवर्क में गतिशील परिवर्तन (डीबगिंग के समय एक लाभ) की अनुमति देता है। यह CUDA अभिकलन का भी समर्थन करता है और मानक पायथन उपकरणों का उपयोग करके निरीक्षण योग्य है।

Chainer के बारे में अधिक जानें https://chainer.org/.

6. DeepLearning4j

एक्लिप्स डीप्लिन्टिंग 4 जे “पहला व्यावसायिक-ग्रेड, ओपन-सोर्स, वितरित गहन-शिक्षण पुस्तकालय है जो जावा और स्काला के लिए लिखा गया है”। क्योंकि यह वितरित है, इसलिए प्रशिक्षण में तेजी लाने के लिए मल्टी-सीपीयू का लाभ उठा सकते हैं। यह किसी भी JVM भाषा के साथ संगत है, जैसे स्काला, क्लोजर और कोटलिन और स्पार्क और हडोप के साथ काम करता है। DeepLearning4j के साथ, आप उथले जाल से गहरे तंत्रिका जाल बना सकते हैं, जो रूप में

DeepLearning4j के बारे में अधिक जानें https://deeplearning4j.org/.

7. तेज

फाताई जेरमी हॉवर्ड और राचेल थॉमस द्वारा पायथन का उपयोग करके विकसित की गई एक गहरी सीखने की लाइब्रेरी है। प्रलेखन के अनुसार, फासाई “एक गहन शिक्षण पुस्तकालय है जो चिकित्सकों को उच्च-स्तरीय घटकों के साथ प्रदान करता है जो मानक गहरे सीखने के डोमेन में अत्याधुनिक परिणाम आसानी से और आसानी से प्रदान कर सकते हैं, और निम्न-स्तरीय घटकों के साथ शोधकर्ताओं को प्रदान कर सकते हैं जो कर सकते हैं मिश्रित और नए दृष्टिकोण बनाने के लिए मिलान किया जाए। ” फ़ाताई टीम का उद्देश्य कृत्रिम बुद्धिमत्ता और गहन शिक्षा का लोकतंत्रीकरण करना है, और इस तरह से मुक्त और मुक्त-स्रोत के लिए प्रशिक्षण दिया गया है।

में और अधिक जानें https://www.fast.ai/.

8. ग्लूऑन

ग्लूऑन Microsoft और अमेज़ॅन का एक खुला स्रोत गहन शिक्षण इंटरफ़ेस है। इंटरफ़ेस पूर्व-निर्मित तंत्रिका नेटवर्क घटकों का उपयोग करके प्रदर्शन से समझौता किए बिना मशीन सीखने वाले डेवलपर्स को जल्दी से मॉडल विकसित करने की अनुमति देता है। इसका मतलब है तेजी से प्रोटोटाइप और प्रशिक्षण।

ग्लूऑन के बारे में अधिक जानें https://gluon.mxnet.io/ .

9. एच 2 ओ

एच 2 ओ एक खुला स्रोत है, उद्यम-तैयार मंच (एक ही समूह द्वारा कई में से एक) जो वैश्विक स्तर पर 20,000 से अधिक संगठनों में व्यापार का उपयोग करता है। एच 2 ओ मॉडल को आमतौर पर इस्तेमाल की जाने वाली भाषाओं जैसे पायथन और आर का उपयोग करके बनाया जा सकता है। इसमें "ऑटोएमएल" भी है, जो उपयोगकर्ता द्वारा निर्दिष्ट सीमाओं के भीतर मशीन सीखने की प्रक्रिया को स्वचालित कर सकता है। और क्योंकि यह वितरित है, यह बहुत बड़े डेटासेट का समर्थन कर सकता है और गति बनाए रख सकता है, जिससे यह उद्यम अनुप्रयोगों के लिए एकदम सही है।

H2O के बारे में अधिक जानें https://www.h2o.ai/.

10. होरवोड

होरनोव टेंसोरफ्लो, केरस, प्योरोच और अपाचे एमएक्सनेट का उपयोग करके गहन शिक्षण प्रशिक्षण वितरित करने के लिए एक स्वतंत्र और खुला स्रोत सॉफ्टवेयर ढांचा है। यह उबेर में मशीन लर्निंग इंजीनियरिंग टीम द्वारा अपने माइकल एंजेलो प्लेटफॉर्म के हिस्से के रूप में विकसित किया गया था ताकि उनके वितरित टेंसोरफ्लो मॉडल को प्रशिक्षित किया जा सके।

होरोवोड के बारे में अधिक जानें https://github.com/horovod/horovod .

11. ज्यूपिटर नोटबुक

जुपिटर नोटबुक एक ओपन-सोर्स, डेटा साइंस, वैज्ञानिक कंप्यूटिंग और मशीन लर्निंग वर्कफ़्लोज़ के लिए वेब-आधारित इंटरफ़ेस है। इसमें, आप दस्तावेज़ बना सकते हैं और साझा कर सकते हैं जिसमें लाइव कोड, समीकरण, विज़ुअलाइज़ेशन और कथा पाठ शामिल हैं। जुपिटर नोटबुक 40 से अधिक प्रोग्रामिंग भाषाओं का समर्थन करता है, जिनमें पायथन, आर, जूलिया और स्काला शामिल हैं।

पर बृहस्पति नोटबुक के बारे में अधिक जानें https://jupyter.org/.

12. करेस

केरस ओपन-सोर्स डेटा साइंस लाइब्रेरी है जो कृत्रिम तंत्रिका नेटवर्क के लिए पायथन इंटरफ़ेस प्रदान करता है। संस्करण 2.4 के रूप में, यह TensorFlow पुस्तकालय के लिए एक इंटरफ़ेस के रूप में कार्य करता है; पिछले संस्करणों ने TensorFlow, Microsoft Cognitive Toolkit, R, Theano, PlaidML और बहुत कुछ का समर्थन किया। यह परतों, उद्देश्यों, सक्रियण कार्यों और ऑप्टिमाइज़र जैसे तंत्रिका-नेटवर्क निर्माण ब्लॉकों का समर्थन करता है।

केरस के बारे में और जानें https://keras.io.

13. लाइट जीबीएम

लाइट GBM एक "ग्रेडिंग-बूस्टिंग फ्रेमवर्क" है जो ट्री-आधारित मशीन लर्निंग एल्गोरिदम का उपयोग करता है। इसका हिस्टोग्राम आधारित एल्गोरिथ्म निरंतर मूल्यों को असतत डिब्बे में रखता है, जो तेजी से प्रशिक्षण और कुशल स्मृति उपयोग की ओर जाता है। डॉक्स के अनुसार, लाइट जीबीएम डेटा वैज्ञानिकों को तेज प्रशिक्षण गति और उच्च दक्षता, कम मेमोरी उपयोग, बेहतर सटीकता, समानांतर और जीपीयू सीखने का समर्थन देता है। यह बड़े पैमाने पर डेटा की हैंडलिंग का भी समर्थन करता है। इसका उपयोग रैंकिंग, वर्गीकरण और अन्य मशीन शिक्षण कार्यों के लिए किया जाता है।

लाइट GBM के बारे में अधिक जानें https://github.com/microsoft/LightGBM.

14. माटप्लोटलिब

Matplotlib "प्रकाशन गुणवत्ता" विज़ुअलाइज़ेशन बनाने के लिए एक व्यापक, लोकप्रिय और ओपन-सोर्स पायथन लाइब्रेरी है। विज़ुअलाइज़ेशन स्थिर, एनिमेटेड या इंटरैक्टिव हो सकते हैं। इसका MATLAB से अनुकरण किया गया था, और इस प्रकार ऑब्जेक्ट स्टाइल पदानुक्रम सहित MATLAB की तरह वैश्विक शैली शामिल है।

Matplotlib के बारे में अधिक जानें https://matplotlib.org/.

15. Microsoft संज्ञानात्मक टूलकिट (पहले CNTK के रूप में जाना जाता है)

Microsoft संज्ञानात्मक टूलकिट के बारे में अधिक जानें व्यावसायिक-ग्रेड वितरित गहन सीखने के लिए एक ओपन-सोर्स टूलकिट है। यह ONNX का समर्थन करने वाले पहले में से एक था, "फ्रेमवर्क इंटरऑपरेबिलिटी और साझा अनुकूलन" के लिए एक खुला-स्रोत साझा मॉडल प्रतिनिधित्व। यह वाणिज्यिक-ग्रेड AI बनाने के लिए पायथन और C ++ सहित सामान्य डेटा विज्ञान भाषाओं के साथ भी काम करता है।

Microsoft संज्ञानात्मक टूलकिट के बारे में और जानें https://docs.microsoft.com/en-us/cognitive-toolkit/.

16. एमएक्सनेट

अपाचे एमएक्सनेट एक अन्य ओपन-सोर्स फ्रेमवर्क है, इस बार गहन सीखने के लिए। MXNET में पायथन में गहन एकीकरण है और स्काला, जूलिया, क्लोजर, जावा, C ++, R और पर्ल के लिए समर्थन है। एमएक्सनेट का एक मुख्य आकर्षण अधिकतम उत्पादकता के लिए प्रतीकात्मक प्रोग्रामिंग और अनिवार्य प्रोग्रामिंग के बीच वैकल्पिक करने की क्षमता है। एक और ड्रा प्रशिक्षण को स्केल करने और वितरित करने की क्षमता है।

MXNET के बारे में अधिक जानें https://mxnet.apache.org/.

17. नुम्पी

NumPy ("संख्यात्मक पायथन") एक और पायथन प्रोग्रामिंग लाइब्रेरी है, इस बार एक अरै-प्रोसेसिंग पैकेज के रूप में संख्यात्मक और वैज्ञानिक कंप्यूटिंग के साथ काम करने के लिए उपयोग किया जाता है। NumPy की गति-अनुकूलित सी कोड सरणी ऑब्जेक्ट्स प्रदान करता है जो पायथन सूचियों की तुलना में 50x तेज हैं, जो उन्हें डेटा साइंस प्रयोजनों के लिए आदर्श बनाते हैं।

NumPy के बारे में और जानें https://numpy.org/.

18. TensorFlow

TensorFlow एक "एंड-टू-एंड ओपन सोर्स मशीन लर्निंग प्लेटफॉर्म" है जो डेटा साइंस को विकसित करने और मशीन लर्निंग (एमएल) मॉडल को सीखने में मदद करता है। यह विशेष रूप से तेजी से प्रोटोटाइप के निर्माण के लिए विशेष रूप से उपयोगी है। डेटा वैज्ञानिक किसी भी भाषा में क्लाउड या ऑन-प्रिमाइस में मॉडल को प्रशिक्षित करने और तैनात करने के लिए पहले से परिचित किसी भी भाषा में लिख सकते हैं।

TensorFlow के बारे में और जानें https://www.tensorflow.org/.

19. स्किकिट-सीखो

नुकीट-साइंस सीखने के लिए एक आसान, ओपन-सोर्स पायथन लाइब्रेरी है, जो कि NumPy, SciPy और matplotlib पर निर्मित मशीन लर्निंग है। इसका उपयोग डेटा वर्गीकरण, प्रतिगमन, क्लस्टरिंग, आयामीता में कमी, मॉडल चयन और प्रीप्रोसेसिंग के लिए किया जा सकता है।

Scikit के बारे में अधिक जानें-पर जानें https://scikit-learn.org/stable/.

20. ONNX

फिर भी एक ढांचा नहीं बल्कि एक मूल्यवान उपकरण है, ONNX का अर्थ है "ओपन न्यूरल नेटवर्क एक्सचेंज।" यह मशीन सीखने के मॉडल का प्रतिनिधित्व करने के लिए बनाया गया एक ओपन-सोर्स प्रारूप है। ONNX डेटा वैज्ञानिकों को ऑपरेटरों का एक सामान्य सेट और फ्रेमवर्क, टूल, रनटाइम और कंपाइलर्स के बीच उपयोग करने के लिए एक सामान्य फ़ाइल प्रारूप देता है। मौजूदा मॉडल को ONNX प्रारूप से निर्यात किया जा सकता है।

ONNX के बारे में और जानें https://onnx.ai/.

21. पंड

पंडों ("पैनल-डेटा-एस" के लिए छोटा) एक मशीन लर्निंग टूल है जिसका उपयोग डेटा की खोज, सफाई, रूपांतरण और विज़ुअलाइज़ेशन के लिए किया जाता है ताकि इसका उपयोग मशीन लर्निंग मॉडल और प्रशिक्षण में किया जा सके। यह एक ओपन-सोर्स पायथन लाइब्रेरी है जो न्यूमपी के शीर्ष पर बनाया गया है। पंडों तीन प्रकार के डेटा संरचनाओं को संभाल सकते हैं: श्रृंखला, डेटाफ़्रेम और पैनल।

पंडों के बारे में अधिक जानें https://pandas.pydata.org/.

22. प्लॉटली

एनालिटिक्स ऐप्पल बनाने के लिए प्लॉट एक लोकप्रिय उपकरण है। इसमें डैश, एक ओपन-सोर्स पाइथन और वेब-आधारित विश्लेषणात्मक अनुप्रयोगों के निर्माण के लिए आर-फ्रेम और वैज्ञानिक उपकरणों पर डेटा अधिग्रहण GUI के निर्माण के लिए डैश DAQ सहित उत्पादों की विविधता शामिल है। प्लॉट में अजगर, आर, MATLAB, Node.js, जूलिया, Arduino, और REST के साथ-साथ Jupyter नोटबुक के साथ एकीकरण के लिए एपीआई पुस्तकालय भी हैं। प्लॉटली एक खुला स्रोत जावास्क्रिप्ट पुस्तकालय और एक ऑन-प्रिमाइसेस इंस्टॉलेशन भी प्रदान करता है।

पायथन प्लॉटली लाइब्रेरी एक प्लॉटिंग लाइब्रेरी है जिसमें 40 से अधिक विभिन्न प्रकार के चार्ट और विज़ुअलाइज़ेशन हैं जो तब बृहस्पति पुस्तिकाओं में, HTML में, या DASH पर निर्मित अनुप्रयोगों के भाग के रूप में प्रदर्शित किए जा सकते हैं।

प्लॉटली के बारे में और जानें https://plotly.com/.

23. Pydot

पीडॉट, ग्राफविज़ डॉट के लिए पायथन इंटरफ़ेस है जो डीओटी भाषा में पार्स और डंप कर सकता है। Pydot ग्राफ को डेटा वैज्ञानिकों को संभालने, संशोधित करने और प्रोसेस करने की सुविधा देता है, साथ ही साथ ग्राफ़ की संरचना को दिखाता है ताकि उनका उपयोग तंत्रिका नेटवर्क में किया जा सके।

Pydot के बारे में अधिक जानें https://pypi.org/project/pydot/.

24. PyTorch

PyTorch एक अन्य ओपन-सोर्स Python फ्रेमवर्क है जो डेटा वैज्ञानिकों को जल्दी से गहन शिक्षण कार्य करने की अनुमति देता है। PyTorch का उपयोग Salesforce, स्टैनफोर्ड यूनिवर्सिटी, उडेसिटी द्वारा किया जाता है, और Tensor अभिकलन करने और गतिशील तंत्रिका नेटवर्क बनाने के लिए और अधिक। PyTorch Torch पर आधारित है, जो एक C- आधारित ओपन-सोर्स डीप लर्निंग लाइब्रेरी है।

PyTorch के बारे में और जानें https://pytorch.org/.

25. SciPy

SciPy गणित और वैज्ञानिक कंप्यूटिंग के लिए एक ओपन-सोर्स इकोसिस्टम है जैसे कि रैखिक बीजगणित, एकीकरण, अंतर समीकरण हल करना, और सिग्नल प्रोसेसिंग .. इसमें कई उपयोगी कोर पैकेज शामिल हैं जिनमें NumPy, IPython, SciPy Library, MatPllib, SymPy, और पांडा शामिल हैं।

SciPy के बारे में और जानें https://www.scipy.org/.

26. शोगुन

शोगुन एक ओपन-सोर्स मशीन लर्निंग लाइब्रेरी है जो पायथन, ऑक्टेव, आर, जावा / स्काला, लुआ, सी #, रूबी जैसी कई डेटा विज्ञान प्रोग्रामिंग भाषाओं का समर्थन करती है। यह कई एल्गोरिदम जैसे डायनेमिकिटी कम करने वाले एल्गोरिदम, क्लस्टरिंग एल्गोरिदम, और वेक्टर मशीनों का समर्थन करता है। यह विशाल डेटासेट को संसाधित करने में सक्षम है, यह उद्यम अनुप्रयोगों के लिए एक वैध विकल्प बनाता है।

शोगुन के बारे में अधिक जानें https://www.shogun-toolbox.org/.

27. स्पार्क MLib

MLib अपाचे स्पार्क की मशीन लर्निंग लाइब्रेरी है; यह यूसी बर्कले द्वारा विकसित किया गया था और उच्च गति पर बहुत बड़ी मात्रा में डेटा को संसाधित करने में सक्षम है। यह अपने क्वेरी ऑप्टिमाइज़र और भौतिक अनुकूलन इंजन के लिए बड़े डेटा प्रोसेसिंग के लिए Hadoop से 100 गुना तेज़ है। डेटा वैज्ञानिक जावा, स्काला, पायथन, आर और एसक्यूएल में एप्लिकेशन लिख सकते हैं।

स्पार्क MLib के बारे में अधिक जानें https://spark.apache.org/.

28. समुद्री जीव

Seaborn "आकर्षक और सूचनात्मक" सांख्यिकीय रेखांकन के लिए एक पायथन डेटा विज़ुअलाइज़ेशन लाइब्रेरी है। सीबोर्न मैटलपोटलिब पर आधारित है। इसमें समय श्रृंखला और संयुक्त भूखंडों सहित, चुनने के लिए विभिन्न प्रकार के विज़ुअलाइज़ेशन शामिल हैं।

Seaborn के बारे में अधिक जानें https://seaborn.pydata.org/.

29. थीनो

थीनो एक "पायथन लाइब्रेरी है जो आपको बहु-आयामी सरणियों को कुशलतापूर्वक परिभाषित करने, गणितीय अभिव्यक्ति को परिभाषित करने, अनुकूलन और मूल्यांकन करने की अनुमति देती है।" यह NumPy के साथ एक मजबूत एकीकरण है, यह सीपीयू की तुलना में तेजी से डेटा संगणना करता है, तेजी से भावों का मूल्यांकन करता है, और इसमें अंतर्निहित इकाई-परीक्षण और आत्म-सत्यापन होता है। दुर्भाग्य से, थेनो को आखिरी बार 2017 में अपडेट किया गया था और धीरे-धीरे अन्य उपकरणों द्वारा प्रतिस्थापित किया जा रहा है।

Theano के बारे में अधिक जानें http://deeplearning.net/software/theano/.

30. मख

वेलेस बाइनरी डेटा विश्लेषण के लिए एक ओपन-सोर्स टूल है। वेलेस डेटा वैज्ञानिकों को बाइनरी कोड को मानव-समझने योग्य विज़ुअलाइज़ेशन में बदलने की अनुमति देता है। इसलिए डेटा वैज्ञानिक भी इंजीनियर बायनेरिज़ को उल्टा कर सकते हैं, फ़ाइल सिस्टम छवियों का पता लगा सकते हैं, या आसानी से स्टेग्नोग्राफ़ी में संलग्न हो सकते हैं।

वेल्स के बारे में और जानें https://codisec.com/veles/ .

31. Xgboost

Xgboost, जो eXtreme ग्रैडिएंट बूस्टिंग के लिए खड़ा है, तियानकी चेन द्वारा विकसित एक खुला स्रोत उपकरण है और अब वितरित मशीन लर्निंग कम्युनिटी (DMLC) का हिस्सा है। Xgboost प्रतिगमन, वर्गीकरण, रैंकिंग, मॉडल ट्यूनिंग और एल्गोरिथ्म संवर्द्धन के लिए एक व्यापक रूप से लोकप्रिय उपकरण है और उद्यम स्तर की परियोजनाओं में परीक्षण किया गया है। इसके निर्माता के अनुसार, "... xgboost ने ओवर-फिटिंग को नियंत्रित करने के लिए एक अधिक नियमित मॉडल औपचारिकता का उपयोग किया, जो इसे बेहतर प्रदर्शन प्रदान करता है।"

Xgboost के बारे में अधिक जानें https://xgboost.readthedocs.io/en/latest/.

अपने डेटा विज्ञान परियोजना के लिए काम पर रखने पर विचार? Aptude मदद कर सकता है।

20 से अधिक वर्षों के अनुभव के साथ, Aptude's Data टीम आपको यह पता लगाने में मदद कर सकती है कि आपको कौन सी क्षमताओं की आवश्यकता है, एक प्रोजेक्ट रोडमैप विकसित करें और अनुभवी टीम के सदस्यों के साथ अपने प्रोजेक्ट का संचालन करें। हमारी प्रक्रिया एक बातचीत और एक एनडीए के साथ शुरू होती है, इसलिए आप यह सुनिश्चित कर सकते हैं कि भले ही आप हमारे साथ काम न करने का निर्णय लें, लेकिन आपकी जानकारी सुरक्षित है।

बातचीत शुरू करने के लिए हमसे संपर्क करें।

आज एक डेटा विज्ञान जानकारी किट का अनुरोध करें।

हमें कॉल करने या हमारी टीम के साथ एक बैठक बुक करने के लिए काफी तैयार नहीं हैं? वह ठीक है! हमने एक आसान जानकारी किट लगाई है ताकि आप हमारे डेटा विज्ञान अनुभव और क्षमताओं के लिए बेहतर अनुभव प्राप्त कर सकें।

अपने मुफ़्त डेटा विज्ञान जानकारी किट का अनुरोध करने के लिए फ़ॉर्म भरें।