Pengenalan

Aptude telah berkhidmat sebagai perunding data pakar untuk beberapa syarikat paling terkenal di dunia, termasuk beberapa syarikat yang tidak dapat kami namakan. Pelanggan kami merangkumi hampir semua industri dan meminta kami untuk membantu mereka dengan pelbagai projek. Walaupun kita dapat melakukan hampir apa sahaja, beberapa karya terbaik kita melibatkan kepakaran yang mendalam dalam sains data, terutama ketika berkaitan dengan Python dan Sains Data.

Namun kita akan menjadi yang pertama mengakui bahawa banyak syarikat tidak memerlukan saintis data, apalagi keseluruhan pasukan. Belum lagi.

Dalam artikel ini, kami akan membincangkan mengapa kami percaya bahawa pengambilan data pertama anda (sama ada dalaman atau luaran) tidak seharusnya menjadi saintis data. Kami juga akan memberi anda soalan untuk ditanyakan untuk menentukan kesediaan anda untuk projek sains data.

Anda Mungkin Tidak Memerlukan Saintis Data. Inilah Sebabnya.

Seperti yang telah kita bincangkan di blog lain yang membandingkan Kejuruteraan Data, Analisis Data, dan Sains Data, sains data canggih seperti pembelajaran mesin memerlukan sejumlah besar data - "data besar" - di gudang data di mana data dapat digunakan dengan mudah.

Untuk melakukan ini, data mestilah tidak tersedia. Itu mesti dibersihkan, disusun, dan dimasukkan ke saluran pipa yang dapat diakses oleh tim analisis Anda. Ini memerlukan banyak kerja, kerana hanya memiliki data sejarah tidak mencukupi. Data mesti masuk akal dan saling berkaitan dengan cara yang boleh digunakan.

Sebagai contoh, katakan anda mempunyai bidang nama pertama dalam pangkalan data yang berbeza. Dalam satu pangkalan data yang digunakan oleh pasukan penjualan anda, First Name dikenal sebagai "First_Name" dan dapat memuat hingga 50 karakter abjad. Di pangkalan data lain, katakan yang digunakan oleh pemasaran, Nama Pertama dikenali sebagai FIRSTNAME dan boleh mengandungi 75 aksara alfanumerik ditambah watak khas seperti tanda hubung dan tanda petik. Harus jelas bahawa kedua-dua bidang ini tidak sejajar. Apa yang berlaku apabila anda ingin mengeluarkan data nama pertama dari dua sumber yang berbeza ini?

Ia tidak cantik, terutamanya apabila anda menganggap bahawa beberapa bahasa pangkalan data mengira beberapa bidang matematik berbeza daripada bahasa lain; dua dan dua mungkin bukan empat!

Bagi kebanyakan syarikat, langkah pertama harus benar-benar melibatkan kejuruteraan data dan pembersihan, daripada berusaha melibatkan ramalan canggih.

Terdapat alasan yang lebih besar lagi: teknologi canggih seperti pembelajaran mesin memerlukan sejumlah besar data untuk berfungsi. Sekiranya anda tidak mempunyai data bersih yang mencukupi, projek itu akan gagal tidak kira seberapa berpengalaman dan berbakat saintis data anda.

Itulah sebabnya kami mengatakan bahawa anda mungkin belum memerlukan saintis data.

Soalan yang Perlu Ditanyakan Sebelum Anda Melancarkan Projek Sains Data.

Semasa di Aptude, kami suka mengerjakan projek yang melibatkan algoritma kompleks yang menyelesaikan kes penggunaan yang sangat mencabar dan didorong oleh ROI, kami tahu bahawa tidak selalu dapat dilaksanakan dengan pembelajaran mesin.

Berikut adalah beberapa soalan untuk ditanyakan kepada pasukan anda:

  • Sejauh mana senyap data kita?
  • Seberapa bersih data kita?
  • Adakah kita mempunyai set data yang cukup besar untuk inisiatif?
  • Adakah kita mempunyai kes penggunaan yang jelas?
  • Bahagian projek mana yang boleh dikendalikan oleh pasukan dalaman kita sekarang?
  • ROI apa yang kita cari?
  • Adakah kita tahu kawasan mana yang mungkin kita perlukan dengan lebih mendesak daripada yang lain?
  • Adakah kita benar-benar memerlukan visualisasi terlebih dahulu sebelum kita mencuba ML?
  • Soalan mana yang ingin kita jawab ... dan mana yang perlu kita jawab?
  • Alat mana yang ingin kita gunakan untuk ini? (Oracle, Hadoop, Python, SQL Server, Power BI, Tableau)

Menjawab pertanyaan-pertanyaan ini harus menjelaskan kerangka di almari organisasi anda dalam hal pengumpulan data, manajemen, dan jaminan kualitas. Dan anda harus memahami arah mana yang mungkin perlu anda tuju untuk mencapai kemajuan ... walaupun arah itu membuat pihak berkepentingan dan pembuat keputusan anda lebih kerap berbicara di silo data organisasi anda.

Sekiranya Bukan Sains Data, Lalu Apa?

Untuk kebanyakan projek data, anda tidak boleh salah dengan audit data menyeluruh untuk menentukan:

  • Semua sumber data sejarah dalam organisasi anda
  • Lokasi dan pengurusan setiap sumber data ini
  • Kualiti dan kelengkapan data di setiap sumber ini
  • Penjajaran data antara sumber-sumber ini
  • Soalan yang boleh anda jawab dengan data semasa anda
  • Soalan yang tidak dapat anda jawab dengan data semasa anda

Sekiranya anda ingin ada pakar yang membantu mencari tahu di mana untuk memulakan dan apa yang anda perlukan dari segi data, tenaga kerja, alat, dan anggaran, kami dapat membantu. Sebilangan besar projek kami melibatkan inisiatif yang berkaitan dengan data, terutama kerana sekarang kami memiliki Pusat Kecemerlangan Python di Mexico City, Mexico. Mendapat pertolongan kami semudah cmenghubungi kami melalui e-mel, bentuk, Atau telefon.