賃貸システムの概要

Aptudeは、名前を挙げられない企業も含め、世界で最も有名な企業の専門家データコンサルタントを務めてきました。 私たちのクライアントはほぼすべての業界にまたがっており、さまざまなプロジェクトでクライアントを支援するように依頼しています。 私たちはほとんど何でもできますが、私たちの最高の仕事のいくつかは、特にPythonとデータサイエンスに関しては、データサイエンスの深い専門知識を伴います。

それでも、チーム全体は言うまでもなく、多くの企業がデータサイエンティストを必要としないことを最初に認めます。 未だに。

この記事では、最初のデータ採用(社内外を問わず)がデータサイエンティストであってはならないと考える理由について説明します。 また、データサイエンスプロジェクトの準備ができているかどうかを判断するための質問も提供します。

データサイエンティストは必要ないかもしれません。 これが理由です。

データエンジニアリング、データ分析、データサイエンスを比較する別のブログで説明したように、機械学習などの高度なデータサイエンスでは、データを簡単に利用できるデータウェアハウスに大量のデータ(「ビッグデータ」)が必要です。

これを行うには、データが利用可能であるだけではありません。 クリーンアップ、構造化、および分析チームがアクセスできるパイプラインに配置する必要があります。 履歴データを所有するだけでは不十分であるため、これには多くの作業が必要です。 データは意味があり、使用可能な方法で相互に関連している必要があります。

たとえば、さまざまなデータベースに名フィールドがあるとします。 営業チームが使用する50つのデータベースでは、名は「First_Name」と呼ばれ、最大75文字のアルファベットを含めることができます。 別のデータベース、たとえばマーケティングで使用されているデータベースでは、名はFIRSTNAMEと呼ばれ、XNUMX文字の英数字に加えて、ハイフンやアポストロフィなどの特殊文字を含めることができます。 これらのXNUMXつのフィールドが整列していないことは明らかです。 これらのXNUMXつの異なるソースから名データを取得したい場合はどうなりますか?

特に、一部のデータベース言語が他の言語とは異なる方法でいくつかの数学フィールドを計算することを考えると、それはきれいではありません。 XNUMXとXNUMXはXNUMXではないかもしれません!

ほとんどの企業にとって、最初のステップは、最先端の予測に取り組むのではなく、実際にはデータエンジニアリングとクリーンアップを伴う必要があります。

これにはさらに大きな理由があります。機械学習などの高度なテクノロジーが機能するには、大量のデータが必要です。 クリーンなデータが十分にない場合、データサイエンティストがどれほど経験豊富で才能があっても、プロジェクトは失敗します。

そのため、データサイエンティストはまだ必要ないかもしれません。

データサイエンスプロジェクトを開始する前に尋ねる質問。

Aptudeでは、非常に困難でROI主導のユースケースを解決する複雑なアルゴリズムを含むプロジェクトに取り組むのが大好きですが、機械学習から始めることが常に実現可能であるとは限らないことを私たちは知っています。

チームに尋ねるいくつかの質問があります:

  • 私たちのデータはどのくらいサイロ化されていますか?
  • 私たちのデータはどれくらいきれいですか?
  • イニシアチブに十分な大きさのデータセットがありますか?
  • 明確なユースケースはありますか?
  • プロジェクトのどの部分を社内チームが処理できるようになりましたか?
  • どのようなROIを求めていますか?
  • 他の領域よりも緊急に必要になる可能性のある領域を知っていますか?
  • MLを試す前に、最初に視覚化が本当に必要ですか?
  • どの質問に答えたいですか…そしてどれに答える必要がありますか?
  • これにはどのツールを使用しますか? (Oracle、 Hadoopの、Python、SQL Server、Power BI、Tableau)

これらの質問に答えることで、データの収集、管理、品質保証に関して、組織のクローゼットの骨組みに光を当てることができます。 そして、進歩を遂げるためにどちらの方向に向かう必要があるかをよく理解する必要があります。たとえその方向が、組織のデータサイロについて話し合うために、関係者や意思決定者を部屋に頻繁に連れてくる場合でも。

データサイエンスでない場合は、どうしますか?

ほとんどのデータプロジェクトでは、次のことを判断するための徹底的なデータ監査で間違いを犯すことはできません。

  • 全て 組織内の履歴データのソースの
  • これらの各データソースの場所と管理
  • これらの各ソースのデータの品質と完全性
  • これらのソース間のデータの調整
  • 現在のデータで答えることができる質問
  • 現在のデータでは答えられない質問

データ、人員、ツール、予算の観点から、どこから始めて何が必要かを理解するのに役立つ専門家が必要な場合は、私たちがお手伝いします。 私たちのプロジェクトの多くは、データ関連のイニシアチブを伴います。 メキシコシティのPythonセンターオブエクセレンス。 私たちの助けを得るのはcと同じくらい簡単です経由で私たちに連絡する Eメール, フォームまたは 電話.