データ抽出とは データ抽出のメリットとタイプ

今日、私たちはかつてないほど多くのデータにアクセスできます。この状況で、データを最大限に活用するにはどうしたらよいのでしょうか。進化し続ける多様なソースからの多くのタイプのデータを管理/分析できるデータ統合ツールが必要とされます。そのようなツールを見つけることが、しばしば最大の課題となります。しかし、データを分析または使用する前に、まずはデータを抽出する必要があります。ここでは、データ統合プロセスで抽出が果たす重要な役割を理解するために、「データ抽出」という用語の意味を定義してETLプロセスを詳細に検討します。

今日、私たちはかつてないほど多くのデータにアクセスできます。この状況で、データを最大限に活用するにはどうしたらよいのでしょうか。サイトをはじめ、進化し続ける多様なデータソースからの多くのタイプのデータを管理/分析できるデータ統合ツールが必要とされます。そのようなツールを見つけることが、しばしば最大の課題となります。しかし、データを分析または使用する前に、まずはデータを抽出する必要があります。ここでは、データ統合プロセスで抽出が果たす重要な役割を理解するために、「データ抽出」の意味を紹介し、データ抽出を理解する上で必要なETLプロセスと一緒に検討します。

データ抽出とは?

データ抽出とは、さまざまなソースからさまざまなタイプのデータを収集/取得するプロセスです。多くの場合、データは適切に編成されておらず、完全には構造化されていません。データの抽出によって、データを統合/処理/洗練して中央の場所(オンサイト、クラウド、またはハイブリッド)に格納し、変換できるようになります。

データ抽出は、ETL(抽出、変換、ロード)/ELT(抽出、ロード、変換)プロセスにおける最初のステップです。ETL/ELTは、それ自体がデータ統合戦略の一部となります。

データ抽出とETL

データ抽出の重要性を理解するには、ETLプロセス全体を簡単に考えてみると役立ちます。本質的に、企業や組織はETLによって、1) 異なるソースからのデータを中央の場所に統合し、2) 異なるタイプのデータを共通の形式に同質化させ、格納することができます。ETLプロセスには以下の3つのステップが含まれます。

  1. 抽出(Extraction):データは、1つまたは複数のソース/システムから取得されます。抽出によって関連データの検索と識別が行われ、処理または変換のために準備されます。抽出によって多様なデータを結合し、最終的にビジネスインテリジェンス向けのマイニングを実行できます。
  2. 変換(Transformation):データが正常に抽出されると、洗練の準備ができた状態になります。変換フェーズでは、データのソート、編成、クレンジングが行われます。たとえば、重複するエントリーは削除され、欠損値は削除またはエンリッチメントの対象となり、監査が実行されます。この変換フェーズによって、信頼性が高く、一貫性があり、使用可能なデータが作成されます。
  3. ロード(Load):変換された高品質のデータは、ストレージと分析のために統一的な単一のターゲットに送られます。

ETLプロセスは、多くの目的のために、ほぼすべての業界の企業/組織で使用されています。たとえば、GEヘルスケアは、プロセスを合理化し、コンプライアンスの取り組みを支援するために、さまざまな種類のデータをローカルおよびクラウドネイティブのソースから取得する必要がありました。データ抽出によって、患者のケア、医療機関、保険請求の関連データを統合できるようになりました。

同様に、オフィス・デポなどの小売企業は、モバイルアプリ、Webサイト、実店舗でのトランザクションを通じて顧客情報を収集できます。しかし、すべてのデータを移行/マージする方法がなければ、潜在性が制限されかねません。ここでもデータ抽出が鍵となります。

ETL以外でのデータ抽出

データの抽出は、ETL以外でも実行可能です。ただし、包括的なデータ統合プロセスの一環としてではないデータ抽出には限界があることに留意する必要があります。抽出されたものの適切に変換またはロードされない生データは編成や分析が困難になり、新しいプログラムやアプリケーションとの互換性を持たない可能性が高くなります。そのような場合、データはアーカイブ目的以外でほとんど役立ちません。レガシーのデータベースから新しいシステムまたはクラウドネイティブのシステムにデータを移行する場合は、包括的なデータ統合ツールを使用してデータを抽出することをお勧めします。

独立プロセスとしてデータを抽出することによって、効率性も犠牲になります。特に、手動で抽出を実行する予定の場合に当てはまります。ハンドコーディングは、エラーが発生しやすく、複数の抽出で複製するのが難しい、手間のかかるプロセスになりがちです。つまり、抽出のたびにコード自体をゼロから再構築しなければならないことがあるのです。

データ抽出ツールを使用するメリット

ほとんどすべての業界やセクターで、企業や組織はいずれかの時点でデータを抽出する必要があります。レガシーデータベースのアップグレードやクラウドネイティブストレージへの移行で必要となる場合もあれば、合併・買収後のデータベースの統合が契機となる場合もあります。また、異なる部門のデータソースを結合することで内部プロセスを合理化するために必要となることも一般的です。

データ抽出が困難なタスクであると見込まれても、必ずしもそうなるわけではありません。実際に、ほとんどの企業や組織はデータ抽出ツールを利用して、抽出プロセスをエンドツーエンドで管理しています。ETLツールを使用することで抽出プロセスが自動化され、簡素化されるので、リソースを優先度の高いほかのタスクに割り当てることができます。データ抽出ツールを使用するメリットは、次のとおりです。

  • 制御の強化。データ抽出により、企業は外部ソースからの独自のデータベースにデータを移行できます。その結果、古いアプリケーションやソフトウェアライセンスによってデータがサイロ化するのを防ぎます。自社のデータを、抽出を通じて自在に活用できるようになるのです。
  • 俊敏性の向上。企業が成長するにつれて、異なるタイプのデータを異なるシステムで使用するようになることがあります。データ抽出によって、そのような情報を一元化し、複数のデータセットを統合できます。
  • 共有の簡素化。一部(全部ではなく)のデータを外部のパートナーと共有したい場合、データ抽出は、使いやすいと同時に制限されたデータアクセスを提供するうえでの簡単な方法になります。共通の使用可能な形式でデータを共有する場合にも、抽出を活用できます。
  • 正確さと精度。手動のプロセスやハンドコーディングでは、エラーの可能性が高まります。大量のデータの入力、編集、再入力が必要になることで、データの整合性が大きく損なわれます。データ抽出によって、プロセスを自動化してエラーを減らし、解決に時間を費やす事態を回避できます。

データ抽出のタイプ

データ抽出は、ビジネスに関連するさまざまなタイプの情報を収集するのに役立つ強力で適応性のあるプロセスです。データ抽出からメリットを得るための最初のステップは、必要なデータの種類を特定することです。一般的には、次のようなタイプのデータが抽出されます。

  • 顧客データ:企業や組織が顧客や資金提供者を理解するのに役立つデータです。名前、電話番号、電子メールアドレス、一意の識別番号、購入履歴、ソーシャルメディア活動、Web検索などが含まれます。
  • 財務データ:販売数、購買コスト、営業利益、さらには競合他社の価格といった指標が含まれます。このタイプのデータは、パフォーマンスを追跡し、効率を改善し、戦略的に計画するうえで役立ちます。
  • 使用/タスク/プロセスのパフォーマンスデータ:これは広いカテゴリーのデータであり、特定のタスクまたは業務に関連する情報を含みます。たとえば、小売企業が物流に関する情報を求めたり、病院が術後アウトカムや患者フィードバックを監視したりできます。

アクセスして分析する情報のタイプを決定したら、次のステップは、1) 入手できる場所を把握し、2) 格納する場所を決定することです。これはほとんどの場合に、アプリケーションからアプリケーションへ、プログラムからプログラムへ、またはサーバーからサーバーへデータを移動することを意味します。

典型的な移行では、SAP、Workday、Amazon Web Services、MySQL、SQL Server、JSON、Salesforce、Azure、Google Cloudなどのサービスからのデータが関与します。これらの広く使用されているアプリケーションだけでなく、ほぼすべてのプログラム、アプリケーション、サーバーからのデータを移行できます。

実際のデータ抽出

次に、現実の問題をデータ抽出でどのように解決できるかを確認しましょう。データを合理化・編成して価値を最大限に高めるための、2つの組織の対処法を紹介します。

ドミノ・ピザのビッグデータ

ドミノ・ピザ(Domino’s Pizza)は世界最大のピザチェーンです。スマートフォン、スマートウォッチ、テレビ、ソーシャルメディアを含む幅広いテクノロジー経由での受注を可能にしていることも、大規模ビジネスを支える一要因となっています。これらすべてのチャネルは、莫大な量のデータを生成しています。ドミノ・ピザは、グローバルオペレーションと顧客の嗜好に関する知見を得るため、このデータを統合する必要があります。

ドミノ・ピザは、これらのデータソースをすべて1つにまとめるため、抽出から統合までのデータ管理でデータ管理プラットフォームを使用しています。このシステムは同社独自のクラウドネイティブサーバーで実行され、POSシステムや26のサプライチェーンセンターから、そしてテキストメッセージ、Twitter、Amazon Echo、さらには米国郵便サービスなどのさまざまなチャネルを通じて、データを捕捉/収集しています。続いてデータ管理プラットフォームでは、データのクレンジング、エンリッチメント、格納が行われ、これによって複数のチームが簡単にアクセスして使用できるようになります。

データ統合による教育の進化

英国の

クラウド、IoT、そしてデータ抽出の未来

クラウドストレージとクラウドコンピューティングの登場は、企業や組織におけるデータ管理のあり方に大きな影響を与えました。データのセキュリティ、ストレージ、処理が変化したことに加え、クラウドによってETLがこれまで以上に効率的で適応性の高いプロセスになりました。企業は、独自のサーバーやデータインフラストラクチャーを維持することなく、世界中からデータにアクセスしてリアルタイムで処理できるようになっています。ハイブリッドとクラウドネイティブのデータオプションを使用することで、オンサイトのレガシーシステムからデータを移行する企業が増え始めています。

さらに、モノのインターネット(IoT)もデータ環境を変えています。携帯電話、タブレット、コンピューターに加え、FitBitなどのウェアラブル製品、自動車、家電、さらには医療機器によってデータが生成されています。その結果、抽出/変換され、企業の競争力を高めるために使用できるデータ量がますます増えています。

独自の条件でのデータ抽出

膨大な量のデータを収集/格納しようと努めても、データの形式や場所がアクセス可能でなければ、せっかくの重要な知見やビジネスチャンスを得ることができません。また、データのソースが毎日のように増えている中、適切な戦略と適切なツールがなければ問題は解決しません。

Talend Data Management Platformは、ETL、データ統合、データクオリティ、エンドツーエンドの監視、セキュリティなどの包括的なデータツールセットを提供します。適応性があり効率的なデータ管理によって、統合プロセス全体で当て推量で物事が進められることがなくなるため、必要なときにデータを抽出し、適宜にビジネス知見を得ることができます。また、オンサイト、ハイブリッド、クラウドネイティブのどこにでも展開できます。今すぐ無償試用版をダウンロードしましょう。お客様に適した条件でデータを簡単に抽出できることを、実際にご確認いただけます。

Talendを使う準備はできていますか?