ETLとは
「ETL」とは、抽出(Extract:エクストラスト)変換・加工(Transform:トランスフォーム)書き出し(Load:ロード)の頭文字をとった用語の名称になります。
「ETL」から書き出されたデータは、「DWH」(Data Ware House:データウェアハウス)に保存していきます。
「ETL」から「DWH」に保存されたデータは、過去に使用したデータをすぐに取りやすい状態で保存され、「DWH」から「BI」(Business Intelligence:ビジネスインテリジェンス)に出力。「BIツール」によって「DWH」にあるデータの分析作業をしていく流れになります。
【ETL使用の流れ】
- 基幹システム、業務システムのデジタルソース(使用するデータの提供元)からデータ(売上等のExcelデータなど)を抽出
- デジタルソースのデータが分析しやすいように変換・加工
- 変換・加工された分析データを「DWH」に保存
「ETL」の全体の流れは、以上のようになります。
ETLの機能について
「ETL」に関する機能は、以下3点になります。
- 抽出(Extract:エクストラスト)
- 変換・加工(Transform:トランスフォーム)
- 書き出し(Load:ロード)
以上3点の機能が働くことで、基幹システム、業務システムのデジタルソースの抽出も効率よくおこなわれ、後々の業務改善にも役立つようになります。
例えると、ノートに書かれた大量のメモ書きを抽出(Extract:エクストラスト)して、抽出したメモの内容を変換・加工(Transform:トランスフォーム)。
その後、資料として書き出し(Load:ロード)、「DWH」(Data Ware House:データウェアハウス)資料室にまとめていく、イメージを持つとわかりやすいのではないでしょうか。
抽出(Extract:エクストラクト)
「ETL」における抽出(Extract:エクストラクト)は、基幹システムやデータベースシステムからデータを抽出する機能になります。
会社の運営を続けていると、基幹システム(営業データ、マーケティングデータ、製品開発データ、サポートデータなど)のデータは膨大に広がっていきます。
とはいえ、「膨大なデータをどうやって処理しよう」という悩みがでてくるはずです。膨大な過去のデータをわかりやすくまとめるために「DWH」に保存していきますが、基幹システムに保存されているファイルのままでは、データが重くなり、「DWH」に上手く保存できません。
以上のような悩みを解決する際に、「ETL」を活用していきます。先ほどの例に当てはめると、ノートに書かれた大量のメモ書きを選ぶ段階が、「ETL」における抽出になります。
変換・加工(Transform:トランスフォーム)
基幹システムやデータベースシステムから、抽出されたデータは、変換・加工され「DWH」に書き出しする前に変換、加工します。
変換、加工における機能としては以下3点があります。
- マッピング
- 集約
- 置き換え
マッピング
マッピングから抽出したデータを、「DWH」に書き出しできるようにデータを結合していきます。
集約
集約した膨大なデータをまとめていきます。例えば、過去に仕入れた数や売上などを指定する。その後、まとめるイメージです。
置き換え
集約ができたら、置き換え作業をおこないます。例えば、顧客で山田太郎と山岡太郎という人物がいた場合に、各氏名ごとに、データを置き換えていきます。
書き出し(Load:ロード)
書き出しは、変換・加工されてから、「DWH」に書き出されます。
「DWH」への書き出しは、様々なファイル形式の書き出しが可能で、Excelデータを統合した状態で、書き出したり、テキストファイルをPDFファイルに置き換えた状態でも、書き出すことができます。
ETLとよく混同される周辺ツール
「ETL」とよく混同される周辺ツールについても理解しておきましょう。
「ETL」とよく混同される周辺ツールは、以下3点になります。
- 「DWH」→(Data Ware House:データウェアハウス)の略
- 「BI」→(Business Intelligence:ビジネスインテリジェンス)の略
- 「EAI」→(Enterprise Application Integration:エンターアプリケーション統合)の略
以上3点の周辺ツールは、「ETL」とよく混同されます。
一つずつみていきましょう。
ETLとDWHの違い
「ETL」と「DWH」の違いは、「ETL」はデータをまとめるのが主な機能。「DWH」は、データを保存させるのが主な機能になります。
「DWH」は、「情報の倉庫」とも呼ばれており、過去の売上、顧客名簿など、今までの情報をストックさせるのに使用されます。
「DWH」は、サブジェクト事に保管することも可能で、画像、動画、テキストなど様々な形式で、保存させることが可能。データを統合、全てのラベルを統一(ID、名前、役職)させたり、データを時系列で並べていくこともできます。
さらに細かく、データを保存させたい場合などは、「データマート」に以降させて、データを部署ごとに整理することも可能です。
「DWH」が倉庫で、「データマート」が、スーパーのように考えて頂ければ、わかりやすいです。売上データ、社員データ、在庫データ、など目的に合わせて「DWH」を活用していくと良いでしょう。
ETLとBIの違い
「ETL」と「BI」の違いは、「ETL」はデータをまとめるのが主な機能。一方、「BI」は、データを分析するのが主な機能になります。
流れとしては、以下になります。
- 在庫管理システム等の基幹システムからETLツールで抽出
- ETLでDWHにデータを書き出し
- DWHからBIにデータを入れる
- BIシステムで過去のデータを分析
「ETL」で、過去データをわかりやすくまとめた後に、「DWH」に入れ「DWH」にまとめられたデータを「BI」ツールによって分析していきます。例を出すと、「ETL」は、ノートを大量にまとめたものです。
「BI」は、過去のファイルを資料室から取り出してきて、専門の先生が分析するような、イメージを持つと、わかりやすいのではないでしょうか。
ETLとEAIの違い
「ETL」と「EAI」の違いは、「ETL」はデータをまとめるのが主な機能。一方「EAI」は、様々なシステム同士を繋ぐ機能があります。
例えると、「EAI」は、様々な分野のノートを上手く紐付けるようなイメージ。「EAI」は、システムの差し口の役割「HUB」として主に使用されます。
よって、「ETL」とは違う用途で、使用されるようになります。
ETLツールが必要な理由
「ETLツール」が必要な理由は、以下の3点があります。
- 開発コストが下げれる
- データ品質が向上できる
- 過去データの管理がしやすくなる
開発コストが下げれる
「ETL」を導入すると、開発コストを下げることができます。
基幹システムに入っている、在庫管理システムなどの膨大なデータを「DWH」に保管。本来なら専門のエンジニアがプログラムを組み込みデータを移行させる必要があります。
しかし、「ETL」を使用することで、高度なプログラミングが必要なくなり、「ETLツール」の操作方法さえ学べば、一般社員の方でも使用できるようになるでしょう。
「ETLツール」には、連携機能も備わっているため、手順書通りに進めることで、一般社員の方も使用が可能になります。「ETLツール」を導入することにより、エンジニアの人件費や工数などのコストが下げれるのも大きな利点と言えるでしょう。
データ品質が向上できる
「ETL」を導入すると、データ品質を向上することができます。「ETL」には、「データクレンジング機能」も備わっているため、データの重複や誤記なども自動修正することができます。
データを綺麗に修正した後に、「DWH」に保管することで、データの品質も上げた状態で、データ保存も可能になります。
過去データの管理がしやすくなる
「ETL」を導入することで、過去データの管理もしやすくなります。
「ETL」によって書き出された、基幹システムの情報は、フォーマットがバラバラでも綺麗にまとめてくれているので、「DWH」に保管されたデータの参照もしやすい。
過去データが管理しやすくなる点も「ETL」が必要な点になります。
まとめ
今回は、「ETLとは?」について解説してきました。「ETL」は、企業内にある膨大な過去データを整理するためには、必須のツールになります。
企業内に整理したいデータがある場合、「ETLツール」の導入を検討してみてはいかがでしょうか。