法人向けクラウドサービス・SaaS・IT製品 比較・資料請求サイト

クラスタリングとは?手法や手順などをまとめて解説します

投稿日:2023年6月20日 /

更新日:2023年8月27日

クラスタリングとは?手法や手順などをまとめて解説します
● AI● その他● 見える化● 顧客管理

クラスタリングとはどのような手法なのかをご存じですか?
分類と混同されがちであったり、そもそもどのような種類があるのか分かりにくかったりするなど、調べるほどに「さらに分からなくなってしまう…」といった声は少なくありません。
そこで、今回はクラスタリングについて、わかりやすく解説していきます。概要や具体的な手法、活用のための手順などについて見ていきましょう。

人的リソースの削減関連のサービスを
無料で資料請求!

人的リソースの削減関連のサービスを
無料で資料請求!
まとめて資料請求する無料

目次

閉じる

クラスタリングとは?

クラスタリングイメージ

クラスタリングは、データの集合を類似性に基づいてグループ分けする手法のことです。データをいくつかのクラスタと呼ばれるグループに分けることで、データの特徴や関係性を把握することができます。

クラスタリングでは、データポイントの特徴や類似度を計算し、それに基づいてデータをグループ分けすることが特徴です。また、教師なし学習の機械学習であり、事前にラベル付けされたデータを使用せずにクラスタを形成します。

クラスタリングの目的は、データ内のパターンやグループを特定することです。たとえば、マーケティングの分野では、顧客のセグメンテーションに使用され、類似した属性や行動パターンを持つ顧客を同じクラスタにまとめることが可能です。また、画像処理や自然言語処理の分野でも広く利用されていて、類似した特徴を持つ画像や文章をクラスタリングすることができます。

分類との違い

クラスタリングと分類は、どちらもデータのグループ分けを行う手法なので混同されがちですが、実際は大きな違いがあります。

まず、クラスタリングは教師なしの学習であるのに対し、分類は教師ありの学習です。クラクラスタリングは、所属するグループに関する答えは設けておらず、データに基づいて特徴を把握してグループに分けます。

一方、分類は事前に定義されたカテゴリやクラスのラベルを予測するための学習が施されていて、所属すべきグループがどこであるのかを予測するのが特徴です。

また、分類の主な目的は、新しいデータポイントがどのクラスに属するかを予測することです。学習された分類モデルを使用して、未知のデータを既知のカテゴリに分類します。

クラスタリングの主な目的は、データ内のパターンやグループを把握することです。データセットの構造や関係性を理解し、データの特徴を明らかにすることを重要としています。

つまり、分類はデータを既知のカテゴリに分類するための教師あり学習の手法であり、クラスタリングはデータの類似性に基づいて自然なグループを形成するための教師なし学習の手法となります。

階層的クラスタリングと非階層的クラスタリング

クラスタリングには「階層クラスタリング」と「非階層クラスタリング」と呼ばれるものがあります。

それぞれ、どのような違いがあるのでしょうか。

階層的クラスタリング

階層的なクラスタリングは、データを階層的な構造でクラスタに分割する手法です。データポイント同士の類似性や距離を基に、最も類似したデータ同士を結合していきます。結果として、クラスタを階層的なツリー構造として構築するようなイメージです。

このように、階層的なクラスタリングでは、デンドログラム(クラスタを結合した構造の図)を利用してクラスタの数や類似性を視覚化することができます。デンドログラムでは、縦軸にクラスタ間の距離や類似度が表示され、横軸に各データポイントやクラスタが配置される設計なので、デンドログラムを解析するだけで、データポイントやクラスタの階層的な関係を把握しやすいといったメリットがあります。

しかし、大規模なデータセットでは計算コストが高くなることもあるので注意が必要です。また、階層的なクラスタリングでは、一度に全体のクラスタリング結果が得られるため、後からクラスタの再割り当てをしたり、変更したりすることが困難になるといった難点もあります。

非階層的クラスタリング

非階層的なクラスタリングは、データを階層的な構造ではなく、互いに独立したクラスタに分割する手法です。非階層的なクラスタリングでは、クラスタの数を事前に指定することから、計算コストが階層的な手法よりも低いことが少なくありません。

また、非階層的な手法では後からクラスタ数を変更したり、新しいデータを追加したりしやすく、階層的クラスタリングよりも便利な面があります。

階層的クラスタリングの手法

クラスタリングイメージ

階層的クラスタリングの手法には、大きく4種類が存在します。それぞれの特徴や、適したシーンなどについて解説していきます。

群平均法

群平均法は、クラスタ間の距離を計算する際に、それぞれのクラスタ内のデータポイント間の距離の平均を使用します。

階層的クラスタリングにおいて広く使用される手法の一つであり、クラスタ間の全体的な類似性を考慮することができます。しかし、大規模なデータセットに対しては計算コストが高くなることも珍しくありません。

また、群平均法はクラスタ間のデータポイント数の違いに敏感であり、外れ値の影響を受けやすいという欠点もあります。

最小分散法(ウォード法)

最小分散法は、クラスタ間の距離が一番近い2つのクラスタを選ぶ手法です。選ばれたクラスタを最小化することを目指していきます。

一方で、最小分散法は計算コストが高く、大規模なデータセットには適していません。また、最小分散法はクラスタ数の選択が重要となります。適切なクラスタ数を見つけるために他の手法や評価指標と組み合わせて使用することがおすすめです。

最短距離法

最短距離法は、距離が最短と判断される2つのクラスタの間の距離を「クラスタ間の距離」と定めて採用します。最も近いデータポイント同士を結合することでクラスタを形成するのが特徴です。

ただし、外れ値によって結果が変動しやすく、クラスタのサイズや密度が異なる場合にも不均一なクラスタが形成されることがあります。また、データポイント間の距離がクラスタ内で最も近いものに基づいてマージが進むため、長いチェーン状のクラスタができやすくなります。

最長距離法

最長距離法は、クラスタ間の距離を最大化することを目指します。最長距離法では、2つのクラスタ間の最も遠いデータポイント同士の距離を使用してクラスタを融合します。

最長距離法のメリットは、クラスタ間の最も遠いデータポイント同士の距離に基づいてクラスタをマージするので、クラスタ内のデータポイント同士の類似性が高い場合に比較的均一なクラスタを形成できることです。また、外れ値にも強いといった特徴があります。

人的リソースの削減関連のサービスを
無料で資料請求!

人的リソースの削減関連のサービスを
無料で資料請求!
まとめて資料請求する無料

クラスタリングの手順

クラスタリングイメージ

クラスタリングを行うにあたって、気になるのが「どのように進めていけば良いのか」ではないでしょうか。

実際にクラスタリングを行ってみたい方へ向けて、以下でクラスタリングの手順を解説します。

対象を決める

クラスタリングを行う際には、まず対象を決定します。クラスタリングを行う対象がサンプルなのか、変数なのかで手法が異なるためです。

また、クラスタリングの対象となるデータセットやデータポイントを適切に決めないと、クラスタリングの結果に不適切な影響が生じることがあります。そのため、対象を決める際には、データの特性や問題の性質などに基づいて慎重に行わなければなりません。

手法を決める

対象が明確になったら、対象の特性やクラスタリングの目的に合わせて、適切なクラスタリング手法を決定します。クラスタリング手法は、対象の特徴や目的、問題の内容などによって異なるもの。適切な手法の選択は、クラスタリングの精度や結果の解釈に大きな影響を与えるので、その手法を選ぶ理由も明確にしたうえで手法を決定してください。

類似度の尺度を決める

クラスタリングにおける「類似度の尺度」は、距離を意味します。距離が近ければ、類似度が高いと判断され、反対に距離が遠いほどに類似度が低いと判断されます。とはいえ、一口に「距離」と言っても、対象や目的などによって距離の種類が異なるので、まずはデータポイントの特性に従って選択しなければなりません。

クラスタリングの活用事例

クラスタリングイメージ

クラスタリングを活用している企業は、どのように取り入れているのでしょうか。

実際にクラスタリングを活用している国内企業の事例をご紹介します。

AIチャットボット | マネックス証券

クラスタリングの活用事例として、まずご紹介するのがAIチャットボットを採用したマネックス証券です。

同社で導入しているAIチャットボットは、株式会社AI Shiftによって開発された「AI Messenger Chatbot」で、顧客対応窓口にて活用されています。AI Messenger Chatbotは、運用サポート機能として、クラスタリングによるチューニング作業を効率的に実施できる「AI Compass」が設けられていて、人的リソースの不足に対応しています。

一般的なチャットボットは、問い合わせ内容と回答内容を手作業で紐づける必要がありました。そのうえ、AIの操作に詳しい人材が対応する必要があり、人的なコストも労力も大きかったのです。

しかし、AI Messenger Chatbotは、問い合わせと回答の紐づけ作業をAI自身が行うので、AIに詳しい人材が社内にいなくても適切な運用をしやすく、マネックス証券は大幅な業務効率化を実現できるようになりました。

AI解析 | 順天堂大学

順天堂大学では、AI解析に関する手法において、クラスタリングを活用しています。

肺炎CT画像をAIで解析する手法として、「識別の難易度が高い症例をAIが識別する」「新型コロナウイルスの肺炎典型度をAIが判断する」「肺領域内部の領域を自動分類する」などが開発されましたが、その際にクラスタリングの技術を使用していました。

順天堂大学に限らず、医療の現場では、今後もクラスタリングの活用によって、さまざまな技術が開発されると想定されています。

まとめ

クラスタリングイメージ

クラスタリングは、基本をおさえれば決して難しいものではありません。そのうえ、業界を問わず、さまざまな現場で活用されていることから見て、使い方次第で業務効率化や新たな分野の開拓、新技術の開発などを実現することにもつながります。

その都度適した手法を選んだり、必要な手順を経ていったりする必要はあるものの、問題解決の糸口としても期待できるでしょう。

ぜひ、クラスタリングへの理解を深め、自社での業務にどう活かせるか考えてみてはいかがでしょうか。

人的リソースの削減関連のサービスを
無料で資料請求!

人的リソースの削減関連のサービスを
無料で資料請求!
まとめて資料請求する無料

人的リソースの削減に関連するサービス

SNSキャンペーンツール キャンつく

コラボフロー

コラボフロー

全体評価
4.2
レビュー
8件
直感的な操作性で使い手を選ばない簡単クラウドワークフロー

サービスの特長

  • Excelを申請フォームとして見た目そのまま電子化
  • 複雑な経路を直感的な操作でカンタンに設計
  • 様々な業務変化にも豊富な機能でしっかり対応

オンラインアシスタント『フジ子さん®』

人的リソースの削減関連のサービスを
まとめて資料請求!
無料で資料請求する
1 件の資料を選択中
無料資料請求へ進む
1 資料リスト 無料資料請求へ進む