うまくグループ分けをするには?
2009.01.06
新聞を見ていたら、こんな記事がありました。
別に内容はどうでもいいです。ここで使われた統計手法なのですが、クラスター分析なのですね。クラスター分析とは、この記事の【ことば】の解説ですと、
【ことば】▽クラスター分析▽ 複数の個体間の類似度を数値化、近いものを集めてクラスター(集団)を作る統計的分析手法。消費者が品物を選ぶ際に何を重視するかを調査し、分類した集団の特徴に応じて商品開発や販売に役立てるマーケティングに有効なほか、検査値に基づく疾患分類などさまざまな分野で活用されている。今回は立候補予定者について、21問を均等にとらえたうえで、所属政党を超えて考え方の近い集団の形成を試みた。類似度の制約をゆるめることで集団は順次減らすことができるが、集団数が減るほどそれぞれの特徴は薄れる。
というものです。これは結構大昔からある統計手法で、私も卒論で使ったりした懐かしい思い出がありますし、この間知り合いの卒論での調査に協力したときにも使われてて、ついつい懐かしくて
中身、だけではなくて手法で話がはずんじゃう
なんてことになりました(苦笑)。心理学とか専門の分野ではよく使われますが、s新聞のような一般向けの記事で「クラスター分析とは」なんて出ていて少し「へえ」となっちゃったのですね。
とはいえ、これ結構使いでのある技法です。統計手法とはいえ、
差が有意かどうか
を検定するものではなくて、
与えられたデータから、何かの知見を得る
という因子分析と同じような発見的な統計技法のひとつです。ですから、新聞の調査では、
各立候補者の主張する政策の類似性によって、立候補者のグループ分けをする
というかたちで、「新しい知見」を得ているわけです(ホントはクラスター分析だと融合水準のデンドログラム(樹状図)を見せてくれた方が判りやすいのですが...)。
実は去年の話題の書である、「集合知プログラミング」でも、このクラスター分析が紹介されていて、やはりこの本だと話題は
ブログを単語ごとに分解して、いろいろなブログの間での類似性を評価する
のに使われていたりしたわけです。まあ、こういう「使い方」があの本らしいところですが、それだけではなくて、結構クラスター分析っていろいろな応用があるようにも思います。ここらへん、
プログラマの教養、かつ隠し技としてイケてるテクニック
だと思いますからオススメです。勉強してみたらいかが?
投稿者 : 杉浦 こずえ | 投稿日時 : 2009.01.06 19:51





