ホーム > マンスリーレポート > 駅商圏を統計解析で読み解く~主成分分析とクラスター分析~

駅商圏を統計解析で読み解く~主成分分析とクラスター分析~

月刊GSI 2016年12月号(Vol.68)

 データ分析(統計解析)の目的は、膨大なデータを解釈して、何かしらのアクションにつなげることかと思います。様々な統計解析手法は、膨大なデータを解釈しやすいものに近づけていく作業とも言えるでしょう。今回は商圏分析分野において、統計解析手法を用いてデータを解釈する例をご紹介します。

◆印刷用PDFをダウンロード

はじめに

 チェーン企業の出店立地のひとつに駅前型立地というものがあります。駅を利用する人をターゲットとしたり、駅をTG(トラフィックジェネレーター:交通発生源)とするなどして、駅からの導線に出店するわけです。このような立地に出店する場合、最寄り駅自体の分析も必要になります。

 今回の分析ステップでは、駅商圏を定義し、駅商圏内のデータを集計します。集計した多変量のデータ項目を縮約し、分類するというものです。わかりやすく言うと、データから各駅の商圏を「学生の多い商業立地」や「近郊子育て家族」などにタイプ分けします。自社のターゲット立地に近いタイプの駅から出店候補物件を探したり、既存店の成功店と同じ立地タイプから探したりすることができるようになります。

 分析に用いる統計解析手法は大きく分けて2つあります。1つは主成分分析、もう1つはクラスター分析です。主成分分析では多くの変数を少ない変数に合成し直します。変数が少なくなればなるほど解釈が容易になります。クラスター分析ではグルーピングを行います。データ全体を一度に俯瞰するよりもグループ単位で見たほうが解釈しやすくなります。

駅商圏データ

 それでは実際に分析してみましょう。今回使用した駅のデータは、当社の駅乗降客数データです。全国の駅を網羅し、乗降客数等の情報を収録した、当社GIS(地図情報システム)「MarketAnalyzer™」用のポイントデータです。

図1:駅乗降客数データ

 図1は単純な駅のプロット図です。ここから1都3県の駅それぞれを中心に、駅前商圏をイメージして半径500m商圏を設定します。そしてその各商圏内の性・年代別昼間人口を集計し、構成比化します(今回は昼間人口総数が1000人以下の駅は除外しました。)

図2:駅半径500m圏内の商圏データ(性・年代別昼間人口)

 駅という位置情報に商圏データを紐付けることになります。実際のデータは図2のとおりです。

投入変数

 さて、今回は駅商圏データの項目として、性・年代別昼間人口を採用しました。基本的に駅周辺は住宅が少なく、オフィスや商業が集中しています。そこで国勢調査等の居住地ベースの統計データではなく、昼間人口的変数が有効と判断しました。一般に公開されている昼間人口では年齢別データは得られませんが、駅商圏の特性を知る際に年齢別という観点が重要という仮説のもと、当社の推計年齢別・タイプ別昼間人口データを用いることにしました。

データ項目の縮約(主成分分析)

 図2の表を再度ご覧ください。表では省略していますが、年代別のデータは16階級に分かれています。さらに男女別になっているため項目数は32項目です。32項目それぞれのデータの特徴を人間が判断するのは困難です。そこで主成分分析を行い、32の投入変数を縮約、固有値1以上の5つの主成分を採用しました。

主成分の解釈

 次に、採用した5つの主成分を解釈していきます。図3をご覧ください。横軸は5つの主成分で、縦軸は投入した年代別の構成比です。表中の数値は主成分と投入した構成比との相関係数です。主成分ごとに性・年代別に相関係数の高いところを読み取ります。例えば主成分1は20代後半から60代前半の男性が目立つため「サラリーマン」と命名しました。同様に主成分4は30代~40代の親世代と子世代の組み合わせから「子育て世代」としています。

  

 図3:主成分の解釈表(主成分と投入変数との相関係数)

主成分を用いて駅を分類(クラスター分析)

 この5つの主成分を投入変数として、駅をクラスター分析によって8分類しました。分類数をいくつか試してみて、最も解釈しやすかった分類数である8分類を採用しています。図4は、縦軸にその8分類(8クラスター)を、横軸に投入した5つの主成分をクラスターごとに集計し、偏差値(Zスコア:ゼロを基準にした偏差値)を表したものです。

 

   図4:クラスター解釈表(0を基準とした偏差値) 

  

   図5:クラスター解釈表(投入変数の平均値)

 また、図5はクラスターごとの性・年代別昼間人口の構成比の平均値です。これらの表から各クラスターを解釈していきます。クラスター2は図4から主成分1(サラリーマン)が他のクラスターより突出しています。主成分3(中年労働者)も高いです。図5から男性の比率が高く20代~60代が目立つことから「サラリーマン」としました。クラスター5は他のクラスターと比べても10代後半~20代前半が突出しているので、「学生街」としました。このような表からだけではなく、実際に地図上で分布を見て解釈することも必要です。

クラスターごとの駅分布

 東京駅、横浜駅、大宮駅を中心として、駅の分布をクラスターごとに色分けして地図に表現しました。

 

 東京駅周辺のクラスターごとの駅分布

 

横浜駅周辺のクラスターごとの駅分布

 

大宮駅周辺のクラスターごとの駅分布

終わりに

 今回は駅商圏をテーマに、多数のデータ項目を主成分分析によって縮約し、5つの主成分を投入して分類する手法を2つご紹介しました。データの意味を解釈するための代表的な統計解析手法です。参考になれば幸いです。当社では、このようなエリアマーケティングにおけるデータ分析手法と事例を定例セミナーで紹介しています。ご興味をお持ちいただけましたら是非ご参加ください。

※受付中のセミナー一覧はこちら

 

ご相談・資料請求はお気軽にどうぞ!
無料で資料請求 ➤
GSI
 ☎ 03-3506-1800
(受付時間:9:30~18:00 祝祭日を除く)