ホーム > マンスリーレポート > 国土数値情報ダウンロードサービス活用のすすめ

国土数値情報ダウンロードサービス活用のすすめ

月刊GSI 2013年2月号(Vol.25)

 GISを用いた空間情報の分析には様々な位置情報が必要ですが、マッピングするデータの不足により、説得力に欠けていたり、分析に深み・立体感がなく分析の途中で行き詰ってしまうなど、歯がゆい思いをした経験がある方も多いのではないでしょうか。高度な分析のために豊富なデータを入手するには、時間を費やして目的のデータを自ら収集するか、データベンダーと呼ばれる情報保有企業からデータを購入するか、どちらかが一般的な方法です。つまり、分析には時間と手間、お金がかかります。

◆印刷用PDFをダウンロード

1.はじめに

 GISを用いた空間情報の分析には様々な位置情報が必要ですが、マッピングするデータの不足により、説得力に欠けていたり、分析に深み・立体感がなく分析の途中で行き詰ってしまうなど、歯がゆい思いをした経験がある方も多いのではないでしょうか。高度な分析のために豊富なデータを入手するには、時間を費やして目的のデータを自ら収集するか、データベンダーと呼ばれる情報保有企業からデータを購入するか、どちらかが一般的な方法です。つまり、分析には時間と手間、お金がかかります。

 さらに、分析にはトライアンドエラーの繰り返しがつきものですが、時間やコストをかけてもすんなりと期待通りのものが得られないことがある、というエリアマーケティングシステムユーザーの声を聞くことがあります。そこで今回は、今後の分析業務における時間とコストを節約する手段として「国土数値情報ダウンロードサービス」をご紹介します(図1)。

 このサービスは、政府が一般公開している情報サイトです。様々な位置データが公開されており、簡単な操作でダウンロードできます。使用目的と必要なデータの種類によっては、現状の分析業務をよりスピーディーかつ安価に実施することができます。http://nlftp.mlit.go.jp/ksj/gml/gml_datalist.html

image5

【図1 国土数値情報ダウンロードサービス】

2.国土数値情報ダウンロードサービス

 具体的なご紹介の前に、本サービスが生まれたきっかけを説明します。

 平成19年に「地理空間情報活用推進基本法」という法律が施行されました。ここでは、今後の経済社会において地理空間情報の活用が重要であり、政府が主導となって推進する、とうたわれています。また、「地理空間情報活用推進基本計画」には「情報化の進展と社会のニーズを踏まえ、誰もがいつでもどこでも必要な地理空間情報を使ったり、高度な分析に基づく的確な情報を入手し行動できる地理空間情報高度活用社会の実現を目指す」と記述されています。この考えに基づき、国土交通省が政府の取りまとめ役となり、様々な地理空間情報を公開するサイトの1つとして「国土数値情報ダウンロードサービス」が生まれました。

 サイトには7分類61種類のデータ(表1)が公開されています(2012年9月30日現在)。多くは法律で定められ調査・収集されたデータで、「どこに何があるか」が分かる空間情報です。

image20

【表1 国土数値情報ダウンロードデータ一覧】

 

3.ダウンロードデータの活用例

 今回は【国土数値情報 交通流動量 駅別乗降数データ】の活用例をご紹介します。このデータは平成22年に東京都市圏で実施されたパーソントリップ調査の結果を駅毎に集計したもので、乗車駅(または降車駅)までの交通手段別とその人数が収録されています。

 このデータを単純に地図にインポートをした場合は調査地点が“点”で表されるだけですが、属性情報の「交通手段毎の数値」を円グラフで表現してみます(図2)。大まかに傾向をとらえると、都心部はほぼ“徒歩”で駅に向かっている様子が分かり、都心から離れるにつれ“自転車”の割合が増え、さらに離れた地域では“乗用車”の割合が増えていることが視覚的に分かります。 “乗用車”よりも“軽自動車”の割合が多い駅があることも分かります。こうしたデータの傾向を路線別に見ていくと、さらに発見があるかもしれません。

 このように、ダウンロードデータを使い、地域における駅までの移動実態を可視化することができましたが、本稿でお伝えしたいことは、駅の利用実態ではなく「政府がGISを使って分析するためのデータを一般に向け公開している」ということです。

 今後も政府主導による情報公開は進むと期待されますので、思いもよらないデータが公開されることがあるかもしれません。現状では皆さんが直面している課題を直接解決する素材にはならないかもしれませんが、新たなデータが公開されていないかアンテナを張りつつ、分析視点の幅を広げるために、一度本サイトをご覧になってはいかがでしょうか。

image19

【図2 駅別交通手段の違い】

『クラスター分析の基礎と商圏分析事例』~年齢別人口を使った地域の世代分類編~

1.クラスター分析の概要と利用場面

 クラスター分析とは、複数のサンプル(母集団)を算術的な手法で似通った特性ごとに分類(クラスター分け)する分析手法の総称です。その活用場面は統計解析やマーケティングでみられます。

 言うまでもなく、企業は顧客の動勢を把握して獲得し、収益を得ることが必要です。しかし、顧客を十把一絡げに捉えることは難しく、一方、各顧客に合わせて商品開発やプロモーションを行うことは事実上困難です。そこで1人1人の顧客をある程度のまとまった顧客グループに集約することで、現実的な商品開発やプロモーションが行われています。

 今回の自主調査では、まずクラスター分析の基礎情報を紹介します。その後、クラスター分析の事例として、大阪府、兵庫県にある約19,000※1の小地域(4次メッシュ※2)にクラスター分析を施した場合、どのように分類されるか、分類ごとの特性、差異はどのように解釈できるかを紹介します。クラスター分析を行う際の一連の手順としてご参考ください。少々説明が長くなりますので、クラスター分析の概要をご存知の方、分析結果が気なる方は第4章にお進みください。
※1:人口の値がない地域を除いた小地域数
※2:約500m四方の地域単位

image21

【表1 分析結果の成果物例:クラスター別概要】

image10

【図1 分析結果の成果物例:クラスター分布】 

2.クラスター分析の基礎情報

  クラスター分析には複数の種類があります。大別すると「階層的クラスター分析」と「非階層的クラスター分析」があり、それぞれに細かい計算アルゴリズムがあります。

■階層クラスター
 階層クラスター分析の計算アルゴリズムには以下のものがあります。

・ウォード法 ・最短距離法(最近隣法)
・最長距離法(最遠隣法)・メディアン法
・群平均法・重心法・可変法

 最も使用頻度が高いのはウォード法です。利用者からも、各クラスターのサンプル数が最もうまく分類される使い勝手の良い手法として評価されています。

 階層クラスター分析を行うと、単に対象をいくつかのクラスターに分類するだけでなく、どのようにクラスターが結合されていくかの過程までが見られる直観的なアウトプット、樹形図(デンドログラム)が得られます(図2)。欠点は、クラスター分析の対象が多い場合、計算量が非常に多くなり実行不可能となったり、結果が不安定となることがあります。このような特長があるため、次に紹介する非階層クラスター分析が用いられることがあります。

image12

【図2 樹形図(デンドログラム)】

 

■非階層クラスター
 非階層クラスター分析の計算アルゴリズムには以下のものがあります。

・k-means法 ・超体積法
 階層クラスター分析にせよ非階層クラスター分析にせよ、分類する対象がそれぞれ、どれほど「近い」か、もしくは「似ているか」を数量的に表すことを通じて分類されます。
その際に使われるのがユークリッド距離やマハラノビス距離です。ユークリッド距離は下式で表されます。

image13

この式はサンプルP、Q間の距離を意味します。この距離の値により、「近い」「似ている」を判定しています(図3)。

image14

【図3 ユークリッド距離の概念】

 

3.非階層クラスター分析(k-means法)のアルゴリズム

 代表的なクラスター分析として、非階層クラスター分析(k-means法)のアルゴリズムのポイントをご紹介します。非階層クラスター分析(k-means法)は、次のような流れで計算が行われます。

 まず、分析対象となるサンプルがあります。図4は個々のサンプルが持つ特性(例:需要と供給)の違いにより、サンプルのポジションをイメージ化したものです。

image15

【図4 サンプルの分布】

非階層クラスター分析では予め、サンプルを分類する数を指定します。その分類の数だけ、各分類の代表点となるシード(seed、種)が作られます。図5はサンプルを4つに分類した例です。初めのシードはサンプルからランダムに選ばれます()。

image16

 【図5 シードの設定】

 

 シードと他のサンプル間の距離を求め、それぞれのシードと近い関係をもつサンプルが分類されます(図5)。

image17

【図5 サンプルの分類(1回目)】

 

初期の設定シードを変更()していき、各シードと分類後の各サンプルとの距離が安定するまで繰り返されます。図5のAは初回の分類ではでしたが、最終的にはに分類されました(図6)。

image18

【図6 サンプルの分類(2回目~)】

 

 このように、クラスター分析は反復計算を経て結果が導き出されるため、計算量が膨大となり、処理時間が長くなることに注意が必要です。

 

4.クラスター分析例: 街の分類、類似する街の検証

 それではクラスター分析の事例として、大阪府、兵庫県にある約19,000の小地域(500mメッシュの数)を様々な属性で分類していきます。今回は非階層クラスター分析(k-means法)を使用します。また、投入するデータ(属性)は予め偏差値に変換した値を使用しています。

■事例 年齢別人口構成で10分類する。
【目的】
 地域毎に異なる年齢別人口構成の特性を、類似する特性に集約する。
【設計】
 0-4歳人口から80-84歳人口の5歳階級別人口と85歳以上の人口を使用。

【クラスター分析結果】

image46

 【クラスターの特性】

 各クラスターの解釈の結果、人口密度と世代バランス(ニューファミリー地域、少子高齢化地域)により特性が導き出されました。解釈にあたって使用した年齢階級ごとのクラスター別平均値は本稿の末尾(参考1、参考2)をご参照ください。

●クラスター1(CL1)
 各年代ともクラスター中で最も小さな値を示しており、そもそも人口密集度合いが小さく、小規模な集落と推測されます。

●クラスター2(CL2)
 他のクラスターと比べて各年代とも大きな値ではなく、人口密度は高くありません。10代未満、30代の値がクラスターの内4番目に大きく、さらに65歳以上の値は小さくなっています。若いニューファミリーが集まる地域と推測されます。

●クラスター3(CL3)
 クラスター中、5番目の人口密集規模。少子高齢化地域の様相がうかがえます。

●クラスター4(CL4)
 クラスター中、4番目の人口密集規模。クラスター3同様に、少子高齢化地域の様相がうかがえます。

●クラスター5(CL5)
 人口密集度は小さいながら、10代未満、30代の値が比較的大きく、若いニューファミリー層が集まっていることがうかがえます(クラスター2の縮小版)。

●クラスター6(CL6)
 全体的に平均値の50前後を示しており、全クラスター中で中位的なポジションと推測されます。

●クラスター7(CL7)
 クラスター8に次いで全体的に値が大きく、特に65歳以上の年代は、クラスター中で最も大きな値を示しています。一方、10歳未満の年代は規模のわりに小さく、少子高齢化地域の様相がうかがえます。

●クラスター8(CL8)
 最も大きな値がほとんどの年代で現れており、クラスターの中で最も人口密度が高い地域と推察されます。各年代の人口が多く、高齢者層、団塊世代、団塊ジュニア世代、その子供世代と、それぞれの世代が集まっています。

●クラスター9(CL9)
 クラスター7、8に次いで3番目に大きな値が現れています。しかしながら、先のクラスター7に比べると10代未満の値が大きく、65歳以上の値は小さくなっており、若いニューファミリーが目立つ地域と推測されます。

●クラスター10(CL10)
 クラスターの内、2番目に小さな値が出現しています。偏差値の50を下回っており、小規模な集落と推測されます。

【クラスターの地域分布】
 それでは、今回導き出した各クラスターを地図に展開し、地域ごとにどのクラスターが出現しているかをご紹介します。
各クラスターは下図の配色で表しています。

image47

●全体像

image21

 兵庫県北部の山岳地帯や淡路島で多くみられるのがクラスター1です。クラスター1は小規模な集落という特性でした。また、神戸市や大阪府に目を向けると、各クラスターがまばらに出現していることが分かります。

 

●姫路市付近

image20

 姫路市付近ではクラスター1、6、10が目立ち、1部にクラスター2、3、5があります。クラスター7、8は出現しませんでした。いずれのクラスターも大きな人口密集度を表すものではありませんが、少子高齢化地域(東加古川)、若いニューファミリー(西明石)が集まる特徴的な街があります。

 

●神戸市付近

image23

  神戸市付近ではほとんどのクラスターが出現しています。人口密集度の高低はもちろん、少子高齢化の地域、ニューファミリーが集まる地域が点在しています。クラスター9が目立つのは神戸市東灘区と芦屋市の南部で、若いニューファミリーが集まっています。逆にJR線をはさんだ山側では少子高齢化がうかがえます。

 

●大阪府北部

image24

 クラスター内で最も人口密集度が高いと推測されたクラスター8が三国や上新庄、江坂で出現します。また人口密集度が高くニューファミリー層が集まる地域(クラスター9)が、武庫之荘周辺、塚口の南東、曽根駅周辺、緑地公園駅を中心にした御堂筋線沿い、千里山駅から少しはなれた東に出現します。密集度の高低はありますが、少子高齢化を示すクラスター4、7が阪急線沿線(服部駅、庄内駅、庄内駅、豊津駅、岡町駅、淡路駅)で目立ちます。

 

●大阪市付近

image25

 大阪市では人口密集度が高いと推測されたクラスター7、8、9が目立ちますが、とりわけクラスター7が広範囲に出現しています。クラスター7の特性は人口密集度の高さと少子高齢化ですので、大阪市の高齢化が如実にうかがえます。

 

●大阪府南部

image26

 人口密集度は大きくありませんが、ニューファミリーと少子高齢地域の特性を持つクラスター2、3が同程度で出現しています。また人口密集度が高く、ニューファミリー層が集まる地域が点在している点が、大阪府北部、大阪市内とは異なります。

 

5.最後に

 クラスター分析では属人的な判定を排除して処理されるため、経験則に基づいて実施された顧客分類や店舗分類と比べることで新しい発見があるかもしれません。   
 弊社では空間解析と統計解析を充実させた商圏分析ソフトMarketAnalyzerを駆使し、貴社の課題にお応えします。

image48

【参考1  クラスター別の特性まとめ】

配色の説明:事例で紹介した地図の色に対応しています。

image49

【参考2 クラスター別年齢階級別平均値】

配色の説明:赤枠内のすべての値に対し、条件付き書式のカラースケールを適用しています。緑色が大きな値、赤色が小さな値を示します。

NEW TOPICS

国勢調査データベースシリーズ

image23

レポーティングクラウドサービス r4b®(report for biz)

image24

分析・解析の専門家集団のエリアマーケティング

エリアマーケティングの活用分野

 技研商事インターナショナルのエリアマーケティングソリューションは、小売業/飲食チェーン/商業開発/消費財メーカー/サービス/不動産/広告/コンサルティング等の業界において、店舗開発や販売促進、リテールサポートや営業企画等の戦略施策、意思決定に広く活用されています。

 お客様の課題を解決するため、統計士等の資格を持つコンサルタントが最適な分析環境、分析ロジックをご提案します。

image25

【弊社の強み】

image26

 

エリアマーケティングソリューションラインナップ

 クライアントの課題・分析ニーズに応じて、分析・解析の専門家集団が最適な分析手法・ツール・利用形態をご提供します。統計解析等の高度な分析機能を有するGISラインナップから分析請負サービスまで、幅広いソリューションを取り揃えています。

image27

ご相談・資料請求はお気軽にどうぞ!
無料で資料請求 ➤
GSI
 ☎ 03-3506-1800
(受付時間:9:30~18:00 祝祭日を除く)