细粒度的中国地理数据分析（二）

本文对数据进行进一步分析，通过引入另一个地理包，能够提升地图数据的观感。

另外，本文还将涉及 Pandas 和 GeoPandas 的一些细节。

本系列的开源代码可见我的 Github 仓库

https://github.com/listenzcc/China-geometry-landmark^[1]

细粒度的中国地理数据分析（二）^[2]
- Pandas 数据表的 Group 和 Stack^[3]
- 城市的地块比例图^[4]
- 城市的聚类分析^[5]

Pandas 数据表的 Group 和 Stack

本系列的数据表如下图所示，我们关心的是用红框标示出的列，它们分别代表地块面积、城市代码、第一级和第二级的地块名称。接下来，我们将各个城市中不同地块的总面积比例进行统计，统计的方法使用 Pandas 的 Group 和 Stack 方法获得，这两种方法实现方便，语义明确，可以说十分优雅。其核心代码如下，其要点简述如下

首先，对 Pandas 的数据表进行 groupby 操作可以实现多级标签，其第一级是城市，第二级是地块种类；
其次，对 group 再进行 groupby(level=0).sum() 操作是保持第一级标签的前提下，对其余标签进行求和，这样可以得到该城市全部地块的总面积。有了总面积就可以方便地求得各个地块所占的比例；
最后，按照 Pandas 的语义逻辑来讲，它认为多级标签是 stack 在一起的，因此使用 unstack 方法可以将它“还原”成多列的形式，最后的 .fillna(0) 操作的目的是为了防止有些城市缺乏某种地块里出现 NaN 值。

# Compute land types' ratio in every city for the euluc_table
# It uses the group and upstack method.

# Group into 2-levels index
group = euluc_table.groupby(['City_CODE', 'Level2'])
table = group['F_AREA'].sum()
sum_by_city = table.groupby(level=0).sum()

# Compute the ratios
for c in tqdm(sum_by_city.index, 'Compute every cities'):
 v = sum_by_city[c]
 table[c] /= v

# Convert the grouped table into matrix format
matrix_formated_dataFrame = table_level2.unstack().fillna(0)