Home Hazard and Socio-economic Exposure Estimates 1870 ~ 2020 (Hanze v2.0)
Post
Cancel

Hazard and Socio-economic Exposure Estimates 1870 ~ 2020 (Hanze v2.0)

들어가며

지금까지 많은 연구들은 기후적 요소(climatic driver; 기온/강수/습도/구름/바람)의 변화들이 우리 인간 사회에 끼치는 영향들을 ‘재해로 인한 경제적 손실’ 같은 지표로 정량화하고 이에 대응해왔다.


하지만 자연 재해 리스크에 대한 더욱 정확한 이해와 대응력을 갖추기 위해서는, 비기후적 요소(non-climatic driver)들의 변화 역시 함께 주시하고 파악하여 계산과 대응에 반영할 필요가 있다.


예컨대 특정 지역에 대해, 거주하는 인구수나 경제적 생산가치, 유형적 재산(부동산 건물, 인프라 등)의 크기 등을 고려했을 때, 노출된 규모가 크다면 우리들은 해당 지역의 재해 대책 마련에 대한 예산을 더욱 투입하여 재난 피해를 최소화해야할 것이다. 즉 다시 말해, 재난 위험에 노출된 사회경제적인 요소 수준이 어느 정도인지 정확한 진단들을 보유하고 있어야 한다는 이야기다. 이러한 요소들을 Socio-economic Exposures라고 부른다.


토지의 특성도 여러 가지 측면에서 기술할 수 있겠지만, 대표적으로 토지의 다짐도 (soil compaction; soil sealing degree)를 떠올려 볼 수 있다. 토지는 토지 이용의 목적에 따라 절토/성토/정지/포장되어 그 형질이 변화된다. 이러한 과정에 따라 토지 속 공극비가 조절되고 토지의 압축성이 변화한다. 만약 압축성이 작은 토지 위에 비가 내려 빗물이 쌓인다면, 물은 토양에 흡수되어 지하수를 통해 바다로 배출될 것이다. 하지만 압축성이 큰 토지 형질의 경우, 빗물은 흡수되기보단 토지 위에 그대로 쌓이는 비중이 많아져 홍수 피해 (floods)란 재난 리스크를 유발하게 된다. 즉, 이 경우 토지의 다짐도 수준이 floods’ hazard (위험요소)로 인식된다는 이야기다. 그리고 보통 도시나 개발 지역의 토지 다짐도 수준이 높다.


정리하자면, 과거 역사적 재난의 크기와 또는 그로 인한 경험적 피해 규모들로 오늘 날의 기후 변화로 인한 영향을 평가하고 가늠하는 것은 한계가 있다. 왜냐하면, 시대가 흐르면서 함께 변화하는 socio-economic exposure 요소들과 토지 형질 따위의 환경의 변화 때문이다. 즉, 앞서 언급한 사회경제적 요소들이 특정 지역에 얼마나 노출되어 있는지/토지의 특징은 어떠한지 함께 고려해야, 가까운 미래의 우리 사회에 끼칠 기후적 영향들을 제대로 파악하고 대응할 수 있는 것이다.


이러한 취지로 이번에 읽어본 논문의 연구팀은 지난 2018년에 Hanze v1.0 모델을 시작으로 올 2023년 6월 Hanze v2.0 모델을 소개하는 논문을 내었고, Hanze v2.0 모델에서 추출된 1870년부터 2020년 사이 유럽 내 socio-economic exposures와 토지 이용 및 특징 (Land Cover/use and Soil sealing degree)에 관한 데이터들을 오픈 배포하였다. 데이터셋들의 validation 과정과 결과는 본문을 참조하면 된다. 이제 데이터셋들을 하나하나 열어 살펴보자.

Hanze v2.0 European Exposure Estimates

References

  1. Paprotny, D., & Mengel, M. (2023). Population, land use and economic exposure estimates for Europe at 100 m resolution from 1870 to 2020. Scientific Data, 10(1), 372.
  2. Paprotny, D. (2023). Pan-European exposure maps and uncertainty estimates from HANZE v2.0 model, 1870-2020.
  3. Paprotny, D. (2023). HANZE v2.0 exposure model.


1
2
3
4
5
6
7
8
9
10
11
12
13
14
import os
import numpy as np, pandas as pd, matplotlib as mpl, matplotlib.pyplot as plt
from mpl_toolkits.axes_grid1.anchored_artists import AnchoredSizeBar
from matplotlib.patches import Rectangle
from mpl_toolkits.axes_grid1.inset_locator import inset_axes
from PIL import Image
import cv2
from osgeo import gdal
from tqdm import tqdm
import warnings

# mpl.use('module://matplotlib_inline.backend_inline')
warnings.simplefilter(action='ignore', category=FutureWarning)
os.environ['GDAL_PAM_ENABLED'] = 'NO'


osgeo.gdal installation

일반적으론 conda install -c conda-forge gdal 또는 pip install GDAL 로 간편하게 설치할 수 있다고 하는데, 내 경우엔 solving environment 에서 stuck (being hung forever…) 되는 현상이 발생했고 후자의 방법에선 bashrc와 libgdal config를 다시 잘 설정하라는 성가신 요구가 주어졌다. 그래서 찾은 대안이 mamba 라는 아나콘다(Anaconda.com) 팀에서 conda를 c++ 버전으로 re-implementation한 새로운 패키지 매니저를 이용하는 것이다. 사실 앞서 이야기한 solving environment forever 외에도 고질적인 문제들이 많았는데 그런 것들을 이번 mamba에선 잘 (특히 속도 및 안정성면에서) 개선했다고 한다. 그리고 무엇보다 그냥 기존 conda “command line”에 conda대신 mamba만 바꿔 넣으면 되는 식이라 (= high backward compatibility) 원래 conda를 쓰던 사용자면 더욱이 안 쓸 이유가 없는 것 같다.


아무튼 아래대로 진행하면 GDAL python package를 문제없이 내 conda env에다가 설치할 수 있다.

1
2
>>> conda install -c conda-forge mamba  # mamba package manager installation
>>> mamba install -c gdal-master gdal  


Data Acquisition and Data Tree

전체 데이터셋은 May 2, 2023 Zenodo 링크에서 내려받을 수 있다. 압축 파일들의 크기를 제외하면 본 데이터셋 전체 크기는 약 30GB 정도 된다.
데이터의 Spatial Coverage는 유럽 내 NUT3 지역들이다.


NUTS: Nomenclature of Units for Territorial Statistics (통계지역단위명명법). NUTS는 유럽연합(EU)에서 최초로 정의했고, 주로 유럽연합 회원국들에서 사용하는 범유럽 내 행정지역 구분단위이다.
총 3-level hierarchy (NUTS1, NUTS2, NUTS3) 를 가지고 있고, 숫자가 클 수록 구역들을 더욱 세밀하게 구분한 것이라고 보면 된다.


데이터셋 종류

  • Raster Dataset (.tif; temporal coverage: 1870년 ~ 2020년)
    • CLC: land cover/use dataset - CLC라는 토지이용 분류법으로 특정 grid가 어느 토지목적 및 용도인지 기록한 데이터.
    • Imperviousness density(%): 해당 지역 및 토지의 불침투성(imperviousness)을 수치화한 데이터. (e.g. 불침투성이 높은 지역은 우천시 비가 토양에 스며들지않고 표면에 쌓여서 범람이나 홍수 피해의 위험이 있다.)
    • GDP: 해당 grid의 GDP 수준이 어느 정도 되는지 기록한 데이터. (2020년 기준 Euro 단위)
    • Fixed Asset(FA): 해당 grid 내에 유형적 재산(부동산 및 건물 등)의 규모가 어느 정도인지 기록한 데이터. (2020년 기준 Euro 단위)
    • Population: 거주하는 인구가 얼마나 되는지.
  • METADATA-1: Land_cover_use_legend
    • A list of labels for each CLC/GRID_CODE
  • METADATA-2: Exposure_(coastal/river)_hazard_zone.csv
    • Uncertainty estimates of exposure
  • METADATA-3: NUTS3database(economy/population_land_use).xlsx
    • Subnational and national-level statistical data on population, land use and economic variables.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
>>> tree --du -h

dataset/
├── [1.6M]  Exposure_coastal_hazard_zone.csv
├── [5.2M]  Exposure_river_hazard_zone.csv
├── [4.0M]  NUTS3_database_economy.xlsx
├── [3.0M]  NUTS3_database_population_land_use.xlsx
│
├── [9.0G]  Fixed_asset_value_1870_2020
│   ├── [195M]  FA_100m_1870.tif
│   ├── [197M]  FA_100m_1880.tif
│   ├── ...
│   └── [258M]  FA_100m_2020.tif
│
├── [ 10G]  GDP_1870_2020
│   ├── [232M]  GDP_100m_1870.tif
│   ├── [233M]  GDP_100m_1880.tif
│   ├── ...
│   └── [289M]  GDP_100m_2020.tif
│
├── [3.1G]  Imperviousness_1870_2020
│   ├── [ 67M]  Imp_1870.tif
│   ├── [ 69M]  Imp_1880.tif
│   ├── ...
│   └── [ 87M]  Imp_2020.tif
│
├── [4.2G]  Land_cover_use_1870_2020
│   ├── [106M]  CLC_1870.tif
│   ├── [106M]  CLC_1880.tif
│   ├── ...
│   └── [112M]  CLC_2020.tif
│
├── [3.5G]  Population_1870_2020
│   ├── [ 84M]  Population_100m_1870.tif
│   ├── [ 85M]  Population_100m_1880.tif
│   ├── ...
│   └── [ 95M]  Population_100m_2020.tif
│
├── [ 46K]  Land_cover_use_legend
│   ├── [ 16K]  Land_cover_use_classes.xlsx
│   ├── [ 16K]  clc_legend_arcgis_raster.tif.lyr
│   └── [ 14K]  clc_legend_qgis_raster.qml
└── [ 23G]  zipfile
    ├── [7.0G]  Fixed_asset_value_1870_2020.zip
    ├── [8.5G]  GDP_1870_2020.zip
    ├── [2.1G]  Imperviousness_1870_2020.zip
    ├── [3.4G]  Land_cover_use_1870_2020.zip
    ├── [ 20K]  Land_cover_use_legend.zip
    └── [2.2G]  Population_1870_2020.zip

  53G used in 7 directories, 209 files
1
2
3
4
5
6
7
8
9
10
11
12
13
14
BasePath = 'dataset/'
subDirs = []
BaseFiles = []
for content in os.listdir(BasePath):
    if os.path.isfile(os.path.join(BasePath, content)):
        BaseFiles.append(content)
    else:
        subDirs.append(content)

print("Files on the base path:")
print(BaseFiles)
print()
print("Sub-directories:")
print(subDirs)
1
2
3
4
5
Files on the base path:
['Exposure_coastal_hazard_zone.csv', 'Exposure_river_hazard_zone.csv', 'NUTS3_database_economy.xlsx', 'NUTS3_database_population_land_use.xlsx']

Sub-directories:
['Fixed_asset_value_1870_2020', 'GDP_1870_2020', 'Imperviousness_1870_2020', 'Land_cover_use_1870_2020', 'Land_cover_use_legend', 'Population_1870_2020', 'zipfile']
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
def AboutTif(tif):
    '''
        Tiff or Tif 데이터를 로드한 gdal object에 대해 기본적인 정보를 보여주는 함수
    '''
    num_bands = tif.RasterCount
    msg = f"※ Number of bands: {num_bands}"
    print(msg)
    print(''.ljust(len(msg), '-'))

    rows, cols = tif.RasterYSize, tif.RasterXSize
    msg = f"※ Raster size: {rows} rows x {cols} columns"
    print(msg)
    print(''.ljust(len(msg), '-'))

    desc = tif.GetDescription()
    msg = f'Raster description: {desc}'
    print(msg)
    print(''.ljust(len(msg), '-'))
    
    for bandnum in range(1, num_bands+1):
        bandmsg = f" For {bandnum} band "
        print(f"{bandmsg:+^{len(msg)}}")

        band = tif.GetRasterBand(bandnum)
        null_val = band.GetNoDataValue()
        print(f"Null value: {null_val}") # " 아, 여긴 확실히 없다. "는 곳을 나타내는 값.
        
        minimum, maximum, mean, sd = band.GetStatistics(False, True) # first argument 를 True로 두면, Approximate한 값을 리턴한다.
        print(f"Mean: {mean:.3f} / SD: {sd:.3f} / min: {minimum:.3f} / max: {maximum:.3f}")
        print(''.ljust(len(msg), '+'), end='\n\n' if num_bands!=1 else '\n')


CLC: Land cover/use dataset

CLC(Corine Land Cover) classification

Needed directories:

  • dataset/Land_cover_use_1870_2020
  • dataset/Land_cover_use_legend


CLC Classes

1
2
3
print(f"Contents in a directory of < {subDirs[-3]} >")
clc_legend_files = os.listdir(os.path.join(BasePath, subDirs[-3]))
clc_legend_files
1
2
3
4
5
Contents in a directory of < Land_cover_use_legend >

['clc_legend_arcgis_raster.tif.lyr',
 'clc_legend_qgis_raster.qml',
 'Land_cover_use_classes.xlsx']
1
pd.read_excel(os.path.join(BasePath, subDirs[-3], clc_legend_files[-1]), engine='openpyxl')
GRID_CODECLC_CODELABEL1LABEL2LABEL3
01111Artificial surfacesUrban fabricContinuous urban fabric
12112Artificial surfacesUrban fabricDiscontinuous urban fabric
23121Artificial surfacesIndustrial, commercial and transport unitsIndustrial or commercial units
34122Artificial surfacesIndustrial, commercial and transport unitsRoad and rail networks and associated land
45123Artificial surfacesIndustrial, commercial and transport unitsPort areas
56124Artificial surfacesIndustrial, commercial and transport unitsAirports
67131Artificial surfacesMine, dump and construction sitesMineral extraction sites
78132Artificial surfacesMine, dump and construction sitesDump sites
89133Artificial surfacesMine, dump and construction sitesConstruction sites
910141Artificial surfacesArtificial, non-agricultural vegetated areasGreen urban areas
1011142Artificial surfacesArtificial, non-agricultural vegetated areasSport and leisure facilities
1112211Agricultural areasArable landNon-irrigated arable land
1213212Agricultural areasArable landPermanently irrigated land
1314213Agricultural areasArable landRice fields
1415221Agricultural areasPermanent cropsVineyards
1516222Agricultural areasPermanent cropsFruit trees and berry plantations
1617223Agricultural areasPermanent cropsOlive groves
1718231Agricultural areasPasturesPastures
1819241Agricultural areasHeterogeneous agricultural areasAnnual crops associated with permanent crops
1920242Agricultural areasHeterogeneous agricultural areasComplex cultivation patterns
2021243Agricultural areasHeterogeneous agricultural areasLand principally occupied by agriculture, with...
2122244Agricultural areasHeterogeneous agricultural areasAgro-forestry areas
2223311Forest and semi natural areasForestsBroad-leaved forest
2324312Forest and semi natural areasForestsConiferous forest
2425313Forest and semi natural areasForestsMixed forest
2526321Forest and semi natural areasScrub and/or herbaceous vegetation associationsNatural grasslands
2627322Forest and semi natural areasScrub and/or herbaceous vegetation associationsMoors and heathland
2728323Forest and semi natural areasScrub and/or herbaceous vegetation associationsSclerophyllous vegetation
2829324Forest and semi natural areasScrub and/or herbaceous vegetation associationsTransitional woodland-shrub
2930331Forest and semi natural areasOpen spaces with little or no vegetationBeaches, dunes, sands
3031332Forest and semi natural areasOpen spaces with little or no vegetationBare rocks
3132333Forest and semi natural areasOpen spaces with little or no vegetationSparsely vegetated areas
3233334Forest and semi natural areasOpen spaces with little or no vegetationBurnt areas
3334335Forest and semi natural areasOpen spaces with little or no vegetationGlaciers and perpetual snow
3435411WetlandsInland wetlandsInland marshes
3536412WetlandsInland wetlandsPeat bogs
3637421WetlandsMaritime wetlandsSalt marshes
3738422WetlandsMaritime wetlandsSalines
3839423WetlandsMaritime wetlandsIntertidal flats
3940511Water bodiesInland watersWater courses
4041512Water bodiesInland watersWater bodies
4142521Water bodiesMarine watersCoastal lagoons
4243522Water bodiesMarine watersEstuaries
4344523Water bodiesMarine watersSea and ocean
4448999NODATANODATANODATA



CLC Dataset

1
subDirs
1
2
3
4
5
6
7
['Fixed_asset_value_1870_2020',
 'GDP_1870_2020',
 'Imperviousness_1870_2020',
 'Land_cover_use_1870_2020',
 'Land_cover_use_legend',
 'Population_1870_2020',
 'zipfile']
1
2
3
clcPath = os.path.join(BasePath, 'Land_cover_use_1870_2020')
clcContents = os.listdir(clcPath)
print(clcContents)
1
['CLC_1870.tif', 'CLC_1880.tif', 'CLC_1890.tif', 'CLC_1900.tif', 'CLC_1910.tif', 'CLC_1920.tif', 'CLC_1930.tif', 'CLC_1940.tif', 'CLC_1950.tif', 'CLC_1955.tif', 'CLC_1960.tif', 'CLC_1965.tif', 'CLC_1970.tif', 'CLC_1975.tif', 'CLC_1980.tif', 'CLC_1985.tif', 'CLC_1990.tif', 'CLC_1995.tif', 'CLC_2000.tif', 'CLC_2001.tif', 'CLC_2002.tif', 'CLC_2003.tif', 'CLC_2004.tif', 'CLC_2005.tif', 'CLC_2006.tif', 'CLC_2007.tif', 'CLC_2008.tif', 'CLC_2009.tif', 'CLC_2010.tif', 'CLC_2011.tif', 'CLC_2012.tif', 'CLC_2013.tif', 'CLC_2014.tif', 'CLC_2015.tif', 'CLC_2016.tif', 'CLC_2017.tif', 'CLC_2018.tif', 'CLC_2019.tif', 'CLC_2020.tif']
1
2
3
# Open CLC_2020.tif
clc_sample = gdal.Open(os.path.join(clcPath, clcContents[-1]))
clc_sample
1
<osgeo.gdal.Dataset; proxy of <Swig Object of type 'GDALDatasetShadow *' at 0x2ad836ac5110> >
1
AboutTif(clc_sample)
1
2
3
4
5
6
7
8
9
10
※ Number of bands: 1
--------------------
※ Raster size: 40300 rows x 38686 columns
-----------------------------------------
Raster description: dataset/Land_cover_use_1870_2020/CLC_2020.tif
-----------------------------------------------------------------
++++++++++++++++++++++++++ For 1 band +++++++++++++++++++++++++++
Null value: -128.0
Mean: 6.763 / SD: 10.793 / min: 0.000 / max: 48.000
+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
1
2
band_data = clc_sample.GetRasterBand(1)
band_arr = band_data.ReadAsArray()
1
2
3
uni_val, counts = np.unique(band_arr.flatten(), return_counts=True)
uni_cnt_dict = dict(zip(uni_val, counts))
print(uni_cnt_dict)
1
{0: 1054655295, 1: 651457, 2: 16185621, 3: 2930798, 4: 391522, 5: 111500, 6: 314723, 7: 657085, 8: 117835, 9: 87857, 10: 316907, 11: 1237019, 12: 108962574, 13: 3939701, 14: 659855, 15: 3868078, 16: 2847839, 17: 4734889, 18: 41248948, 19: 540747, 20: 19870168, 21: 19736734, 22: 3306310, 23: 55153419, 24: 76809465, 25: 27558595, 26: 12633870, 27: 17511216, 28: 9830303, 29: 22554254, 30: 658536, 31: 6944318, 32: 13930342, 34: 1582250, 35: 1202907, 36: 11614310, 37: 413399, 38: 56733, 39: 18663, 40: 1232769, 41: 11655801, 42: 242107, 43: 49525, 44: 19471, 48: 85}
1
2
3
4
5
6
7
8
# Understanding cmap and norm
cList = ["paleturquoise", "red", "sandybrown", "lime", "green", "olive", "silver", "slategrey", "cyan"]
cmap = mpl.colors.LinearSegmentedColormap.from_list("", cList, len(cList))
cBounds = [0, 1, 12, 18, 23, 26, 30, 35, 40, 45]
norm = mpl.colors.BoundaryNorm(cBounds, len(cList))
cmap.set_under('aqua')
# cmap.set_bad(color='#16213E')
cmap.set_over(color='white')
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
fig, axs = plt.subplots(nrows=2, ncols=1, facecolor='w', figsize=(10, 13), height_ratios=[3.5, 1.5])

## CLC tif map Axis
axs[0].imshow(band_arr, cmap=cmap, norm=norm, interpolation='None', aspect='auto')
scale_bar = AnchoredSizeBar(axs[0].transData, 5000, '500 km', 'upper right', \
                fontproperties={'size':12}, sep=5, borderpad=2, \
                size_vertical=200, frameon=False, color='black')

axs[0].add_artist(scale_bar)
axs[0].grid(color='white', alpha=.7, linewidth=.6)
axs[0].set_xticklabels([])
axs[0].set_yticklabels([])
axs[0].tick_params(tick1On=False)

## Colors Desc. Axis
axs[1].set_xlim(0, 1)
axs[1].set_ylim(0, 1)

color_label = {'olive': 'Semi-natural vegetation', \
            'green': 'Forests', \
            'lime': 'Pastures and agro-forestry areas', \
            'sandybrown': 'Arable land and permanent crops', \
            'red': 'Artificial Areas', \
            'white': 'No data :(', \
            'paleturquoise': 'Out of data coverage', \
            'cyan': 'Water bodies', \
            'slategrey': 'Wetlands', \
            'silver': 'Open spaces and bare soils'
            }
cl_list = list(color_label.items())

cl_idx = 0 # initialize color and label index 
x, init_y = 0.05, round(1/12, 3) # initial y_position and stepper; 동일한 높이의 color box가 총 12개 있다 침.
for init_x in [0, 0.5]:
    for y_th in range(5): # 한 축에 다섯개씩
        color, label = cl_list[cl_idx]
        c_x, c_y = init_x + x, init_y + 2 * (init_y * y_th)
        width, height = .07, .1
        axs[1].add_patch(Rectangle(xy=(c_x, c_y), width=width, height=height, facecolor=color, edgecolor='black'))

        t_x, t_y = c_x + 0.09, c_y + (height/3)
        axs[1].annotate(label, xy=(t_x, t_y), fontsize=12)
        
        cl_idx += 1
else:
    axs[1].annotate('Corine Land Cover types - 2020', xy=(.02, 0.91), fontsize=14, weight='bold')

axs[1].set_xticklabels([])
axs[1].set_yticklabels([])
axs[1].tick_params(tick1On=False)

## Adjustment between the axes
fig.subplots_adjust(hspace=0.01)
plt.show()

png



1
2
3
4
5
6
7
8
9
fig, ax = plt.subplots(facecolor='w', figsize=(7, 7))
ax.imshow(band_arr, cmap=cmap, norm=norm, interpolation='None', aspect='auto')

ax.grid(color='white', alpha=.7, linewidth=.6)
ax.set_xticklabels([])
ax.set_yticklabels([])
ax.tick_params(tick1On=False)
plt.savefig('test_clc.png', bbox_inches='tight', pad_inches=.2)
plt.close()
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
# Easy way to display a set of images horizontally/vertically

def vstack(images):
    if len(images) == 0:
        raise ValueError("Need 0 or more images")

    if isinstance(images[0], np.ndarray):
        images = [Image.fromarray(img) for img in images]
    width = max([img.size[0] for img in images])
    height = sum([img.size[1] for img in images])
    stacked = Image.new(images[0].mode, (width, height))

    y_pos = 0
    for img in images:
        stacked.paste(img, (0, y_pos))
        y_pos += img.size[1]
    return stacked

def hstack(images):
    if len(images) == 0:
        raise ValueError("Need 0 or more images")

    if isinstance(images[0], np.ndarray):
        images = [Image.fromarray(img) for img in images]
    width = sum([img.size[0] for img in images])
    height = max([img.size[1] for img in images])
    stacked = Image.new(images[0].mode, (width, height))

    x_pos = 0
    for img in images:
        stacked.paste(img, (x_pos, 0))
        x_pos += img.size[0]
    return stacked
1
2
3
4
img_set = []
for _ in range(3):
    img = cv2.cvtColor(cv2.imread('test_clc.png'), cv2.COLOR_BGR2RGB)
    img_set.append(img)
1
2
3
hstack(img_set) 
# 단순 나열에 있어선, 만들어놓고 쓰기 편하긴 한데... annotate나 sub_title 같은 세부 작업이 어차피 필요함. 
# 그냥 익숙한 multiple axes + for loop 쓰자... 

png



Imperviousness density dataset

in the units of percent(%)

Needed directories:

  • dataset/Imperviousness_1870_2020
1
2
3
4
5
6
impPath = os.path.join(BasePath, 'Imperviousness_1870_2020')
print(impPath)
print()

impContents = os.listdir(impPath)
print(impContents)
1
2
3
dataset/Imperviousness_1870_2020

['Imp_1870.tif', 'Imp_1880.tif', 'Imp_1890.tif', 'Imp_1900.tif', 'Imp_1910.tif', 'Imp_1920.tif', 'Imp_1930.tif', 'Imp_1940.tif', 'Imp_1950.tif', 'Imp_1955.tif', 'Imp_1960.tif', 'Imp_1965.tif', 'Imp_1970.tif', 'Imp_1975.tif', 'Imp_1980.tif', 'Imp_1985.tif', 'Imp_1990.tif', 'Imp_1995.tif', 'Imp_2000.tif', 'Imp_2001.tif', 'Imp_2002.tif', 'Imp_2003.tif', 'Imp_2004.tif', 'Imp_2005.tif', 'Imp_2006.tif', 'Imp_2007.tif', 'Imp_2008.tif', 'Imp_2009.tif', 'Imp_2010.tif', 'Imp_2011.tif', 'Imp_2012.tif', 'Imp_2013.tif', 'Imp_2014.tif', 'Imp_2015.tif', 'Imp_2016.tif', 'Imp_2017.tif', 'Imp_2018.tif', 'Imp_2019.tif', 'Imp_2020.tif']
1
2
3
4
5
# Open Imp_2020.tif
imp_sample = gdal.Open(os.path.join(impPath, impContents[-1]))

# Glimpse at Imp_2020.tif
AboutTif(imp_sample)
1
2
3
4
5
6
7
8
9
10
※ Number of bands: 1
--------------------
※ Raster size: 40300 rows x 38686 columns
-----------------------------------------
Raster description: dataset/Imperviousness_1870_2020/Imp_2020.tif
-----------------------------------------------------------------
++++++++++++++++++++++++++ For 1 band +++++++++++++++++++++++++++
Null value: 255.0
Mean: 0.518 / SD: 4.961 / min: 0.000 / max: 100.000
+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
1
2
3
4
5
6
7
band_data = imp_sample.GetRasterBand(1)
band_arr = band_data.ReadAsArray()

# 0 % 인 지역이 굉장히 많다.
uni_val, counts = np.unique(band_arr.flatten(), return_counts=True)
uni_cnt_dict = dict(zip(uni_val, counts))
print(uni_cnt_dict)
1
{0: 1524045495, 1: 3172970, 2: 2526202, 3: 1937539, 4: 1614219, 5: 1390922, 6: 1215866, 7: 1070913, 8: 963898, 9: 867432, 10: 791911, 11: 728532, 12: 676894, 13: 626071, 14: 587461, 15: 553116, 16: 523460, 17: 493470, 18: 469269, 19: 446956, 20: 429956, 21: 407994, 22: 391830, 23: 377376, 24: 365155, 25: 350023, 26: 340728, 27: 329532, 28: 434482, 29: 376241, 30: 303639, 31: 297718, 32: 290710, 33: 283057, 34: 275980, 35: 271016, 36: 265487, 37: 258814, 38: 254430, 39: 248764, 40: 245665, 41: 238557, 42: 234874, 43: 231059, 44: 227653, 45: 283018, 46: 217780, 47: 213141, 48: 210700, 49: 204437, 50: 201606, 51: 197645, 52: 193288, 53: 188633, 54: 184766, 55: 180449, 56: 176575, 57: 171167, 58: 165792, 59: 161948, 60: 157694, 61: 151714, 62: 148491, 63: 142448, 64: 139310, 65: 133349, 66: 128242, 67: 123921, 68: 121416, 69: 115089, 70: 112060, 71: 108428, 72: 104475, 73: 100053, 74: 96511, 75: 93683, 76: 91675, 77: 87508, 78: 84339, 79: 81861, 80: 80284, 81: 76287, 82: 74117, 83: 71900, 84: 70784, 85: 67353, 86: 64721, 87: 62806, 88: 62024, 89: 58120, 90: 55768, 91: 54391, 92: 54442, 93: 50451, 94: 49498, 95: 48758, 96: 50573, 97: 46721, 98: 49979, 99: 60066, 100: 130209}
1
2
3
4
5
6
7
8
9
cList = ["dimgrey", "darkgrey", "sandybrown", "red"]
cmap = mpl.colors.LinearSegmentedColormap.from_list("", cList, len(cList))
cBounds = [1, 26, 51, 76, 101]
norm = mpl.colors.BoundaryNorm(cBounds, len(cList))
cmap.set_under('black')
cmap.set_over(color='white')

# .ipynb 에선 colorbar returned.
cmap 
1
2
3
4
5
6
7
8
## 확인용 코드블럭: 특정 값에 내가 원하는 색상이 잘 적용되는지 
test_value = 51
color = mpl.colors.rgb2hex(cmap(norm(test_value))[:3])

fig, ax = plt.subplots(facecolor='w', figsize=(3,3))
ax.scatter(.5, .5, s=5000, marker='s', transform=ax.transAxes, c=color)
ax.axis('off')
plt.show()

png



1
2
3
4
5
6
7
8
fig, ax = plt.subplots(facecolor='w', figsize=(8, 8))
ax.imshow(band_arr, cmap=cmap, norm=norm, interpolation='None', aspect='auto')

# ax.grid(color='white', alpha=.4, linewidth=.4)
ax.set_xticklabels([])
ax.set_yticklabels([])
ax.tick_params(tick1On=False)
plt.show()

png



History of the imperviousness

Imp_1870 $ \Rightarrow $ Imp_1920 $ \Rightarrow $ Imp_1970 $ \Rightarrow $ Imp_2020

1
2
3
4
5
6
7
8
9
10
11
12
13
# 어느 정도 높은 부분만 보고 싶어서 아래와 같이 설정하였다.

# black < 1%
# 1% <= black < 34% : Normal imperviousness
# 34% <= darkgrey < 67% : Intermediate 
# 67% <= red < 101% : High

cList = ["black", "darkgrey", "red"]
cmap = mpl.colors.LinearSegmentedColormap.from_list("", cList, len(cList))
cBounds = [1, 34, 67, 101]
norm = mpl.colors.BoundaryNorm(cBounds, len(cList))
cmap.set_under('black')
cmap.set_over(color='white')
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
years = [1870, 1920, 1970, 2020]
for yr in tqdm(years):
    target_path = os.path.join(impPath, f"Imp_{yr}.tif")
    print(target_path)
    one_imp = gdal.Open(target_path)
    
    # Get a raster image np.array 
    band_data = one_imp.GetRasterBand(1)
    band_arr = band_data.ReadAsArray()

    # Save figures
    fig, ax = plt.subplots(facecolor='w', figsize=(8, 8))
    ax.imshow(band_arr, cmap=cmap, norm=norm, interpolation='None', aspect='auto')
    ax.set_xticklabels([])
    ax.set_yticklabels([])
    ax.tick_params(tick1On=False)

    save_name = f"ImpMap_{yr}.png"
    plt.savefig(save_name, dpi=200, bbox_inches='tight', pad_inches=.2)
    plt.close()
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
  0%|          | 0/4 [00:00<?, ?it/s]

dataset/Imperviousness_1870_2020/Imp_1870.tif


 25%|██▌       | 1/4 [00:32<01:36, 32.19s/it]

dataset/Imperviousness_1870_2020/Imp_1920.tif


 50%|█████     | 2/4 [01:03<01:03, 31.89s/it]

dataset/Imperviousness_1870_2020/Imp_1970.tif


 75%|███████▌  | 3/4 [01:35<00:31, 31.80s/it]

dataset/Imperviousness_1870_2020/Imp_2020.tif


100%|██████████| 4/4 [02:07<00:00, 31.82s/it]
1
2
3
4
5
6
7
8
9
10
11
12
13
14
# Plotting the history of Imperviousness
fig, axe = plt.subplots(nrows=2, ncols=2, facecolor='w', figsize=(15, 15))
for ax, yr in zip(axe.flatten(), years):
    filename = f"ImpMap_{yr}.png"
    img = mpl.image.imread(filename)

    ax.imshow(img, interpolation='None', aspect='auto')
    ax.axis('off')

    title = f"Pan-Euporean Imperviousness in {yr}"
    ax.set_title(title, fontsize=15)

plt.subplots_adjust(wspace=.001, hspace=.05)
plt.show()

png



GDP / Fixed Assets / Population dataset

나머지 세 변수에 대한 데이터셋도 한 번에 살펴보자.

Needed directories:

  • GDP: dataset/GDP_1870_2020
  • Fixed Asssets: dataset/Fixed_asset_value_1870_2020
  • Population: dataset/Population_1870_2020
1
2
3
4
5
6
7
8
9
10
tif_list = []
for folder in ['GDP_1870_2020', 'Fixed_asset_value_1870_2020', 'Population_1870_2020']:
    folder_path = os.path.join(BasePath, folder)
    tif_name = os.listdir(folder_path)[-1] # 샘플로 2020년 데이터만 확인
    msg = f"< {tif_name} >"
    print(f"{msg:=^100}")
    tf = gdal.Open(os.path.join(folder_path, tif_name))
    AboutTif(tf)
    tif_list.append(tf)
    print()
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
=======================================< GDP_100m_2020.tif >========================================
※ Number of bands: 1
--------------------
※ Raster size: 40300 rows x 38686 columns
-----------------------------------------
Raster description: dataset/GDP_1870_2020/GDP_100m_2020.tif
-----------------------------------------------------------
+++++++++++++++++++++++ For 1 band ++++++++++++++++++++++++
Null value: 65535.0
Mean: 10783.017 / SD: 198597.734 / min: 0.000 / max: 316835788.000
+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

========================================< FA_100m_2020.tif >========================================
※ Number of bands: 1
--------------------
※ Raster size: 40300 rows x 38686 columns
-----------------------------------------
Raster description: dataset/Fixed_asset_value_1870_2020/FA_100m_2020.tif
------------------------------------------------------------------------
++++++++++++++++++++++++++++++ For 1 band ++++++++++++++++++++++++++++++
Null value: 65535.0
Mean: 61861.556 / SD: 1083751.583 / min: 0.000 / max: 1304974474.000
++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

====================================< Population_100m_2020.tif >====================================
※ Number of bands: 1
--------------------
※ Raster size: 40300 rows x 38686 columns
-----------------------------------------
Raster description: dataset/Population_1870_2020/Population_100m_2020.tif
-------------------------------------------------------------------------
++++++++++++++++++++++++++++++ For 1 band +++++++++++++++++++++++++++++++
Null value: 65535.0
Mean: 0.346 / SD: 5.617 / min: 0.000 / max: 6101.000
+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

나머지 데이터셋들도 역시 40,300 by 38,686 크기의 raster 데이터임을 확인할 수 있다.
각 데이터셋들의 colormap bound 는 data unique values들의 25th, 50th, 75th, 100th percentile 지점들로 나누고 색을 할당하자.


1
2
3
4
# GDP_100m_2020.tif
tf_one_test = tif_list[0]
test_band = tf_one_test.GetRasterBand(1)
test_val = test_band.ReadAsArray().flatten()
1
2
3
%%timeit -o
test_uni = pd.unique(test_val)
np.sort(test_uni)
1
2
3
6.67 s ± 18.3 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

<TimeitResult : 6.67 s ± 18.3 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)>
1
2
%%timeit -o
np.unique(test_val)
1
2
3
1min 37s ± 48.6 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

<TimeitResult : 1min 37s ± 48.6 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)>

np.unique()는 “unique 추출 + sort” 두 작업을 한번에 수행해서 느리다지만, 위 결과에선 pandas unique(without sorting) + numpy sort 로 개별수행해도 np.unique()가 (좀 심하게)훨씬 느리다는 것을 확인할 수 있다. 그러니까..
왠만하면 np.unique는 쓰지 말자…

다만, np.unique()의 return_counts 옵션(unique 추출 + 각 요소들의 포함 갯수 산출)은 꽤 요긴하다.


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
cList = ["dimgrey", "darkgrey", "sandybrown", "red"]
cmap = mpl.colors.LinearSegmentedColormap.from_list("", cList, len(cList))
cmap.set_under(color='black')
cmap.set_over(color='red')

norm_list = [] # a list of norms
for i in tqdm(range(len(tif_list))):
    if i == 0:
        img_cube = np.zeros((40300, 38686, 3)) # 여기다 차곡차곡 담을거임

    tf_band = tif_list[i].GetRasterBand(1)
    tf_img = tf_band.ReadAsArray()
    img_cube[:, :, i] = tf_img

    # 0 값은 다른 특정 색으로 할당할 것이기 때문에 2-th smallest 값을 minimum bound로 사용한다.
    tf_val = np.sort(pd.unique(tf_img.flatten()))
    second_min_val = [tf_val[1]] 
    cBounds = np.percentile(tf_val, q=[25, 50, 75, 100])
    cBounds = second_min_val + cBounds
    norm = mpl.colors.BoundaryNorm(cBounds, len(cList))
    norm_list.append(norm)
1
100%|██████████| 3/3 [01:19<00:00, 26.51s/it]
1
2
3
4
5
6
7
fig, axe = plt.subplots(nrows=1, ncols=3, facecolor='w', figsize=(32, 10))
for ii, ax in enumerate(axe.flatten()):
    ax.imshow(img_cube[:, :, ii], cmap=cmap, norm=norm_list[ii], interpolation='None', aspect='auto')
    ax.axis('off')

plt.subplots_adjust(wspace=.01)
plt.show()

png


Population tif 도 마찬가지로 unique value 들의 percentile binning 을 했는데, 시각화 표현이 잘 안된다.
작은 value 값을 갖는 grid들이 압도적으로 많아서일까? 한번 들여다보자.


1
2
3
4
5
6
# Population_100m_2020.tif

pop_sample = tif_list[-1]
pop_band = pop_sample.GetRasterBand(1)
pop_img = pop_band.ReadAsArray()
pop_value = pop_img.flatten()
1
2
3
uni_val, counts = np.unique(pop_value, return_counts=True)
uni_cnt_dict = dict(zip(uni_val, counts))
print(uni_cnt_dict)
1
{}

예상대로, 40300 x 38686 개의 그리드 규모(약 15억 5천만)에 15억 2천만개 그리드 정도가 population 0으로 확인된다. 그리고 value가 높을 수록 해당하는 그리드 갯수는 exponential보다 더욱 가파르게 감소한다. 그래서 약간의 대안으로 Population 데이터 시각화는 logbinning(값이 커질수록 더욱 큰 data range)으로 colorbar bound 들을 잡기로 했다.


1
2
3
4
5
6
7
8
9
10
11
fig, ax = plt.subplots(facecolor='w', figsize=(7, 5))

logbins = np.logspace(np.log10(1), np.log10(pop_value.max()), 6)
ax.hist(pop_value, bins=logbins, density=True, color='navy', histtype='step', hatch='///////')

ax.set_ylabel("Prob. Density", fontsize=13)
ax.set_xlabel("Population in a grid", fontsize=13)
ax.set_xscale('log')
ax.set_yscale('log')

plt.show()

png



1
2
3
4
5
6
7
cList = ["black", "olive", "darkorange", "red", "darkred"]
cmap = mpl.colors.LinearSegmentedColormap.from_list("", cList, len(cList))
cBounds = np.logspace(np.log10(1), np.log10(pop_value.max()+1), 6)
norm = mpl.colors.BoundaryNorm(cBounds, len(cList))
cmap.set_under('lavender')
cmap.set_over(color='white')
cmap
1
2
3
4
5
6
7
8
9
10
11
12
13
fig, ax = plt.subplots(facecolor='w', figsize=(8, 8))
im = ax.imshow(pop_img, cmap=cmap, norm=norm, interpolation='None', aspect='auto')

ax.set_xticklabels([])
ax.set_yticklabels([])
ax.tick_params(tick1On=False)

cbar_ax = fig.add_axes([0.91, 0.15, 0.01, 0.7])
cbar = fig.colorbar(im, cax=cbar_ax)
cbar.set_label(label="Estimated Population", size=14, rotation=270)
cbar.ax.tick_params(labelsize=14, rotation=30)

plt.show()

png



fin

This post is licensed under CC BY 4.0 by the author.

US Human Mobility during the COVID-19 Epidemic

Car traffic and parking density maps from Uber Movement travel times