当前位置：首页 > news >正文

数据可视化基础与应用-04-seaborn库人口普查分析--如何做人口年龄层结构金字塔

news 2026/2/8 7:08:04

总结

本系列是数据可视化基础与应用的第04篇seaborn，是seaborn从入门到精通系列第3篇。本系列主要介绍基于seaborn实现数据可视化。

参考

参考:我分享了一个项目给你《seaborn篇人口普查分析–如何做人口年龄层结构金字塔》，快来看看吧

数据集地址
https://www.kesci.com/mw/project/5fde03b883e4460030a8dc3d/dataset

数据集介绍

2010年各地区分年龄，性别人口数据

背景描述
数据为中国2010年人口普查资料，包含2010年各地区分年龄、性别的人口，各地区分性别的户籍人口， 2010年（城市，乡村，镇）各地区分年龄、性别的人口

数据说明
1-7c 各地区分年龄、性别的人口(乡村).csv
1-7b 各地区分年龄、性别的人口(镇).csv
1-7a 各地区分年龄、性别的人口(城市).csv
1-3 各地区分性别的户籍人口.csv
各地区分年龄、性别的人口.csv
数据来源

中国2010年人口普查资料

问题描述
20年来出生男女比例变化？
男女找对象的合适年龄假设？初婚和再婚？
基于以上假设，哪个省份的男生以后找女朋友会越来越难？
结合结婚率、离婚率、民族、地域等信息，进一步猜测00后找女朋友的趋势变化

案例

#导入包
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
plt.style.use('fivethirtyeight')from warnings import filterwarnings
filterwarnings('ignore')

#读取各地区分年龄、性别的人口
pcount = pd.read_csv('/home/kesci/input/GENDER8810/各地区分年龄、性别的人口.csv',skiprows=2)
"""
2010年各地区分年龄，性别人口数据
背景描述数据为中国2010年人口普查资料，包含2010年各地区分年龄、性别的人口，各地区分性别的户籍人口， 2010年（城市，乡村，镇）各地区分年龄、性别的人口
数据说明1-7c 各地区分年龄、性别的人口(乡村).csv
1-7b 各地区分年龄、性别的人口(镇).csv
1-7a 各地区分年龄、性别的人口(城市).csv
1-3 各地区分性别的户籍人口.csv
各地区分年龄、性别的人口.csv
"""

1. 探索性分析并处理数据

pcount.head()

输出为：
在这里插入图片描述

pcount.info()

输出为：
在这里插入图片描述

1.1 删除多余的列

#删除所有值为na的列 
pcount=pcount.dropna(axis=1,how='all')

1.2 处理表头

def rename(frame):for i in range(frame.shape[1]):frame.iloc[1,0]='地区'if frame.iloc[1,i]=='小计':frame.iloc[1,i]='小计'+ '_'+str(frame.iloc[0,i])elif frame.iloc[1,i]=='男':frame.iloc[1,i]='男' + '_' + str(frame.iloc[0,i-1])elif frame.iloc[1,i]=='女':frame.iloc[1,i]='女' + '_' + str(frame.iloc[0,i-2])rename(pcount)
pcount.head()

输出为：
在这里插入图片描述

1.3 透视数据

pcount.columns = pcount.iloc[1,]
pcount.columns

输出为：
在这里插入图片描述

pcount = pcount.iloc[2:,:]
pcount

输出为：
在这里插入图片描述

pcounts = pcount.set_index("地区").stack().reset_index()
pcounts

输出为：
在这里插入图片描述

pcounts.columns = ['地区','类别','统计人数']
pcounts

输出为：
在这里插入图片描述

1.4 处理空格（数据量大的话不建议这么做）

def replace_r(frame):for i in range(frame.shape[0]):frame.iloc[i,0] = frame.iloc[i,0].replace(" ",'')frame.iloc[i,1] = frame.iloc[i,1].replace(" ",'')replace_r(pcounts)
pcounts

输出为：
在这里插入图片描述

1.5 增加统计列

pcounts['年龄段'] = pcounts['类别'].str.split('_').str[-1]
pcounts['性别'] = pcounts['类别'].str.split('_').str[0]
#将统计人数转换为数值
pcounts['统计人数']=pcounts['统计人数'].astype('int')

2. 可视化部分

2.1 我国人口总数

plt.figure(1,figsize=(16,6))
plt.subplot(1,2,1)
sns.barplot(y=['全国人口总数','男性人口总数','女性人口总数'],x=[1337376754,687562046,649814708],color='CadetBlue')
plt.title("全国人口总数",loc='left')
plt.xticks(fontsize=12)
plt.yticks(fontsize=13)plt.subplot(1,2,2)
patches,l_text,p_text=plt.pie([687562046,649814708],labels=['男性','女性'],autopct='%.2f%%',colors=['CadetBlue','DarkSalmon'],explode=[0,0.05],startangle=90)
plt.title('不同性别占全国人口总数的百分比')
plt.axis('equal')
plt.show()

输出为：
在这里插入图片描述

2.1 人口年龄结构金字塔（左边女右边男）

result = pcounts[(pcounts['性别'].isin(['男','女']))&(pcounts['地区']=='全国')&(pcounts['年龄段']!='合计')]
result

输出为：
在这里插入图片描述

result['人口占比'] =( result['统计人数']/result['统计人数'].sum()*100).round(2)
result

输出为：
在这里插入图片描述

# 女性占比
-result[result['性别']=='女']['人口占比'].values

输出为：
在这里插入图片描述

plt.figure(figsize=(12,8))bar_plot = sns.barplot(y = result['年龄段'].unique(), x = -result[result['性别']=='女']['人口占比'].values, color = "DarkSalmon", data = result,order = result['年龄段'].unique()[::-1],)
bar_plot = sns.barplot(y = result['年龄段'].unique(), x = result[result['性别']=='男']['人口占比'].values, color = "CadetBlue",data = result,order = result['年龄段'].unique()[::-1],)plt.xticks([-5,-3,-1,0,1,3,5])
# plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']
plt.rcParams['axes.unicode_minus'] = True
bar_plot.set(xlabel="人口占比（%）", ylabel="年龄层", title = "2010中国人口普查年龄结构金字塔")
plt.show()

输出为：
在这里插入图片描述

2.2 差异

data = {'index': result['年龄段'].unique(),'男': result[result['性别']=='男']['人口占比'].values,'女': result[result['性别']=='女']['人口占比'].values,}
Data = pd.DataFrame(data)
Data['差异']=Data['男']-Data['女']
Data

输出为：
在这里插入图片描述

plt.figure(1,figsize=(12,8))
sns.lineplot(x=Data['index'],y=Data['差异'],color='DarkSalmon',sort=False)
plt.xlabel("年龄层")
plt.ylabel("人口占比(%)")
plt.title("各年龄层的 男 VS 女(占比)的差异")
plt.xticks(rotation=35)
plt.show()

输出为：
在这里插入图片描述

2.3 北京、上海、广东地区的人口年龄结构金字塔（左边女右边男）

plt.figure(1,figsize=(18,16))
n = 0
for x in ['北京','上海','广东']:result = pcounts[(pcounts['性别'].isin(['男','女']))&(pcounts['地区'] == x )&(pcounts['年龄段']!='合计')]result['人口占比'] =( result['统计人数']/result['统计人数'].sum()*100).round(2)n +=1plt.subplot(2,3,n)bar_plot = sns.barplot(y = result['年龄段'].unique(), x = -result[result['性别']=='女']['人口占比'].values, color = "DarkSalmon", data = result,order = result['年龄段'].unique()[::-1],)bar_plot = sns.barplot(y = result['年龄段'].unique(), x = result[result['性别']=='男']['人口占比'].values, color = "CadetBlue",data = result,order = result['年龄段'].unique()[::-1],)plt.xticks([-7,-5,-3,-1,0,1,3,5,7],[7,5,3,1,0,1,3,5,7])plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']plt.rcParams['axes.unicode_minus'] = Truebar_plot.set(xlabel="人口占比（%）", ylabel="年龄层", title = x )plt.ylabel('')
plt.show()

输出为：
在这里插入图片描述

上图这三个地区还是比较突出的但不容易看出男女差异，我们再来一个性别的对比图

plt.figure(1,figsize=(18,16))
n = 0
for x in ['北京','上海','广东']:result = pcounts[(pcounts['性别'].isin(['男','女']))&(pcounts['地区'] == x )&(pcounts['年龄段']!='合计')]n +=1plt.subplot(2,3,n)sns.barplot(x='统计人数',y='年龄段',hue='性别',data=result,palette=['CadetBlue','DarkSalmon'],order=result['年龄段'].unique()[::-1])plt.title(x)plt.xticks(rotation=35)plt.ylabel('')
plt.show()

输出为：
在这里插入图片描述

不难发现这三个地区的男女比例失衡，在中青年这个年龄段较为严重

2.4 人口分布地图

result1 = pcounts[(pcounts['性别']=='小计')&(pcounts['地区']!='全国')&(pcounts['年龄段']!='合计')]
result1

输出为：
在这里插入图片描述

result2 = result1.groupby('地区')['统计人数'].sum().reset_index(name='统计人数')
result2

输出为：
在这里插入图片描述

# pip install pyecharts
# from pyecharts.globals import CurrentConfig,OnlineHostType
# CurrentConfig.ONLINE_HOST = OnlineHostType.NOTEBOOK_HOST
from pyecharts.charts import Map
from pyecharts import options as opts

x_data = result2['地区'].tolist()
y_data = result2['统计人数'].tolist()
x_data

输出为：
在这里插入图片描述

name_translate = {"宁夏回族自治区":"宁夏","河南省":"河南","北京市":"北京","河北省":"河北","辽宁省":"辽宁","江西省":"江西",
"上海市":"上海","安徽省": "安徽","江苏省":"江苏","湖南省":"湖南","浙江省":"浙江","海南省":"海南",
"广东省":"广东","湖北省":"湖北", "黑龙江省": "黑龙江","陕西省":"陕西","四川省":"四川","内蒙古自治区":"内蒙古",
"重庆市":"重庆","广西壮族自治区":"广西","云南省":"云南","贵州省":"贵州","吉林省":"吉林","山西省":"山西",
"山东省":"山东","福建省":"福建","青海省":"青海","天津市":"天津","新疆维吾尔自治区":"新疆","西藏自治区":"西藏",
"甘肃省":"甘肃","大连市":"大连", "东莞市":"东莞","宁波市":"宁波","青岛市":"青岛","厦门市":"厦门","台湾省":" ","澳门特别行政区":" ",
"香港特别行政区":" ","南海诸岛":" "}

# 地图
map1 = Map()
map1.add("", [list(z) for z in zip(x_data, y_data)],"china",name_map=name_translate) 
map1.set_series_opts(label_opts=opts.LabelOpts(is_show=True))
map1.set_global_opts(title_opts=opts.TitleOpts(title='全国各地区人口分布'),
visualmap_opts=opts.VisualMapOpts( max_=result2['统计人数'].max(),
min_ =result2['统计人数'].min(),is_piecewise=False))
map1.render_notebook()

输出为：

2010年的人口普查数据显示：广东省、山东省、河南省、四川省、江苏省是总人口数前 5 的地区

数据可视化基础与应用-04-seaborn库人口普查分析--如何做人口年龄层结构金字塔

总结本系列是数据可视化基础与应用的第04篇seaborn，是seaborn从入门到精通系列第3篇。本系列主要介绍基于seaborn实现数据可视化。参考参考:我分享了一个项目给你《seaborn篇人口普查分析–如何做人口年龄层结构金字塔》，快来看看吧数据集地址 h…...

编程日记 2024/4/16 7:42:17

软考之【系统架构设计师】

系统架构设计师根据原人事部、原信息产业部文件（国人部发[2003]39号）文件规定，计算机软件资格考试纳入全国专业技术人员职业资格证书制度的统一规划，实行统一大纲、统一试题、统一标准、统一证书的考试办法，每年举行…...

编程日记 2024/4/16 7:40:16

LigaAI x 极狐GitLab，共探 AI 时代研发提效新范式

近日，LigaAI 和极狐GitLab 宣布合作，双方将一起探索 AI 时代的研发效能新范式，提供 AI 赋能的一站式研发效能解决方案，让 AI 成为中国程序员和企业发展的新质生产力。软件研发是一个涉及人员多、流程多、系统多的复杂工程&#…...

编程日记 2024/4/16 7:36:12

如何看待2023年图灵奖

目录 1.概述 2.计算复杂性理论 3.随机性和伪随机性 4.学术生涯和领导力 1.概述图灵奖（Turing Award），全称A.M.图灵奖（ACM A.M Turing Award），是由计算机领域的最高学术机构——美国计算机协会&#xf…...

编程日记 2024/4/16 7:34:10

《云原生安全攻防》-- 云原生攻防矩阵

在本节课程中，我们将开始学习如何从攻击者的角度思考，一起探讨常见的容器和K8s攻击手法，包含以下两个主要内容： 云原生环境的攻击路径: 了解云原生环境的整体攻击流程。云原生攻防矩阵: 云原生环境攻击路径的全景视图&#xff0…...

编程日记 2024/4/16 7:33:10

前言: LLM微调的超参大致有如下内容,在本文中，我们针对这些参数进行解释 training_arguments TrainingArguments(output_dir"./results",per_device_train_batch_size4,per_device_eval_batch_size4,gradient_accumulation_steps2,optim"adamw_8bi…...

编程日记 2024/4/16 7:32:09

Linux使用C语言实现Socket编程

Socket编程这一个课程的笔记相关文章协议 Socket编程高并发服务器实现线程池网络套接字 socket: （电源）插座（电器上的）插口，插孔，管座在通信过程中, 套接字是成对存在的, 一个客户端的套接字, 一个…...

编程日记 2024/4/16 7:31:08

Swin Transformer——披着CNN外皮的transformer，解决多尺度序列长问题

题目：Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》作为2021 ICCV最佳论文，屠榜了各大CV任务，性能优于DeiT、ViT和EfficientNet…...

编程日记 2024/4/16 7:29:06

数据结构排序算法

排序也称排序算法(SortAlgorithm)，排序是将一组数据，依指定的顺序进行排列的过程。分类内部排序【使用内存】指将需要处理的所有数据都加载到内部存储器中进行排序插入排序直接插入排序希尔排序选择排序简单选择排序堆排序交换排序冒泡排序快速…...

编程日记 2024/4/16 7:28:05

【深度剖析】曾经让人无法理解的事件循环，前端学习路线

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7 深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞…...

编程日记 2024/4/16 7:27:03

Spring 事务失效总结

前言在使用spring过程中事务是被经常用的，如果不小心或者认识不做，事务可能会失效。下面列举几条业务代码没有被Spring 容器管理看下面图片类没有Componet 或者Service 注解。方法不是public的 Transactional 注解只能用户public上&#xff0c…...

编程日记 2024/4/16 7:24:01

K8S节点kubectl命令报错x509: certificate signed by unknown authority

K8S节点上执行kubectl get node命令报错证书问题，查看kubelet日志如下 [localhost10 ~]$ journalctl -xeu kubelet --since "2024-04-09" --no-pager 4月 09 00:06:22 10.10.44.23-v7-prod-cams-08 kubelet[2142]: I0409 00:06:22.150535 2142 csi_pl…...

编程日记 2024/4/16 7:22:59

【HTML】制作一个简单的实时字体时钟

目录前言 HTML部分 CSS部分 JS部分效果图总结前言无需多言，本文将详细介绍一段HTML代码，具体内容如下： 开始首先新建文件夹，创建一个文本文档，两个文件夹，其中HTML的文件名改为[index.html]&am…...

编程日记 2024/4/16 7:19:56

servlet的三个重要的类（httpServlet 、httpServletRequst、 httpServletResponse）

一、httpServlet 写一个servlet代码一般都是要继承httpServlet 这个类，然后重写里面的方法但是它有一个特点，根据之前写的代码，我们发现好像没有写main方法也能正常执行。原因是：这个代码不是直接运行的，而是放到…...

编程日记 2024/4/16 7:18:55

【软考】设计模式之命令模式

目录 1. 说明2. 应用场景3. 结构图4. 构成5. 优缺点5.1 优点5.2 缺点 6. 适用性7.java示例 1. 说明 1.命令模式（Command Pattern）是一种数据驱动的设计模式。2.属于行为型模式。3.请求以命令的形式被封装在对象中，并传递给调用对象。4.调用对…...

编程日记 2024/4/16 7:16:53

波奇学Linux:ip协议

ip报头是c语言的结构体报头和有效载荷如何分离？ 固定长度四位首部长度 4位版本号就是IPV4 8位服务类型：4位TOS位段和位保留字段 4位TOS分别表示：最小延时，最大吞吐量，最高可靠性，最小成本给路由器提…...

编程日记 2024/4/16 7:15:52

Efficient Multimodal learning from data-centric perspective

[MLLM-小模型推荐-2024.3.18] Bunny 以数据的眼光看问题 - 知乎近期几天会梳理下多模态小模型相关的论文，做个汇总。为了能够每天更新点啥，先穿插一些小模型算法。等到全部算法都梳理完成后，再发布一篇最终汇总版本的。 3.15 号 BAAI 发布了 …...

编程日记 2024/4/16 7:12:49

ubuntu下交叉编译ffmpeg到目标架构为aarch架构的系统

Ubuntu下FFmpeg的aarch64-linux-gnu架构交叉编译教程一、前言有时候真的很想报警的，嵌入式算法部署花了好多时间了，RKNN 1808真是问题不少；甲方那边也是老是提新要求，真是受不了。由于做目标检测，在C代码中有对视…...

编程日记 2024/4/16 7:11:48

【Linux C | 多线程编程】线程同步 | 条件变量(万字详解)

😁博客主页😁：🚀https://blog.csdn.net/wkd_007🚀 🤑博客内容🤑：🍭嵌入式开发、Linux、C语言、C、数据结构、音视频🍭 ⏰发布时间⏰：2024-04-15 0…...

编程日记 2024/4/16 7:07:44

【高阶数据结构】哈希表 {哈希函数和哈希冲突；哈希冲突的解决方案：开放地址法，拉链法；红黑树结构 VS 哈希结构}

一、哈希表的概念顺序结构以及平衡树顺序结构以及平衡树中，元素关键码与其存储位置之间没有对应的关系。因此在查找一个元素时，必须要经过关键码的多次比较。顺序查找时间复杂度为O(N)；平衡树中为树的高度，即O(log_2 N)&#xf…...

编程日记 2024/4/16 7:06:43

基于大模型的 UI 自动化系统

基于大模型的 UI 自动化系统下面是一个完整的 Python 系统，利用大模型实现智能 UI 自动化，结合计算机视觉和自然语言处理技术，实现"看屏操作"的能力。系统架构设计 #mermaid-svg-2gn2GRvh5WCP2ktF {font-family:"trebuchet ms",verdana,arial,sans-…...

编程新知 2025/10/22 11:16:20

Java多线程实现之Callable接口深度解析

Java多线程实现之Callable接口深度解析一、Callable接口概述1.1 接口定义1.2 与Runnable接口的对比1.3 Future接口与FutureTask类二、Callable接口的基本使用方法2.1 传统方式实现Callable接口2.2 使用Lambda表达式简化Callable实现2.3 使用FutureTask类执行Callable任务三、…...

编程新知 2026/1/25 6:36:06

高危文件识别的常用算法：原理、应用与企业场景

高危文件识别的常用算法：原理、应用与企业场景高危文件识别旨在检测可能导致安全威胁的文件，如包含恶意代码、敏感数据或欺诈内容的文档，在企业协同办公环境中（如Teams、Google Workspace）尤为重要。结合大模型技术&…...

编程新知 2026/1/31 6:09:20

Mac下Android Studio扫描根目录卡死问题记录

环境信息操作系统: macOS 15.5 (Apple M2芯片)Android Studio版本: Meerkat Feature Drop | 2024.3.2 Patch 1 (Build #AI-243.26053.27.2432.13536105, 2025年5月22日构建) 问题现象在项目开发过程中，提示一个依赖外部头文件的cpp源文件需要同步，点…...

编程新知 2026/2/6 1:00:00

在Ubuntu24上采用Wine打开SourceInsight

1. 安装wine sudo apt install wine 2. 安装32位库支持，SourceInsight是32位程序 sudo dpkg --add-architecture i386 sudo apt update sudo apt install wine32:i386 3. 验证安装 wine --version 4. 安装必要的字体和库（解决显示问题） sudo apt install fonts-wqy…...

编程新知 2025/10/14 0:47:25

在QWebEngineView上实现鼠标、触摸等事件捕获的解决方案

这个问题我看其他博主也写了，要么要会员、要么写的乱七八糟。这里我整理一下，把问题说清楚并且给出代码，拿去用就行，照着葫芦画瓢。问题在继承QWebEngineView后，重写mousePressEvent或event函数无法捕获鼠标按下事…...

编程新知 2025/6/11 3:07:32

逻辑回归暴力训练预测金融欺诈

简述「使用逻辑回归暴力预测金融欺诈，并不断增加特征维度持续测试」的做法，体现了一种逐步建模与迭代验证的实验思路，在金融欺诈检测中非常有价值，本文作为一篇回顾性记录了早年间公司给某行做反欺诈预测用到的技术和思路。百度…...

编程新知 2026/2/8 5:05:41

django blank 与 null的区别

1.blank blank控制表单验证时是否允许字段为空 2.null null控制数据库层面是否为空但是，要注意以下几点： Django的表单验证与null无关：null参数控制的是数据库层面字段是否可以为NULL，而blank参数控制的是Django表单验证时字…...

编程新知 2025/7/7 3:34:13

tomcat指定使用的jdk版本

说明有时候需要对tomcat配置指定的jdk版本号，此时，我们可以通过以下方式进行配置设置方式找到tomcat的bin目录中的setclasspath.bat。如果是linux系统则是setclasspath.sh set JAVA_HOMEC:\Program Files\Java\jdk8 set JRE_HOMEC:\Program Files…...

编程新知 2025/6/10 21:11:28

《Docker》架构

文章目录架构模式单机架构应用数据分离架构应用服务器集群架构读写分离/主从分离架构冷热分离架构垂直分库架构微服务架构容器编排架构什么是容器，docker，镜像，k8s 架构模式单机架构单机架构其实就是应用服务器和单机服务器都部署在同一…...

编程新知 2026/2/4 16:31:26

总结

参考

数据集介绍

案例

1. 探索性分析并处理数据

1.1 删除多余的列

1.2 处理表头

1.3 透视数据

1.4 处理空格（数据量大的话不建议这么做）

1.5 增加统计列

2. 可视化部分

2.1 我国人口总数

2.1 人口年龄结构金字塔（左边女右边男）

2.2 差异

2.3 北京、上海、广东地区的人口年龄结构金字塔（左边女右边男）

2.4 人口分布地图

相关文章：