本书以Altair为核心工具,通过认识数据、理解数据和探索数据全方位地探索分析数据集的统计可视化形式,以应用数据和案例研究为实践场景,使用Altair数据加工箱进行数据预处理,在此基础上,深入理解不同应用领域和实践场景的数据集的统计可视化模型。本书以实践和练习的方式学习和巩固核心知识,学习形式简单高效,适合大数据相关行业的人士参考,也适合大数据相关专业的高校师生教学和自学使用。
以Altair为核心工具,通过认识数据、理解数据和探索数据全方位地探索分析数据集的统计可视化形式
高级机器学习工程师、资深数据分析师、数据产品工程师。
具有金融、教育、测评、咨询等行业的丰富实践经验;完成多个机器学习项目、数据分析项目;开发多个数据产品。
出版专著《Python数据可视化之matplotlib实践》和《Python数据可视化之matplotlib精进》。
研究兴趣主要有数据可视化、数据挖掘和数据产品。
前言
主要内容
首先,本书在图形语法的基础上,使用Altair 探索分析不同应用领域和使用场景的数据集,以组成数据集的变量和数据记录为切入点,通过认识数据、理解数据和探索数据三个维度全方位地探索分析数据集的不同变量类型的统计可视化形式。然后,本书以应用数据和案例研究为实践场景,运用描述统计学、推断统计学和机器学习等数据科学知识,使用Altair 数据加工器实现数据预处理。在此基础上,本书又深入浅出地介绍了不同应用领域和实践场景的数据集的统计可视化模型。
各章概要
第1 章,介绍Altair 的安装方法和Jupyter 的安装方法,重点讲解Altair 数据集的JSON 数据结构和Pandas 的数据框对象,以及数据预处理的高效工具。
第2 章,以图形语法为核心,重点介绍Altair 的组成模块、语言特点和语法规则。
第3 章,从变量类型和组合方式出发,介绍使用Altair 认识数据和绘制基本统计图形的方法。
第4 章,从图形构成出发,介绍使用Altair 理解数据的实现方法,以及使用Altair绘制分区图形、分层图形和连接图形的实现方法。
第5 章,从交互出发,介绍使用Altair 探索数据和绘制交互图形的实现方法。
第6 章,从获取优质数据集出发,以统计可视化的不同呈现形式为切入点,介绍使用Altair 探索分析不同数据集的潜在价值。
第7 章,以数据集为核心,详细分析不同案例的可视化模型和探索分析的维度,深入介绍不同应用领域的数据集和变量类型,以及构建不同应用领域的可视化模型。
第8 章,以探索分析为核心,将Altair 和其他探索分析工具有效结合,全面地探索分析不同实践场景下、不同数据集的统计可视化模型。
第9 章,介绍使用Altair 设置颜色的方法,以及配置图形属性的作用范围的实现方法。
配置要求
推荐使用的硬件配置:四核处理器或更高配置、8 GB 或更大系统内存、至少10 GB 磁盘存储空间。
推荐使用的操作系统:Windows 7 或更高版本、Windows 10 或更高版本、Ubuntu 16.04 或更高版本、macOS Sierra 或更高版本。
Python 版本:Python 3.8.0 或更高版本。
特别提示:使用首字母大写的Altair 表示包的名称,使用首字母小写的altair表示包的安装名称或导入名称,其他包的书写规则与之类似。
书中代码使用的包的版本信息如下所示。
altair 4.1.0
gapminder 0.1
matplotlib 3.2.1
numpy 1.18.3
pandas 1.0.3
scipy 1.4.1
sviewgui 0.3.5
tinytag 1.5.0
vega-datasets 0.9.0
wordcloud 1.8.1
排版说明
书中代码均可以在JupyterLab 或Jupyter Notebook 上运行,表示方法如下所示。
chart = alt.Chart(df).transform_filter(
alt.datum.Origin=="Europe").mark_circle(
color="seagreen").encode(
alt.X("Horsepower:Q",scale=alt.Scale(zero=False,padding=20)),
alt.Y("Acceleration:Q",scale=alt.Scale(zero=False,padding=5)),
size="Cylinders:Q")
书中代码在Python 的交互式解释器中输入和输出的表示方法如下所示。
>>> import altair as alt
>>> import altair_viewer
>>> from vega_datasets import data
>>> df = data.cars()
>>> chart = alt.Chart(df).mark_circle().encode(x="Horsepower:Q",y="Acceleration:Q")
>>> altair_viewer.display(chart,inline=True)
目标读者
本书适合希望使用探索分析的方法,理解数据的不同维度和掌握数据统计可视化实现方法的商业数据分析师;使用Python 和Altair 深入理解数据预处理和统计可视化建模实现方法的数据挖掘工程师和机器学习工程师;构建实践场景的统计可视化模型的开发人员和研究人员。书中内容讲解细致全面、讲练结合、案例丰富,也非常适合大数据相关专业的学生自学或教师课堂教学使用。
如何阅读本书
无论是Altair 的初学者还是经验丰富的可视化应用的开发者,建议从第1 篇至第3 篇按顺序阅读,第4 篇既可以单独阅读,也可以和其他篇章组合阅读。附录A 是正文中练习章节的参考实现方法。
本书在很多章节中均有“动手实践”和“练习”小节,其中,“动手实践”采用以练代讲的方式让读者学习和延展核心知识或技能;“练习”采用举一反三的方式让读者复习和巩固核心知识或技能。
作者
2021 年10 月
P67页 3.1.1 柱形图 代码最后一句应是altair_viewer.display(chart,inline=True)而不是altair_viewer.display(chart.inline=True)