数据可视化笔记¶

约 1196 个字预计阅读时间 6 分钟

可视化的发展¶

科学可视化 \(\rightarrow\) 科学与工程领域 \(\rightarrow\)

带有空间信息和几何信息的三维测量数据
计算模拟数据
医学影像数据

信息可视化 \(\rightarrow\) 非结构化、非几何的抽象数据
可视分析 \(\rightarrow\) 以交互式界面为基础的分析推理科学 \(\rightarrow\) 结合了可视化、人机交互与数据挖掘 \(\rightarrow\) 解决需要人参与理解和决策的多种实际问题

科学可视化¶

呈现实测或仿真的科学数据中的特征、模式和演化规律

标量场可视化(数据来源 \(\rightarrow\) 扫描或测量设备，计算机或机器仿真)
向量场可视化
张量场可视化

标量 \(\rightarrow\) 0阶张量
向量 \(\rightarrow\) 1阶张量

信息可视化¶

呈现抽象、高维的数据

时空数据可视化
层次与网络结构数据可视化
文本与跨媒体数据可视化
多变量数据可视化

数据¶

大数据的4个特征¶

Volume 数据量巨大
Velocity 数据产生和增长速度极快
Variety 数据类型繁多
Value 数据价值密度低

属性¶

属性又称:

维度 \(\leftarrow\) 数学
特征 \(\leftarrow\) 机器学习
变量 \(\leftarrow\) 统计学

属性可以分为两类:

类别属性: 也称为"状态"，它类似于"东西的名称"。仅仅是不同的名字，用于区分不同的对象，并不蕴含序列的信息，也不具备运算的功能。
序数属性: 若属性能够提供对象之间的比较信息，这时就称这种属性为序数属性。

2.1. 如果一个序数属性中的数据在算数运算下具有意义，那么这种更细分的类型称为数值属性。 2.2.1. 离散数据是指其数值只能用整数单位计算的数据。 2.2.2. 连续数据是我们需要使用测量或计算的方法得到的。

了解数据分布
了解数据对象关系
去除冗余数据

刻画数据对象之间的关系: 相似性度量，用相异性矩阵。

其中d(i,j) 是对象i和对象j之间的距离 (distance) 或称为相异性度量, 一般而言, d(i,j) 是一个非负值, 对象 i,j 高度相似时, d(i,j) 接近于0 , 即距离接近于0 且 d(i,j) = d(j,i) , 所以下面相异性矩阵只显示对角线左下部分。

\[\left[ \begin{matrix} 0 \\ d(2,1) & 0 \\ d(3,1) & d(3,2) & 0 \\ ... & ... & ... \\ d(n,1) & d(n,2) & ... & ... & 0 \end{matrix} \right]\]

失配比: 两个数的失配比就是它们中值不相等的属性个数占总属性个数的比例。

\[d(i,j) = \frac{p - m}{p}\]

Jaccard相似系数:

	1	0	sum
1	q	r	q+r
0	s	t	s+t
sum	q+s	r+t	p

\[J(i,j) = \frac{r+s}{q+r+s}\]

欧拉距离

\[d(i,j) = \sqrt{\sum_{k=1}^{d}(P_i - Q_i)^2}\]

曼哈顿距离

\[d(i,j) = \sum_{k=1}^{d}|P_i - Q_i|\]

闵可夫斯基距离

\[d(i,j) = \sqrt[p]{\sum_{k=1}^{d}|P_i - Q_i|^p}\]

数据科学¶

第一范式:几千年前记录和描述自然现象的经验科学
第二范式:类数百年前利用模型归纳总结过去记录的现象的理论科学
第三范式:利用科学计算机对复杂现象进行模拟仿真的计算科学
第四范式:计算机将模拟仿真，进行分析总结，得到理论，即数据密集型科学。(2007年)

2010 : 什么是数据科学?

获取与预处理数据
存储与分析数据
呈现与解释数据

利用数据的能力:

理解数据
处理数据
提取价值
可视化数据
交流数据

确保数据的质量:

准确性
完整性
一致性
时效性
可信性
可解释性

数据清洗可视化:

矩阵视图
排序
呈现缺失问题

可视化¶

可视化方法:

原始数据可视化
统计结果可视化
多协同视图

数据轨迹: 是一种单变量数据呈现方法，通过将自变量与因变量在图中用点呈现出来。数据轨迹可以直观地展现数据分布、走势以及离群异常点。

数据挖掘¶

描述型任务: 直接描述数据特征 -> 数据集中关联性或相关性 -> 将数据分簇，簇内数据相似，簇外数据不同 -> 分析异常数据
预测型任务: 找一个模型算法用于预测未知对象的时空行为

方法¶

统计方法: 回归分析、参数分析
机器学习: 决策树、神经网络
传统算法: K均值算法、K临近算法