逻辑模型是严格定义的一组概念的集合,主要由数据结构、数据操作和完整性约束部分组成,通常称为数据三要素。
数据模型是用于描绘、沟通数据需求的一组简单易懂、标准的,并且便于计算机实现的标准符号的集合。数据库很强大,但数据在其中的关系却错综复杂,成千上万个表通过各种关系或约 束互连以形成复杂的结构。
没有数据模型,利益相关者很难看到现有数据库的结构、理解关键概念,当需要描
物联云定制
逻辑模型是严格定义的一组概念的集合,主要由数据结构、数据操作和完整性约束部分组成,通常称为数据三要素。
数据模型是用于描绘、沟通数据需求的一组简单易懂、标准的,并且便于计算机实现的标准符号的集合。数据库很强大,但数据在其中的关系却错综复杂,成千上万个表通过各种关系或约 束互连以形成复杂的结构。
没有数据模型,利益相关者很难看到现有数据库的结构、理解关键概念,当需要描述数据需求的时候,也很难准确地表达出来,这也是数据模型很重要的一个主要的原因。
与实物模型不同,数据模型不是等比例模拟出来的真实事物,而是一组能表示数据需求、数据结构的符号集合。
在房屋平面图中,中间有条线的矩形表示窗户,用直角扇形表示门。在数据模型中,用矩形框或圆角矩形表示实体;用线以及线上的符号表示实体之间的关系、基数或约束;用写在线上的词或词组表示标签,所有的这些符号组成了各种各样的数据模型。
雪花模型
当有一个或多个维表没有直接连接到事实表上,而是通过其他维表连接到事实表上时,其图解就像多个雪花连接在一起,故称雪花模型。雪花模型是对星型模型的扩展。它对星型模型的维表进一步层次化,原有的各维表可能被扩展为小的事实表,形成一些局部的 "层次 " 区域,这些被分解的表都连接到主维度表而不是事实表。雪花模型更加符合数据库范式,减少数据冗余,但是在分析数据的时候,操作比较复杂,需要 join 的表比较多所以其性能并不一定比星型模型高。
数据建模,通俗地说,就是通过建立数据科学模型的手段解决现实问题的过程。数据建模也可以称为数据科学项目的过程,并且这个过程是周期性循环的。
数据建模的具体过程可分为六大步骤:
一、制订目标
制订目标的前提是理解业务,明确要解决的商业现实问题是什么?
如:在社交平台KOL中,存在假粉丝的情况,如何识别假粉就是一个要解决的现实问题。
二、数据理解与准备
基于要解决的现实问题,理解和准备数据,一般需要解决以下问题:
1.需要哪些数据指标(即特征提取)?(如:哪些指标能区别真粉和假粉?)
2.数据指标的含义是什么?
3.数据的质量如何?(如:是否存在缺失值?)
4.数据能否满足需求?
5.数据还需要如何加工?(如:转换数据指标,将类别型变量转化为0-1哑变量,或将连续型数据转化为有序变量)
6.探索数据中的规律和模式,进而形成假设。
需要注意的是,数据准备工作可能需要尝试多次。因为在复杂的大型数据中,较难发现数据中存在的模式,初步形成的假设可能会被很快推到,这时一定要静心钻研,不断试错。
数据建模后需要评估模型的效果,因此一般需要将数据分为训练集和测试集。
(作者: 来源:)