数据模型三要素是数据结构、数据操作、数据约束。
1、数据结构
是计算机存储、组织数据的方式。数据结构是指相互之间存在一种或多种特定关系的数据元素的集合,即带“结构”的数据元素的集合。。通常情况下,精心选择的数据结构可以带来更高的运行或者存储效率。数据结构往往同有效的检索算法和索引技术有关。
2、数据操作
数据模型中数据操作主要描述在相应的数据结构
数据模型定制案例
数据模型三要素是数据结构、数据操作、数据约束。
1、数据结构
是计算机存储、组织数据的方式。数据结构是指相互之间存在一种或多种特定关系的数据元素的集合,即带“结构”的数据元素的集合。。通常情况下,精心选择的数据结构可以带来更高的运行或者存储效率。数据结构往往同有效的检索算法和索引技术有关。
2、数据操作
数据模型中数据操作主要描述在相应的数据结构上的操作类型和操作方式。它是操作算符的集合,包括若干操作和推理规则,用以对目标类型的有效实例所组成的数据库进行操作。
3、数据约束
数据模型中的数据约束主要描述数据结构内数据间的语法、词义联系、他们之间的制约和依存关系,以及数据动态变化的规则,以保证数据的正确、有效和相容。它是完整性规则的集合,用以限定符合数据模型的数据库状态,以及状态的变化。
数据库系统由4个部分组成:
1、数据库(database,DB)是指长期存储在计算机内的,有组织,可共享的数据的集合。数据库中的数据按一定的数学模型组织、描述和存储,具有较小的冗余,较高的数据独立性和易扩展性,并可为各种用户共享。
2、硬件:构成计算机系统的各种物理设备,包括存储所需的外部设备。硬件的配置应满足整个数据库系统的需要。
维度建模
1、维度和指标的概念
按照维度表、事实表构建数据模型,通过指标评价企业经营活动。
维度一般包括:地区、时间、部门、产品等等。
指标一般包括:销售数量、销售金额、平均销售金额等等。
2、星型模型
星型模是一种多维的数据关系,它由一个事实表和一组维表组成。每个维表都有一个维作为主键,所有这些维的主键组合成事实表的主键。强调的是对维度进行预处理,将多个维度集合到一个事实表,形成一个宽表。这也是我们在使用 hive 时,经常会看到一些大宽表的原因,大宽表一般都是事实表,包含了维度关联的主键和一些度量信息,而维度表则是事实表里面维度的具体信息,使用时候一般通过 join 来组合数据,相对来说对OLAP 的分析比较方便。
建立模型的步骤:
三、建立模型
在准备好的数据基础上,建立数据模型,这种模型可能是机器学习模型,也可能不需要机器学习等高深的算法。选择什么样的模型,是根据要解决的问题(目标)确定的。
当然可以选择两个或以上的模型对比,并适当调整参数,使模型效果不断优化。
四、模型评估
模型效果的评估有两个方面:一是模型是否解决了需要解决的问题(是否还有没有注意和考虑到的潜在问题需要解决);二是模型的准确性(误差率或者残差是否符合正态分布等)。
如:在识别KOL假粉的问题中,需要评估的是:模型能否识别出假粉?识别的误差率是多少?粉丝识别误差率=(假粉误认为真粉的数量+真粉误认为假粉的数量)/总粉丝数
(作者: 来源:)