1数据仓库
1概念
是一个用以更好地支持企业决策分析处理的数据集合;本质上和数据库一样,是长期储存在计算机内的、有组织、可共享的数据集合;
2数据操控的数据特征
数据仓库的数据是面向主题的;数据仓库的数据是集成的;数据仓库的数据是不可更新的;数据仓库的数据是随时间不断变化的;
3数据仓库反映历史变化的属性主要表现在:
数据仓库中的数据时间期限要远远长于传统操作型数据系统中的数据时间期限;传统操作型数据系统中的数据含有"当前值"的数据,这些数据在访问时是有效的,当然数据的当前值也能被更新,但数据仓库中的数据仅仅是一系列某一时刻生成的复杂的快照;传统操作型数据系统中可能包含也可能不包含时间元素,如年、月、日、时、分、秒等,而数据仓库中一定会包含时间元素;
4数据仓库系统的体系结构
数据仓库的后台工具:数据抽取;数据清洗;数据转换;数据装载;维护工具;数据仓库服务器:相当于数据库系统中的DBMS;负责管理数据仓库中的存储管理和数据存取;给OLAP服务器和前台工具提供存取接口;OLAP服务器:透明地为前台工具和用户提供多维数据视;OLAP服务器必须考虑物理上这些分析数据的存储问题;前台工具:查询报表工具;多维分析工具;数据挖掘工具;分析结果可视化工具等。
2数据挖掘
1定义
概念:数据挖掘是从大量数据中发现并提取隐藏在内的、人们事先不知道的但可能有用的信息和知识的一种新技术;目的:帮助决策者寻找数据间潜在的关联,发现经营者被忽略的要素;涉及:数据库技术;人工智能技术;机器学习;统计分析等。
2数据挖掘和传统分析方法的区别
本质区别:数据挖掘是在没有明确假设的情况下去挖掘信息,发现知识;数据挖掘的特征:事先未知;有效;可实用;
3数据源
从数据仓库来优点:许多数据不一致的问题都比较好地解决了,在数据挖掘时大大减少了清理数据的工作量;缺点:建立数据仓库是一项巨大的工程,耗时耗力;从数据库来如果只是为了挖掘数据,可以把一个或几个OLTP数据库导入一个只读的数据库中,然后在上面进行数据挖掘;
4功能
趋势和演变分析;关联分析;聚类;概念描述;偏差检测;
5数据挖掘的流程
3分布式数据库
1概念
分布式数据库由一组数据组成,这些数物理上分布在计算机网络的不同结点上,逻辑上是属于同一个系统,每个结点可以执行局部应用,也能通过网络通信子系统执行全局应用;
2特点
数据独立性;集中和自治相结合的控制结构;适当增加数据冗余度;全局的一致性、可串行性和可恢复性;
3数据存储
分布式数据存储可以从数据分配和数据分片两个角度考察;数据分配:集中式;分割式;全复制式;混合式;数据分片:水平分片:按一定的条件把全局关系的所有元组划分成若干不相交的子集,每个子集为关系的一个片段;垂直分片:把一个全局关系的属性集分成若干子集,并在这些子集上做投影运算,每个投影为垂直分片;混合型分片:将水平分片与垂直分片方式综合使用为混合型分片;
4分布式DBMS组成
LDBMS:建立和管理局部数据库,提供场地地自治能力、执行局部应用及全局查询的子查询;GDBMS:提供分布透明性,协调全局事务的执行,协调各LDBMS以完成全局应用,保证数据库的全局一致性,执行并发控制,实现更新同步,提供全局恢复功能;全局数据字典:存放全局概念模式、分片模式、分布模式的定义,以及各模式之间映像的定义;存放有关用户存取权限的定义,以保证全局用户的合法权限和数据库的安全性;存放数据完整性约束条件的定义,其功能与集中式数据库的数据字典类似;通信管理:在分布式数据库各场地之间传送消息和数据,完成通信功能;
文章为作者独立观点,不代表 股票程序化软件自动交易接口观点