OLTP 与 OLAP
数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。
Hive 与 HBase
Hive是Hadoop的数据仓库,可供开发人员用近SQL的方式来计算和处理HDFS上的结构化数据。因为要转化成Map Reduce,所以时间会较慢。另外,好多计算引擎也都会用Hive的元数据,比如Impala, Spark SQL。
Hive中的表是纯逻辑表,即表的元数据,本身不存储数据,完全依赖HDFS和MapReduce。
HBase是一种NoSQL数据库,物理表。用于海量明细数据的随机实时查询。
ETL
ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。