海量数据下-列式存储ClickHouse介绍

DBC 1.4K 0

你是否能分清OLTP和OLAP系统

  • 什么是OLTP
    • 全称 OnLine Transaction Processing,联机事务处理系统, 就是对数据的增删改查等操作
    • 存储的是业务数据,来记录某类业务事件的发生,比如下单、支付、注册、等等
    • 典型代表有Mysql、 Oracle等数据库,对应的网站、系统应用后端数据库
    • 针对事务进行操作,对响应时间要求高,面向前台应用的,应用比较简单,数据量相对较少,是GB级别的
    • 面向群体:业务人员

 

  • 当数据积累到一定的程度,需要对过去发生的事情做一个总结分析时,就需要把过去一段时间内产生的数据拿出来进行统计分析,从中获取想要的信息,为公司做决策提供支持,这个就是做OLAP了。
  • 什么是OLAP
    • OnLine Analytical Processing,联机分析处理系统
    • 存储的是历史数据,对应的风控平台、BI平台、数据可视化等系统就属于
    • OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策,并且提供直观易懂的查询结果
    • 典型代表有 Hive、ClickHouse
    • 针对基于查询的分析系统,基础数据来源于生产系统中的操作数据,数据量非常大,常规是TB级别的
    • 面向群体:分析决策人员

数据库里面行存储和列式存储

  • 什么是行存储
    • 传统的OLTP关系型数据库 都是行存储
    • 一行中的数据在存储介质中以连续存储形式存在
    • 适合随机的增删改查操作 或者 在行中选取所有属性的查询操作,结合索引提升性能
    • 缺点
      • 查询的全部记录的某几个字段,但由于这些字段在各行数据单元中,而整个行特别大(字段特别多),程序必须不断读取每一条的行记录取对应的字段,使得读取效率大大降低
      • 例子:找某个订单的话,就很方便,订单的全部信息都能获取; 但找全部订单总金额就需要遍历多个数据

     

user_name product_name order_id tatal_amount
DBC的博客-白萝卜 飞机 1213122 4999
DBC的博客-大白菜 汽车 2343121 1699
DBC的博客-小白菜 单车 423424 6899
DBC的博客-猪头 火车 5423212 9999

 

  • 什么是列式存储
    • 存储结构化数据时,在底层的存储介质上,数据是以列的方式来组织的
    • 存储完若干条记录的首个字段后,再存储这些记录的第二个字段,然后再第三个字段、第四个字段...
    • 查询时只有涉及到的列会被读取,而不需要全表扫描,可以显著减少IO消耗,并降低查询响应时间
    • 例子:查询全部成交额,只需要把订单金额拿出来即可
DBC的博客-白萝卜 DBC的博客-大白菜 DBC的博客-小白菜 DBC的博客-猪头
飞机 汽车 单车 火车
1213122 2343121 423424 5423212
4999 1699 6899 9999

 

  • 总结
    • 描述的是底层存储介质上,数据的组织形式,哪种组织对应哪种业务需求
    • 列存储在聚合、统计等操作性能会优于行存储
    • 列存储将多行记录的列连续存储在一起,一列接着一列
    • 列式存储是同个数据类型,会进行数据压缩率更高,更省空间
    • 列存储数据更新成本较高,一般适合读多写少的场景,适合 OLAP 分析型系

新一代列式存储ClickHouse介绍和应用场景说明

  • ClickHouse的由来和应用场景

    海量数据下-列式存储ClickHouse介绍插图

     

    • 特点和应用场景
      • 不依赖Hadoop 生态、安装和维护简单
      • 擅长对列的聚合、计数等统计操作性能强劲
      • 对列存储和压缩的采用更好的算法,更好节省成本
      • 拓展性强,在生产中经过实战测试,从单服务器部署到具有数千个节点的集群的线性水平可扩展性
      • 具有企业级安全功能和故障安全机制,可防止数据因应用程序错误和人为错误而损坏
      • 支持主流的大部分SQL语法和函数
      • 吞吐能力强,官方测试支持,支持多种存储引擎,满足多数业务场景
      • 广泛应用:互联网电商、在线教育、金融等领域用,户行为数据记录和分析,搭建数据可视化平台

      海量数据下-列式存储ClickHouse介绍插图2

  • 有谁在用?
    • 国内:阿里、字节、腾讯 、虎牙、青云、新浪等
    • 国外:优步、Ebay、Spotify、思科、等

 

  • 支持多种部署方式
    • 系统:Linux或者Mac OS 源码部署,或者 Docker部署
    • 如果是Window的需要成功安装Docker或者安装Linux虚拟机

    海量数据下-列式存储ClickHouse介绍插图4

发表评论 取消回复
表情 图片 链接 代码

分享