Apache Kylin这个项目介绍下,第一个国人主导的Apache顶级项目,2015至2016连续两年最佳开源大数据工具奖,首个基于Hadoop生态的OLAP项目,底层可拓展支持Hive、Kafka、MR、Spark和Flink等存储计算框架,将传统SQL查询性能提升一千倍以上,随着业务数据指数级增长查询速度几乎不变,这些都是真的。

那么原理是什么呢?文档中也介绍到就是空间换时间,原理上就是用户计划在Hive或者HDFS parquet中执行的SQL查询,提前把结果预计算并存到HBase,如果有数据更新就把新的结果也存到HBase上,用户的SQL查询最后转成HBase的get或scan,性能自然提上去了。那么用户的SQL会有很多种,而且不会从一个纬度查,Kylin会把所有可能查询的结果都预计算存下来吗?额,是的都会存在来,例如数据可查询的字段就是20个,而且可能组合多个字段来查询,那么HBase中将要缓存的结果就有2的20次方组(1048576),每一组可能就几十几百万个。以Kylin官方的demo为例,输入表只有1.46MB的数据,预计算后数据增长64倍(图一),如果是原始数据就有10G,那么Kylin缓存的数据就要640G,而且HBase依赖底层HDFS一般是3备份,那么将近要2T的磁盘空间。

当然预计算带来的收益也是巨大的,预计算后这个数据集的几乎所有组合查询都可以达到秒级甚至毫秒级,因为已经转化成NoSQL的在线查询了,但为了10G的数据就要准备2T的数据缓存,而且数据是要更新的,后台还要有一个Spark或者MapReduce一直占用资源跑批任务。Kylin官方也提到很多优化方案,但都不能解决查询纬度爆炸的问题,只能让用户缩窄查询的范围,如果可以避免多种纬度的查询就可以减少这些纬度预计算的计算和存储开销。

随着Spark、Flink的流行,用户自己实现一个预计算框架的成本已经非常低了,Kylin从性能上并不能带来额外的价值,用户可以通过自定义HBase rowkey、自定义缓存数据甚至不要求数据以星模型关联,自定义需要预计算的组合查询在性能和存储成本上也可以很好地平衡,因此从我个人的角度对于大型系统来说Kylin本身带来的价值几乎没有。Kylin本身拓展性也很难满足更灵活的需求,例如Kylin有对Flink执行引擎的支持,但其实只是支持batch mode,对于流式数据但支持还是自己读kafka,然后自己用crontab定期跑,首先支持的流式source就少,而且Flink stream mode有更多高级的goupby window聚合功能在Kylin上也是用不了的,只对接Flink batch mode从功能上和对接Spark没什么差异,而且性能上可能还不如Spark。

由于Kylin的存储、计算都是基于其他大数据框架实现的,从功能和性能上没什么优势,亮点是简化了用户要自己实现预计算的开发过程,改为在Web页面上的配置,但如果从性能考虑还得自己思考那些组合查询可以去掉、HBase rowkey怎么设计,同时绑定了源是Kafka或者Hive而存储是HBase,如果维表数据量爆炸或者查询纬度组合爆炸的话一样无法用。

项目是好项目,但应用并没有其他顶级Apache项目那么广,希望大家看完也能更好了解项目的定位和优劣势。

凡事预则立,不预则废。如果不管做什么事情都能够提前十分钟,去应对可能出现的小意外,那我们的生活便可以过得更加从容。提前做好准备的人,不仅是对他人的尊重,更是对自己的负责,也往往更能得到命运的青睐。不要小看那几分钟,它不仅代表了一个人的时间观念,更体现了一个人的人生态度。每天提前十分钟,很可能让我们的人生大不同。

#陈庆华大夫[超话]#
到了预产期就可以打催产素吗?
如果没有特殊情况,就算是已经过了预产期,催产素也不是随便可以打的。 一般比预产期提前或者延后两周都属于正常的范围,但是要做B超检查看看胎盘和羊水的情况,如果胎盘没有老化,羊水没有浑浊可以顺其自然的等待自然分娩。 你最好和主治医生沟通一下,看一看是否适合打催产素,如果适合的话可以在医生的指导下静脉滴注小剂量催产素试试催生。 如果条件不成熟,宫颈评分没有达到6分以上,即使用了催产素也不一定有效果的。 https://t.cn/R2WxOni


发布     👍 0 举报 写留言 🖊   
✋热门推荐
  • 而令人想不到的是,当年暮悬铃遇到的年轻谢雪臣,其实是最终爱惨了暮悬铃,穿越到最初想给暮悬铃温暖不一样人生的谢雪臣。然而有一个半妖,那就是暮悬铃的师傅桑岐,他引魔
  • 对于幼童这种颜色控,五彩缤纷的炒饭是无法拒绝的,而且一份炒米饭加一份汤,孩子自己吃的很方便。三文鱼对于幼童来说,是很好的食材,所以每周末带孩子去超市,都会买一块
  • 用 腾讯视频VIP 看电视剧斗罗大陆肖战唐三很期待 电视剧余生请多指教肖战顾魏 哟[心]玉骨遥肖战时影太帅了 [好喜欢] 好想看!用 腾讯视频VIP 看电视剧斗
  • 最后看一下机位对比图,白鹿稍微胸平一点的话应该就不显胖了,头小脸小,站在路人旁边还是很出挑的,真的是造型不好看这营销号又被谁家买了[裂开]#剑道bot# 剑道初
  • 我可以看见活的纺纺了[给你小心心]我知道砂糖是因为冰果的千反田爱榴,后来就是俺妹的麻奈实!说实在我现在喜欢她比喜欢小寺还要多hhh小寺我反而就一般[允悲]可能我
  • 要在有限的时间去感受无限的美好,这可能就是我要为之奋斗的目标感谢朋友的招待,高山流水遇知音 关于一场临时起意的逃离计划Cc带我逛了老街吃了东北烤肉、火锅吃完午饭
  • 我只是回想起来,觉得在这里,我看到了一丝缝隙,通往我更好未来的缝隙,可我不知道我是哪里来的这种感觉,又怎么敢有这种感觉的。  我在这里做着招聘的工作,但我秉承着
  • 我到底是多久没有过过好日子了啊[泪][泪]小哥打电话来,说他到门口了。【投稿】你能不能去死 你是团咪还是我是团咪 为什么你一个团咪什么都不管 群内一有什么事情就
  • 二、9:00—18:30苏屋站:10kV910苏广线八中分接箱支01开关,停电范围:铜鼓岭西、盛元酒店、公园路海洋环境监测等用户。[2月1日]一、9:00—18
  • #中网巡回赛常州站延期举办#[话筒]国家体育总局网球运动管理中心发布《关于延期举办2022年中国网球巡回赛CTA800(常州站)比赛的通知》原定于2022年9月
  • 在这里,在一次独家采访中,李昇基分享了他们为什么参加这剧,他们获得的灵感,以及一起出演浪漫喜剧的感觉。我在扮演正浩的角色时很轻松,同时也度过了愉快的时光,以至于
  • 生日快乐[蛋糕]孕21周中,第一次怀孕建档的时候医生问家里有没有不良生育史,然后突然想到外婆生了个智力障碍的舅舅,我妈生了个智力障碍的弟弟,就和医生说了当时建档
  • 智者不入爱河感谢那些擦肩而过的人,因为时光证明了他们不是对的人,更重要的是,上天会为你安排一个更适合的,就在不久的将来——李尚龙坚强背后,是数不清的恐惧和不为人
  • #六公主刘亦菲生日排播#童话公主风,安排上~[兔子]三款口红,来自 迪士尼冰雪奇缘联名的套盒~我的珍藏,这不是为了庆祝即将迎来的复工日才拿出来的(……好吧……
  • 时代日新月异,每天都有很多变化,也有很多的机会,创业者最需要思考的就是发现并找出这些机会,这就需要创业者有敏锐的行业洞察能力,但凡拥有这种敏锐洞察并能将想法付诸
  • 真的看了这些能气一晚上,对于这些自作聪明的行为,只有一句:“No Comment”#肖战[超话]##与肖战的同行印记#余生很长,努力成长。」首先,我们应该如理地
  • 居然已经一年了 失去你 居然有一年了 白天我经常可以和人打打闹闹嘻嘻笑笑 夜深人静的时候 你就知道我有多想你 但是说实话 现在越来越不会那么想起你了 我发现我好
  • 如果有手帐或手绘或设计作品也可以附上哟~接下来国庆会比较忙为了认真对待大家的简历会在国庆后统一查看的哈所以大家也不要着急哟~期待期待(搓手手✧*。٩(ˊᗜˋ*)
  • DX 校閲ガール・河野悦子 (2017).8.5/10.梦想进入时尚杂志当编辑的女主却进了该出版社的校对部,随着她的到来,校对部发生了改变,女主也在校对工作中经
  • 我爱我家的房产经纪人对此解释称,荣丰2008所挂牌的小户型,因为套内面积小,单价相比其他大户型就要高出一些,“(但)按总价来看还是可以的。”在他看来,目前荣丰2