doris在小米软件迭代进程中的重要作用

2023-04-18

2分钟阅读时长

技术开发 , Java , Apache

doris在小米软件迭代进程中的重要作用

apache doris在小米演进架构中的应用，原来的方式是来自各平台的数据，都要有一个数据汇总的平台，但是由于数据量巨大，如果还用传统的mysql来做数据筛选，mysql的查询语句会变得越来越复杂，而且每天产生的都是pb级别的数据量，这种级别的数据，不搭建hadoop大数据平台的话，根本没有这样海量数据的处理能力。但是要维护一个大数据处理平台，运维成本是相当高的。而且每进行一次数据的汇总运算的话，可能服务集群的所有资源都要让度出来供该次运算得出结果，对整体集群的上其他一些服务的影响也特别大，所以引入了apache doris平台。支持了本地数据的上传，支持insert into select from的查询语句，也支持routing keys直接订阅kafka的broker(这好像是rabbitmq中的概念呀)，这些数据导入之后，就可以在apache doris进行汇总了。现在apache doris已经在天星数科、新零食、用户画像、BI广告投放等业务上广泛被使用，大大提高的服务的运算性能。服务的演进过程也是宽查询，就是建立相应的表

大数据写到hive中，logStack中的数据，Mongodb，mysql中的数据。架构中有缓存，apache doris数据写入缓存，从缓存中读，缓存中读不到的从doris中读，那么，doris优势体现在性能更高吗？

增量数据100亿/天，导入压力大，可以从接手数据接入doris，然后做数据埋点做切入点？

它提供了留存、漏斗分析等函数，极大程度简化了开发的成本。数据导入过程中可以使用Merge On Write Unique key导入模型，可以搞100亿/天增量数据压力。消息队列talos，在Flink中清洗建模后，被下游的Doris和Hive消费。全量数据会存储在Hive中，进行批量ETL或历史数据召回的查询。实时增量被存储在Doris中，用来做热数据的查询操作。

doris在小米软件迭代进程中的重要作用

doris在小米软件迭代进程中的重要作用

Aisen

系列文章

本页内容

相关