-
Notifications
You must be signed in to change notification settings - Fork 763
adhoc
muyannian edited this page Jan 26, 2014
·
3 revisions
数据越来越多,几十亿、几百亿、甚至几千亿的数据量,如何才能高效的分析?
越来越多的数据提取需求压给了数据部门,但很多都是一些重复性的劳动,数据部门疲惫不堪,提需求的数据的数据分析师也在苦苦的等待数据部门的排期,也许需要1个小时,也许需要1天,效率低下,需要一个快速的提取数据的平台,提高大家的工作效率。
- 大数据
要数据量大,几十亿上百亿。
还要省钱,普通PC就能搞定。
- 多维分析
要任意维度组合与过滤
还要对任意指标进行统计和排序
- 即席查询
要查询快,秒级响应。
还要数据快,数据分钟级延迟。
- 自助提取
要随时能进行数据的查询与提取。
还要能上传自己的数据进行关联与过滤。
- 10台机器,存储了将近2000亿的数据,其他同类系统如果要此规模需要至少(100台)
- 目前已经接入的数据
p4p直通车,网销宝,淘客,dmp,tanx,展示营销,阿里妈妈无线,卖家360.
- 支持的数据源
默认支持hive表数据导入。
默认支持TT的数据实时导入。
可以自定义其他数据源接入.
- 平台功能
详细使用说明以及截图请点击这里
http://twiki.corp.taobao.com/pub/Taobao_AD_PD/%e6%95%b0%e6%8d%ae%e8%8e%b7%e5%8f%96/AD_HOC%e4%bd%bf%e7%94%a8%e6%8c%87%e5%8d%97V2.1.pdf
adhoc基于阿里妈妈的mdrill作为项目实现,官网地址:https://github.com/alibaba/mdrill
mdrill具有如下几个特性:
-
满足大数据查询需求:adhoc每天的数据量为30亿条,随着日积月累,数据会越来越大,mdrill采用列存储,索引,分布式技术,适当的分区等满足用户对数据的实时在线分析的需求。
2.支持增量更新:离线形式的mdrill数据支持按照分区方式的增量更新。
3.支持实时数据导入:在仅有10台机器的情况下,支持每天10亿级别(高峰每小时2亿)的实时导入。
4.响应时间快:列存储、倒排索引、高效的数据压缩、内存计算,各种缓存、分区、分布式处理等等这些技术,使得mdrill可以仅在几秒到几十秒的时间分析百亿级别的数据。
5.低成本:目前在阿里adhoc仅仅使用10台48G内存的PC机,但确存储了超过千亿规模的数据。
6.全文检索模式:在mdrill的全文检索模式数据可以直接存储在hdfs中,并且以每天160亿*70维度的数据增量提供全文检索服务(注:该模式下不能进行统计,只能进行关键词匹配查询数据明细)
- 在原有的自助查询的同时提供数据的自助接入服务
- 丰富分析功能与报表展现