Skip to content
muyannian edited this page Jan 26, 2014 · 3 revisions

 

1项目背景

         数据越来越多,几十亿、几百亿、甚至几千亿的数据量,如何才能高效的分析?
越来越多的数据提取需求压给了数据部门,但很多都是一些重复性的劳动,数据部门疲惫不堪,提需求的数据的数据分析师也在苦苦的等待数据部门的排期,也许需要1个小时,也许需要1天,效率低下,需要一个快速的提取数据的平台,提高大家的工作效率。

2平台定位

  1. 大数据

要数据量大,几十亿上百亿。
还要省钱,普通PC就能搞定。

  1. 多维分析

要任意维度组合与过滤
还要对任意指标进行统计和排序

  1. 即席查询

要查询快,秒级响应。
还要数据快,数据分钟级延迟。

  1. 自助提取

要随时能进行数据的查询与提取。
还要能上传自己的数据进行关联与过滤。

平台现状

  1. 10台机器,存储了将近2000亿的数据,其他同类系统如果要此规模需要至少(100台)
  2. 目前已经接入的数据

p4p直通车,网销宝,淘客,dmp,tanx,展示营销,阿里妈妈无线,卖家360.

  1. 支持的数据源

默认支持hive表数据导入。
默认支持TT的数据实时导入。
可以自定义其他数据源接入.

  1. 平台功能

详细使用说明以及截图请点击这里
http://twiki.corp.taobao.com/pub/Taobao_AD_PD/%e6%95%b0%e6%8d%ae%e8%8e%b7%e5%8f%96/AD_HOC%e4%bd%bf%e7%94%a8%e6%8c%87%e5%8d%97V2.1.pdf

3 平台实现

adhoc基于阿里妈妈的mdrill作为项目实现,官网地址:https://github.com/alibaba/mdrill

mdrill具有如下几个特性:

  1. 满足大数据查询需求:adhoc每天的数据量为30亿条,随着日积月累,数据会越来越大,mdrill采用列存储,索引,分布式技术,适当的分区等满足用户对数据的实时在线分析的需求。
    2.支持增量更新:离线形式的mdrill数据支持按照分区方式的增量更新。
    3.支持实时数据导入:在仅有10台机器的情况下,支持每天10亿级别(高峰每小时2亿)的实时导入。
    4.响应时间快:列存储、倒排索引、高效的数据压缩、内存计算,各种缓存、分区、分布式处理等等这些技术,使得mdrill可以仅在几秒到几十秒的时间分析百亿级别的数据。
    5.低成本:目前在阿里adhoc仅仅使用10台48G内存的PC机,但确存储了超过千亿规模的数据。
    6.全文检索模式:在mdrill的全文检索模式数据可以直接存储在hdfs中,并且以每天160亿*70维度的数据增量提供全文检索服务(注:该模式下不能进行统计,只能进行关键词匹配查询数据明细)

4.2 平台展望

    • 在原有的自助查询的同时提供数据的自助接入服务
    • 丰富分析功能与报表展现
Clone this wiki locally