Skip to content
muyannian edited this page Feb 25, 2013 · 14 revisions

海狗(Higo)由阿里开发,是一个分布式的在线分析查询系统,基于hadoop,lucene,solr,蓝鲸等开源系统作为实现,类SQL的查询语法。 海狗是一个能够对大量数据进行分布式处理的软件框架。海狗是快速的高性能的,他的底层使用了索引技术,数据扫描的速度大为增加。Higo是分布式的,它以并行的方式工作,通过并行处理加快处理速度。

海狗适合的应用:

  • 总数据规模在十亿到百亿,成百上千个维度
  • 每次查询扫描的总数据量超过亿
  • 想要快速的(几秒)得到统计结果
  • 机器故障后能够自动恢复服务
    </ul>
    <h1><strong>海狗常见的统计功能</strong></h1>
    <ul>
      <li>基本的全文检索(lucene和solr的基本特性)</li>
      <li>对原始数据进行TopN排序</li>
      <li>对满足过滤条件的数据进行sum,max,min,count等统计</li>
      <li>将原始数据按照一个或多个列进行分类然后对其他的一个或多个列进行求sum,max,min,count等统计(我们称为分类汇总)</li>
      <li>在分类汇总的基础上,对分类汇总的结果进行按照字典顺序、sum、max、min、count等进行排序</li>
    </ul>
    <h1><strong>下个版本要支持的功能</strong></h1>
    <ul>
      <li>临时表,通过临时表可以实现针对查询结果的二次查询</li>
      <li>多表join</li>
      <li>自定义统计函数</li>
      <li>distinct求count的实现</li>
    </ul>
  </div>
</div>
Clone this wiki locally