This repository has been archived by the owner on Oct 8, 2019. It is now read-only.

Home

Jump to bottom

Makoto YUI edited this page Jan 7, 2016 · 121 revisions

Welcome to Hivemall, the scalable machine learning library for Hive.

logo

Getting Started

Installation
Installing Hivemall UDFs as permanent functions
Input formats for training (Please read this!)

Tips for Effective Hivemall

Advanced topics

General Hive/Hadoop tips

Troubleshooting

Feature Engineering

Feature Transformation

Evaluation

Statistical evaluation of a prediction model

Dataset generation

classification/logistic regression

Binary Classification

a9a binary classification

Data preparation

news20 binary classification

Data preparation

KDD2010a/b binary classification

Data preparation for KDD10a

PA/CW/AROW/SCW

Data preparation for KDD10b

AROW

Webspam binary classification

Data pareparation

PA1,AROW,SCW

Titanic survivor binary classification

RandomForest

Multiclass Classification

news20 multiclass classification

Iris dataset multiclass classification

Dataset preparation

Regression

E2006 tfidf regression

Data preparation

Passive Aggressive, AROW

KDDCup 2012 track 2 CTR prediction

Data preparation

Recommendation

News20 multiclass related article recommendation

Data preparation

LSH/Minhash

MovieLens movie recommendation

Data preparation

Nearest Neighbor

News20 multiclass similar article search

Data preparation

Anomaly Detection

Outlier Detection using Local Outlier Factor (LOF)

Natural Language Processing

English/Japanese Text Tokenizer