Hadoop使用Mahout

     2014年03月21日       磊磊syh       运维笔记->Hadoop       mahout cdh 

前提

Hadoop集群已经搭建完成。如果hadoop环境还没搭建好,请参考其他网上hadoop搭建的教程。

安装Mahout

下载Mahout

cd $HOME
wget http://archive.apache.org/dist/mahout/0.7/mahout-distribution-0.7.zip
unzip mahout-distribution-0.7.zip
ln -snf mahout-distribution-0.7 mahout-current

在.bashrc里追加环境变量

#编辑vim ~/.bashrc  追加如下内容.
export MAHOUT_HOME=${HOME}/mahout-current

测试Mahout

下载测试文件

wget http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data

建立测试目录,并上传测试文件

hadoop fs -mkdir testdata
hadoop fs -put synthetic_control.data testdata

跑一个mahout的任务。作业提交后,mahout会跑一堆hadoop mapreduce任务,大约需要几分钟。

hadoop jar ${HOME}/mahout-current/mahout-examples-0.7-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job

查看结果

hadoop fs -lsr output

参考文档