{"title": "Hadoop\u4f7f\u7528Mahout", "update_time": "2014-03-21 10:16:15", "tags": "mahout cdh", "pid": "290", "icon": "hadoop.png"}
## 前提 Hadoop集群已经搭建完成。如果hadoop环境还没搭建好,请参考其他网上hadoop搭建的教程。 ## 安装Mahout 下载Mahout ``` cd $HOME wget http://archive.apache.org/dist/mahout/0.7/mahout-distribution-0.7.zip unzip mahout-distribution-0.7.zip ln -snf mahout-distribution-0.7 mahout-current ``` 在.bashrc里追加环境变量 ``` #编辑vim ~/.bashrc 追加如下内容. export MAHOUT_HOME=${HOME}/mahout-current ``` ## 测试Mahout 下载测试文件 ``` wget http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data ``` 建立测试目录,并上传测试文件 ``` hadoop fs -mkdir testdata hadoop fs -put synthetic_control.data testdata ``` 跑一个mahout的任务。作业提交后,mahout会跑一堆hadoop mapreduce任务,大约需要几分钟。 ``` hadoop jar ${HOME}/mahout-current/mahout-examples-0.7-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job ``` 查看结果 ``` hadoop fs -lsr output ``` ## 参考文档 * http://www.cnblogs.com/linjiqin/archive/2013/03/15/2961649.html