在机器学习、数据挖掘相关的实际工作中,经常会用到Hadoop等数据处理系统。面对一些复杂的任务(比如在线广告的点击率预估),我们通常需要几十甚至上百个相互依赖的任务来处理数据。怎么组织和复用这些任务代码成了一个麻烦的事情。同时,如果遇到作业失败,清理脏数据,重启中断点等,也需要额外处理。
开发Hpipe的目的就是为了简化上述这些工作。
除了工作流支持,Hpipe还希望集成一些常用的操作,比如join,aggregation等。同时希望在此基础上,开发一些工作常用的算法包,比如,特征评估(相关性、互信息 等)、模型评估(AUC、Group AUC 等)。
/* -*- author: Menglong TAN; email: tanmenglong_at_gmail; twitter/weibo: @crackcell; 版权所有,转载请注明出处 -*- */
Modified theme and code from Tom Preston-Werner.