crackcell's dustbin home projects
首页 > Hpipe: 混合工作流引擎 > 正文

Hpipe: 混合工作流引擎

1 简介

在机器学习、数据挖掘相关的实际工作中,经常会用到Hadoop等数据处理系统。面对一些复杂的任务(比如在线广告的点击率预估),我们通常需要几十甚至上百个相互依赖的任务来处理数据。怎么组织和复用这些任务代码成了一个麻烦的事情。同时,如果遇到作业失败,清理脏数据,重启中断点等,也需要额外处理。
开发Hpipe的目的就是为了简化上述这些工作。
除了工作流支持,Hpipe还希望集成一些常用的操作,比如join,aggregation等。同时希望在此基础上,开发一些工作常用的算法包,比如,特征评估(相关性、互信息 等)、模型评估(AUC、Group AUC 等)。

2 信息

3 项目状态

  • 基本功能已经可用。作者(目前只有我一个人 :-<)正在积极地进行feature开发。也逐步在实际工作中应用了起来。现在发布的目的是希望感兴趣的同学一起来完善它。
  • 可以支持多种底层系统,目前只支持了Hadoop Streaming。
  • 欢迎发pr,欢迎提issues。嘿嘿。

Date: Fri Feb 14 16:21:57 2014

Author: Tan Menglong

Created: 2016-02-22 Mon 00:26

Emacs 24.5.1 (Org mode 8.2.10)

Validate

Modified theme and code from Tom Preston-Werner.