把项目打成jar包，提交执行-白红宇

把项目打成jar包，提交执行

阅读量：4188 次

发布时间：2019-05-26

本文共 3062 字，大约阅读时间需要 10 分钟。

除了使用Hive，Pig来执行一个MapReduce任务，不需要专门的把项目打成jar包，提交执行，或者定时执行，因为Hive，Pig这些开源框架已经，帮我们自动打包上传了。

而有些时候，我们自己手写了一个MapReduce的任务，然后这个任务里面依赖了其他的第三方包，比如说是Lucene的，或者是Solr，ElasticSearch的，那么打包的时候就需要将这些依赖的jar包也一起的打包进去。

如果你用的是maven，那么事情就简单了，maven会自动把所有依赖的jar包，打成一个统一的jar，但是通常不需要maven，因为maven相对来说，还是比较复杂，我们更倾向于使用ant来打包，配置很灵活。

那么，如何向hadooop集群提交作业呢？

通常的命令如下：

hadoop jar xxx.jar input out

这样就会把jar包提交到hadoop集群上，只要包含依赖的jar也在这个jar包中，那么程序就不会出问题。

那么，问题来了？我想定时执行一个作业，应该怎么写呢

如果直接在linux下的crontab中，写定时启动的脚本，没问题，但是如果你的脚本是启动一个mr的任务，那么就有可能出现问题了，因为执行MR，是需要Hadoop的环境变量的，在crontab启用的shell进程，默认是没有激活环境变量的，所以，你有可能发现，自己的写的crontab脚本，奇怪的失效了。

如何解决在crontab的进程里环境变量失效的问题？

很简单，在启动的脚本开始前，再次激活的环境变量即可，代码如下：

Java代码

#!/bin/bash

##下面的2行代码很重要，如果不再次激活环境变量，hadoop的jar就不能正确提交任务

. /etc/profile

. ~/.bash_profile

#!/bin/bash##下面的2行代码很重要，如果不再次激活环境变量，hadoop的jar就不能正确提交任务. /etc/profile. ~/.bash_profile

另外在crontab中，需要cd到当前目录下，执行，否则一些log不会被正确到该工程，或目录下：

Java代码

//在下午的14点39分启动一个定时任务，使用nohup 挂起后台运行，并将所有的log重定向到一个log文件里

39 14 * * * cd /home/search/qindongliang/cr-dataload ; nohup sh start.sh 1 2015-04-10 all &> rate.log &

//在下午的14点39分启动一个定时任务，使用nohup 挂起后台运行，并将所有的log重定向到一个log文件里39 14 * * *  cd /home/search/qindongliang/cr-dataload ; nohup sh start.sh 1  2015-04-10 all &> rate.log    &

另外一点需要注意，如果在crontab的进程中执行任务，那么最好使用nohup挂起后台运行，否则，hadoop的系统log会丢失，因为默认是在终端的界面上打印的。

Java代码