HadoopPigLoadfunc

来源：动视网责编：小采时间：2020-11-09 13:23:17

HadoopPigLoadfunc

HadoopPigLoadfunc:hadoop pig 设计的还是很不错的，可以写 UDF 每一个统计基本上都是要对原始日志进行切分，把想要的一些字段 EXTRACT 提取出来日志有着基本的模式 mac:50:A4:C8:D7:10:7D|build:5141bc99|network:mobile|version:2.4

推荐度：

点击下载本文 文档为doc格式

导读HadoopPigLoadfunc:hadoop pig 设计的还是很不错的，可以写 UDF 每一个统计基本上都是要对原始日志进行切分，把想要的一些字段 EXTRACT 提取出来日志有着基本的模式 mac:50:A4:C8:D7:10:7D|build:5141bc99|network:mobile|version:2.4

hadoop pig 设计的还是很不错的，可以写 UDF

每一个统计基本上都是要对原始日志进行切分，把想要的一些字段 EXTRACT 提取出来

日志有着基本的模式

"mac:50:A4:C8:D7:10:7D"|"build:5141bc99"|"network:mobile"|"version:2.4.1"|"id:taobao22935952431"|

基本上是 key, value对，自定义一个 load function ,指定 key,就可以获取对应的value，在 pig 中可以使用

REGISTER /jar/kload.jar;
AA = LOAD '/log/load.log' USING kload.KoudaiLoader('mac,build') AS (mac,build);
DUMP AA;

输出结果

(50:A4:C8:D7:10:7D,5141bc99)

koudaiLoader是自己实现的一个 Load function,输出为要获取的key,输出为key所对应的 value

 package kload;
 import java.io.IOException;
 import java.util.*;
 import org.apache.hadoop.io.Text;
 import org.apache.hadoop.mapreduce.*;
 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
 import org.apache.pig.*;
 import org.apache.pig.backend.executionengine.ExecException;
 import org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.*;
 import org.apache.pig.data.*;
 public class KoudaiLoader extends LoadFunc{
 protected RecordReader recordReader = null;
 private String fieldDel = "";
 private String[] reqFildList;
 private ArrayList

HadoopPigLoadfunc

HadoopPigLoadfunc

HadoopPigLoadfunc

最新推荐

猜你喜欢

热门推荐