免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: hxl

[Hive] hadoop如何支持LZO压缩 [复制链接]

论坛徽章:
3
数据库技术版块每日发帖之星
日期:2016-05-27 06:20:00数据库技术版块每日发帖之星
日期:2016-06-04 06:20:00数据库技术版块每日发帖之星
日期:2016-06-23 06:20:00
发表于 2017-11-27 17:13 |显示全部楼层
回复 10# heguangwu


我这里的目录是有这些文件的,补充一下我这里的hadoop版本是2.8.2
[hadoop@master native]$ pwd
/opt/hadoop/hadoop-2.8.2/lib/native
[hadoop@master native]$ ls -al
total 5376
drwxr-xr-x. 3 hadoop hadoop    4096 Nov 24 02:04 .
drwxr-xr-x. 3 hadoop hadoop      20 Oct 19 17:11 ..
drwxr-xr-x. 2 hadoop hadoop      94 Oct 19 17:11 examples
-rw-r--r--. 1 hadoop hadoop  117630 Nov 27 01:21 libgplcompression.a
-rw-r--r--. 1 hadoop hadoop    1138 Nov 27 01:21 libgplcompression.la
-rwxr-xr-x. 1 hadoop hadoop   78080 Nov 27 01:21 libgplcompression.so
-rwxr-xr-x. 1 hadoop hadoop   78080 Nov 27 01:21 libgplcompression.so.0
-rwxr-xr-x. 1 hadoop hadoop   78080 Nov 27 01:21 libgplcompression.so.0.0.0
-rw-r--r--. 1 hadoop hadoop 1439746 Oct 19 17:11 libhadoop.a
-rw-r--r--. 1 hadoop hadoop 1632592 Oct 19 17:11 libhadooppipes.a
lrwxrwxrwx. 1 hadoop hadoop      18 Oct 19 17:11 libhadoop.so -> libhadoop.so.1.0.0
-rwxr-xr-x. 1 hadoop hadoop  841925 Oct 19 17:11 libhadoop.so.1.0.0
-rw-r--r--. 1 hadoop hadoop  476106 Oct 19 17:11 libhadooputils.a
-rw-r--r--. 1 hadoop hadoop  446548 Oct 19 17:11 libhdfs.a
lrwxrwxrwx. 1 hadoop hadoop      16 Oct 19 17:11 libhdfs.so -> libhdfs.so.0.0.0
-rwxr-xr-x. 1 hadoop hadoop  281612 Oct 19 17:11 libhdfs.so.0.0.0

论坛徽章:
15
2015七夕节徽章
日期:2015-08-21 11:06:172017金鸡报晓
日期:2017-01-10 15:19:56极客徽章
日期:2016-12-07 14:07:30shanzhi
日期:2016-06-17 17:59:3115-16赛季CBA联赛之四川
日期:2016-04-13 14:36:562016猴年福章徽章
日期:2016-02-18 15:30:34IT运维版块每日发帖之星
日期:2016-01-28 06:20:0015-16赛季CBA联赛之新疆
日期:2016-01-25 14:01:34IT运维版块每周发帖之星
日期:2016-01-07 23:04:26数据库技术版块每日发帖之星
日期:2016-01-03 06:20:00数据库技术版块每日发帖之星
日期:2015-12-01 06:20:00IT运维版块每日发帖之星
日期:2015-11-10 06:20:00
发表于 2017-11-28 08:36 |显示全部楼层
回复 11# hxl

你不需要拷贝给我看,比较一下我的目录,你要将lzo的动态库拷贝到这个目录下

论坛徽章:
3
数据库技术版块每日发帖之星
日期:2016-05-27 06:20:00数据库技术版块每日发帖之星
日期:2016-06-04 06:20:00数据库技术版块每日发帖之星
日期:2016-06-23 06:20:00
发表于 2017-11-29 08:42 |显示全部楼层
回复 12# heguangwu


已经拷贝到这个目录下,但是还是不行。
[hadoop@master native]$ pwd
/opt/hadoop/hadoop-2.8.2/lib/native
[hadoop@master native]$ ls -al liblzo*
-rw-r--r--. 1 hadoop hadoop01 292902 Nov 27 04:21 liblzo2.a
-rwxr-xr-x. 1 hadoop hadoop01    929 Nov 27 04:21 liblzo2.la
-rwxr-xr-x. 1 hadoop hadoop01 204048 Nov 27 04:21 liblzo2.so
-rwxr-xr-x. 1 hadoop hadoop01 204048 Nov 27 04:21 liblzo2.so.2
-rwxr-xr-x. 1 hadoop hadoop01 204048 Nov 27 04:21 liblzo2.so.2.0.0

论坛徽章:
15
2015七夕节徽章
日期:2015-08-21 11:06:172017金鸡报晓
日期:2017-01-10 15:19:56极客徽章
日期:2016-12-07 14:07:30shanzhi
日期:2016-06-17 17:59:3115-16赛季CBA联赛之四川
日期:2016-04-13 14:36:562016猴年福章徽章
日期:2016-02-18 15:30:34IT运维版块每日发帖之星
日期:2016-01-28 06:20:0015-16赛季CBA联赛之新疆
日期:2016-01-25 14:01:34IT运维版块每周发帖之星
日期:2016-01-07 23:04:26数据库技术版块每日发帖之星
日期:2016-01-03 06:20:00数据库技术版块每日发帖之星
日期:2015-12-01 06:20:00IT运维版块每日发帖之星
日期:2015-11-10 06:20:00
发表于 2017-11-29 13:00 |显示全部楼层
回复 13# hxl

mapreduce可以执行不,如果可以就是hive的问题了

论坛徽章:
3
数据库技术版块每日发帖之星
日期:2016-05-27 06:20:00数据库技术版块每日发帖之星
日期:2016-06-04 06:20:00数据库技术版块每日发帖之星
日期:2016-06-23 06:20:00
发表于 2017-11-29 13:26 |显示全部楼层
回复 14# heguangwu


不知道怎么测试mapreduce是否可以?

论坛徽章:
15
2015七夕节徽章
日期:2015-08-21 11:06:172017金鸡报晓
日期:2017-01-10 15:19:56极客徽章
日期:2016-12-07 14:07:30shanzhi
日期:2016-06-17 17:59:3115-16赛季CBA联赛之四川
日期:2016-04-13 14:36:562016猴年福章徽章
日期:2016-02-18 15:30:34IT运维版块每日发帖之星
日期:2016-01-28 06:20:0015-16赛季CBA联赛之新疆
日期:2016-01-25 14:01:34IT运维版块每周发帖之星
日期:2016-01-07 23:04:26数据库技术版块每日发帖之星
日期:2016-01-03 06:20:00数据库技术版块每日发帖之星
日期:2015-12-01 06:20:00IT运维版块每日发帖之星
日期:2015-11-10 06:20:00
发表于 2017-11-29 13:32 |显示全部楼层
回复 15# hxl

我之前发了一个,你可能没看到,你可以做相应对修改,这个命令就是将多个输入文件合并压缩为一个lzo压缩文件,你只需要修改红色部分即可

hadoop jar /home/hadoop/hadoop/share/hadoop/tools/lib/hadoop-streaming-2.7.2.jar -Dmapreduce.reduce.tasks=1 -Dmapreduce.output.fileoutputformat.comp
ress=true -Dmapreduce.output.fileoutputformat.compress.codec=com.hadoop.compression.lzo.LzoCodec -Dmapreduce.reduce.memory.mb=4096 -input /data/telecontrol/17-11-26/FlumeD
ata.151162*
-output /tmp/testoutput -mapper cat  -reducer cat

论坛徽章:
3
数据库技术版块每日发帖之星
日期:2016-05-27 06:20:00数据库技术版块每日发帖之星
日期:2016-06-04 06:20:00数据库技术版块每日发帖之星
日期:2016-06-23 06:20:00
发表于 2017-11-29 14:59 |显示全部楼层
回复 16# heguangwu


我是按照网上说的mvn项目就生成了hadoop-lzo-0.4.21-SNAPSHOT.jar,没有你说的hadoop-streaming-2.7.2.jar。

[hadoop@master lib]$ hadoop jar /opt/hadoop/hadoop-2.8.2/share/hadoop/common/lib/hadoop-lzo-0.4.21-SNAPSHOT.jar -Dmapreduce.reduce.tasks=1 -Dmapreduce.output.fileoutputformat.compress=true -Dmapreduce.output.fileoutputformat.compress.codec=com.hadoop.compression.lzo.LzoCodec -Dmapreduce.reduce.memory.mb=4096 -input /user/hive/exter_data/provcode/provcode.txt -output /user/hive/tmp -mapper cat -reducer cat
Exception in thread "main" java.lang.ClassNotFoundException: -Dmapreduce.reduce.tasks=1
        at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
        at java.lang.Class.forName0(Native Method)
        at java.lang.Class.forName(Class.java:34
        at org.apache.hadoop.util.RunJar.run(RunJar.java:227)
        at org.apache.hadoop.util.RunJar.main(RunJar.java:14

论坛徽章:
15
2015七夕节徽章
日期:2015-08-21 11:06:172017金鸡报晓
日期:2017-01-10 15:19:56极客徽章
日期:2016-12-07 14:07:30shanzhi
日期:2016-06-17 17:59:3115-16赛季CBA联赛之四川
日期:2016-04-13 14:36:562016猴年福章徽章
日期:2016-02-18 15:30:34IT运维版块每日发帖之星
日期:2016-01-28 06:20:0015-16赛季CBA联赛之新疆
日期:2016-01-25 14:01:34IT运维版块每周发帖之星
日期:2016-01-07 23:04:26数据库技术版块每日发帖之星
日期:2016-01-03 06:20:00数据库技术版块每日发帖之星
日期:2015-12-01 06:20:00IT运维版块每日发帖之星
日期:2015-11-10 06:20:00
发表于 2017-11-29 15:38 |显示全部楼层
回复 17# hxl

hadoop-streaming-2.7.2.jar 是hadoop自带的,你查相应对目录下肯定有对,这里不能用lzo对jar包啊

论坛徽章:
3
数据库技术版块每日发帖之星
日期:2016-05-27 06:20:00数据库技术版块每日发帖之星
日期:2016-06-04 06:20:00数据库技术版块每日发帖之星
日期:2016-06-23 06:20:00
发表于 2017-11-29 16:06 |显示全部楼层
回复 18# heguangwu


如下输出是否说明lzo安装没问题?

[hadoop@master hadoop]$ hadoop jar /opt/hadoop/hadoop-2.8.2/share/hadoop/tools/lib/hadoop-streaming-2.8.2.jar -Dmapreduce.reduce.tasks=1 -Dmapreduce.output.fileoutputformat.compress=true -Dmapreduce.output.fileoutputformat.compress.codec=com.hadoop.compression.lzo.LzoCodec -Dmapreduce.reduce.memory.mb=4096 -input /user/hive/exter_data/provcode/provcode.txt -output /user/hive/tmp1 -mapper cat -reducer cat
packageJobJar: [/tmp/hadoop-unjar2776102783179385387/] [] /tmp/streamjob6924878223446587693.jar tmpDir=null
17/11/28 12:50:14 INFO client.RMProxy: Connecting to ResourceManager at master/192.168.56.101:18040
17/11/28 12:50:14 INFO client.RMProxy: Connecting to ResourceManager at master/192.168.56.101:18040
17/11/28 12:50:16 INFO lzo.GPLNativeCodeLoader: Loaded native gpl library from the embedded binaries
17/11/28 12:50:16 INFO lzo.LzoCodec: Successfully loaded & initialized native-lzo library [hadoop-lzo rev f1deea9a313f4017dd5323cb8bbb3732c1aaccc5]
17/11/28 12:50:16 INFO mapred.FileInputFormat: Total input files to process : 1
17/11/28 12:50:17 INFO mapreduce.JobSubmitter: number of splits:2
17/11/28 12:50:17 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1511886565363_0001
17/11/28 12:50:18 INFO impl.YarnClientImpl: Submitted application application_1511886565363_0001
17/11/28 12:50:18 INFO mapreduce.Job: The url to track the job: http://master:18088/proxy/application_1511886565363_0001/
17/11/28 12:50:18 INFO mapreduce.Job: Running job: job_1511886565363_0001
17/11/28 12:50:32 INFO mapreduce.Job: Job job_1511886565363_0001 running in uber mode : false
17/11/28 12:50:32 INFO mapreduce.Job:  map 0% reduce 0%
17/11/28 12:50:47 INFO mapreduce.Job:  map 100% reduce 0%
17/11/28 12:50:56 INFO mapreduce.Job:  map 100% reduce 100%
17/11/28 12:50:56 INFO mapreduce.Job: Job job_1511886565363_0001 completed successfully
17/11/28 12:50:56 INFO mapreduce.Job: Counters: 49
        File System Counters
                FILE: Number of bytes read=6687
                FILE: Number of bytes written=436976
                FILE: Number of read operations=0
                FILE: Number of large read operations=0
                FILE: Number of write operations=0
                HDFS: Number of bytes read=15986
                HDFS: Number of bytes written=6166
                HDFS: Number of read operations=9
                HDFS: Number of large read operations=0
                HDFS: Number of write operations=2
        Job Counters
                Launched map tasks=2
                Launched reduce tasks=1
                Data-local map tasks=2
                Total time spent by all maps in occupied slots (ms)=25837
                Total time spent by all reduces in occupied slots (ms)=24148
                Total time spent by all map tasks (ms)=25837
                Total time spent by all reduce tasks (ms)=6037
                Total vcore-milliseconds taken by all map tasks=25837
                Total vcore-milliseconds taken by all reduce tasks=6037
                Total megabyte-milliseconds taken by all map tasks=26457088
                Total megabyte-milliseconds taken by all reduce tasks=24727552
        Map-Reduce Framework
                Map input records=350
                Map output records=350
                Map output bytes=10847
                Map output materialized bytes=6936
                Input split bytes=242
                Combine input records=0
                Combine output records=0
                Reduce input groups=350
                Reduce shuffle bytes=6936
                Reduce input records=350
                Reduce output records=350
                Spilled Records=700
                Shuffled Maps =2
                Failed Shuffles=0
                Merged Map outputs=2
                GC time elapsed (ms)=478
                CPU time spent (ms)=2330
                Physical memory (bytes) snapshot=508243968
                Virtual memory (bytes) snapshot=6253924352
                Total committed heap usage (bytes)=283058176
        Shuffle Errors
                BAD_ID=0
                CONNECTION=0
                IO_ERROR=0
                WRONG_LENGTH=0
                WRONG_MAP=0
                WRONG_REDUCE=0
        File Input Format Counters
                Bytes Read=15744
        File Output Format Counters
                Bytes Written=6166
17/11/28 12:50:56 INFO streaming.StreamJob: Output directory: /user/hive/tmp1
[hadoop@master ~]$ hadoop fs -ls /user/hive/tmp1
Found 2 items
-rw-r--r--   2 hadoop supergroup          0 2017-11-28 12:50 /user/hive/tmp1/_SUCCESS
-rw-r--r--   2 hadoop supergroup       6166 2017-11-28 12:50 /user/hive/tmp1/part-00000.lzo_deflate

论坛徽章:
3
数据库技术版块每日发帖之星
日期:2016-05-27 06:20:00数据库技术版块每日发帖之星
日期:2016-06-04 06:20:00数据库技术版块每日发帖之星
日期:2016-06-23 06:20:00
发表于 2017-11-30 17:46 |显示全部楼层
请问是否是hive的问题呢,我把hive2.3换成2.2,还是不行。
hive> select * from tb_provcode_exter_lzo_t;
OK
Failed with exception java.io.IOException:java.io.IOException: No LZO codec found, cannot run.
Time taken: 3.63 seconds
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP