免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1479 | 回复: 7
打印 上一主题 下一主题

[学习分享] 【求助】关于文件联接 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2015-09-19 10:39 |只看该作者 |倒序浏览
有两个文件如下,file中分别是用户的id,name,sex,file1中分别是用户的id,name,addr:
# cat file
1,tom,m
3,kathy,f
4,luks,m
6,davd,m

# cat file1
1,tom,beijing
2,lily,shannxi
3,khy,shanghai
4,luks,hunan
5,devd,zhejiang

现要求:(1)按两个文件的id,name进行联接
            (2)但存在两个文件可能id相同,而name字段不同,对于这样的行,给出提示或是直接不显示。
            (3)只显示两个文件共有的id行


编写了个小脚本,正确显示如下:
1,tom,beijing,m
3,kathy and khy are conflict!
4,luks,hunan,m


但尝试使用join命令时,却不能满足要求中的第二条
# join -t "," -1 1   -2 1   -o '1.1 1.2 1.3 2.3' file1 file
1,tom,beijing,m
3,khy,shanghai,f
4,luks,hunan,m

求大神指点!!!!可以对上述的join完善,也可以用其他命令,如awk实现

论坛徽章:
95
程序设计版块每日发帖之星
日期:2015-09-05 06:20:00程序设计版块每日发帖之星
日期:2015-09-17 06:20:00程序设计版块每日发帖之星
日期:2015-09-18 06:20:002015亚冠之阿尔艾因
日期:2015-09-18 10:35:08月度论坛发贴之星
日期:2015-09-30 22:25:002015亚冠之阿尔沙巴布
日期:2015-10-03 08:57:39程序设计版块每日发帖之星
日期:2015-10-05 06:20:00每日论坛发贴之星
日期:2015-10-05 06:20:002015年亚冠纪念徽章
日期:2015-10-06 10:06:482015亚冠之塔什干棉农
日期:2015-10-19 19:43:35程序设计版块每日发帖之星
日期:2015-10-21 06:20:00每日论坛发贴之星
日期:2015-09-14 06:20:00
2 [报告]
发表于 2015-09-19 11:40 |只看该作者
回复 1# dream_my_dream


    把你的脚本贴出来看看

求职 : Linux运维
论坛徽章:
203
拜羊年徽章
日期:2015-03-03 16:15:432015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:57:092015小元宵徽章
日期:2015-03-06 15:58:182015年亚洲杯之约旦
日期:2015-04-05 20:08:292015年亚洲杯之澳大利亚
日期:2015-04-09 09:25:552015年亚洲杯之约旦
日期:2015-04-10 17:34:102015年亚洲杯之巴勒斯坦
日期:2015-04-10 17:35:342015年亚洲杯之日本
日期:2015-04-16 16:28:552015年亚洲杯纪念徽章
日期:2015-04-27 23:29:17操作系统版块每日发帖之星
日期:2015-06-06 22:20:00操作系统版块每日发帖之星
日期:2015-06-09 22:20:00
3 [报告]
发表于 2015-09-19 23:32 |只看该作者
join命令????????

论坛徽章:
45
2016猴年福章徽章
日期:2016-02-18 16:42:24平安夜徽章
日期:2015-12-27 09:46:0315-16赛季CBA联赛之八一
日期:2015-12-15 17:08:23黄金圣斗士
日期:2015-12-11 09:16:31天蝎座
日期:2015-12-11 09:16:22戌狗
日期:2015-12-11 09:16:19程序设计版块每周发帖之星
日期:2015-12-11 09:15:21操作系统版块每周发帖之星
日期:2015-12-11 09:15:16IT运维版块每周发帖之星
日期:2015-12-11 09:15:09IT运维版块每月发帖之星
日期:2015-12-11 09:15:01CU十四周年纪念徽章
日期:2015-12-11 09:14:40操作系统版块每日发帖之星
日期:2015-12-11 09:13:36
4 [报告]
发表于 2015-09-19 23:38 |只看该作者
sql  走起

论坛徽章:
4
IT运维版块每日发帖之星
日期:2016-04-28 06:20:00IT运维版块每日发帖之星
日期:2016-06-06 06:20:00程序设计版块每日发帖之星
日期:2016-06-11 06:20:00IT运维版块每日发帖之星
日期:2016-06-25 06:20:00
5 [报告]
发表于 2015-09-20 15:11 |只看该作者
来学习了,谢谢楼主分享

论坛徽章:
0
6 [报告]
发表于 2015-09-21 10:23 |只看该作者
回复 2# MMMIX


#!/bin/bash
file1=/mnt/test/input1       #指定文件的路径
file2=/mnt/test/input2
n=`cat $file1 |wc -l`        #以其中任意一个文件作为基准,逐行的进行处理

for((i=1;i<=$n;i++))         
do
  line2=`head -n $i $file1 |tail -n 1`      #截取文件每一行的内容
  id2=`head -n $i $file1 |tail -n 1 | awk -F "," '{print $1}'`           #从截取的文件行中,在截取除id,name
  name2=`head -n $i $file1 |tail -n 1 | awk -F "," '{print $2}'`

  id1=`grep $id2 $file2 | awk -F "," '{print $1}'`                       #以上文中截取的id值为关键字,在另一个文件中匹配相应的行,并截取id,name
  name1=`grep $id2 $file2 | awk -F "," '{print $2}'`

  if [ "$id1" = "$id2" ]                     
  then
  sex=`grep $id2 $file2 | awk -F "," '{print $3}'`
    if [ "$name1" = "$name2" ]            #若两个文件的id,name字段都匹配,则进行联接显示
    then
       echo "$line2,$sex"
    else
       echo -e "\033[34m$id1,$name1 and $name2 are conflict!\033[0m"     
    fi
  fi
done

   

论坛徽章:
95
程序设计版块每日发帖之星
日期:2015-09-05 06:20:00程序设计版块每日发帖之星
日期:2015-09-17 06:20:00程序设计版块每日发帖之星
日期:2015-09-18 06:20:002015亚冠之阿尔艾因
日期:2015-09-18 10:35:08月度论坛发贴之星
日期:2015-09-30 22:25:002015亚冠之阿尔沙巴布
日期:2015-10-03 08:57:39程序设计版块每日发帖之星
日期:2015-10-05 06:20:00每日论坛发贴之星
日期:2015-10-05 06:20:002015年亚冠纪念徽章
日期:2015-10-06 10:06:482015亚冠之塔什干棉农
日期:2015-10-19 19:43:35程序设计版块每日发帖之星
日期:2015-10-21 06:20:00每日论坛发贴之星
日期:2015-09-14 06:20:00
7 [报告]
发表于 2015-09-21 12:57 |只看该作者
回复 6# dream_my_dream


    其实只要一个 awk 脚本就够了:

BEGIN {
    FS = ","
    OFS = ","
}

NR == FNR {
    r[$1]["name"] = $2
    r[$1]["gender"] = $3
    next
}

{
    if ($1 in r) {
        if ($2 == r[$1]["name"])
            print $0, r[$1]["gender"]
        else
            print $1, $2 " and " r[$1]["name"] " are conflict!"
    }
}

论坛徽章:
0
8 [报告]
发表于 2015-09-21 22:12 |只看该作者
回复 7# MMMIX

多谢大神
   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP