免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 139928 | 回复: 12

[文本处理] 请教高难度 shell脚本 搞定加微信发红包奖励 [复制链接]

论坛徽章:
0
发表于 2018-12-08 10:43 |显示全部楼层


A 表格如下  第22列 第23列(红色为22列)

"232"|"1er"|"eqw"|.......|"OTH"|"WY"|"rr"
"222"|"e6r"|"wqw"|.......|"Citizen"|"WY"|"rr"
"222"|"1er"|"eqw"|.......|"Dual_Citizen"|"WY"|"rr"
"212"|"eer"|"wqw"|.......|"Resident"|"WY"|"rr"
"252"|"e2r"|"eqw"|.......|""|"WY"|"rr"
"252"|"e2r"|"eqw"|.......|"WQC"|"WY"|"rr"

只保留23列 保留规则如下
如果22列的值是  "OTH" 或者 "Resident" 其对应的23列的值保持不变
如果22列的值是  "Citizen"或者"Dual_Citizen" 其对应的23列的值替换为 "US"
如果22列的值 为空 "" 其对应的23列的值替换为 "DKK_US"
如果22列的值 不为空 也不是上面 四个值 其删除改行


改后效果如下

"232"|"1er"|"eqw"|.......|"WY"|"rr"
"222"|"e6r"|"wqw"|.......|"US"|"rr"
"222"|"1er"|"eqw"|.......|"US"|"rr"
"212"|"eer"|"wqw"|.......|"WY"|"rr"
"252"|"e2r"|"eqw"|.......|"DKK_US"|"rr"


哪个大神 搞定的话  请留下 微信号   

论坛徽章:
8
2016科比退役纪念章
日期:2018-10-24 08:24:0115-16赛季CBA联赛之北控
日期:2019-03-12 14:34:562016科比退役纪念章
日期:2019-04-01 10:33:0915-16赛季CBA联赛之山东
日期:2019-04-17 12:46:3215-16赛季CBA联赛之广夏
日期:2019-05-09 16:40:4015-16赛季CBA联赛之广夏
日期:2019-10-10 15:33:4015-16赛季CBA联赛之辽宁
日期:2019-10-15 08:37:0615-16赛季CBA联赛之北控
日期:2021-03-30 15:53:34
发表于 2018-12-10 11:05 |显示全部楼层
  1. gawk 'BEGIN{FS=OFS="|"}$22 ~"Citizen"{$23="\"US\""} $4~ "\"\""{$23="\"DKK_US\""} $22 ~"OTH|Resident|Citizen|\"\""{print $0}' A.txt
复制代码

试试看。

论坛徽章:
25
程序设计版块每日发帖之星
日期:2016-05-03 06:20:0015-16赛季CBA联赛之八一
日期:2018-07-05 10:34:09黑曼巴
日期:2018-07-06 15:19:5015-16赛季CBA联赛之佛山
日期:2018-08-03 13:19:3315-16赛季CBA联赛之山西
日期:2018-08-07 19:46:2315-16赛季CBA联赛之广夏
日期:2018-08-08 19:31:5015-16赛季CBA联赛之青岛
日期:2018-11-26 15:21:5015-16赛季CBA联赛之上海
日期:2018-12-11 09:45:3219周年集字徽章-年
日期:2020-04-18 23:54:5215-16赛季CBA联赛之深圳
日期:2020-04-19 21:40:19黑曼巴
日期:2022-04-03 17:55:1315-16赛季CBA联赛之八一
日期:2018-07-03 16:56:46
发表于 2018-12-10 12:23 |显示全部楼层
本帖最后由 wh7211 于 2018-12-10 19:47 编辑

回复 1# xin2v

  1. awk 'BEGIN{FS=OFS="|"}{if($22~"OTH|Resident"){NF=NF}else if($22~"Citizen|Dual_Citizen"){$23="\042US\042"}else if($22~"\042\042"){$23="\042DKK_US\042"}else{next}}1' A
复制代码

论坛徽章:
0
发表于 2018-12-10 17:27 |显示全部楼层
楼主文本多少行,列?

论坛徽章:
0
发表于 2018-12-11 12:28 |显示全部楼层
1 这个不难。
2
======================================================
问:为何不建议大家使用txt,csv保存数据?
答:
好的沙发是宝贝,断腿沙发和它差不多,却是垃圾。
整理好的数据是宝贝,杂乱堆放在txt,log中的未处理数据,却是垃圾。
csv中用单双引号,数据没有相关的类型绑定,没有精度绑定。

如果说raw是,干净的裸数据。

txt不是干净的裸数据,txt是字符串,它含有杂乱格式,空格,tab,分隔符。
大多数情况下,字段顺序也都未整理。

excel就是,干净的裸数据,加富类型。
excel中的数据也不是最好的,也需要整理。



======================================================
问:excel有何好处?
答:
1 excel可以合并单元格。
2 支持图表,公式。
3 单元格内支持单双引号,单元格内的数据有,类型,有精度。
4 有图形软件,操作简单。
等。

3 win + excel + powershell ,测试通过,结果正常。

  1. $输入文件 = 'a:\pscode\0\excel\temp209\b.xlsx'



  2. #region main
  3. $excel对象 = New-Object -comobject Excel.Application
  4. $SheetName = "sheet1"
  5. $Excel工作簿 = $excel对象.Workbooks.Open($输入文件)
  6. $Excel工作表 = $Excel工作簿.Worksheets.Item($SheetName)
  7. $excel对象.Visible = $true
  8. $列 = 23
  9. $列2 = 24

  10. $行 = 1
  11. $最大行 = $Excel工作表.UsedRange.rows.count
  12. write-host $最大行

  13. for ($i = $行;$i -le $最大行;$i++)
  14. {
  15.         $单元格 = $($Excel工作表.Cells.Item($i,$列).Value2).ToString()
  16.         switch ($单元格)
  17.         {
  18.                 'OTH' {break}
  19.                 'Resident' {break}
  20.                 'Citizen' {$Excel工作表.Cells.Item($i,$列2).Value2 = "US";break}
  21.                 'Dual_Citizen' {$Excel工作表.Cells.Item($i,$列2).Value2 = "US";break}
  22.                 '' {$Excel工作表.Cells.Item($i,$列2).Value2 = "DKK_US";break}
  23.                 default {[void]$Excel工作表.Cells.Item($i,$列).EntireRow.Delete() }
  24.         }
  25. }
  26. [void]$Excel工作表.Cells.Item($i,$列).EntireColumn.Delete()




  27. $Excel工作簿.save()
  28. #endregion main





  29. #region  扫尾
  30. Start-Sleep 2
  31. $Excel工作簿.close()
  32. Remove-Item  "$home\documents\resume.xlw" -ErrorAction:SilentlyContinue
  33. Start-Sleep 2
  34. $excel对象.Quit()


  35. Start-Sleep 2
  36. [System.Runtime.InteropServices.Marshal]::ReleaseComObject($Excel工作簿)
  37. [System.Runtime.InteropServices.Marshal]::ReleaseComObject($excel对象)
  38. [System.Runtime.InteropServices.Marshal]::ReleaseComObject($excel对象)
  39. Start-Sleep 2
  40. [System.GC]::Collect()
  41. [System.GC]::WaitForPendingFinalizers()

  42. Remove-Item  "$home\documents\resume.xlw" -ErrorAction:SilentlyContinue
  43. Write-Host "------------end-------------"
  44. Write-Host "---脚本运行完毕后,输入exit命令退出powershell窗口。或点击右上角的x,关闭powershell窗口,后台excel.exe即可自动退出。---"
  45. exit 0
  46. #endregion  扫尾

复制代码


不知道为啥,最近处理行列表格数据的需求,多起来了。
我打算安利一波 ps + excel 处理表数据。

大家记住,ps (或py)+ excel 是高级的数据处理!

论坛徽章:
0
发表于 2018-12-11 13:28 |显示全部楼层
本友会机友会摄友会 发表于 2018-12-11 12:28
1 这个不难。
2
======================================================

大哥 是LINUX 服务器啊

论坛徽章:
0
发表于 2019-01-03 17:30 |显示全部楼层
回复 2# cfwyy

如果需求变了原来是
如果22列的值 不为空 也不是上面 四个值 其删除改行
现在是不删除  该如何处理 ?

论坛徽章:
0
发表于 2019-01-03 17:32 |显示全部楼层

如果需求变了原来是
如果22列的值 不为空 也不是上面 四个值 其删除改行
现在是不删除  该如何处理 ?

论坛徽章:
0
发表于 2019-01-03 17:42 |显示全部楼层
awk 'BEGIN{FS=OFS="|"}{if($4~"OTH|Resident"){NF=NF}else if($4~"Citizen|Dual_Citizen"){$5="\042US\042"}else if($4~"\042\042"){$5="\042DKK_US\042"}}1' A

想通了 谢谢

论坛徽章:
0
发表于 2019-04-12 09:56 |显示全部楼层
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP