免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 5161 | 回复: 5
打印 上一主题 下一主题

[文本处理] 求助对字符串进行编码UrlEncode [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2015-11-26 14:56 |只看该作者 |倒序浏览
本帖最后由 老狼01 于 2015-11-26 15:32 编辑

需求一批文本批量进行UTF-8编码,shell 怎么实现
  1. test.txt

  2. 我的家在_19号4楼
  3. 小黄的学校在哪里
  4. 小李家电话_0599-888888
  5. 姓什么_【白】
复制代码
  1. 编码后:
  2. 我的家在_19号4楼     %e6%88%91%e7%9a%84%e5%ae%b6%e5%9c%a8_19%e5%8f%b74%e6%a5%bc
  3. 小黄的学校在哪里      %e5%b0%8f%e9%bb%84%e7%9a%84%e5%ad%a6%e6%a0%a1%e5%9c%a8%e5%93%aa%e9%87%8c
  4. 小李家电话_0599-888888   %e5%b0%8f%e6%9d%8e%e5%ae%b6%e7%94%b5%e8%af%9d_0599-888888
  5. 姓什么_【白】  %e5%a7%93%e4%bb%80%e4%b9%88_%e3%80%90%e7%99%bd%e3%80%91
复制代码

论坛徽章:
54
2015亚冠之德黑兰石油
日期:2015-07-07 13:00:1615-16赛季CBA联赛之深圳
日期:2016-03-31 09:03:5415-16赛季CBA联赛之辽宁
日期:2016-05-09 20:38:15程序设计版块每日发帖之星
日期:2016-05-12 06:20:0015-16赛季CBA联赛之四川
日期:2016-05-13 15:19:4715-16赛季CBA联赛之福建
日期:2016-05-15 20:24:34每日论坛发贴之星
日期:2016-05-16 06:20:0015-16赛季CBA联赛之吉林
日期:2016-05-26 11:49:4715-16赛季CBA联赛之广东
日期:2016-05-26 13:49:18极客徽章
日期:2016-12-07 14:05:2315-16赛季CBA联赛之广夏
日期:2016-12-20 17:33:532017金鸡报晓
日期:2017-01-10 15:19:56
2 [报告]
发表于 2015-11-26 15:20 |只看该作者
本帖最后由 haooooaaa 于 2015-11-26 15:21 编辑

Bash urlencode and urldecode
  1. #!/usr/bin/env python
  2. #coding:utf-8

  3. from urllib import urlencode

  4. s=r'''我的家在_19号4楼
  5. 小黄的学校在哪里
  6. 小李家电话_0599-888888
  7. 姓什么_【白】'''


  8. for i in s.split():
  9.     print urlencode({i:i})
复制代码

论坛徽章:
0
3 [报告]
发表于 2015-11-26 15:32 |只看该作者
回复 2# haooooaaa   shell 方法呢,怎么实现


   

论坛徽章:
5
金牛座
日期:2015-07-03 13:32:00卯兔
日期:2015-07-03 13:32:17程序设计版块每日发帖之星
日期:2015-11-29 06:20:0015-16赛季CBA联赛之同曦
日期:2015-12-15 09:36:06CU十四周年纪念徽章
日期:2016-07-06 17:18:48
4 [报告]
发表于 2015-11-26 16:34 |只看该作者
查了一下资料,只找到shell的一个转换函数iconv,不知道行不行

iconv -f 源字符集 -t 目标字符集  "filename"

论坛徽章:
0
5 [报告]
发表于 2015-11-26 23:16 |只看该作者
a='%e6%88%91%e7%9a%84%e5%ae%b6%e5%9c%a8_19%e5%8f%b74%e6%a5%bc'
echo ${a//%/\\x}
    \xe6\x88\x91\xe7\x9a\x84\xe5\xae\xb6\xe5\x9c\xa8_19\xe5\x8f\xb74\xe6\xa5\xbc
eval echo $\'${a//%/\\x}\'
     我的家在_19号4楼
b=$(eval echo $\'${a//%/\\x}\')
echo $b
     我的家在_19号4楼


论坛徽章:
0
6 [报告]
发表于 2015-11-26 23:51 |只看该作者
送给楼主一个我自己写的  awk 转换 WEB编码的处理,使用比其他工具灵活。

echo "我的家在_19号4楼" |awk -F "" 'BEGIN{split("35,36,37,38,43,63,64",ExcStr,",");for(i in ExcStr)ExcString[sprintf("%c",ExcStr[i])]=1; for (i=0;i<=255;i++) a[sprintf("%c",i)]=i ;}{for(ii=1;ii<=NF;ii++){if(a[$ii]>=33 && a[$ii]<=126 && ExcString[$ii]!=1){printf "%c",a[$ii]}else{printf "%%%X",a[$ii]};}}'

结果:  %E6%88%91%E7%9A%84%E5%AE%B6%E5%9C%A8_19%E5%8F%B74%E6%A5%BC

注意:如果你的环境语言是 UTF-8 ,那么你要在开始之前加

export LANG=""

一个UTF8中等于3个字符,如果你的环境是 LANG="en_HK.UTF-8" ,那么一个中文当成一个字符处理。
split("35,36,37,38,43,63,64",ExcStr,",")  这个是排除编码,我随便写几个进去,比如说  反斜杠 \ ,他的 编码是 5c ,十进制就是 92,那么要 把\ 转成  %5C ,就把 92 写到排除列表中 就会自动转换。

当然你也改编我的思维,把排除效果做成   直接填写明文字符

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP