论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2012-06-15 20:31 |只看该作者 |倒序浏览

我想用shell 提取字符串中的数据，原始数据如下
<li><a href="#" key="201112/27/C.QhlYzQ44tTHDccKeQ" tag="0" > </a></li>
<li><a href="#" key="201112/27/C.QhlYzQ44tTHDccKeC" tag="1" > </a></li>
<li><a href="#" key="201112/27/C.QhlYzQ44tTHDccKeW"  tag="2" > </a></li>
<li><a href="#" key="201112/27/C.QhlYzQ44tTHDccKeU" tag="3" > </a></li>

提取后呈现

key 201112/27/C.QhlYzQ44tTHDccKeQ    tag  0
key 201112/27/C.QhlYzQ44tTHDccKeC    tag  1
key 201112/27/C.QhlYzQ44tTHDccKeW tag  2
key 201112/27/C.QhlYzQ44tTHDccKeU    tag  3

恳请大家给个类似的例子，谢谢

文库|博客

jiejie455

稍有积蓄

论坛徽章:: 0

2楼 [报告]

发表于 2012-06-15 21:02 |只看该作者

本帖最后由 jiejie455 于 2012-06-15 21:07 编辑

awk '{s=$3" "$4;gsub(/=|\"/," ",s);print s}' data

复制代码

sed -nr 's/.*key=\"([^\"]*)\" +tag=\"([0-9]+)\".*/key \1 tag \2/p' data

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

dn833

富足长乐

论坛徽章:: 5

3楼 [报告]

发表于 2012-06-16 00:32 |只看该作者

awk -F "[=\" ]+" '{print $4,$5,$6,$7}'

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

gaowenbinmarr

白手起家

论坛徽章:: 0

4楼 [报告]

发表于 2012-06-18 16:18 |只看该作者

回复 2# jiejie455

谢谢各位帮忙

现在的问题是里面增加了很多

<li><a href="#" data-key="201203/20/JhS1_t5RGRblI7M2J" data-date="" data-url="" data-tag="其他" data-type="" data-usr="" data-seed="hotel" data-fid="201203/20/JhS1_t5RGRblI7M2J" data-title=""></a></li><li><a href="#" data-key="201203/20/JhS1_t5RGRKrcPhYJ" data-date="" data-url="" data-tag="其他" data-type="" data-usr="" data-seed="hotel" data-fid="201203/20/JhS1_t5RGRKrcPhYJ" data-title=""></a></li><li><a href="#" data-key="201203/20/JhS1_t5RGs-vrwfwJ" data-date="" data-url="" data-tag="其他" data-type="" data-usr="" data-seed="hotel" data-fid="201203/20/JhS1_t5RGs-vrwfwJ" data-title=""></a></li>..............

复制代码

<li></li>存在很多....
所以我想提取其中data-Key 和tag ，并生成固定的格式

id = "" tag= "其他" url = "http://www.xxx201203/20/JhS1_t5RGRblI7M2J.html"

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

惟吾无为

小富即安

论坛徽章:: 1

5楼 [报告]

发表于 2012-06-18 23:09 |只看该作者

当你不能一步完成时，就分成多步处理吧。

不然就自己学习awk或sed，只要自己肯找，资料会有的。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

fengfeng919

稍有积蓄

论坛徽章:: 0

6楼 [报告]

发表于 2012-06-19 10:15 |只看该作者

如果源文件都没有统一的格式的话，最好是awk去处理。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

by917611

白手起家

论坛徽章:: 0

7楼 [报告]

发表于 2012-06-20 11:53 |只看该作者

实现很简单的，首先将这些放入到一个文本中。实现如下
<li><a href="#" key="201112/27/C.QhlYzQ44tTHDccKeQ" tag="0" > </a></li>
<li><a href="#" key="201112/27/C.QhlYzQ44tTHDccKeC" tag="1" > </a></li>
<li><a href="#" key="201112/27/C.QhlYzQ44tTHDccKeW" tag="2" > </a></li>
<li><a href="#" key="201112/27/C.QhlYzQ44tTHDccKeU" tag="3" > </a></li>

cat test.txt |awk '{print $3 $4}'|sed 's/="/ /g'|sed 's/"/ /g' > ok.txt 简单就实现了 qq：917611 不懂问我

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

返回列表

Chinaunix › 论坛 › 程序设计 › Shell › awk提取字符串

awk提取字符串 [复制链接]