12 / 2 页

论坛徽章:: 1

11楼 [报告]

发表于 2004-12-06 16:32 |只看该作者

请教多行匹配问题

对html文件到处理,通常用perl来处理感觉会更好

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

lightspeed

丰衣足食

论坛徽章:: 0

12楼 [报告]

发表于 2004-12-07 05:36 |只看该作者

请教多行匹配问题

试试这个.

根据你提供的文件, 有以下假设:

1. 每行只有一个 <table> 或 </table>
2. <table> 可以嵌套.

# cat ./a.html
<html><head><title> Test </title></head><body>
<p> Other line 1 </p>
<table><tr><td>
<table><tr><td>
<p> table with 3 lines </p>
</td></tr></table>
</td></tr></table>
<p> Other line 2 </p>
<table><tr><td>
<table><tr><td>
<p> table with 7 lines </p>
<p> table with 7 lines </p>
<p> table with 7 lines </p>
<p> table with 7 lines </p>
<p> table with 7 lines </p>
</td></tr></table>
</td></tr></table>
<p> Other line 3 </p>
<table><tr><td>
<table><tr><td>
<p> table with lines 9 </p>
<p> table with lines 9 </p>
<p> table with lines 9 </p>
<p> table with lines 9 </p>
<p> table with lines 9 </p>
<p> table with lines 9 </p>
<p> table with lines 9 </p>
</td></tr></table>
</td></tr></table>
<p> Other line 4 </p>
</body></html>

复制代码

# cat ./1
#!/bin/awk -f
{
if (match($0,/<table>|<\/table>/)) {
if (substr($0,RSTART+1,1)=="t") {
i++
if (n==0 )
n=NR
}
else
i--
m=NR - n - 1
if (i==0 && n != 0) {
if (m==3 || m==7) {
if (s=="")
s=n","NR"d"
else
s=s";"n","NR"d"
}
n=0
}
}
}
END {
if (i != 0) {
print "Format Error !!"
exit
}
if ( s != "" )
system("sed \""s"\" "ARGV[1])
else
print "No matches found !!"
}

复制代码

运行:

# ./1 a.html
<html><head><title> Test </title></head><body>
<p> Other line 1 </p>
<p> Other line 2 </p>
<p> Other line 3 </p>
<table><tr><td>
<table><tr><td>
<p> table with lines 9 </p>
<p> table with lines 9 </p>
<p> table with lines 9 </p>
<p> table with lines 9 </p>
<p> table with lines 9 </p>
<p> table with lines 9 </p>
<p> table with lines 9 </p>
</td></tr></table>
</td></tr></table>
<p> Other line 4 </p>
</body></html>

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

yoof

丰衣足食

论坛徽章:: 0

13楼 [报告]

发表于 2004-12-07 12:50 |只看该作者

请教多行匹配问题

lightspeed
你的代码给出注释如何？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

skylove

荣誉版主

论坛徽章:: 0

14楼 [报告]

发表于 2004-12-08 16:47 |只看该作者

请教多行匹配问题

我等一下试一下,谢谢各位朋友的解答
如果成功了,我把代码贴出来share

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

skylove

荣誉版主

论坛徽章:: 0

15楼 [报告]

发表于 2004-12-09 00:41 |只看该作者

请教多行匹配问题

的确可用...太强了...!!

而且事实上...那个匹配比斑竹给的例子容易,因为中间行的内容都是有缩进的...因此在match那里,和计算行数那里都更简单一些...

斑竹你太强了...!!!

我尝试着看您的程序,但是依然有点困惑,您看看我理解错误的地方,烦劳您指正

# cat ./1
#!/bin/awk -f
{
if (match($0,/<table>|<\/table>/)) { #这里表示匹配<table>或</table>
if (substr($0,RSTART+1,1)=="t") { #这里的RSTART的初始值是??这一句似乎是判断某个字符为t..???
i++ #开始计算行数
if (n==0 )
n=NR #如果一开始没有行号,则用这行作为行号
}
else
i--
m=NR - n - 1 #中间的行数
if (i==0 && n != 0) { #如果行数为0或标记号不为0
if (m==3 || m==7) { #当行数为3或7时候...
if (s=="") #这个s是??
s=n","NR"d" #给s赋予初值,没看明白
else
s=s";"n","NR"d" #这句...也没看明白,剩下的n=0这些也不懂思路了....
}
n=0
}
}
}
END {
if (i != 0) {
print "Format Error !!"
exit
}
if ( s != "" )
system("sed \""s"\" "ARGV[1])
else
print "No matches found !!"
}

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

lightspeed

丰衣足食

论坛徽章:: 0

16楼 [报告]

发表于 2004-12-09 01:36 |只看该作者

请教多行匹配问题

# cat ./1
#!/bin/awk -f
{
if (match($0,/<table>|<\/table>/)) { #这里表示匹配<table>或</table>
if (substr($0,RSTART+1,1)=="t") {
# 当上句　match 匹配成功会自动设置变量　RSTART，　含义为匹配字符串第一个字符在整行中的位置．
# 因此，　substr($0,RSTART+1,1)　是取匹配字符串　<table> 　或　</table>
# 的第二个字符．　如果是 t, 当然说明匹配的是　<table> 了
i++ #　由于匹配了　<table> ,　表嵌套深度加　1
if (n==0 )
n=NR # 纪录一个表结构最外层开始的行号
}
else
i-- # 匹配了　</table> ,　表嵌套深度减　1
m=NR - n - 1 #中间的行数，　这句实际应放在下面　if(m=... 语句之前
if (i==0 && n != 0) { #　嵌套深度为0，但table开始的行号不为0, 说明刚刚完成一个表结构的扫描．
#　当然, 如果　i==0 && n==0 则说明没有遇到表结构
if (m==3 || m==7) { #当表包含行数为3或7时候，　符合删除条件
# s 是传给　END 中　sed 的删除语句，　如　s="2,6d;8,16d"
if (s=="") # 遇到第一个表时赋值，如　s="2,6d"
s=n","NR"d"
else
s=s";"n","NR"d" # 后面的表，需加";" , 如　s=s";8,16d"
}
n=0 # 处理完一个表结构后，　表开始行数复零
}
}
}
END {
if (i != 0) {　# 文件中的　<table> 和　</table> 总数不等，因此语法错误．
print "Format Error !!"
exit
}
if ( s != "" )　
system("sed \""s"\" "ARGV[1])　# 调用　sed 删除相应的行
else
print "No matches found !!"
}

复制代码

由于　html 是一种自由格式，　因此每一行可能有多个　<table> </table>
那样的话，　此程序就不灵了．　你可以自己写一个这种情况的，比较繁琐，　相信
你的 awk 水平一定会有个大的提高．

此外，　如果　<table> </table> 出现在　 中则失去 tag 含义．
总之，　要想符合各种条件，　几乎是不可能的．