论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2017-07-31 17:34 |只看该作者 |倒序浏览

在处理XML文件时，需根据外部文件list里的每行的数据，对文件中所有指定的段落进行判断，该段落含有外部文件的数据时则删除该段落，

利用循环处理test.xml文件的方式可以实现，但当test.xml文件特别大时，list文件有几十行条件时，循环test.xml次数太多，系统处理时间太长，因此想请教是否可以只循环test.xml文件一次，即每取出一次段落多次循环判断list来提高效率，不知利用sed或awk是否可行，请各位指教，多谢。

cat list|while read line;do
sed -r '/<url/{:a;N;/<\/url>/!ba;/'$line'/d}' test.xml > temp.xml
mv temp.xml test.xml
done

外部判断条件list文件内容如下：
0.83
0.81
....

test.xml 测试文件内容如下：

<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<raml xmlns="raml21.xsd" version="2.1">
<cmData id="1234567890" scope="all" type="ready">

<url>
<loc>http://www.ucat.cc/index.php?ctl=register</loc>
<lastmod>2013-11-18</lastmod>
<changefreq>always</changefreq>
<priority>0.97</priority>
</url>

<url>
<loc>http://www.ucat.cc/index.php?ctl=register</loc>
<lastmod>2013-11-18</lastmod>
<changefreq>always</changefreq>
<priority>0.88</priority>
</url>

<url>
<loc>http://www.ucat.cc/index.php?ctl=register</loc>
<lastmod>2013-11-18</lastmod>
<changefreq>always</changefreq>
<priority>0.93</priority>
</url>

<url>
<loc>http://www.ucat.cc/index.php?ctl=register</loc>
<lastmod>2013-11-18</lastmod>
<changefreq>always</changefreq>
<priority>0.92</priority>
</url>

<url>
<loc>http://www.ucat.cc/index.php?ctl=register</loc>
<lastmod>2013-11-18</lastmod>
<changefreq>always</changefreq>
<priority>0.81</priority>
</url>

<url>
<loc>http://www.ucat.cc/index.php?ctl=register</loc>
<lastmod>2013-11-18</lastmod>
<changefreq>always</changefreq>
<priority>0.83</priority>
</url>

<url>
<loc>http://www.ucat.cc/index.php?ctl=login</loc>
<lastmod>2013-11-18</lastmod>
<changefreq>always</changefreq>
<priority>0.87</priority>
</url>

</cmData>
</raml>

文库|博客

jason680

富可敌国

论坛徽章:: 145

2楼 [报告]

发表于 2017-07-31 19:48 |只看该作者

回复 1# gfan2

$ cat list
0.83
0.81
0.97
0.88
0.92

$ awk 'FNR==NR{a[$1];next}/<url>/{K=1}!K{print;next}K{s=s$0"\n"}/<\/url>/{t=s;s="";K=0;if(match(t,"priority>([.0-9]+)<",m))if(m[1] in a)next;printf t}' list test.xml
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<raml xmlns="raml21.xsd" version="2.1">
<cmData id="1234567890" scope="all" type="ready">

<url>
<loc>http://www.ucat.cc/index.php?ctl=register</loc>
<lastmod>2013-11-18</lastmod>
<changefreq>always</changefreq>
<priority>0.93</priority>
</url>

<url>
<loc>http://www.ucat.cc/index.php?ctl=login</loc>
<lastmod>2013-11-18</lastmod>
<changefreq>always</changefreq>
<priority>0.87</priority>
</url>

</cmData>
</raml>

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

zxy877298415

小富即安

论坛徽章:: 30

3楼 [报告]

发表于 2017-07-31 22:05 |只看该作者

回复 1# gfan2

awk -vRS=" $\n" 'FNR==NR{for(i=1;i<=split($0,a,"\n");i++) {b[a[i]]=i}}{match($0,"<priority>([^<]+).*",c);if(!b[c[1]]||$0~/cmData/) print $0}' list.txt test.xml

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

gfan2

白手起家

论坛徽章:: 0

4楼 [报告]

发表于 2017-07-31 22:12 |只看该作者

偶的神啊，我得好好消化一下，谢谢偶像

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

gfan2

白手起家

论坛徽章:: 0

5楼 [报告]

发表于 2017-07-31 22:56 |只看该作者

对了，这个AWK是对位置固定match(t,"priority>([.0-9]+)<",m来判断的，如果LIST文件中每行是些字符串呢，能匹配上的在<url>到</url>的每段中可能位置不固定，那怎么判断是否含有这些字符串然后删掉整个段落呢

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

moperyblue

大富大贵

论坛徽章:: 28

6楼 [报告]

发表于 2017-08-01 12:34 |只看该作者

sed -r '1{x;s/.*/cat list/e;x};/<url>/{:a;N;/<\/url>/!ba;G;/([0-9]+\.[0-9]+\b).*<\/url>.*\n\1\b/d;s/(<\/url>).*/\1/}' test.xml

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

jason680

富可敌国

论坛徽章:: 145

7楼 [报告]

发表于 2017-08-01 12:59 |只看该作者

回复 5# gfan2

举例,说明...

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

gfan2

白手起家

论坛徽章:: 0

8楼 [报告]

发表于 2017-08-01 13:37 |只看该作者

回复 7# jason680

例如 list 文件中是一行行的字符串，不能固定的或有规律判断<url>和</url>间某个位置，只要<url>和</url>间含这些字符，我就删掉这个段落呢，如何实现

cat list
register
change
last
many

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

本友会机友会摄友会本友会机友会摄友会当前离线禁止发言好友博客消息论坛徽章: 0	9楼 [报告] 发表于 2017-08-01 14:39 \|只看该作者提示: 作者被禁止或删除内容自动屏蔽
	实战分享：从技术角度谈机器学习入门\| 【大话IT】RadonDB低门槛向MySQL集群下战书 \| ChinaUnix打赏功能已上线！ \| 新一代分布式关系型数据库RadonDB知多少？