免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2388 | 回复: 1
打印 上一主题 下一主题

python 删除匹配行 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2015-11-09 15:16 |只看该作者 |倒序浏览
生成了一个 html 叠加的文件如下:

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "xxxx">
<html xmlns="xxxx">
。。。。。。
</html>
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "xxxx">
<html xmlns="xxxx">
。。。。。。
</html>
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "xxxx">
<html xmlns="xxxx">
。。。。。。
</html>

怎样吧中间重复的声明删除呢?(以下4行)
</html>
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "xxxx">
<html xmlns="xxxx">




论坛徽章:
4
白羊座
日期:2013-11-05 10:26:09冥斗士
日期:2015-11-17 14:19:55白银圣斗士
日期:2015-11-17 15:13:0815-16赛季CBA联赛之新疆
日期:2016-04-01 09:10:58
2 [报告]
发表于 2015-11-10 13:31 |只看该作者
代码如下:
  1. content = """<?xml version="1.0" encoding="UTF-8"?>
  2. <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "xxxx">
  3. <html xmlns="xxxx">
  4. XXXX
  5. </html>
  6. <?xml version="1.0" encoding="UTF-8"?>
  7. <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "xxxx">
  8. <html xmlns="xxxx">
  9. XXXX
  10. </html>
  11. <?xml version="1.0" encoding="UTF-8"?>
  12. <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "xxxx">
  13. <html xmlns="xxxx">
  14. XXXX
  15. </html>"""
  16.     import re
  17.     replacer = re.compile("</html>.*?<html .*?>", re.M | re.DOTALL)
  18.     result = replacer.sub("", content)
  19.     print result
复制代码
不过替换之后,原来的地方是个空行。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP