免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1636 | 回复: 3
打印 上一主题 下一主题

请教正则问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2017-05-24 18:27 |只看该作者 |倒序浏览
有xml 文件,想要用正则抽取相应的文本

  <row>
    <attribute name="groupName">
        <value>SUPERGROUP</value>
    </attribute>
    <attribute name="sidName">
        <value>PDCProspectPerson.readHomePageDetails</value>
    </attribute>
    <attribute name="lastWritten">
        <value/>
    </attribute>
  </row>
  <row>
    <attribute name="groupName">
        <value>HEALTHCARECOORDINATIONGROUP</value>
    </attribute>
    <attribute name="sidName">
        <value>PDCProspectPerson.readHomePageDetailsForModify</value>
    </attribute>
    <attribute name="lastWritten">
        <value>2016-11-22-15.35.01</value>
    </attribute>
  </row>


我写了个函数: 想要根据传入的attribute name 来提取相应的 文本
比如 输入 attri="groupName", 希望得到
    <attribute name="groupName">
        <value>SUPERGROUP</value>
    </attribute>


    <attribute name="groupName">
        <value>HEALTHCARECOORDINATIONGROUP</value>
    </attribute>


我遇到两个难点:
1. 如何引用 变量 到 正则中
2. 如何使用 组

我写以下函数, 结果是 ['attribute'] , 我不知道该怎么办了, 求大神们帮忙

def getAttributeXMLText(text,attri):
     patnVar='<(attribute) name=\"‘+attri+‘\">.*?</\\1>'
     print patnVar
     mpattern = re.compile(r'<(attribute) name=\"'+attri+'\">.*?</\\1>',re.M|re.I)
     matchs=re.findall(mpattern, text)
     print matchs



论坛徽章:
14
15-16赛季CBA联赛之辽宁
日期:2019-06-16 15:47:3515-16赛季CBA联赛之广夏
日期:2016-08-13 21:24:352015亚冠之武里南联
日期:2015-07-07 17:37:372015亚冠之萨济拖拉机
日期:2015-07-06 17:07:482015亚冠之全北现代
日期:2015-06-04 13:54:272015亚冠之城南
日期:2015-05-21 15:43:212015年亚洲杯之伊朗
日期:2015-04-25 18:20:362015年亚洲杯之伊朗
日期:2015-04-20 16:06:052015年亚洲杯之科威特
日期:2015-03-07 12:51:26丑牛
日期:2014-12-30 10:26:38申猴
日期:2014-09-28 22:40:18金牛座
日期:2014-09-13 21:12:22
2 [报告]
发表于 2017-05-24 20:13 |只看该作者
本帖最后由 reb00t 于 2017-05-24 20:15 编辑
  1. def getAttributeXMLText(text,attri):
  2.      patnVar='<attribute name=\"'+attri+'\">.*?</attribute>'
  3.      matchs=re.findall(patnVar, text,re.M|re.I|re.S)
  4.      return matchs



  5. attri = 'groupName'
  6. for d in getAttributeXMLText(data,attri):
  7.     print d
复制代码


这种方式可以,,

论坛徽章:
14
15-16赛季CBA联赛之辽宁
日期:2019-06-16 15:47:3515-16赛季CBA联赛之广夏
日期:2016-08-13 21:24:352015亚冠之武里南联
日期:2015-07-07 17:37:372015亚冠之萨济拖拉机
日期:2015-07-06 17:07:482015亚冠之全北现代
日期:2015-06-04 13:54:272015亚冠之城南
日期:2015-05-21 15:43:212015年亚洲杯之伊朗
日期:2015-04-25 18:20:362015年亚洲杯之伊朗
日期:2015-04-20 16:06:052015年亚洲杯之科威特
日期:2015-03-07 12:51:26丑牛
日期:2014-12-30 10:26:38申猴
日期:2014-09-28 22:40:18金牛座
日期:2014-09-13 21:12:22
3 [报告]
发表于 2017-05-24 20:13 |只看该作者
  1. def getAttributeXMLText(text,attri):
  2.      patnVar='<attribute name=\"'+attri+'\">.*?</attribute>'
  3.      matchs=re.findall(patnVar, text,re.M|re.I|re.S)
  4.      return matchs



  5. attri = 'groupName'
  6. for d in getAttributeXMLText(data,attri):
  7.     print d
复制代码

论坛徽章:
0
4 [报告]
发表于 2017-05-25 08:01 |只看该作者
本帖最后由 david_95 于 2017-05-25 08:05 编辑

感谢! 不过我还有问题,就是如果用 正则 子表达式  python 怎么写? 比如我上面的例子里 假如  attribute 内还嵌套 attribute

    <attribute name="groupName">
        <value>HEALTHCARECOORDINATIONGROUP</value>
            <attribute name="xxx">
                  <value>value xxx</value>
             </attribute>
    </attribute>

而我要找出 attribute groupname 的 text ,这个该怎么写 ?  正则表达式 我会 <(attribute) name="+attri+">.*?</\1>  ,就是要找与前 attribute 配对的子表达式,但是在 python 里怎么用呢
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP