[文本处理] 用vim如何从这个html中提取关键词及音标？ [复制链接]

1楼 [报告]

发表于 2019-10-15 08:34 |显示全部楼层

vim 不会。
本来简单的文本用正则也可以，html嘛，不想烧脑

还是用html解析库吧。
下面是用python3+lxml 实现的，仅供参考。

from lxml import etree
html = etree.parse("hair.html",etree.HTMLParser())
Synonym = html.xpath('//div[@id="content"]/div[1]/span/a[@href="javascript:;"]/text()')
Meaning = html.xpath('//div[@id="content"]/div[1]/span[last()]/text()')
Meaning = Meaning[0].split("\xa0")[1]
with open("result.txt","w",encoding="utf-8") as fw:
fw.writelines("Synonym:{}\n".format(",".join(Synonym)))
fw.writelines("Meaning:{}".format(Meaning))

复制代码

结果：

复制代码

[文本处理] 用vim如何从这个html中提取 关键词 及 音标？ [复制链接]