- 论坛徽章:
- 8
|
本帖最后由 cfwyy 于 2019-04-22 14:46 编辑
光提取数字好说,问题是你没有给出实体精确的定义,怎么去严格认定哪些字,从哪到哪是你想要的实体?
观察样本,我先姑且粗略的认为数值前面可能有汉字,别的数字,字母,()(),
数值大概有两种 一种是***.*(亿,万)元
一种是**.*%
所以我直接用grep匹配,前提是docx文件要转成纯文本。
不知是否能满足你的要求。
- $ grep -Po '[A-Z\d\(\)()&\p{Han}]+(\d+(\.\d)?(亿元|亿|万元|元)|\d{1,2}(\.\d{1,2})?%(?!、)|:?(\d{1,2}(\.\d{1,2})?%、){1,2}\d{1,2}(\.\d{1,2})?%和\d{1,2}(\.\d{1,2})?%)' file.txt
复制代码
结果:- 研究与试验发展(R&D)经费支出占国内生产总值(GDP)的比重首次超过0.8%
- 1999年全国共筹集科技活动经费1460.6亿元
- 比上年增加170.9亿元
- 同口径增长12.5%
- 按总人口计算的全国人均科技活动经费筹集额116元
- 比上年增加12.7元
- 1999年国家财政科技拨款额达543.9亿元
- 比上年增加105.3亿元
- 实际增长26.8%
- 科技拨款占国家财政支出的比重为4.1%
- 其中中央财政科技拨款占中央财政支出的比重为8.6%
- 地方财政科技拨款占地方财政支出的比重为2.1%
- 1999年科技活动经费支出总额为1284.9亿元
- 比上年增加156.5亿元
- 同口径增长13%
- 企业支出654.6亿元
- 比上年同口径增长16.6%
- 研究与开发机构支出496.9亿元
- 增长9.4%
- 高等学校支出85.1亿元
- 增长16.3%
- 各执行部门支出占全部科技经费支出的比重分别为50.9%、38.7%和6.6%
- ......
复制代码
|
评分
-
查看全部评分
|