免费注册	查看新帖 \|


平台论坛博客文库

› 论坛 › 程序设计 › Python › python3怎么转换html中＆#29256;＆#26412;这种字符实体 ...

最近访问板块

发新帖

查看: 2531 | 回复: 3

上一主题

下一主题

python3怎么转换html中＆#29256;＆#26412;这种字符实体到中文 [复制链接]

论坛徽章:: 1

操作系统版块每日发帖之星
日期:2016-06-12 06:20:00

电梯直达

跳转到指定楼层

1楼 [收藏(0)] [报告]

发表于 2017-04-03 15:07 |只看该作者 |倒序浏览

本帖最后由 yakczh_cu 于 2017-04-04 09:37 编辑

测试页面

<!DOCTYPE HTML>
<html  >
<head>
  <title></title>

</head>
<body>
<table border="1" cellpadding="3">
<tr>
<td><b>Your copy:</b></td>
<td>＆#29256;＆#26412;4.2 build 1020</td>
</tr>
<tr>
<td><b>Latest version:</b></td>
<td>Version 4.2 build 1146 *</td>
</tr>
</table>

import html
from urllib.request import Request,urlopen
url = 'http://localhost/test.html'
req = Request(url, None) 　
resp = urlopen(req)
#print(resp.read())
print(html.unescape(resp.read().decode()) )

复制代码

　
用unescape　还是没变化

页面中的＆需要重新手工输一下,因为发出来会转义

</body>
</html>

文库|博客

论坛徽章:: 0

2楼 [报告]

发表于 2017-04-03 16:25 |只看该作者

实体里的'&'符号是半角的，你这里用的是全角的，当然转换不过来。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 1

操作系统版块每日发帖之星
日期:2016-06-12 06:20:00

3楼 [报告]

发表于 2017-04-04 09:39 |只看该作者

回复 2# inpool

输入全角是因为原样会自己转义，看不出来是字符实体，我还特意在最后说&符号要自己输一下，这么说还看不明白？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

4楼 [报告]

发表于 2017-04-04 11:59 |只看该作者

python3.4 实测如果是半角字符你写的没错。如果全角要转译的话必须自己写。

import re
s = '<td>＆#29256;＆#26412;4.2 build 1020</td>'
regex = re.compile('＆#(\d+);')
matchs = regex.findall(s)
for i in matchs:
s = s.replace('＆#%s;' % i, chr(int(i)))
print(s)

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

发新帖

Chinaunix › 论坛 › 程序设计 › Python › python3怎么转换html中＆#29256;＆#26412;这种字符实体 ...

北京盛拓优讯信息技术有限公司. 版权所有京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号：11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员联系我们：huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP