论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2011-03-30 11:33 |只看该作者 |倒序浏览

本帖最后由 kitsilence 于 2011-03-30 11:37 编辑

如题，我们知道网页包含很多内容，标签和正文...

</TD></TR></TBODY></TABLE>
现如今，多给孩子选择课外辅导成为风气，除了正常课堂再上一两门课外课的现象再普通不过。很多家长认为紧凑安排辅导课能更好帮助孩子，因为这样可以为孩子提供一个长时间的英语学习环境，总能让学习时间的量变产生考试成绩的质变。但是这样的想法是万万不可取的。采访中，王老师提到孩子不是机器，也是独立的个体，家长应该充分尊重其对知识学习的需求和节奏特点，课外辅导的时间累积绝对不能直接等同于成绩的提高，一旦造成孩子对英语辅导的逆反情绪，会带来更加麻烦的后果。

复制代码

，上面只是示例，正文的内容可能是外文。假设一张网页的全部内容已经得到为 $content，
现在要判断$content里面是不是有一段或者更多文本段落（假设是中文），请问这个正则表达式应该怎么写

表达式, 网页, 正文, 中文, 表达式, 网页, 正文, 中文

文库|博客

kitsilence

白手起家

论坛徽章:: 0

2楼 [报告]

发表于 2011-03-31 13:32 |只看该作者

怎么木有人围观一下下呢，是我表述的不清楚还是什么啊

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

zhlong8

版主

论坛徽章:: 46

3楼 [报告]

发表于 2011-03-31 13:42 |只看该作者

什么叫文本段落？ ？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

xfoucs

稍有积蓄

论坛徽章:: 0

4楼 [报告]

发表于 2011-03-31 13:43 |只看该作者

m{.*?}
应该可以吧

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

kitsilence

白手起家

论坛徽章:: 0

5楼 [报告]

发表于 2011-03-31 15:19 |只看该作者

本帖最后由 kitsilence 于 2011-03-31 15:20 编辑

回复 3# zhlong8

(⊙o⊙)…~ 看来真是我表述的不清楚！我把实际需求告诉你好了。我写爬虫根据url去抓取某些网页，

当然有url就意味我能得到该url对应网页的内容是吧，那不能说一拿到内容我就下载到本地，我得判断

这个内容里边是不是包含了我想要的东西，我想要的是包含了中文文章的网页，就是上边说的文本段落

，你明白我的需求了吧！你说的用 .*这个能匹配我贴上的例子而已，但不是所有网页里对

文章的排版都这样不是吗？