论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2003-05-06 11:48 |只看该作者 |倒序浏览

正规表达式中<[^>]+>为什么就能匹配所有的<*> ????

只排除了一个>,还有一个<不需要排除吗????

文库|博客

nkliyong

家境小康

论坛徽章:: 0

2楼 [报告]

发表于 2003-05-06 14:04 |只看该作者

正规表达式中<[^>]+>为什么就能匹配所有的<*> ??

<[^>]+>

不清楚你用来做什么,但这个正则表达式好象有点问题
^>表示以>开始的一行,而
<[^>]则表示在以>开始的行前还有<,自相矛盾,呵呵.

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

i_amok

白手起家

论坛徽章:: 0

3楼 [报告]

发表于 2003-05-06 14:35 |只看该作者

正规表达式中<[^>]+>为什么就能匹配所有的<*> ??

我的理解...[]中以^开头的表示匹配所有非>的字符

整个<[^>]+>表示匹配以<开头后面跟着至少一个的非>字符,然后再接着>

用来匹配html的标签....我也搞不懂为什么<[^>]+>就能匹配所有的
html标签....

那至少也应该是匹配"非<>"

一段perl代码:

$/ = ".\n"; 1 # a special "chunk-mode"'; chunks end with a period-newline
combination
while (<>) 2
{
next unless s 3
{# (regex starts here)
### Need to match one word:
\b # start of word....
( [a-z]+ ) # grab word, filling $1(and \1).
### Now need to allow any number of spaces and/or <TAGS>
( # save what intervenes to $2.
( # ($3-parens onlyforgrouping the alternation)
\s # whitespace (includes newline, which is good).
| # -or-
<[^>]+> # item like < TAG>.
)+ # need at least one of the above, but allow more.
)
### Now match the first word again:
(\l\b) # \b ensures not embedded. This copy saved to $4.
# (regex ends here)
}
# Above is the regex. Replacement string, below, followed by the modifiers, /i, /g,
and /x
"\e[7m$1\e[m$2\e[7m$4\e[m"igx; 4
s/^ ([^\e]*\n)+//mg; 5 # Remove any unmarked lines.
s/^/$ARGV: /mg; 6 # Ensure lines begin with filename.
print;
}

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

nkliyong

家境小康

论坛徽章:: 0

4楼 [报告]

发表于 2003-05-06 18:59 |只看该作者

正规表达式中<[^>]+>为什么就能匹配所有的<*> ??

[quote]原帖由 "i_amok"][/quote 发表：

偶错啦

<<>符合这个表达式,他把第二个<认为是<>中的内容啦.

偶想关键看自己的要求.

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

iamok

白手起家

论坛徽章:: 0

5楼 [报告]

发表于 2003-05-06 22:20 |只看该作者

正规表达式中<[^>]+>为什么就能匹配所有的<*> ??

原帖由 "nkliyong" 发表：

偶错啦

<<>符合这个表达式,他把第二个<认为是<>中的内容啦.

偶想关键看自己的要求.

没看懂...

...能仔细说一下吗?

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

nkliyong

家境小康

论坛徽章:: 0

6楼 [报告]

发表于 2003-05-07 08:15 |只看该作者

正规表达式中<[^>]+>为什么就能匹配所有的<*> ??

原帖由 "iamok" 发表：

没看懂......能仔细说一下吗?

呵呵,偶也不懂

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

muzx

家境小康

论坛徽章:: 0

7楼 [报告]

发表于 2003-05-07 09:22 |只看该作者

正规表达式中<[^>]+>为什么就能匹配所有的<*> ??

<[^>]+>这是一个非常经典的html标签匹配表达式。一般的正则表达式的默认匹配的是最大字符串，而这不符合我们的要求（我们要求的是最小匹配，即把每一个html标签都分别取出来），为了避免匹配错误，就必须对shell的匹配方式进行限定。这里使用了[^>]它来完成此项任务，因为我们知道，每个单独的html标签都是以">"字符结束的，所以，一个非>字符最能说明标签的描述，当遇到一个">"字符时，就标志着一个标签描述的结束。这正好是我们所要的。
若有下面代码：