论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2008-11-11 09:10 |只看该作者 |倒序浏览

Hi, all

pattern seems like \(subregexp1\) \| \(subregexp2)\ \| ....

I want to know if there is some way to dicide which subregexp(S) match the text when the whole regexp(dfa) says it matches;

This is my original problem:
There are about 200-2000 regexp, given a text, how to match _quickly_(so not an for(;

statements)

e.g.

1. a.*b
2. b.*c
3. c.*d
text is "abce"

then result is "regexp 1 and 2 match"
I also want to know 1 and 2 matches which part of the text respectively。
Any help is greatly appreciated.

文库|博客

cjaizss

版主

论坛徽章:: 3

2楼 [报告]

发表于 2008-11-11 10:25 |只看该作者

这个恐怕比较难,regex比较复杂,我能想到的也只有regex形成父子关系:
比如
a~regex1 -> a~regex2
则regex1作为regex2的上层(先检验)

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

baohuaihuai

家境小康

论坛徽章:: 0

3楼 [报告]

发表于 2008-11-13 13:40 |只看该作者

这个很复杂吧，得看正则表达式的具体形态了，我觉得有几种可能的方式：
1.如果这些正则表达式几乎没有任何可寻找的规律，那你可以考虑的就是把这些正则表达式合并成一个大DFA。这个是可行的，就是工作量很大，需要的存储空间也很大，关键是针对你的第二个需求，需要记的状态可能太多了（比如一个字符串有1000个a，后面还有1000个b，针对你的regex1，就有一百万种匹配结果组合了），而且因为是DFA所以对正则表达式也有限制。
2.如果正则表达式存在一些层次逻辑的联系，那可以考虑把这200-2000个正则表达式组织成树形结构（可能和楼上cjaizss的说法是一个意思？）
3.如果这些正则表达式主要都是一些字串匹配类型的，那就考虑用AC等多字符串匹配算法吧。

[ 本帖最后由 baohuaihuai 于 2008-11-13 13:42 编辑 ]

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

cjaizss

版主

论坛徽章:: 3

4楼 [报告]

发表于 2008-11-13 14:05 |只看该作者

回复 #3 baohuaihuai 的帖子

一般应该没有什么没有太高效率的匹配手段,regex的结构还是千奇百怪,一般没啥可比性.

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

cjaizss

版主

论坛徽章:: 3

5楼 [报告]

发表于 2008-11-13 14:06 |只看该作者

1. a.*b
2. b.*c
3. c.*d
不过如果真的都像LZ这么简明的regex,应该是有效率相对高的手段的

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

flw2

大富大贵

论坛徽章:: 0

6楼 [报告]

发表于 2008-11-13 16:52 |只看该作者

说的好，我就是要让n 个dfa的states 和ac类似

感觉是能可以做到，正在朝这方面想

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

cjaizss

版主

论坛徽章:: 3

7楼 [报告]

发表于 2008-11-13 18:14 |只看该作者

是不是都是x.*y这样的regex?
x,y为任意字符。
那么可以先为所有的x.*y建一个表，等我下班回去详细再说

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

flw2

大富大贵

论坛徽章:: 0

8楼 [报告]

发表于 2008-11-16 21:57 |只看该作者

我的问题能得到解决

flex应该不是一个一个一个匹配，不过 flex的代码没来得及看
龙书上确实指明了方向（今天下午去按摩的时候想起的）， 3.8节，只是flex执行最长匹配，我不需要，任何时候匹配都符合我的要求，这个不难做到，grep有现成的，真爽
改动不会太大，不到100行代码。
贴一下核心结构，  以防忘记，  我看来应该是没问题的

/* A state of the dfa consists of a set of positions, some flags,
and the token value of the lowest-numbered position of the state that
contains an END token. */
typedef struct
{
  int hash; /* Hash of the positions of this state. */
  position_set elems; /* Positions this state could match. */
  char newline; /* True if previous state matched newline. */
  char letter; /* True if previous state matched a letter. */
  char backref; /* True if this state matches a \<digit>. */
  unsigned char constraint; /* Constraint for this state to accept. */
  int first_end; /* Token value of the first END in elems. */
  char *regexp;
} dfa_state;

first_end是反查用的
first_end在grep-2.0 里面(我看的代码)里确实没有用到，它是用来反查的，和龙书上写的情况类似。
我加了一些代码，实现了！

第一次自己解决难题，庆祝一下