123 4 5 / 5 页下一页

各位大虾，小弟有难啊！ [复制链接]

yuanquan08

白手起家

论坛徽章:: 0

11楼 [报告]

发表于 2013-12-23 09:57 |只看该作者

回复 8# rubyish

谢谢，真的是我想要的结果。十分感谢！！！
小弟，虽然也试着用动态正则表达式进行分析，但是就是达不到效果。
感谢楼上各位的支持和帮忙！！！
今后，还望多多指教啊。。。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

yuanquan08

白手起家

论坛徽章:: 0

12楼 [报告]

发表于 2013-12-23 12:07 |只看该作者

再次请教，t  = （A interact  ((B  or  C)  or (((D inside E) or F)   not   inside G)))
表达式里面如果出现not的就将后面的变量删除，又该如何操作啊？
正如上面表达式希望出现如下内容：
t0 =  A_B
t1 =  A_C
t2 =  A_D_E
t3 =  A_F

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

jason680

富可敌国

论坛徽章:: 145

13楼 [报告]

发表于 2013-12-23 14:16 |只看该作者

回复 12# yuanquan08

remove it first

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

yuanquan08

白手起家

论坛徽章:: 0

14楼 [报告]

发表于 2013-12-23 16:34 |只看该作者

回复 13# jason680
这个方法是简单，可是太多了。如果只有几个或者几十个地方出现可以手动先处理掉，但是有几百个地方啊。。。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

jason680

富可敌国

论坛徽章:: 145

15楼 [报告]

发表于 2013-12-23 16:46 |只看该作者

回复 14# yuanquan08

not inside G
s/not\s+inside\s+\w+//g;

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

yuanquan08

白手起家

论坛徽章:: 0

16楼 [报告]

发表于 2013-12-23 17:37 |只看该作者

谢谢楼上的回复。
我知道怎么替换，刚才只是不确定删掉哪些内容，不确定删掉之后还能不能正确匹配。。
我刚才试过了，还能得到我想要的结果。。。。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

felonwan

白手起家

论坛徽章:: 0

17楼 [报告]

发表于 2013-12-23 20:39 |只看该作者

本帖最后由 felonwan 于 2013-12-23 23:37 编辑

yuanquan08 发表于 2013-12-23 17:37
谢谢楼上的回复。
我知道怎么替换，刚才只是不确定删掉哪些内容，不确定删掉之后还能不能正确匹配。。
我 ...

呵呵，下面这样的么？
(( A not inside B) interact C )
这种情况好像比较麻烦啊，必须要考虑括号的配对。。。

你没明确说明可能遇到的情况，所以可能有误会。

另外，not后能不能跟interact和or？ A not interact B
not后能不能直接跟括号？ A not ( inside (B or C) )

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

Monox

家境小康

论坛徽章:: 7

18楼 [报告]

发表于 2013-12-23 23:52 |只看该作者

本帖最后由 Monox 于 2013-12-23 23:55 编辑

这个用编译原理的知识实现应该会更方便，扩展和调试起来也应该更容易吧。先进行词法分析，把输入分解成一串标识符如 A, B, C and so on，三种二元操作符 interact, inside, or以及一种一元操作符 not，再就是左右括号的一个token流，然后对token流进行语法分析，构建语法树，最后将语法树进行解析就可以得到结果。
我并不打算提供代码（我真要按这种方式写代码的话也肯定不用Perl写，要么用C（用C的话多半我也不打算手写DFA，肯定会用Flex和YACC），要么用Haskell，如果有人对使用C或者Haskell实现这个感兴趣的话，在我闲得无聊的时候又没其他人提供这种方案的代码的话，我到是可以考虑试着写写），也怀疑楼主是否有能力用这种方案来做，不过我很好奇会不会有人采用我说的方案提供一份代码呢？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

felonwan

白手起家

论坛徽章:: 0

19楼 [报告]

发表于 2013-12-24 01:55 |只看该作者

本帖最后由 felonwan 于 2013-12-25 15:14 编辑

下面是我的包含了去not的版本（按我理解的not）。
刚学perl，现学现卖，只用了动态正则表达式（括号配对检查）、数组、判断和循环，连子函数都没用到哦。
不过各个部分有简单注释，大概能帮楼主明白思路。
经我测试有点小毛病，但是似乎不影响使用，楼主做点简单的小改动就能好，楼主就当家庭作业吧。

(12-25)版本，感觉基本完美了：
算法就是循环地这样做：删除不必要的成对括号，匹配第一个“(...a+b...)*C”或“A*(...b+c...)”这样的模式，然后展开。
“(...a+b...)*C”和“A*(...b+c...)”中的括号里面再不含括号，是可以使用分配律的基本单元，而A和C则可以是单个变量或一对括号包括的一个块。
A和C的匹配用到了递归正则表达式。
才发现楼主的东西比我想的加法和乘法运算还要简单，每两个变量运算后都加了括号，不会出现像（A or B or C）、(A inside B or C)等这样的类似情况。。。我想多了。。。

#!/usr/bin/perl
my $unit = qr/ (?> [^()]+ | $ [^\($]*(??{ $unit}) [^]* \) )* /x;
while(<STDIN>){
chomp;
$_ =~ s/^.*=(.*)/$1/;
#inside/interact ==> *, or ==> +，delete space （转换为乘法、加法，删除空格）
$_ =~ s/inside|interact/*/g;
$_ =~ s/or/+/g;
$_ =~ s/ //g;
# print "$_\t\t(Original)\n";
# delete not （去掉not）
(/not/) while
s/not(\+|\w|\*|$$unit$)+(\)|$)/$2/;
# print "==> $_\t\t(After deleted 'not')\n";
# Expansion (多项式展开)
# A*(...+b+c+...) ==> A*... +A*b +A*c +A*...
# (...+a+b+...)*C ==> ...*C +a*C +b*C +...*C
my $tmp;
my $line= $_;
my $line0;
my $count=1;
while("$line" ne "$line0"){
# print "\nCycle $count running...\n";
$line0 = $line;
$_ = $line;
# delete unnecessary '()'（删除不必要的成对括号）
(/$$unit$/) while
s/(^|$)(\($unit$)(\)|$)/$2/; # ((...))==>(...)
(/\*/) while
s/$([^\+]*\w+|\($unit$)*\*($$unit$|\w+[^\+]*)*\)/$1*$2/; # ...(a*b)... ==> a*b
(/\+/) while
s/(^|\+|$)\(([^\($]+|$$unit$)\+($$unit$|[^$|$]+)\)(\)|\+|$)/$1$2+$3$4/; # ^+((a+b)+)|$|)==>a+b+c`
$_ =~ s/^$($unit)$$/$1/;
# print "==> $_\t\t(deleted unnecessary '()')\n";
$line = $_;
foreach $i (qw/ab_C A_bc/){
if("$i" eq "ab_C"){
($tmp = $line )=~ s/^(.*[$|\*|\+]*)\(([^\($]*\w\+\w[^]*)\)\*($$unit$|\w+)(.*)/$1:$2:$3:$4/;# devide $line into 4 parts according to (...+a+b+...)*C matching（根据匹配的第一个(a+b)*C形式后拆分$line为四部分）
}
elsif("$i" eq "A_bc"){
($tmp = $line )=~ s/(.*)($$unit$|\w+)\*$([^\($]*\w+\+\w+[^]*)\)([\*|\+|\)]*.*)$/$1:$2:$3:$4/;# devide $line into 4 parts according to A*(...+B+C+...) matching （根据匹配的第一个A*(b+c)形式拆分$line为四部分）
}
# print "$i ==> $tmp\n";
@block =split(/:/,$tmp);
# print "Block head and tail: $block[0]\t$block[$#block]\n";
if($#block > 0){
$line = "$block[0]";
if(("$block[0]" ne '') | ("$block[3]" ne '')) {$line.="("};
if("$i" eq "ab_C"){
@fields = split(/\+/,$block[1]);
foreach $j (@fields) { $line.="$j*$block[2]+";} # join "a*C+","a*C+" （连接"a*C+","a*C+"）
}
elsif("$i" eq "A_bc"){
@fields = split(/\+/,$block[2]);
foreach $j (@fields) { $line.="$block[1]*$j+";} # join "A*b+","A*c+" （连接"A*b+","A*c+"）
}
$line =~ s/\+$//;
if(("$block[0]" ne '') | ("$block[3]" ne '')){$line.=")$block[3]";}
# print "==> $line\n";
}
}
# print "Cycle $count complete!\n";
if(($count++) >= 100){last;} #avoid infinite loop（防死循环）
}
#print "\nFinal: $line\n\n";
# print to desired format (打印成想要的格式)
@parts=split(/\+/,$line);
$count=0;
foreach $part (@parts){
$part =~ s/\*/_/g;
printf "t".$count++." = $part\n";
}
print "\n";
}