论坛徽章:: 8

电梯直达

1楼 [收藏(0)] [报告]

发表于 2013-11-20 17:49 |只看该作者 |倒序浏览

逛论坛的时候，学习了Send_linux大大的字符串匹配的KMP算法
http://bbs.chinaunix.net/forum.p ... mp;fromuid=29097174
觉得很有意思，在网上有很多关于C实现的，perl的话：

use Data::Dumper;
my $from = 'abababd ababc';
my $find = 'ababc';
# 分隔字符串为array
my @from = split '', $from;
my @find = split '', $find;
print $find, "\n";
print @{ calc( \@find ) }, "\n";
print "\n";
print kmp( \@from, \@find );
############################
# 计算字符串的重复值
sub calc {
my ($array) = @_;
# 取与字串相同长度的array 并将第一个置0
my @tmp = (@$array);
$tmp[0] = 0;
# 之后的每一个字符都与开头字串比较，取@tmp 前一个值作为比较字符
# 若为0，前一字符个与开头不重复，比较字符指向开头0
# 若不为0，前一个字符与开头有重复，如果还相同，@tmp 值加1，否则为0，后继自符重新从头开始比较
for ( 1 .. $#tmp ) {
if ( $array->[$_] eq $array->[ $tmp[ $_ - 1 ] ] ) {
$tmp[$_] = $tmp[ $_ - 1 ] + 1;
}
else {
$tmp[$_] = 0;
}
}
return \@tmp;
}
sub kmp {
my ( $from, $find ) = @_;
# 初始从开头比较
my $i = 0;
my $tmp = calc($find);
# 剩余字串长度小于搜索字串，则退出返回-1
while ( ( $#{$from} - $i ) >= $#{$find} ) {
# 观察每次步进长度
print @$from[ $i .. $#{$from} ], "\n";
# j 标记搜索到的字串长度
my $j = 0;
while ( $find->[$j] eq $from->[ $i + $j ] ) {
# 搜索到的长度与字符串长度相同，说明找到，返回index位置
if ( $j == $#{$find} ) {
return $i;
}
else {
$j++;
}
}
# 有相同的字符串，根据计算的值来跳转多个字符并重新比较
# $j 为相同的个数（以1为基数），@tmp[$j-1] 为同开始字符重复的个数
if ($j) {
$i += $j - $tmp->[ $j - 1 ];
}
else {
$i++;
}
}
return -1;
}

复制代码

输出：

#字符串以及计算重复值结果
ababc
00120
#每次查找过程
abababd ababc
ababd ababc
abd ababc
d ababc
ababc
ababc
8

复制代码

求大神shell方案！！哈哈

文库|博客

yinyuemi

大富大贵

论坛徽章:: 2

2楼 [报告]

发表于 2013-11-20 21:48 |只看该作者

本帖最后由 yinyuemi 于 2013-11-20 21:49 编辑

回复 1# huang6894

from='abababd ababc';
find='ababc';
arr_from=($(sed 's/./ "&"/g;s/ //' <<<$from));
arr_find=($(sed 's/./ "&"/g;s/ //' <<<$find));
############################
# 计算字符串的重复值
#sub calc {
function calc_(){
array=($*);
# 取与字串相同长度的array 并将第一个置0
tmp=($*);
tmp[0]=0;
len=${#tmp[*]};
# 之后的每一个字符都与开头字串比较，取@tmp 前一个值作为比较字符
# 若为0，前一字符个与开头不重复，比较字符指向开头0
# 若不为0，前一个字符与开头有重复，如果还相同，@tmp 值加1，否则为0，后继自符重新从头开始比较
for ((i=1;i<=len-1;i++))
do
if [[ ${array[$i]} == ${array[${tmp[$((i-1))]}]} ]]
then
tmp[$i]=$((tmp[i-1]+1));
else
tmp[$i]=0;
fi
done
echo ${tmp[@]};
}
function kmp() {
eval from_=("$(sed 's/./ "&"/g;s/ //' <<<$1)");
eval find_=("$(sed 's/./ "&"/g;s/ //' <<<$2)");
# 初始从开头比较
m=0;
tmp1=($(eval calc_ "${find_[*]}"));
len1=${#find_[*]};
len2=${#from_[*]};
# 剩余字串长度小于搜索字串，则退出返回-1
while(( len2-m >= len1))
# 观察每次步进长度
do
for((n=m;n<=len2-1;n++))
do
printf ${from_[$n]}
done
printf "\n";
# j 标记搜索到的字串长度
local j=0;
while [[ ${find_[j]} == ${from_[$((m+j))]} ]]
do
# 搜索到的长度与字符串长度相同，说明找到，返回index位置
if (( j == len1-1 ))
then
echo $m;
return $m;
else
((j++));
fi
done
# 有相同的字符串，根据计算的值来跳转多个字符并重新比较
# $j 为相同的个数（以1为基数），@tmp[$j-1] 为同开始字符重复的个数
if ((j>0))
then
m=$((m+j-tmp1[j-1]))
else
((m++));
fi
done
}
IFS=$'';
echo $find;
calc_ ${arr_find[@]};
kmp $from $find;

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

huang6894

大富大贵

论坛徽章:: 8

3楼 [报告]

发表于 2013-11-21 09:22 |只看该作者

回复 2# yinyuemi

大神啊！！！大神啊~谢谢咯

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

返回列表

Chinaunix › 论坛 › 程序设计 › Shell › 有没有大神愿意试试把这个perl改成shell脚本呀~

[其他] 有没有大神愿意试试把这个perl改成shell脚本呀~ [复制链接]