论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2007-12-24 15:37 |只看该作者 |倒序浏览

统计原则：分别统计a-t的字母个数，要求每条记录至少5个字母，最多10个字母，且字母在a-t之间惟一。如果记录中存在数字则丢弃该条记录，但是每个字母用，；。:等符号隔开应视为有效记录；
同时满足上述条件的行，如果行里的内容是相同的也为正常记录，不应该过滤掉。

abcd
Abcde
Abcde
Abcdex
Abcde0
Abcdefghijk
aAbBcCdDeEf
a,b,c,d,e,f
aAbAcAdAe
ABCDEabcde
过滤结果为

Abcde
Abcde
Abcdefghijk
a,b,c,d,e,f

文库|博客

bkj

白手起家

论坛徽章:: 0

2楼 [报告]

发表于 2007-12-24 15:57 |只看该作者

请大家帮忙看看

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

BLZer

丰衣足食

论坛徽章:: 0

3楼 [报告]

发表于 2007-12-24 16:50 |只看该作者

原帖由 bkj 于 2007-12-24 15:37 发表
统计原则：分别统计a-t的字母个数，要求每条记录至少5个字母，最多10个字母，且字母在a-t之间惟一。如果记录中存在数字则丢弃该条记录，但是每个字母用，；。:等符号隔开应视为有效记录；
同时满足上述条件的行 ...

#!/bin/bash

FILE=~/shell/sed/cu28.txt #数据文件

while read LINE ; do
#将标点符号去掉，并将大写转成小写
TEMP=$(echo $LINE | sed 's/,//g' | tr [:upper:] [:lower:])
NUM=${#TEMP}
#转换为小写字母
CON=0
if [ ${#TEMP} -ge 5 ] && [ ${#TEMP} -le 10 ] #只有在5-10个字符的才去判断
then
if [ ! $(echo $TEMP | grep "[0-9U-Zu-z]"

] #不包含数字和u-z字母的才判断
then
      #这两个for循环判断变量内有无相同的字符，如有，则将CON值设置为1,
      for((i = 0 ; i <= $NUM -1 ; i++))
      do
      TEMP1=${TEMP

{i}:1}
for ((j = i+1 ; j <= $NUM-1 ; j++)) ; do
TEMP2=${TEMP

{j}:1}
            if [ ${TEMP1} = ${TEMP2} ] ;  then
            CON=1
            fi
         done
      done
      #如果CON值为止。打印变量
      if [ ${CON} -eq 0 ] ; then
         echo $LINE
      fi
fi
fi
done <${FILE}

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

frankytf

稍有积蓄

论坛徽章:: 0

4楼 [报告]

发表于 2007-12-24 16:53 |只看该作者

[code]grep -v "[0-9]" test.txt|awk '{a=length();if(a>4&&a<10) print ;}'[\code]

但是每个字母用，；。:等符号隔开应视为有效记录；不理解

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

bkj

白手起家

论坛徽章:: 0

5楼 [报告]

发表于 2007-12-24 19:35 |只看该作者

语法错误

root# d.sh
./d.sh: line 11: syntax error near unexpected token `for(('
./d.sh: line 11: ` for((i = 0 ; i <= $NUM -1 ; i++)) '

root# more d.sh
#!/bin/bash
file=/tmp/test1.txt
while read LINE ; do
TEMP=$(echo $LINE | sed 's/,//g' | tr [:upper:] [:lower:])
NUM=${#TEMP}
CON=0
if [ ${#TEMP} -ge 5 ] && [ ${#TEMP} -le 10 ]
then
if [ ! $(echo $TEMP | grep "[0-9U-Zu-z]"

]
then
   for((i = 0 ; i <= $NUM -1 ; i++))
      do
      TEMP1=${TEMP

{i}:1}
      for ((j = i+1 ; j <= $NUM-1 ; j++)) ;
      do
      TEMP2=${TEMP

{j}:1}
      if [ ${TEMP1} = ${TEMP2} ] ;
      then
      CON=1
      fi
      done
      done
      if [ ${CON} -eq 0 ] ; then
      echo $LINE
      fi
      fi
fi
done <${FILE}