12 / 2 页下一页

[文本处理] 字符串处理 [复制链接]

blueskysee blueskysee 当前离线禁止发言招聘 : 质量管理好友博客消息论坛徽章: 0	电梯直达 1楼 [收藏(0)] [报告] 发表于 2017-12-13 20:41 \|只看该作者 \|倒序浏览提示: 作者被禁止或删除内容自动屏蔽
	文库\|博客使用正则表达式与lex实现词法分析器 C语言的MIPS汇编实现（四）SWITCH Requested init /linuxrc failed (error -2). 比较 csv 文件中数据差异 LMD ElPack v2019.7新版亮点：Transparent mode全新升级\|附下载

龙牙地主天

小富即安

论坛徽章:: 8

2楼 [报告]

发表于 2017-12-14 10:57 |只看该作者

echo "123&&sdfsfdsdfsf;123s9d9fsdf12315677a1" | awk '{split($0,a,"[^0-9]") ; split($0,b,"[^a-zA-Z]") ; for(i in a) A=length(A)<length(a[i])?a[i]:A ; print A ; for(j in b) B=length(B)<length(b[j])?b[j]:B ; print B}'

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

boobie

白手起家

论坛徽章:: 0

3楼 [报告]

发表于 2017-12-14 15:57 |只看该作者

# cat get_max_pattern.py

#!/bin/python
import re
str="123&&sdfsfdsdfsf;123s9d9fsdf12315677a1"
pattern = re.compile(r'[1-9]+')
getmumpattern = re.findall((pattern), str)
getmumpattern.sort(key=len)
print getmumpattern[-1]
pattern = re.compile(r'[a-zA-Z]+')
getstrpattern = re.findall((pattern), str)
getstrpattern.sort(key=len)
print getstrpattern[-1]

复制代码

# python get_max_pattern.py
12315677
sdfsfdsdfsf

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

本友会机友会摄友会本友会机友会摄友会当前离线禁止发言好友博客消息论坛徽章: 0	4楼 [报告] 发表于 2017-12-14 16:02 \|只看该作者提示: 作者被禁止或删除内容自动屏蔽
	实战分享：从技术角度谈机器学习入门\| 【大话IT】RadonDB低门槛向MySQL集群下战书 \| ChinaUnix打赏功能已上线！ \| 新一代分布式关系型数据库RadonDB知多少？

wh7211

版主

论坛徽章:: 25

5楼 [报告]

发表于 2017-12-14 17:42 |只看该作者

回复 1# blueskysee

echo "123&&sdfsfdsdfsf;123s9d9fsdf12315677a1"|awk '{a=patsplit($0,s,"[0-9]+");b=patsplit($0,t,"[a-z]+");for(i=1;i<=a;i++){m=length(m)<length(s[i])?s[i]:m};for(i=1;i<=b;i++){n=length(n)<length(t[i])?t[i]:n};print m,n}'

复制代码

输出：
12315677 sdfsfdsdfsf

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

q1208c

富甲一方

论坛徽章:: 33

6楼 [报告]

发表于 2017-12-14 21:10 |只看该作者

本帖最后由 q1208c 于 2017-12-14 21:11 编辑

回复 1# blueskysee

贪婪匹配，然后算算哪个长？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

jason680

富可敌国

论坛徽章:: 145

7楼 [报告]

发表于 2017-12-15 05:14 |只看该作者

回复 1# blueskysee

1. awk code

$ str="123&&sdfsfdsdfsf;123s9d9fsdf12315677a1"

$ echo $str | awk -f get_longer.awk
number: 12315677
string: sdfsfdsdfsf

$ cat get_longer.awk

function get_longer(str, pattern, t,a,n,len,ret){
sub("\\[","[^",pattern);
t = split(str, a, pattern);
len = 0;
ret = "";
for(n=1; n<=t; ++n){
if(len < length(a[n])){
len = length(a[n]);
ret = a[n];
}
}
return ret;
}
{
print "number:", get_longer($0, "[0-9]+");
print "string:", get_longer($0, "[a-zA-Z]+");
}

复制代码

#---------------------------------------------------------------------

2. Perl code

$ perl get_longer.pl
number: 12315677
string: sdfsfdsdfsf

$ cat get_longer.pl

use strict;
use warnings;
sub get_longer{
my($sStr, $sPattern) = @_;
my $sRet = "";
my $sLen = 0;
while($sStr =~ m/($sPattern)/g){
if($sLen < length($1)){
$sLen = length($1);
$sRet = $1;
}
}
return $sRet;
}
my $sStr = "123&&sdfsfdsdfsf;123s9d9fsdf12315677a1";
print "number: ", get_longer($sStr, '\d+'), "\n";
print "string: ", get_longer($sStr, '[a-zA-Z]+'), "\n";

复制代码

#---------------------------------------------------------------------

3. Python code

$ python get_longer.py
number: 12315677
string: sdfsfdsdfsf

$ cat get_longer.py

import os,sys,re
def get_longer(sStr, pattern):
rPtn = re.compile("(" + pattern + ")")
sRet = ""
sLen = 0
for s in rPtn.findall(sStr):
if(sLen <len(s)):
sLen = len(s)
sRet = s
#;
#;
return sRet
#;
sStr="123&&sdfsfdsdfsf;123s9d9fsdf12315677a1"
print "number:", get_longer(sStr, "\d+")
print "string:", get_longer(sStr, "[a-zA-Z]+")

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

yinyuemi

大富大贵

论坛徽章:: 2

8楼 [报告]

发表于 2017-12-15 09:43 |只看该作者

本帖最后由 yinyuemi 于 2017-12-15 09:44 编辑

回复 1# blueskysee

sed -nr '
# 数字最长
#s/[0-9]+/\n&\n/g;
#s/^[^0-9]+$//Mg;
# 字符串最长
s/[[:alpha:]]+/\n&\n/g;
s/^[^[:alpha:]]+$//Mg;
s/^\n//Mg;
s/\n$//;
h;
:a;
:b;
s/^([^\n])([^\n]*)\n([^\n])([^\n]*)/\2\n\4/;
tb;
/^\n[^\n]+/bc;
/^[^\n]+\n|^\n\n\n/bd;
:c;
g;
s/^[^\n]+\n//;
h;
ta;
:d;
g;
s/(^[^\n]+)\n[^\n]+/\1/;
h;
ta;
x;
p
'

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

Okelani

稍有积蓄

论坛徽章:: 0

9楼 [报告]

发表于 2017-12-15 14:52 |只看该作者

回复 1# blueskysee

perl longest.pl

#!/usr/bin/perl
use 5.010;
$_ = "123&&sdfsfdsdfsf;123s9d9fsdf12315677a1";
my ($num) = sort { length $b <=> length $a } /(\d+)/g;
my ($str) = sort { length $b <=> length $a } /([a-zA-Z]+)/g;
say "num = $num";
say "str = $str";

复制代码

num = 12315677
str = sdfsfdsdfsf

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

shell_love

白手起家

论坛徽章:: 0

10楼 [报告]

发表于 2017-12-18 10:28 |只看该作者

# coding:utf-8
# !/bin/python

# 有个字符串str1为123&&sdfsfdsdfsf;123s9d9fsdf12315677a1
# 用 shell或者python找出其中最长匹配的连续的字符串或者数字

import re
str1 = '123&&sdfsfdsdfsf;123s9d9fsdf12315677a1'
pattern_str = re.compile('[a-zA-Z]+')
pattern_num = re.compile('[0-9]+')
pattern_str_max = re.findall(pattern_str, str1)
pattern_num_max = re.findall(pattern_num, str1)
# find the longest str

res_str = ""
for i in pattern_str_max:
if len(i) > len(res_str):
res_str = i

# find the longest num
res_num = ""
for j in pattern_num_max:
if len(j) > len(res_num):
res_num = j

print("the longest str is %s; the longest num is %s" % (res_str, res_num))
==============================================
the longest str is sdfsfdsdfsf; the longest num is 12315677

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

12 / 2 页下一页

返回列表

Chinaunix › 论坛 › 程序设计 › Shell › 字符串处理