Chinaunix

标题: 字符串解析的问题 [打印本页]

作者: gridbird 时间: 2012-10-31 05:59
标题: 字符串解析的问题
本帖最后由 gridbird 于 2012-10-31 06:00 编辑

要解析一个这样的多行内容

“
@ab ld:6362843 lib:hfskw_hds frm:fhskafhwekwf
@ab ld:6362664 lib:dddsr_hds frm:fhskadfwekwf
”
要得到每行的id和lib的内容，用perl的话很好解决。用strtok和strtok_r函数真的很难用，嵌套的话会处很多问题。找了一下没有发现解析字符串的代码，各位谁有C字符串分割解析的建议和代码吗？怕自己写的不好。

作者: hanzhenlll 时间: 2012-10-31 08:25
不应该给你贴什么代码,其实也就是两三行的问题,关键是你基础太薄弱了...
我建议你还是自己去实现一下 m_strstr m_strtok两个函数, 然后在去看看旧版glibc 中 strstr strtok是如何实现的，毕竟基础才是王道，不要一蹴而就

作者: bruceteen 时间: 2012-10-31 08:37
fsanf 不行吗？

作者: folklore 时间: 2012-10-31 08:47
回复 1# gridbird

use regular expression if possible.
but if the context is context-sensitive, all that you can do is parse it characotr by charactor.

作者: lin5161678 时间: 2012-10-31 09:10
sscanf 配合 %[]

作者: gridbird 时间: 2012-10-31 09:15
如果只是两三行代码的话，我还真想看看你怎么实现的。

回复 2# hanzhenlll

作者: justmao945 时间: 2012-10-31 09:42
。。。。。。。。。。。。这种都要用库函数
随手写个不仅效率高，还简单==

作者: hanzhenlll 时间: 2012-10-31 09:51
回复 6# gridbird

[code]void get_string (const char *in_buff, char *out_buff, const char *start_key, const char *end_key)
{
int len = strlen (in_buff);
char *tmp_point;
printf ("buff ->[%s]\nkey1[%s], key2[%s]\n", in_buff, start_key, end_key);
tmp_point = strstr (in_buff, start_key);
strcpy (out_buff, tmp_point);
strtok (out_buff, end_key);
}

复制代码

[/code]
这里面核心的就三行没有加出错处理,仅做展示使用...

get_string (in_buff, out_buff, "ld:", " lib"); //outbuff 是最终获取到的关键字

复制代码

作者: lol321 时间: 2012-10-31 09:56
LZ的数据格式已经接近JSON格式建议用JSON格式这样你就可以用开源的JSON lib对数据进行处理

作者: qinggeng 时间: 2012-10-31 11:08
freebsd下面有个regex库，不知道linux下面有没有，可以直接使用正则表达式解析的话还真就两三行。

作者: linux_c_py_php 时间: 2012-10-31 12:14
regex足够了, 不行再上pcre.

作者: lin5161678 时间: 2012-10-31 16:51

作者: gridbird 时间: 2012-11-01 00:00
Thanks lin5161678.
多谢各位的建议，还是自己写了，代码如下：

102 // Separate string based on given char
103 int separateString(char *string, char c, char **container)
104 {
105    int z = 0;
106    int x, y = 0;
107    int tokenNum = 0;
108    int length = strlen(string);
109
110    char buff1[MAX_LINE_LEN];
111    char array[MAX_LINE_LEN];
112
113    for (x = 0; x < length; x++){
114       if (string[x + 1] == '\0'){
115          buff1[z] =  string[x];
116          buff1[z + 1] =  '\0';
117          if (strlen(buff1)){
118
119                strcpy(container[y], buff1);
120
121                tokenNum++;
122          }
123       }
124       else if (string[x] != c){
125          buff1[z] =  string[x];
126          z++;
127          if (string[x + 1] == c){
128                buff1[z] = '\0';
129                z = 0;
130                if (strlen(buff1)){
131
132                   strcpy(container[y], buff1);
133                   y++;
134
135                   tokenNum++;
136                }
137          }
138       }
139    }
140    return(tokenNum);
141    }

部分别人的代码，自己改的。各位还有别的好的实现吗？

作者: flw 时间: 2012-11-01 00:27
libperl 啊。

作者: blacksapper 时间: 2012-11-01 01:47
C++里面有个find函数。有BUG。可以用。

作者: gridbird 时间: 2012-11-01 01:48
不知道，没读过libperl的代码。再问一个函数调用的问题，实例代码如下, 每次运行都段错误，是不是函数调用的问题，好像子函数的赋值没有返回。各位能给解释一下吗？

int fun1(char **aa){

aa = (char **) malloc (100*sizeof(char *));
for (i=0; i<100;i++){
aa[i] = (char *)malloc(50*sizeof(char));
//赋值

}

int main()
{
char **bb;
fun1(bb);
for (i=0;i<100;i++)
{
fprintf(stderr,"%s", bb[i]);
}

}

作者: nick97 时间: 2012-11-02 16:42
本帖最后由 nick97 于 2012-11-02 16:42 编辑

你用awk吧
awk -F " " '{print $1 " " $2 | "sort" }' ~/.log

欢迎光临 Chinaunix (http://bbs.chinaunix.net/)