123 / 3 页下一页

[C] 请教有关字符串输出问题 [复制链接]

kingink1983

稍有积蓄

论坛徽章:: 0

11楼 [报告]

发表于 2008-11-20 16:10 |只看该作者

回复 #9 yangsf5 的帖子

static char* get_ucs2str(const uint16_t* inbuf, uint16_t inlen)
{
char* outbuf = calloc(inlen, 2);
char* q;
int i;
if (!outbuf) {
mp_msg(MSGT_HEADER, MSGL_ERR, MSGTR_MemAllocFailed);
return NULL;
}
q = outbuf;
for (i = 0; i < inlen / 2; i++) {
uint8_t tmp;
PUT_UTF8(AV_RL16(&inbuf[i]), tmp, *q++ = tmp;)
}
return outbuf;
}

复制代码

这个是mplayer使用函数，我直接粘贴过来的。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

yangsf5

大富大贵

论坛徽章:: 1

12楼 [报告]

发表于 2008-11-20 16:19 |只看该作者

回复 #11 kingink1983 的帖子

我只是粗略的看了下。

你自己先仔细看看，inbuf参数、PUT_UTF8宏。

看看宏PUT_UTF8在处理inbuf参数后有没有在结尾放个'\0'；
或者没有放'\0'，那就看看inbuf本身在结尾是否有'\0'。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

yangsf5

大富大贵

论坛徽章:: 1

13楼 [报告]

发表于 2008-11-20 16:23 |只看该作者

printf("Title: %s\n", string);

我的想法是，如果你这个string结尾没有'\0'，打印的就很有可能是乱码。。
这个或许比你在楼顶的说法更有说服力。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

kingink1983

稍有积蓄

论坛徽章:: 0

14楼 [报告]

发表于 2008-11-20 16:37 |只看该作者

回复 #12 yangsf5 的帖子

/*!
* \def PUT_UTF8(val, tmp, PUT_BYTE)
* converts a 32-bit unicode character to its UTF-8 encoded form (up to 4 bytes long).
* \param val is an input only argument and should be of type uint32_t. It holds
* a ucs4 encoded unicode character that is to be converted to UTF-8. If
* val is given as a function it's executed only once.
* \param tmp is a temporary variable and should be of type uint8_t. It
* represents an intermediate value during conversion that is to be
* outputted by PUT_BYTE.
* \param PUT_BYTE writes the converted UTF-8 bytes to any proper destination.
* It could be a function or a statement, and uses tmp as the input byte.
* For example, PUT_BYTE could be "*output++ = tmp;" PUT_BYTE will be
* executed up to 4 times for values in the valid UTF-8 range and up to
* 7 times in the general case, depending on the length of the converted
* unicode character.
*/
#define PUT_UTF8(val, tmp, PUT_BYTE)\
{\
int bytes, shift;\
uint32_t in = val;\
if (in < 0x80) {\
tmp = in;\
PUT_BYTE\
} else {\
bytes = (av_log2(in) + 4) / 5;\
shift = (bytes - 1) * 6;\
tmp = (256 - (256 >> bytes)) | (in >> shift);\
PUT_BYTE\
while (shift >= 6) {\
shift -= 6;\
tmp = 0x80 | ((in >> shift) & 0x3f);\
PUT_BYTE\
}\
}\
}

复制代码

static inline int av_log2(unsigned int v)
{
int n;
n = 0;
if (v & 0xffff0000) {
v >>= 16;
n += 16;
}
if (v & 0xff00) {
v >>= 8;
n += 8;
}
n += ff_log2_tab[v];
return n;
}

复制代码

const uint8_t ff_log2_tab[256]={
0,0,1,1,2,2,2,2,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,
5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,
6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,
6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,
7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,
7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,
7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,
7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7
};

复制代码

这里就是get_ucs2str（）所使用的所有的宏和函数等，没有发现它给结尾加'\0'。原来的字符串也是有'\0'的。

我用编译后的程序连接mms：地址时，就是通过调用asf_read_head() （in readhead.c file）将数据按照结构的要求进行读取，如果title，author等所有的内容都存在的时候，则能和mplayer在控制台中显示的一样，如果有些串的内容不存在，就会出现乱码，或者输出信息类型不全问题。

通过分分析HEX分析文件，对于空和一般的字符用的长度不同

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

kingink1983

稍有积蓄

论坛徽章:: 0

15楼 [报告]

发表于 2008-11-20 16:40 |只看该作者

回复 #13 yangsf5 的帖子

因为title指向的结构的一个分量，它所指向的字符串应该不会出现问，最有可能的也就是最后一个rating分量指向的串有这个问题

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

kingink1983

稍有积蓄

论坛徽章:: 0

16楼 [报告]

发表于 2008-11-20 16:57 |只看该作者

回复 #15 kingink1983 的帖子

///////////////////////////
// ASF Content Description
///////////////////////////
typedef struct __attribute__((packed)) {
uint16_t title_size;
uint16_t author_size;
uint16_t copyright_size;
uint16_t comment_size;
uint16_t rating_size;
} ASF_content_description_t;

复制代码

这个结构中的每个变量所附的值为其所对应的字符串的长度，这里读取的串是pos的位置加上这个结构的大小（10）处开始的。原理不复杂，搞不定，汗……

my.JPG (3.5 KB, 下载次数: 17)

我的程序输出的信息

2.jpg (9.39 KB, 下载次数: 15)

读到文件中的结构和其指向的数据

3.jpg (3.03 KB, 下载次数: 16)

mplayer的输出信息

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

yangsf5

大富大贵

论坛徽章:: 1

17楼 [报告]

发表于 2008-11-20 21:07 |只看该作者

根据你的打印，len值跟文件中的那些字符串的长度+1相符么？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

kingink1983

稍有积蓄

论坛徽章:: 0

18楼 [报告]

发表于 2008-11-20 22:15 |只看该作者

原帖由 yangsf5 于 2008-11-20 21:07 发表
根据你的打印，len值跟文件中的那些字符串的长度+1相符么？

是当输出内容为空时，长度就是2，如果有内容输出的话，则字节的长度为输出内容的2倍（含结束符）。再有就是，我的出现乱码，并缺少一项comments

[ 本帖最后由 kingink1983 于 2008-11-20 22:31 编辑 ]

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

yangsf5

大富大贵

论坛徽章:: 1

19楼 [报告]

发表于 2008-11-20 22:36 |只看该作者

回复 #18 kingink1983 的帖子

你每次用len来表示相应内容的长度的。
现在主要看你len的打印出来的长度是否跟文件中相应内容的长度一致，如果不一致，就是你前边解析文件的函数没有正确工作。

如果不一致，你就要修改那个解析文件的函数，并且保证解析出来的各内容的的长度为文件中的实际字符串长度加1（这个加1是用来存储'\0'的）。

另外要保证wstring = (uint16_t*)&hdr[pos];得到的wstring是c风格字符串。