Chinaunix

标题: Python及字节对齐的问题 [打印本页]

作者: blackjimmy 时间: 2009-08-21 10:58
标题: Python及字节对齐的问题

该结构大致如下：
struct TestStruct
{
int data1;
char data2;
char data3;
};
对应的Python代码：
import struct
s = struct.unpack("icc", buf) #buf是从网络接收的字节流
结果却报“Unpack str size does not match format”错。
很明显是C++ struct产生的size和Python解码所需的不同。于是检查C++的struct size:
printf ("size=%d\n", sizeof(TestStruct));
结果得8。
而
struct.calcsize("icc")
结果却是6。
仔细想想，icc这种排列方式在字段间的确不会产生padding字节，也就是说，python的结果是对的。但为什么C++的结果会是8呢？原来C++的字节对齐，除了struct内部需要字节对齐之外，struct变量本身也是需要字节对齐的，这是为了当生成一个struct数组的时候仍然能够保证所有字段的字节对齐。因此，像icc这种本身没有padding，但整体需要padding的情形，编译器会在整个struct的末尾加上padding字节（在这里是2个字节），也正是这2个字节导致了Python的解码错误。
幸亏Python已经考虑到了这个问题，在Python struct module document的最后一段的Hint的中说，如果出现这种末尾对齐的情况，可以在格式字符串的最后加上一个“0X”，其中这个“X”可以是一个有效的格式字符，这个字符所代表的长度等于整个struct对齐的长度。在上面这种情况中，对齐长度是4字节，因此我们使用“l”字母（long, 4字节）来进行对齐：
s = struct.unpack("icc0l", buf)
额外的讨论
情形1：
struct Test2
{
char a1;
int a2;
char a3;
};
这个struct的size是12，原因是既有字段间padding又有整体padding。
对应的Python代码是：
s = struct.unpack("cic0l", buf) #cic时，Python会自己计算字节对齐。

情形2：
struct Test2
{
char a1;
int a2;
char a3;
};
在这里，使用pack编译指令强制改变为单字节对齐，其他不变，sizeof(Test2)=6。
对应的Python代码：
s = struct.unpack("=cic", buf) #在单字节对齐的情况下，使用=前缀。注意这时“0X”后缀已经没有意义了。

本文来自ChinaUnix博客，如果查看原文请点：http://blog.chinaunix.net/u1/33851/showart_2033528.html

欢迎光临 Chinaunix (http://bbs.chinaunix.net/)