python 中文编码笔记

最近碰了很多钉子。。。

不得不说，python2.6 相较于之前发布的版本，就编码方面来说，有明显的进步。本机使用的是 python2.6，同样的代码根本没有遇到问题。到了服务器上部署时，一台服务器的 python2.5 和另一台服务器的 python2.4，都折磨得我苦不堪言。

先厘清几个概念：python 内置的字符类型是 unicode，当需要进行编码转换时，都要先转成 unicode，然后再转换成目标编码。而 str 类型是二进制类型，例如

　　声明变量 uniStr=u’ 的 ‘，uniStr 的类型为 Unicode

　　执行 gbStr=uniStr.encode(‘gb2312’)，则 gbStr 的类型为 str，长度为 18 字节（gb2312 标准里用两个字节表示一个汉字）。

　　若执行 gbStr.encode(‘gb2312’)，则会报错，因为 ‘ascii’ codec can’t decode byte 0xd3 in position 0: ordinal not in range(128)。

关于 unicode：unicode 可以想象成一个比 ascii 大得多的码表，能够包含所有现存字符。每个字符有一个对应的编码，编码的范围是 0 到 0x10ffff，那么我们可以使用 32 位的 int 来储存一个 unicode 字符。但这样比较浪费空间，人们就提出了别的编码方案，例如 utf-8。简而言之，编码方案就是把 unicode 值映射成字节流，术语是 encoding。

utf-8 方案编码方案是应用较广的一种，编码规则如下：

unicode 编码值小于 128，原封不动；
unicode 编码值在 128 到 7ff，将转换为 2 个字节，每字节值范围在 128 到 255 之间；
unicode 编码值大于 7ff 的，将转换为 3-4 个字节，每字节值范围在 128 到 255 之间。

参见：

http://www.b-list.org/weblog/2007/nov/10/unicode/

http://boodebr.org/main/python/all-about-python-and-unicode

http://www.cl.cam.ac.uk/~mgk25/unicode.html

http://docs.python.org/howto/unicode.html

http://hi.baidu.com/a370500904/blog/item/9ff8aff49d8344d5f3d38534.html