答:在程序读写数据时,会用到UTF(Unicode Text Format)标准的代码, UTF的格式如下:
①对7位的ASCll码,UTF将其写成一字节,且最高位为0,即:
0 a6 a5 a4 a3 a2 a1 a0
②对带5位0的16位字符(实际上只有11位),UTF用两个字节表示,且高字节以 110开始,低字节以10开始,110和10实际上作为前缀,即:
1 1 0 a10 a9 a8 a7 a6
1 0 a5 a4 a3 a2 a1 a0
③对其他代码,UTF全用三字节表示,并且三个字节分别用1110,10,10作为前缀。即:
1 1 1 0 a15 a14 a13 a12
1 0 a11 a10 a9 a8 a7 a6
1 0 a5 a4 a3 a2 a1 a0
所以,归纳起来,UTF的规则如下:
0 X X X X X X X ASCII码;
1 0 X X X X X X 第2或第3个字节;
1 1 0 X X X X X 2字节码的第1个字节;
1 1 1 0 X X X X 3字节码的第1个字节;
UTF采用这种编码格式的优点是扩大了代码容量,而ASCII码仍用单字节表示,这样可与大量采用ASCII码的文本保持兼容。但另一方面,对于亚洲语言来说,UTF并不是太好,因为亚洲语言文字采用双字节表示,而UTF没有相应的支持办法,所以只能用三字节表示。