UTF-8 - The mini wiki

UTF-8 编辑

UTF-8是一种针对Unicode的可变长度字元编码，也是一种前缀码。它可以用一至四个字节对Unicode字符集中的所有有效编码点进行编码，属于Unicode标准的一部分，最初由肯·汤普逊和罗布·派克提出。由于较小值的编码点一般使用频率较高，直接使用Unicode编码效率低下，大量浪费内存空间。UTF-8就是为了解决向后兼容ASCII码而设计，Unicode中前128个字符，使用与ASCII码相同的二进制值的单个字节进行编码，而且字面与ASCII码的字面一一对应，这使得原来处理ASCII字元的软件无须或只须做少部分修改，即可继续使用。因此，它逐渐成为电子邮件、网页及其他储存装置或传送文字优先采用的编码方式。

相关

Fcitx是在X Window中使用的输入法框架，在源码包内包含了拼音、五笔字型以及区位、二笔的支持。可以输入UTF-8编码中的文字。可以在Linux、FreeBSD中运行。采用GPL授权。支持XIM、GTK和Qt的输入法模块。

BitchX是一款自由软件的IRC客户端，并且被认为是最受欢迎的基于ircII的IRC客户端。最初的实现由“Trench”和“HappyCrappy”编写，作为ircII聊天客户端的脚本语言。panasync之后将其本身转换为一个程序。BitchX 1.1最终于2004年发布。它是用C语言编写的，是一个使用Ncurses的TUI应用程序。GTK+工具包支持已被删除。它可以在所有类Unix系统上工作，并且是在BSD许可证下发布的。它最初基于irci-EPIC，最终被合并到EPIC IRC客户端中。它支持IPv6、多个服务器和SSL，以及一个非官方补丁的UTF-8子集。

表示层亦称表达层，为不同终端的上层用户提供数据和信息正确的语法表示变换方法。如文本文件的ASCII格式和UTF-8格式。

字节顺序记号是位于码点U+FEFF的统一码字符的名称。当以UTF-16或UTF-32来将UCS/统一码字符所组成的字串编码时，这个字符被用来标示其字节序。它常被用来当做标示文件是以UTF-8、UTF-16或UTF-32编码的记号。

表示层亦称表达层，为不同终端的上层用户提供数据和信息正确的语法表示变换方法。如文本文件的ASCII格式和UTF-8格式。

中文资讯交换码是由中华民国政府发展的字符集和编码方案。开发目的是将其作为中文交换码，使中文资讯交换更加便利。但由于此方案每个字要用上三个字节存储，在节约空间方面不如Big5，又不像CNS 11643般是官方标准，所以未被电脑业界广泛接纳。香港各大学图书馆在2003年由旧有的CCCII系统换成UTF-8。故现仅台湾和美国仍在使用，且只用于大学图书馆的检索系统。