字符(Character)是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。字符集(Character set)是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同。
字符(Character)是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。字符集(Character set)是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同,常见字符集名称:ASCII 字符集、GB2312 字符集、BIG5 字符集、 GB18030 字符集、Unicode 字符集等。计算机要准确的处理各种字符集文字,就需要进行字符编码,以便计算机能够识别和存储各种文字。中文文字数目大,而且还分为简体中文和繁体中文两种不同书写规则的文字,而计算机最初是按英语单字节字符设计的,因此,对中文字符进行编码,是中文信息交流的技术基础。
ASCII 字符集
名称由来
ASCII(American Standard Code for Information Interchange,美国信息互换标准编码)是基于罗马字母表的一套电脑编码系统。
特点
它主要用于显示现代英语和其他西欧语言。它是最通用的单字节编码系统,并等同于国际标准 ISO 646。
包含内容
控制字符:回车键、退格、换行键等。
可显示字符:英文大小写字符、阿拉伯数字和西文符号。
GB2312
名称由来
GB2312 又称为 GB2312-80 字符集,全称为《信息交换用汉字编码字符集·基本集》,由原中国国家标准总局发布,1981 年 5 月 1 日实施。
特点
GB2312 是中国国家标准的简体中文字符集。它所收录的汉字已经覆盖 99.75%的使用频率,基本满足了汉字的计算机处理需要。在中国大陆和新加坡获广泛使用。
包含内容
GB2312 收录简化汉字及一般符号、序号、数字、拉丁字母、日文假名、希腊字母、俄文字母、汉语拼音符号、汉语注音字母,共 7445 个图形字符。其中包括 6763 个汉字,其中一级汉字 3755 个,二级汉字 3008 个;包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的 682 个全角字符。
技术特征
(1)分区表示:
GB2312 中对所收汉字进行了“分区”处理,每区含有 94 个汉字/符号。这种表示方式也称为区位码。
各区包含的字符如下:01-09 区为特殊符号;16-55 区为一级汉字,按拼音排序;56-87 区为二级汉字,按部首/笔画排序;10-15 区及 88-94 区则未有编码。
(2)双字节表示
两个字节中前面的字节为第一字节,后面的字节为第二字节。习惯上称第一字节为“高字节” ,而称第二字节为“低字节”。
“高位字节”使用了 0xA1-0xF7(把 01-87 区的区号加上 0xA0),“低位字节”使用了 0xA1-0xFE(把 01-94 加上 0xA0)。
BIG5
名称由来
又称大五码或五大码,1984 年由台湾财团法人信息工业策进会和五家软件公司宏碁 (Acer)、神通 (MiTAC)、佳佳、零壹 (Zero One)、大众 (FIC)创立,故称大五码。
Big5 码的产生,是因为当时台湾不同厂商各自推出不同的编码,如倚天码、IBM PS55、王安码等,彼此不能兼容;另一方面,台湾政府当时尚未推出官方的汉字编码,而中国大陆的 GB2312 编码亦未有收录繁体中文字。
GB18030
名称由来
GB 18030 的全称是 GB18030-2000《信息交换用汉字编码字符集基本集的扩充》,是我国政府于 2000 年 3 月 17 日发布的新的汉字编码国家标准,2001 年 8 月 31 日后在中国市场上发布的软件必须符合本标准。
特点
GB 18030 字符集标准的出台经过广泛参与和论证,来自国内外知名信息技术行业的公司,信息产业部和原国家质量技术监督局联合实施。
GB 18030 字符集标准解决汉字、日文假名、朝鲜语和中国少数民族文字组成的大字符集计算机编码问题。该标准的字符总编码空间超过 150 万个编码位,收录了 27484 个汉字,覆盖中文、日文、朝鲜语和中国少数民族文字。满足中国大陆、香港、台湾、日本和韩国等东亚地区信息交换多文种、大字量、多用途、统一编码格式的要求。并且与 Unicode 3.0 版本兼容,填补 Unicode 扩展字符字汇“统一汉字扩展 A”的内容。并且与以前的国家字符编码标准(GB2312,GB13000.1)兼容。
Unicode
名称由来
Unicode 字符集编码是 Universal Multiple-Octet Coded Character Set 通用多八位编码字符集的简称,是由一个名为 Unicode 学术学会(Unicode Consortium)的机构制订的字符编码系统,支持现今世界各种不同语言的书面文本的交换、处理及显示。该编码于 1990 年开始研发,1994 年正式公布,最新版本是 2019 年 5 月 7 日的 Unicode 12.1.0。
特征
Unicode 是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。
编码方法
Unicode 标准始终使用十六进制数字,而且在书写时在前面加上前缀“U+”,例如字母“A”的编码为 004116 和字符“?”的编码为 20AC16。所以“A”的编码书写为“U+0041”。
UTF-8 编码
UTF-8 是 Unicode 的其中一个使用方式。 UTF 是 Unicode Tranformation Format,即把 Unicode 转做某种格式的意思。
UTF-8 便于不同的计算机之间使用网络传输不同语言和编码的文字,使得双字节的 Unicode 能够在现存的处理单字节的系统上正确传输。
UTF-8 使用可变长度字节来储存 Unicode 字符,例如 ASCII 字母继续使用 1 字节储存,重音文字、希腊字母或西里尔字母等使用 2 字节来储存,而常用的汉字就要使用 3 字节。辅助平面字符则使用 4 字节。
UTF-8(8-bit Unicode Transformation Format)是一种针对 Unicode 的可变长度字符编码,又称万国码。由 Ken Thompson 于 1992 年创建。已经标准化为 RFC 3629。UTF-8 用 1 到 6 个字节编码 UNICODE 字符。用在网页上可以同一页面显示中文简体繁体及其它语言(如英文,日文,韩文)。
汉字编码字符集
汉字编码字符集是按照一组无歧义的规则而定义的汉字字汇的有序集合。其中每一个汉字与它的代码表示之间都具有一一对应的关系。在信息技术中用于汉字信息的表示、交换、传输、处理、存储、输入及显现。在国际标准化组织 ISO 的定义中,“无歧义的规则”是很重要的,制定这些规则的目的是为了确保编码的唯一性,避免重码。它包括下列一些内容:
编码目标:专用还是通用,仅仅用于信息交换,还是也可用于信息处理。
编码体系结构,编码的空间的安排。
收字原则:确定收入什么字汇。
排序方式:汉字在字符集中排列的规则。
是否分级:怎样分级。
编码原则:基本上按字形编码。为此需要制定认同或甄别的规则以及对特例的约定。
与其它编码字符集的对应关系。
实际上, 在信息技术中汉字编码字符集无一例外地还包含非汉字的符号与拉丁文、 希腊文、 西里尔文等其它文种的字符。或者与其它更多文种的字符并存于一个庞大的编码字符集。