在2005年5月,香港特别行政区政府公布“香港增补字符集-2004”,其收录的 4,941 个字符,2001年12月公布的“香港增补字符集-2001”增收了 123 个字符,在技术上配合国际标准化组织于2004年4月公布的“ISO/IEC 10646:2003”最新版本及其修订版。“ISO/IEC 10646:2003”及其修订本收纳了香港增补字符集-2004全部的字符。“香港增补字符集-2004”沿用“香港增补字符集-2001”的两个编码方案,分别配合大五码及ISO 10646国际编码标准。
“香港增补字符集-2004”收字共4,941个,详情如下:
在“香港增补字符集-2004”版本,汉字字符共 4500 个,其中 3353 个可在大型的字典(包括康熙字典、汉语大字典、汉语大词典及中华字海)中查到,包括简化字、异体字、日语汉字等。其余 1147 个在各大中文字典中查不到的字中,有粤语方言字109个(主要由司法机构、香港警务处、律政司、香港理工大学、香港语言学学会提供,部分可在粤方言字典或学术著作中找到)、人名/公司名/地方名892个(来自入境事务处、公司注册处、税务局和地政总署的数据库,并已确定真正用于现今的人名、公司名和地方名)、部首及附形30个、科学名词13个、其它103个(这些字符可在香港较通用的字形产品中找到)。
各类符号共 441 个,有汉字笔形、汉语拼音字母、国际音标符号、汉字组件、画表符号、日本平假名及片假名等。
香港增补字符集在2005年才有画数、部首、粤音等资料给用户参考,还说明方便检索,而非作为规范标准。(汉字的部首在不同的字典中,归部也不尽相同)
因为各操作系统使用的字体不尽相同,因此下表列出的字符未必符合期望的结果。
Unicode (PUA) |
字符 |
Unicode (PUA) |
字符 |
Unicode (PUA) |
字符 |
---|---|---|---|---|---|
E01F |
|
E026 |
|
E05B |
|
E063 |
|
E073 |
|
E0A5 |
|
E0F3 |
|
E12E |
|
E134 |
|
E149 |
|
E166 |
|
E191 |
|
E1BA |
|
E1C9 |
|
E22C |
|
E22D |
|
E230 |
|
E266 |
|
E286 |
|
E2A3 |
|
E2BC |
|
E2EF |
|
E33A |
|
E340 |
|
E34F |
|
E35A |
|
E363 |
|
E37C |
|
E37F |
|
E3C5 |
|
E3D7 |
|
E3DC |
|
E417 |
|
E418 |
|
E44A |
|
E478 |
|
E485 |
|
E4C5 |
|
E4DA |
|
E545 |
|
E589 |
|
E5D2 |
|
E5D3 |
|
E5D4 |
|
E5D5 |
|
E5EB |
|
E5F4 |
|
E6C6 |
|
E727 |
|
E7D3 |
|
E7FD |
|
E884 |
|
E893 |
|
EB40 |
|
EB42 |
|
EB45 |
|
EB6E |
|
EB86 |
|
EB94 |
|
EB9E |
|
EBA9 |
|
EBBA |
|
EBC9 |
|
EBCF |
|
EBD2 |
|
EBDE |
|
EC01 |
|
EC02 |
|
EC15 |
|
EC5B |
|
EC5E |
|
ECA6 |
|
ED28 |
|
ED6E |
|
ED7C |
|
ED9E |
|
EDA4 |
|
EDE7 |
|
EDF4 |
|
EE3E |
|
EE52 |
|
EE8E |
|
EE98 |
|
EE9D |
|
从大型字典中不能验证而且无法与 Unicode 对应的字符
Unicode (PUA) |
字符 |
Unicode (PUA) |
字符 |
Unicode (PUA) |
字符 |
---|---|---|---|---|---|
ED2B |
|
ED43 |
|
ED73 |
|
ED8C |
|
EDC9 |
|
EDCD |
|
EDDC |
|
EDE4 |
|
EDF6 |
|
EE02 |
|
EE06 |
|
EE0B |
|
EE2F |
|
EE32 |
|
EE35 |
|
EE3D |
|
EE4D |
|
EE5E |
|
EE66 |
|
EE68 |
|
EE8C |
|
EE9A |
|
如上表,第一部分有部分字符是重量单位,例如兙、兛、兝、兞等, 在Big5中是以厂商扩充字符形式出现,意即在不同厂商的中文系统里(例如倚天、国乔、IBM 大型系统)未必会包含该等字符, 所以香港政府另行在Big5造字区安放这些字,造成重复;另外,有些字符在收录时只与Big5正确字存在细微字形差异,例如“輋”上方一字从“山”而另一字从“屮”,“静”左下方一字从“月”而另一字从“円”。研究这些字符可以从旧造字档着手,因为现时在 Windows 通行的“细明体_HKSCS”字体已经被标准化了。