# 术语 > 原文: [https://docs.oracle.com/javase/tutorial/i18n/text/terminology.html](https://docs.oracle.com/javase/tutorial/i18n/text/terminology.html) *字符*是具有语义值的文本的最小单位。 *字符集*是可能由多种语言使用的字符集合。例如,拉丁字符集由英语和大多数欧洲语言使用,尽管希腊语字符集仅由希腊语使用。 *编码字符集*是一个字符集,其中每个字符被分配一个唯一的编号。 *代码点*是可以在编码字符集中使用的值。代码点是 32 位`int`数据类型,其中低 21 位表示有效代码点值,高 11 位表示 0。 Unicode _ 代码单元*是 16 位`char`值。例如,假设一个`String`包含字母“abc”,后面跟着 Deseret LONG I,它用两个`char`值表示。该字符串包含四个字符,四个代码点,但包含五个代码单元。 要以 Unicode 表示字符,十六进制值以字符串 U +为前缀。 Unicode 标准的有效代码点范围是 U + 0000 到 U + 10FFFF,包括端点。拉丁字符 A 的代码点值是 U + 0041。代表欧元货币的字符€具有代码点值 U + 20AC。 Deseret 字母表中的第一个字母 LONG I 的代码点值为 U + 10400。 下表显示了几个字符的代码点值: | 字符 | Unicode 代码点 | 雕文 | | --- | --- | --- | | 拉丁文 A. | U + 0041 | ![The Latin character A](img/74ebb094b383270076f2103f4e40badd.jpg) | | 拉丁锋利 S. | U + 00DF | ![The Latin small letter sharp S](img/1ba0478330cc6b0d8f5cb0db18272468.jpg) | | 汉为东 | U + 6771 | ![The Han character for east, eastern or eastward](img/1fbf15f1027cabfddb17ca7b9aba837f.jpg) | | Deseret,LONG I | U + 10400 | ![The Deseret capital letter long I](img/aa75a1b7369b305ad6d2c23f788e7c30.jpg) | 如前所述,在 U + 10000 到 U + 10FFFF 范围内的字符被称为补充字符。从 U + 0000 到 U + FFFF 的字符集有时被称为*基本多语言平面(BMP)*。 更多术语可以在[更多信息](info.html)页面上列出的 _Unicode 词汇表*中找到。