# 术语

> 原文： [https://docs.oracle.com/javase/tutorial/i18n/text/terminology.html](https://docs.oracle.com/javase/tutorial/i18n/text/terminology.html)

*字符*是具有语义值的文本的最小单位。

*字符集*是可能由多种语言使用的字符集合。例如，拉丁字符集由英语和大多数欧洲语言使用，尽管希腊语字符集仅由希腊语使用。

*编码字符集*是一个字符集，其中每个字符被分配一个唯一的编号。

*代码点*是可以在编码字符集中使用的值。代码点是 32 位`int`数据类型，其中低 21 位表示有效代码点值，高 11 位表示 0。

Unicode _ 代码单元*是 16 位`char`值。例如，假设一个`String`包含字母“abc”，后面跟着 Deseret LONG I，它用两个`char`值表示。该字符串包含四个字符，四个代码点，但包含五个代码单元。

要以 Unicode 表示字符，十六进制值以字符串 U +为前缀。 Unicode 标准的有效代码点范围是 U + 0000 到 U + 10FFFF，包括端点。拉丁字符 A 的代码点值是 U + 0041。代表欧元货币的字符€具有代码点值 U + 20AC。 Deseret 字母表中的第一个字母 LONG I 的代码点值为 U + 10400。

下表显示了几个字符的代码点值：

| 字符 | Unicode 代码点 | 雕文 |
| --- | --- | --- |
| 拉丁文 A. | U + 0041
 | 

![The Latin character A](img/74ebb094b383270076f2103f4e40badd.jpg)

 |
| 拉丁锋利 S. | U + 00DF
 | 

![The Latin small letter sharp S](img/1ba0478330cc6b0d8f5cb0db18272468.jpg)

 |
| 汉为东 | U + 6771
 | 

![The Han character for east, eastern or eastward](img/1fbf15f1027cabfddb17ca7b9aba837f.jpg)

 |
| Deseret，LONG I | U + 10400
 | 

![The Deseret capital letter long I](img/aa75a1b7369b305ad6d2c23f788e7c30.jpg)

 |

如前所述，在 U + 10000 到 U + 10FFFF 范围内的字符被称为补充字符。从 U + 0000 到 U + FFFF 的字符集有时被称为*基本多语言平面（BMP）*。

更多术语可以在[更多信息](info.html)页面上列出的 _Unicode 词汇表*中找到。