Unicode控制字符

2025-11-18 20:28:15

Unicode控制字符

Unicode控制字符（英語：）是用于控制文本解释或者显示，而不可见或不占空间的Unicode字符。

ISO 6429控制字符（C0与C1）

主条目：C0与C1控制字符

控制字符U+0000‐U+001F 与U+007F来自ASCII。此外，ISO 8859字符集定义了U+0080‐U+009F。二者都定义在ISO 6429中，常被称为C0与C1控制字符。

大部分这些字符在Unicode文本处理中没有明确作用。字符U+0000 ，NUL、U+0009 ，HT、U+000A ，LF、U+000D ，CR、U+0085 ，NEL常用于格式化字符。

Unicode引入的分隔符

为了简化几种换行字符，Unicode引入了它自己的分隔符来格式化文本：

U+2028 LINE SEPARATOR ，HTML： ，LSEP

U+2029 PARAGRAPH SEPARATOR ，HTML： ，PSEP

语言标记

Unicode以前定义了Tags，包含了128个字符表示语言标签，但现在已经过时了。这些字符实际上镜像了128个ASCII字符。用于表示随后的文本属于IETF語言標籤（BCP 47）所指的特定语言。例如，表示随后文本使用美国英语（en-us），用字符串开始为Language Tag character（U+E0001）后跟序列：Tag Small Letter e（U+E0065）、Tag Small Letter n（U+E006E）、Tag Hyphen-minus（U+E002D）、Tag Small Letter u（U+E0075）、Tag Small Letter s（U+E0073）。

这种语言标签自身不会被显示。但可提供用于文本处理的信息。例如，中日韩统一汉字的文本，指明是韩语而非日文，可以把一些字符用韩语特有的字形来表示。另一个例子，把数字0‐9用语言特定的字形表示。

语言标记字符U+E0001、U+E0020‐U+E007E、U+E007F 已经被Unicode 5.1（2008）宣布过时，不再作为语言标记使用。[1]

Unicode 8.0（2015）宣布U+E0020‐U+E007E不再是过时，用于未来表示除了语言标签以外的的其他用途。[2]（U+E0001 LANGUAGE TAG与U+E007F CANCEL TAG仍然过时）。

行间标注

3个格式化字符用于支持旁註標記（U+FFF9、U+FFFA、U+FFFB）。

双向文本控制

主条目：双向文本

Unicode支持从左到右、从右到左，或者其混合排版，而不需要任何特殊字符。但为了处理一些特殊情形，Unicode定义了12个字符（U+061C、U+200E、U+200F、U+202A、U+202B、U+202C、U+202D、U+202E、U+2066、U+2067、U+2068、U+2069）以帮助控制嵌入式双向文本最大125层深。[3]

异体字选择器

主条目：异体字选择器

中日韩汉字、拉丁字母的双拼连写等等，在Unicode中被视作异体字。有些专名（如地名、姓名）必须使用某个异体字。为此，Unicode 3.2与4.0定义了256个异体字选择器，可选择前一个字符的最多256个可能的异体字。

控制字符的图片

Unicode在Control Pictures块中提供图形表示C0控制字符以及其他控制符。

Control Pictures[1][2]官方Unicode Consortium码位图表 (PDF)

0123456789ABCDEF

U+240x

␀

␁

␂

␃

␄

␅

␆

␇

␈

␉

␊

␋

␌

␍

␎

␏

U+241x

␐

␑

␒

␓

␔

␕

␖

␗

␘

␙

␚

␛

␜

␝

␞

␟

U+242x

␠

␡

␢

␣

␤

␥

␦

U+243x

Notes

1.^ Unicode版本11.0

2.^ 灰区指示未使用的码位

参见

Specials (Unicode block)

ISO 2047

参考文献

. Internet Engineering Task Force (IETF). November 2010. . Unicode Consortium. . Unicode Consortium. 2018-05-09 [2019-01-08]. （原始内容存档于2009-01-25）.

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.