反向引用

项目
08/18/2008

更新：2007 年 11 月

反向引用标识由正则表达式中的匹配组捕获的子字符串。每个反向引用都由一个编号或名称来标识，并通过“\编号”或“\k<名称>”表示法进行引用。例如，如果输入字符串包含某任意子字符串的多个匹配项，则可以使用捕获组匹配第一个出现的子字符串，然后使用反向引用匹配后面出现的子字符串。有关更多信息，请参见后向引用构造和分组构造。

反向引用提供查找重复字符组的方便的方法。它们可被认为是再次匹配同一个字符串的快捷指令。例如，若要查找重复且相邻的字符（如单词“tall”中的两个 L），可以使用正则表达式 (?<char>\w)\k<char>，该正则表达式使用元字符 \w 来查找任何单个单词的字符。分组构造 (?<char> ) 将元字符括在其中，以强制正则表达式引擎记住子表达式匹配（在此示例中将是任意单个字符），并以名称“char”保存它。反向引用构造 \k<char> 使引擎对当前字符和以名称“char”存储的先前匹配字符进行比较。只要单个字符与其前面的字符相同，整个正则表达式就可以找到一个匹配。

要找到重复的全字，您可以修改该分组子表达式，以搜索前面是空格的任何字符组，而不是只搜索任意单个字符。可以用匹配任何字符组的子表达式 \w+ 替换元字符 \w，并使用元字符 \s 匹配字符分组前的空格。这就生成了正则表达式 (?<char>\s\w+)\k<char>，该正则表达式查找任何重复的全字（例如“the the”），但也会匹配指定字符串的其他重复情况，例如词组“the theory”中的重复情况。

为验证上述第二种匹配是以单词为边界的，可以将元字符 \b 添加到重复匹配的后面。所生成的正则表达式 (?<char>\s\w+)\k<char>\b 只查找重复的、前面有空格的全字。

分析反向引用

表达式 \1 到 \9 总是指反向引用，而不是八进制代码。多位表达式 \10 和更高位表达式在具有与该数字对应的反向引用时被视作反向引用；否则，它们会被解释为八进制代码（除非起始位是 8 或 9，在这种情况下它们被视为原义的“8”和“9”）。如果正则表达式包含对未定义的组成员的反向引用，则它被视作分析错误。如果有多义性问题，可以使用 \k<n> 表示法，该表示法是明确的，并且不会与八进制符号代码混淆；同样，诸如 \xdd 等的十六进制代码也是明确的，并且不会与反向引用混淆。

当 ECMAScript 选项标志被启用时，反向引用行为将稍有不同。有关更多信息，请参见 ECMAScript 与规范化匹配行为。

匹配反向引用

反向引用引用组的最近的定义（当从左到右匹配时，最靠近左侧的定义）。具体地讲，就是当组建立多个捕获时，反向引用引用最近的捕获。例如，(?<1>a)(?<1>\1b)* 使用捕获模式 (a)(ab)(abb) 来匹配 aababb。循环限定符不清除组定义。

如果一个组尚未捕获任何子字符串，则对该组的反向引用是未定义的并且永远不匹配。例如，表达式 \1() 永远不匹配任何字符串，但是表达式 ()\1 匹配空字符串。

请参见

其他资源

.NET Framework 正则表达式

Share via

反向引用

分析反向引用

匹配反向引用

请参见

其他资源

其他资源