Cómo: Identificar texto en una cadena HTML en Visual Basic

Actualización: noviembre 2007

En este ejemplo se muestra cómo utilizar una expresión regular simple para quitar las etiquetas de un documento HTML.

Ejemplo

Las etiquetas HTML se pueden buscar con la expresión regular \<[^\>]+\>, que significa:

  1. El carácter "<", seguido de

  2. Un conjunto de uno o más caracteres, no incluido el carácter ">", seguido de

  3. El carácter ">".

En este ejemplo se utiliza el método Regex.Replace compartido para reemplazar todas las coincidencias de la expresión regular de etiqueta con la cadena vacía.

    ''' <summary>Removes the tags from an HTML document.</summary>
    ''' <param name="htmlText">HTML text to parse.</param>
    ''' <returns>The text of an HTML document without tags.</returns>
    ''' <remarks></remarks>
    Function GetTextFromHtml(ByVal htmlText As String) As String
        Dim output As String = Regex.Replace(htmlText, "\<[^\>]+\>", "")
        Return output
    End Function

Este ejemplo requiere que se utilice la instrucción Imports para importar el espacio de nombres System.Text.RegularExpressions. Para obtener más información, vea Instrucción Imports (Tipo y espacio de nombres de .NET).

Vea también

Tareas

Cómo: Identificar hipervínculos en una cadena HTML en Visual Basic

Cómo: Quitar caracteres no válidos de una cadena

Otros recursos

Analizar cadenas en Visual Basic