Cómo: Identificar texto en una cadena HTML en Visual Basic
Actualización: noviembre 2007
En este ejemplo se muestra cómo utilizar una expresión regular simple para quitar las etiquetas de un documento HTML.
Ejemplo
Las etiquetas HTML se pueden buscar con la expresión regular \<[^\>]+\>, que significa:
El carácter "<", seguido de
Un conjunto de uno o más caracteres, no incluido el carácter ">", seguido de
El carácter ">".
En este ejemplo se utiliza el método Regex.Replace compartido para reemplazar todas las coincidencias de la expresión regular de etiqueta con la cadena vacía.
''' <summary>Removes the tags from an HTML document.</summary>
''' <param name="htmlText">HTML text to parse.</param>
''' <returns>The text of an HTML document without tags.</returns>
''' <remarks></remarks>
Function GetTextFromHtml(ByVal htmlText As String) As String
Dim output As String = Regex.Replace(htmlText, "\<[^\>]+\>", "")
Return output
End Function
Este ejemplo requiere que se utilice la instrucción Imports para importar el espacio de nombres System.Text.RegularExpressions. Para obtener más información, vea Instrucción Imports (Tipo y espacio de nombres de .NET).
Vea también
Tareas
Cómo: Identificar hipervínculos en una cadena HTML en Visual Basic
Cómo: Quitar caracteres no válidos de una cadena