Artigo
04/01/2012

Configurando componentes lingüísticos de texto completo

A partir do SQL Server 2008, a pesquisa de texto completo dá suporte a quase 50 idiomas diferentes, como inglês, espanhol, chinês, japonês, árabe, bengalês e híndi. Para ver uma lista completa dos idiomas de texto completo suportados, consulte sys.fulltext_languages (Transact-SQL). Cada uma das colunas do índice de texto completo é associada a um LCID (identificador de localidade) do Microsoft Windows que equivale a um idioma suportado pela pesquisa de texto completo. Por exemplo, o LCID 1033 equivale ao inglês norte-americano e o LCID 2057, ao inglês britânico. Para cada idioma de texto completo suportado, o SQL Server fornece componentes lingüísticos que dão suporte à indexação e à consulta de dados de texto completo armazenados nesse idioma.

Os componentes específicos de idioma incluem um separador de palavras e um lematizador. Um separador de palavras encontra limites de palavras com base nas regras lexicais de um dado idioma (separação de palavras). Cada separador de palavras é associado a um lematizador que conjuga verbos desse idioma. Para obter mais informações, consulte Separadores de palavras e lematizadores.

Além disso, a partir do SQL Server 2008, é fornecida uma lista de palavras irrelevantes (stoplist) do sistema que contém um conjunto básico de palavras irrelevantes (também chamadas de palavras de ruído). Uma palavra irrelevante consiste em uma palavra que não ajuda a pesquisa e é ignorada por consultas de texto completo. Por exemplo, no português, palavras como "um/uma", "e", "é" e "o/a" são consideradas palavras irrelevantes. Normalmente, é preciso configurar um ou mais arquivos de dicionário de sinônimos e listas de palavras irrelevantes. Para obter mais informações, consulte Palavras irrelevantes e listas de palavras irrelevantes.

O SQL Server também instala um arquivo de dicionário de sinônimos para cada idioma de texto completo, bem como um arquivo de dicionário de sinônimos global. Os arquivos de dicionário de sinônimos instalados são basicamente vazios, mas você pode editá-los para definir sinônimos para um determinado cenário comercial ou de idioma. Ao desenvolver um dicionário de sinônimos personalizado para seus dados de texto completo, você pode efetivamente ampliar o escopo de consultas de texto completo baseadas nesses dados. Para obter mais informações, consulte Configuração do Thesaurus.

A indexação de um documento em uma coluna de tipo de dados varbinary, varbinary(max), image ou xml requer um filtro para processamento extra. O filtro deve ser específico do tipo de documento (.doc, .pdf, .xls, .xml e assim por diante). Para obter mais informações, consulte Filtros da pesquisa de texto completo.

Observação
Os separadores de palavras (e lematizadores) e filtros são executados no processo do host do daemon de filtro (fdhost.exe). Para obter informações sobre este processo, consulte Arquitetura da pesquisa de texto completo.

Consulte também

Configurando componentes lingüísticos de texto completo

Consulte também

Referência

Conceitos

Outros recursos

Recursos adicionais