Architecture d'Enterprise Search

Recherche de contenu d'entreprise dans Microsoft Office SharePoint Server 2007 est un service partagé de Microsoft Office SharePoint Server 2007 qui permet de recueillir, d'indexer et d'interroger du contenu varié et extensible. Ce service prend en charge les recherches en texte intégral à l'aide d'une syntaxe de requête en langage SQL. Il propose également une nouvelle syntaxe de mot clé pour la prise en charge des recherches par mot clé.

Recherche de contenu d'entreprise a recours au même service Search sous-jacent que Recherche dans Windows SharePoint Services.

Cette rubrique fournit des informations sur l'architecture interne de la Recherche de contenu d'entreprise, ainsi que sur la Recherche de contenu d'entreprise en tant que service partagé.

Architecture interne

L'illustration ci-après donne une vue détaillée de l'architecture interne du service Search.

Architecture interne des services de recherche

Vous trouverez ci-dessous la liste des composants de l'architecture du service Search.

  • Moteur d'index   Traite les blocs de texte et les propriétés qui ont été filtrés dans les sources de contenu, en les stockant dans l'index de contenu et la banque de propriétés.

  • Moteur d'interrogation   Exécute des requêtes dans la syntaxe SQL et de mot clé dans l'index de contenu et les données de configuration de recherche.

  • Gestionnaires de protocole   Ouvre des sources de contenu dans leur protocole natif et expose les documents et autres éléments à filtrer.

  • IFilter   Ouvre des documents et d'autres éléments de source de contenu dans leur format natif et filtre les blocs de texte et les propriétés.

  • Index de contenu   Stocke des informations sur des mots et leurs emplacements dans un élément de contenu.

  • Banque de propriétés    Stocke une table de propriétés et de valeurs associées.

  • Données de configuration de recherche   Stockent les informations utilisées par le service Search, notamment la configuration d'analyse, le schéma de propriété, les zones, etc.

  • Séparateurs de mots   Utilisés par les moteurs d'index et d'interrogation pour diviser des mots composés en mots ou jetons spécifiques.

Analyse du contenu

Le moteur d'index utilise un canal de mémoire partagée pour demander au démon de filtre de commencer le filtrage de la source de contenu. Pour que le processus d'analyse réussisse, la source de contenu doit être associée à un gestionnaire de protocole qui puisse lire son protocole. Le démon de filtre appelle le gestionnaire de protocole approprié pour la source de contenu en fonction de l'adresse de démarrage fournie par le moteur d'index. Il utilise les gestionnaires de protocole et les IFilters pour extraire et filtrer des éléments spécifiques de la source de contenu. Les IFilters appropriés pour chaque document sont appliqués, et le démon du filtre transmet le texte et les métadonnées extraits au moteur d'index via le canal.

À ce stade du processus d'analyse du contenu, le moteur d'index enregistre les propriétés du document dans une banque de propriétés séparée de l'index de contenu. La banque de propriétés est constituée d'une table de propriétés et de leurs valeurs. Les propriétés contenues dans cette banque peuvent être extraites et triées. La banque prend également en charge des recherches simples dans les propriétés. Chaque ligne de la table correspond à un document distinct dans l'index de recherche de texte intégral. Le texte d'un élément de contenu est stocké dans l'index de contenu de sorte qu'il puisse être utilisé pour des requêtes de contenu. La banque de propriétés assure et applique la sécurité au niveau document collectée lors de l'analyse d'un document. .

À ce stade, le moteur d'index utilise des séparateurs de mots et des analyseurs morphologiques afin de traiter de façon supplémentaire le texte et les propriétés sélectionnés lors de l'analyse. (Le séparateur de mot sert à décomposer le texte en mots et en phrases. L'analyseur morphologique est quant à lui utilisé pour générer les formes désinentielles d'un mot donné). Il supprime également les mots « parasites » et crée un index inversé pour la recherche en texte intégral.

Exécution des requêtes de recherche

Lorsqu'une requête de recherche est exécutée, le moteur d'interrogation la transmet à un séparateur de mots propre à la langue. S'il n'existe aucun séparateur de mots pour la langue de la requête, il fait appel au séparateur de mots neutre qui effectue une séparation de mots de type espace (la séparation des mots est effectuée à l'endroit des espaces dans les mots et les phrases). Les mots obtenus sont ensuite transmis à un analyseur morphologique afin qu'il génère les formes désinentielles propres à la langue d'un mot donné. L'utilisation d'un séparateur de mots et d'un analyseur morphologique dans les processus d'analyse et de requête permettent d'améliorer l'efficacité des recherches, car d'autres formulations plus précises d'une requête de l'utilisateur sont générées. Lorsque le moteur d'interrogation exécute une requête de valeur de propriété, l'index est d'abord vérifié pour obtenir une liste de correspondances possibles. Les propriétés des documents correspondants sont chargées à partir de la banque de propriétés, et les propriétés de la requête sont à nouveau vérifiées pour s'assurer qu'il existait des correspondances. Tous les résultats correspondants sont retournés sous la forme d'une liste, dans laquelle ils sont classés par pertinence. Si l'utilisateur n'est pas autorisé à accéder à un document correspondant, le moteur d'interrogation exclut ce dernier de la liste retournée.

La recherche en tant que service partagé

Un service partagé est une application de grande valeur qui est utilisée par d'autres applications. Dans l'architecture logique d'Office SharePoint Server 2007, un fournisseur de services partagés est un regroupement de services partagés et de ressources partagées connexes. Il est créé et configuré par un administrateur de batteries de serveurs en vue d'héberger des services partagés qui soient disponibles pour plusieurs sites portail d'une batterie. L'administrateur de batteries de serveurs affecte ensuite un fournisseur de services partagés à un site portail. Une batterie de serveurs peut contenir plusieurs fournisseurs de services partagés alors qu'un site portail ne peut être associé qu'à un seul fournisseur. Un fournisseur de services partagés ne peut contenir qu'une seule instance d'un service partagé spécifique.

Gestion de la recherche de contenu d'entreprise

Dans SharePoint Portal Server 2003, vous deviez gérer la configuration des analyses et les index de contenu séparément pour chaque site portail. Dans Recherche de contenu d'entreprise, vous pouvez dorénavant gérer ces éléments au niveau des fournisseurs de services partagés, avec un index de contenu et une banque de propriétés par fournisseur. Cela permet d'éviter toute indexation redondante et de centraliser l'administration des opérations utilisant beaucoup de ressources, telles que la gestion d'index, et d'améliorer ainsi la gestion de la Recherche de contenu d'entreprise.

Notes

Certains paramètres de recherche sont toujours configurables au niveau de la collection de sites. Pour plus d'informations, voir la section Gestion de la recherche au niveau du site de cette rubrique.

Les sections ci-après donnent une vue d'ensemble succincte des différents composants du service partagé Recherche de contenu d'entreprise dans Office SharePoint Server 2007.

Sources de contenu

Une source de contenu est une collection d'adresses de démarrage qui représente le contenu qui doit être analysé par l'index de recherche. Elle spécifie également les paramètres qui définissent le comportement et la planification de l'analyse du contenu.

Recherche de contenu d'entreprise propose plusieurs types de contenu par défaut. Vous pouvez donc facilement configurer des analyses pour différents types de données internes et externes. Vous trouverez ci-dessous la liste des types de contenu inclus dans Recherche de contenu d'entreprise.

  • Contenu SharePoint

  • Contenu Web

  • Partages de fichiers

  • Dossiers Exchange

  • Données métiers

Si vous devez inclure d'autres types de contenu, vous pouvez créer une source de contenu et un gestionnaire de protocole personnalisés pour Recherche de contenu d'entreprise.

Notes

Une source de contenu Lotus Notes est disponible, mais elle n'est pas configurée par défaut.

Pour plus d'informations sur les sources de contenu, voir Vue d'ensemble des sources de contenu.

Étendues partagées

Une zone de recherche permet de regrouper des éléments de contenu, selon un élément commun aux éléments inclus dans la zone de recherche. Les utilisateurs peuvent ainsi effectuer des recherches plus précises en les limitant à un sous-ensemble de contenu dans l'index (plutôt que d'effectuer des recherches dans l'index complet). Une zone joue un rôle important dans la prise en charge par Recherche de contenu d'entreprise de différents environnements de recherche dans un index de contenu. Une fois une zone de recherche créée, vous définissez le contenu qu'elle doit inclure en ajoutant des règles d'étendue et en spécifiant si le contenu qui leur correspond doit être inclus ou exclu. Les règles d'étendue peuvent être définies selon les éléments suivants :

  • Adresse

  • Requête de propriété

  • Source de contenu

Vous pouvez créer et définir des zones de recherche au niveau du fournisseur de services partagés ou au niveau d'une collection de sites spécifique. Les zones de recherche au niveau du fournisseur de services partagés sont appelées étendues partagées et sont disponibles pour tous les sites configurés en vue d'utiliser un fournisseur de services partagés spécifique.

Pour plus d'informations sur les zones de recherche, voir Utilisation des zones de recherche.

Mappages des propriétés de document

Le schéma d'Recherche de contenu d'entreprise est composé de deux types de propriétés, les propriétés analysées et les propriétés gérées, ainsi que des mappages entre ces deux jeux de propriétés.

Le moteur d'index extrait les propriétés analysées des éléments de contenu lors de l'analyse du contenu. Ces propriétés sont regroupées dans différentes catégories, selon le gestionnaire de protocole et l'IFilter utilisés. Par exemple, les propriétés analysées dans le contenu du Catalogue de données métiers sont regroupées dans la catégorie Données métiers, alors que celles analysées dans le contenu Microsoft Office system 2007 sont regroupées dans la catégorie Office.

Les propriétés gérées correspondent au jeu de propriétés faisant partie de l'environnement de recherche. Pour inclure une valeur de propriété analysée dans la fonctionnalité de recherche, celle-ci doit donc être mappée à une propriété gérée dans les mappages de propriétés de document. Les propriétés gérées sont créées et gérées au niveau des fournisseurs de services partagés. Pour plus d'informations, voir Gestion des métadonnées.

Mappages des noms de serveurs

Les mappages des noms de serveurs sont des paramètres d'analyse qui peuvent être configurés de sorte à remplacer le mode d'affichage ou l'accessibilité des résultats de recherche une fois le contenu inclus dans l'index. Vous pouvez par exemple configurer une source de contenu en vue d'analyser un site Web via un chemin d'accès de partage de fichiers et créer ensuite une entrée de mappage de nom de serveur pour mapper le partage de fichiers à l'URL du site Web.

Inclusions par pertinence

Les facteurs de pertinence ont une incidence sur le calcul du classement de pertinence des éléments, ce qui affecte l'ordre dans lequel les résultats apparaissent dans la liste des résultats de recherche. L'amélioration de la pertinence des résultats de recherche a été l'un des principaux objectifs de cette version. Recherche de contenu d'entreprise contient un moteur de classement mis à jour, adapté tout particulièrement à la recherche de contenu d'entreprise et de données d'applications métiers.

Les calculs de pertinence mis à jour prennent en compte les éléments suivants :

  • Distance de clic

  • Texte d'ancrage des liens hypertexte

  • Profondeur d'URL

  • Correspondance d'URL

  • Extraction automatisée des métadonnées

  • Détection automatique de la langue

  • Préférence de type de fichier en fonction de la pertinence

  • Analyse de texte améliorée

Pour plus d'informations sur la pertinence des recherches Recherche de contenu d'entreprise, voir Amélioration de la pertinence.

Inclusions par type de fichier

La liste des inclusions par type de fichier spécifie les types de fichiers que l'analyseur doit inclure ou exclure de l'index. Pour plus d'informations, voir la section Type de fichier de la rubrique Définition de règles d'analyse et types de fichiers.

Journalisation

Journal des requêtes

Les informations qui font l'objet d'un suivi dans le journal des requêtes comprennent :

  • les termes utilisés dans les requêtes ;

  • si les requêtes de recherche ont retourné des résultats ;

  • les pages consultées dans les résultats de recherche.

Ces données d'utilisation de la recherche permettent de connaître le mode d'utilisation de la recherche et les informations recherchées par les utilisateurs. Vous pouvez les exploiter pour déterminer le type d'amélioration que vous pouvez apporter aux fonctions de recherche.

Journal d'analyse

Le journal d'analyse effectue le suivi des informations d'état du contenu analysé et contient l'état actuel de chaque élément dans l'index de contenu. Vous pouvez parcourir les entrées du journal d'analyse et les filtrer pour voir les erreurs, les avertissements et d'autres informations afin de déterminer si le contenu a été correctement ajouté à l'index. Pour plus d'informations, voir Utilisation du journal d'analyse.

Gestion de la recherche au niveau du site

Bien que l'environnement des recherches soit géré au niveau du fournisseur de services partagés, certains élément sont disponibles au niveau du site :

  • Zones de recherche

  • Mots clés et meilleurs résultats

Les paramètres au niveau du site permettent à un administrateur de site de configurer un environnement de recherche sans affecter ceux d'autres sites configurés pour utiliser le même fournisseur de services partagés.

Zones de recherche

Comme décrit précédemment, les zones de recherche sont un ensemble d'éléments regroupés selon un élément commun aux éléments inclus dans les zones. Elles permettent aux utilisateurs d'élargir ou de réduire l'étendue de leurs recherches. Les zones de recherche disponibles au niveau du fournisseur de services partagés sont appelées étendues partagées. Les zones de recherche sont également disponibles au niveau du site. Les zones de recherche créées au niveau du site ne sont visibles que pour le site dans lesquelles elles ont été créées et pour les sous-sites du site de niveau supérieur.

Lorsque vous gérez des zones de recherche au niveau du site, vous pouvez créer et configurer des groupes d'affichage d'étendue. Ceux-ci permettent d'organiser les groupes de zones de recherche en fonction de leur affichage sur le site. Par exemple, si un administrateur de fournisseurs de services partagés a créé une étendue partagée au niveau du fournisseur de services partagés et si vous souhaitez l'afficher dans la liste déroulante des zones de recherche du composant WebPart Zone de recherche, vous devez ajouter la nouvelle étendue partagée au groupe d'affichage Liste déroulante de recherche du site. Pour plus d'informations sur cette procédure, voir Procédure : afficher une zone de recherche dans les composants WebPart Zone de recherche et Recherche avancée.

Mots clés et meilleurs résultats

Les mots clés correspondent à des mots ou des phrases qui sont identifiés comme étant importants par les administrateurs de sites. Ils permettent d'afficher des informations et des liens recommandés supplémentaires dans la page initiale des résultats, qui n'y figureraient peut-être pas sans cela. Pour plus d'informations, voir Gestion des mots clés.