MSDN Magazine > Home > Issues > 2007 > July >  { Entre parenthèses }: Fusionnez vos photo...
{ Entre parenthèses }
Fusionnez vos photos avec Photosynth
Richard Szeliski


L’explosion de la photographie numérique a, au cours de ces dernières années, débouché sur une forte augmentation du nombre de photos partagées sur le Web. L’Interactive Visual Media Group de Microsoft Research a répondu à ce phénomène en développant des produits de retouche et d’affichage de photos innovants. Microsoft Research a été parmi les premiers à produire un logiciel de reliure de photos entièrement automatisé et à développer des procédures vidéo à 360 degrés, ainsi qu’à générer des vidéos en 3D à navigation en temps réel (voir research.microsoft.com/IVM).
L’un des plus grands défis de ce secteur a été le développement de systèmes entièrement automatisés pour construire des modèles réalistes en 3D à partir de collections de photographies. Si les avancées récentes dans ce domaine ont été impressionnantes (telles que les modèles de construction en 3D à texture mappée disponibles dans Virtual Earth™ 3D [voir maps.live.com]) les modèles résultants ne parvenaient pas à une richesse et une variété complètes, qualités inhérentes aux collections de photos d’origine.
Pour surmonter ces limites, je me suis associé à Noah Snavely et Steve Seitz, tous deux de l’Université de Washington, pour développer un système de navigation de photos en 3D appelé Photo Tourism (voir phototour.cs.washington.edu). Notre système utilise les techniques de vision par ordinateur pour reconstruire un modèle partiel en 3D de la scène photographiée, ainsi que le positionnement et l’orientation en 3D de chaque image d’une collection. Ceci est possible d’abord en extrayant les points principaux distinctifs de chaque image, en les associant dans toute la collection, puis en reconstruisant graduellement l’appareil photo en 3D et la géométrie de la scène via la résolution d’un grand problème d’optimisation non linéaire creux. L’utilisateur peut ensuite naviguer d’une image à l’autre en sélectionnant des régions d’intérêt ou en utilisant des commandes intuitives, telles que se déplacer à gauche ou se déplacer à droite.
Pour faciliter les transitions entre les images et donner un sens de mouvement en 3D, notre système simule les mouvements de l’appareil-photo en 3D tout en projetant les images sur des « imposteurs » planaires (proxy), une technique parfois utilisée dans les jeux informatiques pour modéliser la géométrie lointaine. Un modèle en 3D esquissé de la scène, se composant d’un nuage de points, de segments de ligne et de « lavis d’aquarelle » basse résolution est également utilisé. L’explorateur d’images en 3D qui en résulte combine le réalisme et la beauté d’un diaporama traditionnel à l’interactivité en 3D des jeux vidéo.
Une fois que notre prototype de recherche était sur pieds, nous devions étendre notre système pour qu’il prenne en charge la diffusion en temps réel et multi-résolution d’images sur Internet, de façon à passer de l’environnement du laboratoire à un déploiement général. Microsoft® Live Labs venait juste d’acquérir une jeune pousse appelée Seadragon, qui possédait déjà la technologie de diffusion des images selon plusieurs résolutions et affichages similaires à des montages en 3D animés. Le moteur de Seadragon convertit les images originales en une série de fragments de mosaïque d’images multi-résolution qui se chevauchent, diffusés suivant les besoins et combinés côté client pour fournir un agrandissement visuel transparent et un affinement progressif des images, tout en prenant simultanément en charge l’affichage de milliers de clichés.
Un petit groupe fonctionnel croisé de concepteurs, de responsables de programmes, de chercheurs et de développeurs ont collaboré pour concevoir, construire et déployer Photosynth™, un système qui combine le placement d’images en 3D et des technologies de navigation au moteur sous-jacent de Seadragon. L’interface utilisateur initiale, qui se basait sur plusieurs volets et icônes miniatures pour contrôler la navigation, a subi plusieurs changements de conception. Dans la conception finale, un quadrilatère lumineux indique la présence d’images supplémentaires à proximité de la souris de l’utilisateur. Cliquer sur ce quadrilatère effectue une transition transparente vers l’affichage d’une nouvelle image. Nous avons également ajouté un aperçu en 3D de la scène et un affichage miniature évolutif en 2D des images, ainsi que le contrôle du passe-vues pour effectuer un séquençage au travers des images et pour remonter dans l’historique de la navigation (voir labs.live.com/Photosynth).
Pour les versions à venir, nous envisageons d’inclure une amélioration des algorithmes de reconstruction en 3D pour passer à de plus grands ensembles de données et pour permettre la création de niveau consommateur, ainsi que pour étendre la visionneuse à des plates-formes supplémentaires. Nous recherchons à l’heure actuelle comment intégrer Photosynth à des diaporamas et à des sites de partage de photos traditionnels, comment parvenir à une navigation circulaire en douceur des objets 3D et comment effectuer une intégration à des modèles de ville en 3D, tels que ceux de Virtual Earth. Nous explorons également des applications supplémentaires pour Photosynth, au-delà du tourisme, telles que l’éducation (y compris les visites de musées et les retours dans l’Histoire interactifs), les ventes immobilières et l’indexation de grandes collections d’images. Nous espérons que Photosynth deviendra un média visuel établi, combinant la beauté et la richesse de la photographie traditionnelle à l’exploration interactive inhérente aux mondes des jeux et 3D.

Richard Szeliskidirige le Microsoft Research Interactive Visual Media Group, qui invente de nouvelles façons de capturer, d’explorer et de partager vos souvenirs personnels

Page view tracker