La modélisation des données

Un article de Wikipédia, l'encyclopédie libre
Aller à la navigation Aller à la recherche

Le processus de modélisation des données. La figure illustre la manière dont les modèles de données sont développés et utilisés aujourd'hui. Un modèle de données conceptuel est développé sur la base des exigences de données pour l'application en cours de développement, peut-être dans le contexte d'un modèle d'activité . Le modèle de données comprendra normalement des types d'entités, des attributs, des relations, des règles d'intégrité et les définitions de ces objets. Ceci est ensuite utilisé comme point de départ pour la conception de l'interface ou de la base de données. [1]

La modélisation des données en génie logiciel est le processus de création d'un modèle de données pour un système d'information en appliquant certaines techniques formelles.

Vue d'ensemble

La modélisation des données est un processus utilisé pour définir et analyser les exigences en matière de données nécessaires pour prendre en charge les processus métier dans le cadre des systèmes d'information correspondants dans les organisations. Par conséquent, le processus de modélisation des données implique des modélisateurs de données professionnels travaillant en étroite collaboration avec les parties prenantes de l'entreprise, ainsi que les utilisateurs potentiels du système d'information.

Il existe trois types différents de modèles de données produits lors de la progression des exigences à la base de données réelle à utiliser pour le système d'information. [2] Les exigences en matière de données sont initialement enregistrées sous la forme d'un modèle de données conceptuel qui est essentiellement un ensemble de spécifications indépendantes de la technologie sur les données et est utilisé pour discuter des exigences initiales avec les parties prenantes de l'entreprise. Le modèle conceptuel est ensuite traduit en un modèle de données logique , qui documente les structures des données pouvant être implémentées dans des bases de données. La mise en œuvre d'un modèle de données conceptuel peut nécessiter plusieurs modèles de données logiques. La dernière étape de la modélisation des données consiste à transformer le modèle de données logique en un modèle de données physiquequi organise les données dans des tables et tient compte des détails d'accès, de performances et de stockage. La modélisation des données définit non seulement les éléments de données, mais également leurs structures et les relations entre elles. [3]

Les techniques et méthodologies de modélisation des données sont utilisées pour modéliser les données de manière standard, cohérente et prévisible afin de les gérer comme une ressource. L'utilisation de normes de modélisation des données est fortement recommandée pour tous les projets nécessitant un moyen standard de définition et d'analyse des données au sein d'une organisation, par exemple, en utilisant la modélisation des données :

  • pour aider les analystes commerciaux, les programmeurs, les testeurs, les rédacteurs de manuels, les sélectionneurs de progiciels informatiques, les ingénieurs, les gestionnaires, les organisations connexes et les clients à comprendre et à utiliser un modèle semi-formel convenu qui englobe les concepts de l'organisation et leurs relations les uns avec les autres
  • gérer les données comme une ressource
  • intégrer les systèmes d'information
  • pour concevoir des bases de données/entrepôts de données (alias référentiels de données)

La modélisation des données peut être effectuée au cours de divers types de projets et dans plusieurs phases de projets. Les modèles de données sont progressifs ; il n'existe pas de modèle de données final pour une entreprise ou une application. Au lieu de cela, un modèle de données doit être considéré comme un document vivant qui changera en réponse à une entreprise en évolution. Les modèles de données doivent idéalement être stockés dans un référentiel afin qu'ils puissent être récupérés, étendus et modifiés au fil du temps. Whitten et al. (2004) ont déterminé deux types de modélisation des données : [4]

  • Modélisation stratégique des données : elle fait partie de la création d'une stratégie des systèmes d'information, qui définit une vision globale et une architecture des systèmes d'information. L'ingénierie des technologies de l'information est une méthodologie qui embrasse cette approche.
  • Modélisation des données lors de l'analyse des systèmes : dans l'analyse des systèmes, des modèles de données logiques sont créés dans le cadre du développement de nouvelles bases de données.

La modélisation des données est également utilisée comme technique pour détailler les besoins de l'entreprise pour des bases de données spécifiques . Elle est parfois appelée modélisation de base de données car un modèle de données est finalement implémenté dans une base de données. [4]

Sujets

Modèles de données

Comment les modèles de données offrent des avantages. [1]

Les modèles de données fournissent un cadre pour les données à utiliser dans les systèmes d'information en fournissant une définition et un format spécifiques. Si un modèle de données est utilisé de manière cohérente dans tous les systèmes, la compatibilité des données peut être obtenue. Si les mêmes structures de données sont utilisées pour stocker et accéder aux données, différentes applications peuvent partager des données de manière transparente. Les résultats de ceci sont indiqués dans le diagramme. Cependant, les systèmes et les interfaces sont souvent coûteux à construire, à exploiter et à entretenir. Ils peuvent également contraindre l'entreprise plutôt que de la soutenir. Cela peut se produire lorsque la qualité des modèles de données mis en œuvre dans les systèmes et les interfaces est médiocre. [1]

Certains problèmes courants rencontrés dans les modèles de données sont :

  • Les règles métier, spécifiques à la façon dont les choses sont faites dans un lieu particulier, sont souvent fixées dans la structure d'un modèle de données. Cela signifie que de petits changements dans la façon dont les affaires sont menées entraînent de grands changements dans les systèmes et les interfaces informatiques. Ainsi, les règles métier doivent être implémentées d'une manière flexible qui n'entraîne pas de dépendances compliquées, le modèle de données doit plutôt être suffisamment flexible pour que les changements dans l'entreprise puissent être implémentés dans le modèle de données de manière relativement rapide et efficace.
  • Les types d'entités ne sont souvent pas identifiés ou sont identifiés de manière incorrecte. Cela peut entraîner la réplication des données, de la structure des données et des fonctionnalités, ainsi que les coûts associés à cette duplication dans le développement et la maintenance. Par conséquent, les définitions des données doivent être rendues aussi explicites et faciles à comprendre que possible afin de minimiser les erreurs d'interprétation et les doubles emplois.
  • Les modèles de données pour différents systèmes sont arbitrairement différents. Il en résulte que des interfaces complexes sont nécessaires entre les systèmes qui partagent des données. Ces interfaces peuvent représenter entre 25 et 70 % du coût des systèmes actuels. Les interfaces requises doivent être prises en compte de manière inhérente lors de la conception d'un modèle de données, car un modèle de données seul ne serait pas utilisable sans interfaces au sein de différents systèmes.
  • Les données ne peuvent pas être partagées électroniquement avec les clients et les fournisseurs, car la structure et la signification des données n'ont pas été normalisées. Pour obtenir une valeur optimale d'un modèle de données mis en œuvre, il est très important de définir des normes qui garantiront que les modèles de données répondront à la fois aux besoins de l'entreprise et seront cohérents. [1]

Schémas conceptuels, logiques et physiques

L'architecture à trois niveaux ANSI/SPARC. Cela montre qu'un modèle de données peut être un modèle externe (ou vue), un modèle conceptuel ou un modèle physique. Ce n'est pas la seule façon d'examiner les modèles de données, mais c'est un moyen utile, en particulier lors de la comparaison de modèles. [1]

En 1975 , l' ANSI a décrit trois types d' instance de modèle de données : [5]

  • Schéma conceptuel : décrit la sémantique d'un domaine (la portée du modèle). Par exemple, il peut s'agir d'un modèle du domaine d'intérêt d'une organisation ou d'une industrie. Cela consiste en des classes d'entités, représentant des types de choses importantes dans le domaine, et des assertions de relations sur des associations entre des paires de classes d'entités. Un schéma conceptuel spécifie les types de faits ou de propositions qui peuvent être exprimés à l'aide du modèle. En ce sens, il définit les expressions autorisées dans un "langage" artificiel avec une portée limitée par la portée du modèle. Décrit simplement, un schéma conceptuel est la première étape dans l'organisation des besoins en données.
  • Schéma logique : décrit la structure d'un domaine d'information. Il s'agit de descriptions (par exemple) de tables, de colonnes, de classes orientées objet et de balises XML. Le schéma logique et le schéma conceptuel sont parfois mis en œuvre comme une seule et même chose. [2]
  • Schéma physique : décrit les moyens physiques utilisés pour stocker les données. Cela concerne les partitions, les processeurs, les espaces de table , etc.

Selon l'ANSI, cette approche permet aux trois perspectives d'être relativement indépendantes les unes des autres. La technologie de stockage peut changer sans affecter ni le schéma logique ni le schéma conceptuel. La structure table/colonne peut changer sans (nécessairement) affecter le schéma conceptuel. Dans chaque cas, bien sûr, les structures doivent rester cohérentes dans tous les schémas du même modèle de données.

Processus de modélisation des données

Modélisation des données dans le contexte de l' intégration des processus métier . [6]

Dans le contexte de l'intégration des processus métier (voir figure), la modélisation des données complète la modélisation des processus métier et aboutit finalement à la génération de bases de données. [6]

Le processus de conception d'une base de données implique la production des trois types de schémas décrits précédemment - conceptuel, logique et physique. La conception de la base de données documentée dans ces schémas est convertie via un langage de définition de données , qui peut ensuite être utilisé pour générer une base de données. Un modèle de données entièrement attribué contient des attributs détaillés (descriptions) pour chaque entité qu'il contient. Le terme "conception de base de données" peut décrire de nombreuses parties différentes de la conception d'un système de base de données global . Principalement, et plus correctement, il peut être considéré comme la conception logique des structures de données de base utilisées pour stocker les données. Dans le modèle relationnel, ce sont les tables et les vues . Dans une base de données d'objetsles entités et les relations correspondent directement aux classes d'objets et aux relations nommées. Cependant, le terme "conception de base de données" pourrait également être utilisé pour s'appliquer au processus global de conception, non seulement des structures de données de base, mais également des formulaires et des requêtes utilisés dans le cadre de l'application globale de la base de données au sein du système de gestion de base de données ou SGBD.

Dans le processus, les interfaces système représentent 25% à 70% des coûts de développement et de support des systèmes actuels. La principale raison de ce coût est que ces systèmes ne partagent pas un modèle de données commun . Si les modèles de données sont développés système par système, non seulement la même analyse est répétée dans les zones qui se chevauchent, mais une analyse plus approfondie doit être effectuée pour créer les interfaces entre elles. La plupart des systèmes au sein d'une organisation contiennent les mêmes données de base, redéveloppées dans un but précis. Par conséquent, un modèle de données de base conçu de manière efficace peut minimiser les retouches avec des modifications minimales pour les besoins des différents systèmes au sein de l'organisation [1]

Méthodologies

Les modèles de données représentent les domaines d'information d'intérêt. S'il existe de nombreuses manières de créer des modèles de données, selon Len Silverston (1997) [7] seules deux méthodologies de modélisation se démarquent, top-down et bottom-up :

  • Les modèles ascendants ou les modèles d'intégration de vues sont souvent le résultat d'un effort de réingénierie . Ils commencent généralement par des formulaires de structures de données existants, des champs sur des écrans d'application ou des rapports. Ces modèles sont généralement physiques, spécifiques à l'application et incomplets du point de vue de l'entreprise . Ils peuvent ne pas promouvoir le partage de données, surtout s'ils sont construits sans référence à d'autres parties de l'organisation. [sept]
  • Les modèles de données logiques descendants , en revanche, sont créés de manière abstraite en obtenant des informations auprès de personnes connaissant le domaine. Un système peut ne pas implémenter toutes les entités dans un modèle logique, mais le modèle sert de point de référence ou de modèle. [sept]

Parfois, les modèles sont créés en combinant les deux méthodes : en tenant compte des besoins en données et de la structure d'une application et en référençant systématiquement un modèle de domaine. Malheureusement, dans de nombreux environnements, la distinction entre un modèle de données logique et un modèle de données physique est floue. De plus, certains outils CASE ne font pas de distinction entre les modèles de données logiques et physiques . [sept]

Diagrammes entité-relation

Exemple de diagrammes entité-relation IDEF1X utilisés pour modéliser IDEF1X lui-même. Le nom de la vue est mm. La hiérarchie et les contraintes du domaine sont également données. Les contraintes sont exprimées sous forme de phrases dans la théorie formelle du méta-modèle. [8]

Il existe plusieurs notations pour la modélisation des données. Le modèle réel est souvent appelé "modèle entité-relation", car il décrit les données en termes d'entités et de relations décrites dans les données . [4] Un modèle entité-relation (ERM) est une représentation conceptuelle abstraite de données structurées. La modélisation entité-relation est une méthode de modélisation de base de données de schéma relationnel , utilisée en génie logiciel pour produire un type de modèle de données conceptuel (ou modèle de données sémantique ) d'un système, souvent une base de données relationnelle , et ses exigences de manière descendante .

Ces modèles sont utilisés dans la première étape de la conception du système d'information lors de l' analyse des besoins pour décrire les besoins en informations ou le type d' informations qui doivent être stockées dans une base de données . La technique de modélisation des données peut être utilisée pour décrire n'importe quelle ontologie (c'est-à-dire une vue d'ensemble et des classifications des termes utilisés et leurs relations) pour un certain univers de discours , c'est-à-dire un domaine d'intérêt.

Plusieurs techniques ont été développées pour la conception de modèles de données. Bien que ces méthodologies guident les modélisateurs de données dans leur travail, deux personnes différentes utilisant la même méthodologie obtiendront souvent des résultats très différents. Les plus notables sont :

Modélisation des données génériques

Exemple de modèle de données générique. [9]

Les modèles de données génériques sont des généralisations des modèles de données conventionnels . Ils définissent des types de relations générales normalisées, ainsi que les types de choses qui peuvent être liées par un tel type de relation. La définition d'un modèle de données générique est similaire à la définition d'un langage naturel. Par exemple, un modèle de données générique peut définir des types de relation tels qu'une « relation de classification », étant une relation binaire entre une chose individuelle et un type de chose (une classe) et une « relation partie-tout », étant une relation binaire entre deux choses, l'une avec le rôle de partie, l'autre avec le rôle de tout, quel que soit le type de choses qui sont liées.

Étant donné une liste extensible de classes, cela permet la classification de n'importe quelle chose individuelle et de spécifier des relations partie-tout pour n'importe quel objet individuel. Par la standardisation d'une liste extensible de types de relations, un modèle de données générique permet l'expression d'un nombre illimité de types de faits et se rapprochera des capacités des langages naturels. Les modèles de données conventionnels, en revanche, ont une portée de domaine fixe et limitée, car l'instanciation (l'utilisation) d'un tel modèle ne permet que l'expression de types de faits prédéfinis dans le modèle.

Modélisation sémantique des données

La structure de données logique d'un SGBD, qu'elle soit hiérarchique, réseau ou relationnelle, ne peut pas totalement satisfaire aux exigences d'une définition conceptuelle des données car elle est limitée dans sa portée et biaisée vers la stratégie de mise en œuvre employée par le SGBD. C'est à moins que le modèle de données sémantique ne soit implémenté dans la base de données à dessein, un choix qui peut avoir un léger impact sur les performances mais qui améliore généralement considérablement la productivité.

Modèles de données sémantiques. [8]

Par conséquent, la nécessité de définir les données d'un point de vue conceptuel a conduit au développement de techniques de modélisation sémantique des données . C'est-à-dire des techniques pour définir la signification des données dans le contexte de leurs interrelations avec d'autres données. Comme l'illustre la figure, le monde réel, en termes de ressources, d'idées, d'événements, etc., est symboliquement défini dans les magasins de données physiques. Un modèle de données sémantique est une abstraction qui définit la relation entre les symboles stockés et le monde réel. Ainsi, le modèle doit être une représentation fidèle du monde réel. [8]

Le but de la modélisation sémantique des données est de créer un modèle structurel d'un morceau du monde réel, appelé Univers du Discours. Pour cela, quatre relations structurelles fondamentales sont considérées :

  • Classification/Instanciation : les objets présentant une certaine similarité structurelle sont décrits comme des instances de classes
  • Agrégation/Décomposition : les objets composés sont obtenus en joignant ses parties
  • Généralisation/Spécialisation : les classes distinctes avec certaines propriétés communes sont reconsidérées dans une classe plus générique avec les attributs communs

Un modèle de données sémantique peut être utilisé à de nombreuses fins, telles que : [8]

  • planification des ressources de données
  • construction de bases de données partageables
  • évaluation du logiciel du fournisseur
  • intégration de bases de données existantes

L'objectif global des modèles de données sémantiques est de capturer plus de sens des données en intégrant des concepts relationnels avec des concepts d' abstraction plus puissants connus dans le domaine de l'intelligence artificielle . L'idée est de fournir des primitives de modélisation de haut niveau comme partie intégrante d'un modèle de données afin de faciliter la représentation de situations réelles. [dix]

Voir aussi

Références

  1. ^ un bcdef Matthew West et Julian Fowler (1999). Développement de modèles de données de haute qualité . Le Chargé de Liaison Technique des Industries de Procédés Européennes (EPISTLE).
  2. ^ un b Simison, Graeme. C. & Witt, Graham. C. (2005). L'essentiel de la modélisation des données . 3e édition. Éditions Morgan Kaufmann . ISBN  0-12-644551-6
  3. ^ Glossaire d'intégration de données Archivé le 20 mars 2009 à la Wayback Machine , US Department of Transportation, août 2001.
  4. ^ un bc Whitten , Jeffrey L. ; Lonnie D. Bentley , Kevin C. Dittman . (2004). Méthodes d'analyse et de conception des systèmes . 6ème édition. ISBN 0-256-19906-X . 
  5. ^ Institut national américain des normes. 1975. Groupe d'étude ANSI/X3/SPARC sur les systèmes de gestion de bases de données ; Rapport intérimaire . FDT (Bulletin de l'ACM SIGMOD) 7:2.
  6. ^ un b Paul R. Smith et Richard Sarfaty (1993). Création d'un plan stratégique de gestion de configuration à l'aide d'outils de génie logiciel assisté par ordinateur (CASE). Document pour 1993 National DOE/Contractors and Facilities CAD/CAE User's Group.
  7. ^ un bcd Len Silverston, WHInmon , Kent Graziano (2007). Le livre de ressources sur le modèle de données . Wiley, 1997. ISBN 0-471-15364-8 . Revu par Van Scott sur tdan.com . Consulté le 1er novembre 2008. 
  8. ^ un bcd FIPS Publication 184 Archivé le 3 décembre 2013, à la Wayback Machine publiée d' IDEF1X par le Laboratoire des systèmes informatiques de l'Institut national des normes et de la technologie (NIST). 21 décembre 1993.
  9. ^ Amnon Shabo (2006). Normes de données de génomique clinique pour la pharmacogénétique et la pharmacogénomique Archivé le 22 juillet 2009 à la Wayback Machine .
  10. ^ "Modélisation sémantique des données" Dans : Les métaclasses et leur application . Notes de cours de la série de livres en informatique. Éditeur Springer Berlin / Heidelberg. Tome Tome 943/1995.

Lectures complémentaires

  • JHter Bekke (1991). Modélisation sémantique des données dans les environnements relationnels
  • John Vincent Carlis, Joseph D. Maguire (2001). Maîtriser la modélisation des données : une approche centrée sur l'utilisateur .
  • Alan Chmura, J. Mark Heumann (2005). Modélisation logique des données : qu'est-ce que c'est et comment le faire ?
  • Martin E. Modell (1992). Analyse des données, modélisation des données et classification .
  • M. Papazoglou, Stefano Spaccapietra, Zahir Tari (2000). Avancées dans la modélisation de données orientée objet .
  • G. Lawrence Sanders (1995). La modélisation des données
  • Graeme C. Simsion, Graham C. Witt (2005). L'essentiel de la modélisation des données'
  • Matthew West (2011) Développement de modèles de données de haute qualité

Liens externes