Conception d’une base de données¶

Ce chapitre est consacré la démarche de conception d’une base relationnelle. L’objectif de cette conception est de parvenir à un schéma normalisé représentant correctement le domaine applicatif à conserver en base de données.

La notion de normalisation a été introduite dans le chapitre Le modèle relationnel. Elle s’appuie sur les notions de dépendances fonctionnelles et de clés. On peut, à l’aide de ces notions, caractériser des formes dites « normales ». Peut-on aller plus loin et déterminer comment obtenir une forme normale en partant d’un ensemble global d’attributs liés par des dépendances fonctionnelles? La première session étudie cette question. Comprendre la normalisation est essentiel pour produire des schémas corrects, viables sur le long terme.

La détermination des clés, des attributs, de leurs dépendances, relève d’une phase de conception. La méthode pratique la plus utilisée est de produire une notation entité / association. Elle ne présente pas de difficulté technique mais on constate en pratique qu’elle demande une certaine expérience parce qu’on est confronté à un besoin applicatif pas toujours bien défini, qu’il est difficile de transcrire dans un modèle formel. Les sessions suivantes présentent cette approche et des exemples commentés.

S1: La normalisation¶

Supports complémentaires:

Etant donné un schéma et ses dépendances fonctionnelles, nous savons déterminer s’il est normalisé. Peut-on aller plus loin et produire automatiquement un schéma normalisé à partir de l’ensemble des attributs et de leurs contraintes (les DFs)?

La décomposition d’un schéma¶

Regardons d’abord le principe avec un exemple illustrant la normalisation d’un schéma relationnel par un processus de décomposition progressif. On veut représenter l’organisation d’un ensemble d’immeubles locatifs en appartements, et décrire les informations relatives aux propriétaires des immeubles et aux occupants de chaque appartement. Voici un premier schéma de relation :

Appart(idAppart, surface, idImmeuble, nbEtages, dateConstruction)

Voici les dépendances fonctionnelles. La première montre que la clé est idAppart: tous les autres attributs en dépendent.

\[idAppart \to surface, idImmeuble, nbEtages, dateConstruction\]

La seconde représente le fait que l’identifiant de l’immeuble détermine fonctionnellement le nombre d’étages et la date de construction.

\[idImmeuble \to nbEtages, dateConstruction\]

Cette relation est-elle normalisée? Non, car la seconde DF montre une dépendance dont la partie gauche n’est pas la clé, idAppart. En pratique, une telle relation dupliquerait le nombre d’étages et la date de construction autant de fois qu’il y a d’appartements dans un immeuble.

Une idée naturelle est de prendre les dépendances fonctionnnelles minimales et directes:

\[idAppart \to surface, idImmeuble\]

\[idImmeuble \to nbEtages, dateConstruction\]

On peut alors créer une table pour chacune. On obtient une décomposition en deux relations :

Appart(idAppart, surface, idImmeuble)
Immeuble (idImmeuble, nbEtages, dateConstruction)

On n’a pas perdu d’information: connaissant idAppart, je connais idImmeuble, et connaissant idImmeuble je connais les attributs de l’immeuble: je suis donc en mesure de reconstituer l’information initiale. En revanche, j’ai bien éliminé les redondances: les propriétés de l’immeuble ne seront énoncées qu’une seule fois.

Supposons maintenant qu’un immeuble puisse être détenu par plusieurs propriétaires, et considérons la seconde relation suivante,:

Proprietaire(idAppart, idPersonne, quotePart)

Est-elle normalisée ? Oui car l’unique dépendance fonctionnelle est

\[idAppart, idPersonne \to quotePart\]

Un peu de réflexion suffit à se convaincre que ni l’appartement, ni le propriétaire ne déterminent à eux seuls la quote-part. Seule l’association des deux permet de donner un sens à cette information, et la clé est donc le couple (idAppart, idPersonne). Maintenant considérons l’ajout du nom et du prénom du propriétaire dans la relation.

Propriétaire(idAppart, idPersonne, prénom, nom, quotePart)

La dépendance fonctionnelle \(idPersonne \to prénom, nom\) indique que cette relation n’est pas normalisée. En appliquant la même décomposition que précédemment, on obtient le bon schéma :

Propriétaire(idAppart, idPersonne, quotePart)
Personne(idPersonne, prénom, nom)

Voyons pour finir le cas des occupants d’un appartement, avec la relation suivante.

Occupant(idPersonne, nom, prénom, idAppart, surface)

On mélange clairement des informations sur les personnes, et d’autres sur les appartements. Plus précisément, la clé est la paire (idPersonne, idAppart), mais on a les dépendances suivantes :

\(idPersonne \to prénom, nom\)

\(idAppart \to surface\)

Un premier réflexe pourrait être de décomposer en deux relations Personne(idPersonne, prénom, nom) et Appart (idAppart, surface). Toutes deux sont normalisées, mais on perd alors une information importante, et même essentielle : le fait que telle personne occupe tel appartement. Cette information est représentée par la clé (idPersonne, idAppart). On la préserve en créant une relation Occupant (idPersonne, idAppart). D’où le schéma final :

Immeuble (idImmeuble, nbEtages, dateConstruction)
Proprietaire(idAppart, idPersonne, quotePart)
Personne (idPersonne, prénom, nom)
Appart (idAppart, surface, idImmeuble)
Occupant (idPersonne, idAppart)

Ce schéma, obtenu par décompositions successives, présente la double propriété

de ne pas avoir perdu d’information par rapport à la version initiale;

de ne contenir que des relations normalisées.

Important

L’absence de perte d’information est une notion qui est survolée ici mais qui est de fait essentielle. Maintenant que nous connaissons SQL, elle est facile à comprendre: l’opération inverse de la décomposition est la jointure, effectuée entre la clé primaire d’une table et la clé étrangère référençant cette table. Cette opération reconstitue les données avant décomposition, et elle est tellement naturelle qu’il existe un opérateur algébrique de ce nom, par exemple:

select *
from Appart natural join Immeuble

La décomposition d’une table \(T\) en plusieurs tables \(T_1, T_2, \cdots, T_n\) est sans perte d’information quand on peut reconstituer \(T\) avec des jointures \(T_1 \Join T_2 \Join \cdots \Join T_n\).

Et voilà. C’est cohérent, simple et élégant.

Algorithme de normalisation¶

Voici en résumé la procédure de normalisation par décomposition.

Algorithme de normalisation

On part d’un schéma de relation \(R\), et on suppose donné l’ensemble des dépendances fonctionnelles minimales et directes sur \(R\).

On détermine alors les clés de \(R\), et on applique la décomposition:

Pour chaque DF minimale et directe \(X \to A_1, \cdots A_n\) on crée une relation \((X, A_1, \cdots A_n)\) de clé \(X\)

Pour chaque clé \(C\) non représentée dans une des relations précédentes, on crée une relation \((C)\) de clé \(C\).

On obtient un schéma de base de données normalisé et sans perte d’information.

Nous disposons donc d’une approche algorithmique pour obtenir un schéma normalisé à partir d’un ensemble initial d’attributs. Cette approche est fondamentalement instructive sur l’objectif à atteindre et la méthode conceptuelle pour y parvenir.

Elle est malheureusement difficilement utilisable telle quelle à cause d’une difficulté rencontrée en pratique: l’absence ou la rareté de dépendances fonctionnelles « naturelles ». Celles présentes dans notre schéma ont été artificiellement créées par ajout d’identifiants pour les immeubles, les occupants et les appartements. Dans la vraie vie, de tels identifiants n’existent pas si l’on n’a pas au préalable déterminé les « entités » présentes dans le schéma: Immeuble, Occupant, et Appartement. En d’autres termes, l’exemple qui précède s’appuie sur une forme de connaissance préalable qui guide à l’avance la décomposition.

La normalisation doit donc être intégrée à une approche plus globale qui « injecte » des dépendances fonctionnelles dans un schéma par identification préalable des entités (les appartements, les immeubles) et des contraintes qu’elles imposent. Le schéma est alors obtenu par application de l’algorithme.

Une approche globale¶

Reprenons notre table des films pour nous confronter à une situation réaliste. Rappelons les quelques attributs considérés.

(titre, année, prénomMes, nomMES, annéeNaiss)

La triste réalité est qu’on ne trouve aucune dépendance fonctionnelle dans cet ensemble d’attributs. Le titre d’un film ne détermine rien puisqu’il y a évidemment des films différents avec le même titre, Eventuellement, la paire (titre, année) pourrait déterminer de manière univoque un film, mais un peu de réflexion suffit à se convaincre qu’il est très possible de trouver deux films différents avec le même titre la même année. Et ainsi de suite: le nom du réalisateur ou même la paire (prénom, nom) sont des candidats très fragiles pour définir des dépendances fonctionnelles. En fait, on constate qu’il est très rare en pratique de trouver des DFs « naturelles » sur lesquelles on peut solidement s’appuyer pour définir un schéma.

Il nous faut donc une démarche préalable consistant à créer artificiellement des DFs parmi les ensembles d’attributs. La connaissance des identifiants d’appartement, d’immeuble et de personne dans notre exemple précédent correspondait à une telle pré-conception: tous les attributs de, respectivement, Immeuble, Appartement et Personne, dépendent fonctionnellement, par construction, de leurs identifiants respectifs, ajoutés au schéma.

Comment trouve-t-on ces identifiants? Par une démarche consistant à:

déterminer les « entités » (immeuble, personne, appartement, ou film et réalisateur) pertinents pour l’application;

définir une méthode d’identification de chaque entité; en pratique on recourt à la définition d’un identifiant artificiel (il n’a aucun rôle descriptif) qui permet d’une part de s’assurer qu’une même « entité » est représentée une seule fois, d’autre part de référencer une entité par son identifiant.

définir les liens entre les entités.

Voici une illustration informelle de la méthode, que nous reprendrons ensuite de manière plus détailée avec la notation Entité/association.

Commençons par les deux premières étapes. Quelles sont nos entités ? On va décider (il y a dans le processus de conception une part de choix, c’est sa fragilité) que nous avons des entités Film et des entités Réalisateur. Cela revient à ajouter des identifiants idFilm et idRéalisateur dans le schéma.

(idFilm, titre, année, idRéalisateur, prénom, nom, annéeNaiss)

avec les dépendances directes et minimales suivantes:

\[idFilm \to titre, année, idRéalisateur\]

\[idRéalisateur \to prénom, nom, annéeNaiss\]

Important

Le choix de l’identifiant est un sujet délicat. On peut arguer en effet que l’identifiant devrait être recherché dans les attributs existants, au lieu d’en créer un artificiellement. Pour des raisons qui tiennent à la rareté/fragilité des DFs « naturelles », la création de l’identifiant artificiel est la seule réellement applicable et satisfaisante dans tous les cas.

À partir de là, il reste à appliquer l’algorithme de normalisation. On obtient une table Film (idFilm, titre, année, idRéalisateur) avec une clé primaire et une clé étrangère, et une table Réalisateur (idRéalisateur, nom, prénom, annéeeNaiss).

Important

Il faut veiller à ce que les schémas obtenus soient normalisés. C’est le cas ici puisque les seules DF sont celles issues de l’identifiant.

Voici un exemple pour la table des réalisateurs:

idRéalisateur	titre	année
101	Scott	Ridley	1943
102	Hitchcock	Alfred	1899
103	Kurosawa	Akira	1910
104	Woo	John	1946
105	Tarantino	Quentin	1963
106	Cameron	James	1954
107	Tarkovski	Andrei	1932

Et pour la table des Films:

idFilm	titre	année	idRéalisateur
1	Alien	1979	101
2	Vertigo	1958	102
3	Psychose	1960	102
4	Kagemusha	1980	103
5	Volte-face	1997	104
6	Pulp Fiction	1995	105
7	Titanic	1997	106
8	Sacrifice	1986	107

Note

La valeur d’un identifiant est locale à une table. On ne peut pas trouver deux fois la même valeur d’identifiant dans une même table, mais rien n’interdit qu’elle soit présente dans deux tables différentes. On aurait donc pu « numéroter » les réalisateurs 1, 2, 3, …, comme pour les films. Ici, nous leur avons donné des identifiants 101, 102, …, pour clarifier les explications.

Cette représentation est correcte. Il n’y a pas de redondance des attributs descriptifs, donc toute mise à jour affecte l’unique occurrence de la donnée à modifier. D’autre part, on peut détruire un film sans affecter les informations sur le réalisateur. La décomposition n’a pas pour contrepartie une perte d’information puisque l’information initiale (autrement dit, avant la décomposition en deux tables) peut être reconstituée intégralement. En prenant un film, on obtient l’identifiant de son metteur en scène, et cette identifiant permet de trouver l’unique ligne dans la table des réalisateurs qui contient toutes les informations sur ce metteur en scène. Ce processus de reconstruction de l’information, dispersée dans plusieurs tables, peut s’exprimer avec la jointure.

Tout est dit. En maîtrisant la normalisation relationnelle et l’interrogation relationnelle, vous maîtrisez les deux méthodes fondamentales pour la création de bases de données.

S4: Du schéma E/A au schéma relationnel¶

Supports complémentaires:

La création d’un schéma de base de données est simple une fois que le schéma entité/association est finalisé. Il suffit d’appliquer l’algorithme de normalisation vu en début de chapitre. Cette session est essentiellement une illustration de cet algorithme appliqué à la base de films, agrémentée d’une discussion sur quelques cas particuliers.

Application de la normalisation¶

Pour rappel, voici le schéma E/A de la base des films (Fig. 35), discuté précédemment.

_images/films.png — Fig. 35 Le schéma E/A des films¶

Ce schéma donne toutes les informations nécessaires pour appliquer l’algorithme de normalisation vu en début de chapitre.

Chaque entité définit une dépendance fonctionnelle minimale et directe de l’identifiant vers l’ensemble des attributs. On a par exemple pour l’entité Film:

\[idFilm \to titre, année, genre, résumé\]

Chaque association plusieurs-à-un correspond à une dépendance fonctionnelle minimale et directe entre l’identifiant de la première entité et l’identifiant de la seconde. Par exemple, l’association « Réalise » entre Film et Artiste` définit la DF:

\[idFilm \to idArtiste\]

On peut donc ajouter idArtiste à la liste des attributs dépendants de idFilm.

Enfin chaque association (binaire) plusieurs-à-plusieurs correspond à une dépendance fonctionnelle minimale et directe entre l’identifiant de l’association (qui est la paire des identifiants provenant des entités liées par l’association) et les attributs propres à l’association.

Par exemple, l’association Joue définit la DF

\[(idFilm, idArtiste) \to rôle\]

Important

Si une association plusieurs-à-plusieurs n’a pas d’attribut propre, il faut quand même penser à créer une relation avec la clé de l’association (autrement dit la paire des identifiants d’entité) pour conserver l’information sur les liens entre ces entités.

Exemple: la Fig. 36 montre une association plusieurs-plusieurs entre Film et Internaute, sans attribut propre. Il ne faut pas oublier dans ce cas de créer une table Vu(idFilm, email) constituée simplement de la clé. Elle représente le lien entre un film et un internaute.

_images/vu-film.png — Fig. 36 L’association « Un internaute a vu un film »¶

Et c’est tout. En appliquant l’algorithme de normalisation à ces DF, on obtient le schéma normalisé suivant:

Film (idFilm, titre, année, genre, résumé, idArtiste, codePays)

Artiste (idArtiste, nom, prénom, annéeNaissance)

Pays (code, nom, langue)

Role (idFilm, idActeur, nomRôle)

Notation (email, idFilm, note)

Les clés primaires sont en gras: ce sont les identifiants des entités ou des associations plusieurs-à-plusieurs.

Les attributs qui proviennent d’une DF définie par une association, comme par exemple \(idFilm \to idArtiste\), sont en italiques pour indiquer leur statut particulier: ils servent de référence à une entité representée par un autre nuplet. Ces attributs sont les clé étrangères de notre schéma.

Comment nommer la clé étrangère? Ici nous avons adopté une convention simple en concaténant id et le nom de la table référencée. On peut souvent faire mieux. Par exemple, dans le schéma de la table Film, le rôle précis tenu par l’artiste référencé dans l’association n’est pas induit par le nom idArtiste. L’artiste dans Film a un rôle de metteur en scène, mais il pourrait tout aussi bien s’agir du décorateur ou de l’accessoiriste: rien dans le nom de l’attribut ne le précise

On peut donner un nom plus explicite à l’attribut. Il n’est pas du tout obligatoire en fait que les attributs constituant une clé étrangère aient le même nom que ceux de le clé primaire auxquels ils se réfèrent. Voici le schéma de la table Film, dans lequel la clé étrangère pour le metteur en scène est nommée idRéalisateur.

Film (idFilm, titre, année, genre, résumé, idRéalisateur, codePays)

Le schéma E/A nous fournit donc une sorte de résumé des spécifications suffisantes pour un schéma normalisé. Il n’y a pas grand chose de plus à savoir. Ce qui suit donne une illustration des caractéristiques de la base obtenue, et quelques détails secondaires mais pratiques.

Illustration avec la base des films¶

Les tables ci-dessous montrent un exemple de la représentation des associations entre Film et Artiste d’une part, Film et Pays d’autre part (on a omis le résumé du film).

id	nom	prénom	année
101	Scott	Ridley	1943
102	Hitchcock	Alfred	1899
103	Kurosawa	Akira	1910
104	Woo	John	1946
105	Tarantino	Quentin	1963
106	Cameron	James	1954
107	Tarkovski	Andrei	1932

Noter que l’on ne peut avoir qu’un artiste dont l”id est 102 dans la table Artiste, puisque l’attribut idArtiste ne peut prendre qu’une valeur. Cela correspond à la contrainte, identifiée pendant la conception et modélisée dans le schéma E/A de la Fig. 35, qu’un film n’a qu’un seul réalisateur.

En revanche rien n’empêche cet artiste 102 de figurer plusieurs fois dans la colonne idRéalisateur de la table Film puisqu’il n’y a aucune contrainte d’unicité sur cet attribut. On a donc bien l’équivalent de l’association un à plusieurs élaborée dans le schéma E/A.

Et voici la table des films. Remarquez que chaque valeur de la colonne idRéalisateur est l’identifiant d’un artiste.

id	titre	année	genre	idRéalisateur	codePays
1	Alien	1979	Science-Fiction	101	USA
2	Vertigo	1958	Suspense	102	USA
3	Psychose	1960	Suspense	102	USA
4	Kagemusha	1980	Drame	103	JP
5	Volte-face	1997	Policier	104	USA
6	Pulp Fiction	1995	Policier	105	USA
7	Titanic	1997	Drame	106	USA
8	Sacrifice	1986	Drame	107	FR

Note

Les valeurs des clés primaires et étrangères sont complètement indépendantes l’une de l’autre. Nous avons identifié les films en partant de 1 et les artistes en partant de 101 pour des raisons de clarté, mais en pratique rien n’empêche de trouver une ligne comme:

(63, Gravity, 2014, SF, 63, USA)

Il n’y a pas d’ambiguité: le premier “63” est l’identifiant du film, le second est l’identifiant du réalisateur.

Et voici, pour compléter, la table des pays.

code	nom	langue
USA	Etats Unis	anglais
FR	France	français
JP	Japon	japonais

Pour bien comprendre le mécanisme de representation des entités et associations grâce aux clés primaires et étrangères, examinons les tables suivantes montrant un exemple de représentation de Rôle. On peut constater le mécanisme de référence unique obtenu grâce aux clés des tables. Chaque rôle correspond à un unique acteur et à un unique film. De plus on ne peut pas trouver deux fois la même paire (idFilm, idActeur) dans cette table (c’est un choix de conception qui découle du schéma E/A sur lequel nous nous basons). En revanche un même acteur peut figurer plusieurs fois (mais pas associé au même film), ainsi qu’un même film (mais pas associé au même acteur).

Voici tout d’abord la table des films.

id	titre	année	genre	idRéalisateur	codePays
20	Impitoyable	1992	Western	130	USA
21	Ennemi d’état	1998	Action	132	USA

Puis la table des artistes.

id	nom	prénom	année
130	Eastwood	Clint	1930
131	Hackman	Gene	1930
132	Scott	Tony	1930
133	Smith	Will	1968

En voici la table des rôles, qui consiste ensentiellement en identifiants établissant des liens avec les deux tables précédentes. À vous de les décrypter pour comprendre comment toute l’information est représentée, et conforme aux choix de conception issus du schéma E/A. Que peut-on dire de l’artiste 130 par exemple? Peut-on savoir dans quels films joue Gene Hackman? Qui a mis en scène Impitoyable?

idFilm	idArtiste	nomRôle
20	130	William Munny
20	131	Little Bill
21	131	Bril
21	133	Robert Dean

On peut donc remarquer que chaque partie de la clé de la table Rôle est elle-même une clé étrangère qui fait référence à une ligne dans une autre table:

l’attribut idFilm fait référence à une ligne de la table Film (un film);

l’attribut idActeur fait référence à une ligne de la table Artiste (un acteur);

Le même principe de référencement et d’identification des tables s’applique à la table Notation. Il faut bien noter que, par choix de conception, on a interdit qu’un internaute puisse noter plusieurs fois le même film, de même qu’un acteur ne peut pas jouer plusieurs fois dans un même film. Ces contraintes ne constituent pas des limitations, mais des décisions prises au moment de la conception sur ce qui est autorisé, et sur ce qui ne l’est pas.

Associations avec type d’entité faible¶

Une entité faible est toujours identifiée par rapport à une autre entité. C’est le cas par exemple de l’association entre Cinéma et Salle (voir session précédente). Cette association est de type « un à plusieurs » car l’entité faible (une salle) est liée à une seule autre entité (un cinéma) alors que, en revanche, un cinéma peut être lié à plusieurs salles.

Le passage à un schéma relationnel est donc identique à celui d’une association 1-n classique. On utilise un mécanisme de clé étrangère pour référencer l’entité forte dans l’entité faible. La seule nuance est que la clé étrangère est une partie de l’identifiant de l’entité faible.

Regardons notre exemple pour bien comprendre. Voici le schéma obtenu pour représenter l’association entre les types d’entité Cinéma et Salle.

Cinéma (id, nom, numéro, rue, ville)

Salle (idCinéma, no, capacité)

On note que l’identifiant d’une salle est constitué de l’identifiant du cinéma et d’un numéro complémentaire permettant de distinguer les salles au sein d’un même cinéma. Mais l’identifiant du cinéma dans Salle est aussi une clé étrangère référençant une ligne de la table Cinéma. En d’autres termes, la clé étrangère est une partie de la clé primaire.

Cette modélisation simplifie l’attribution de l’identifiant à une nouvelle entité Salle puisqu’il suffit de reprendre l’identifiant du composé (le cinéma) et de numéroter les composants (les salles) relativement au composé. Il ne s’agit pas d’une différence vraiment fondamentale avec les associations 1-n mais elle peut clarifier le schéma.

Spécialisation¶

Note

La spécialisation est une notion avancée dont la représentation en relationnel n’est pas immédiate. Vous pouvez omettre d’étudier cette partie dans un premier temps.

Pour obtenir un schéma relationnel représentant la spécialisation, il faut trouver un contournement. Voici les trois solutions possibles pour notre spécialisation Vidéo-Film-Reportage. Aucune n’est idéale et vous trouverez toujours quelqu’un pour argumenter en faveur de l’une ou l’autre. Le mieux est de vous faire votre propre opinion (je vous donne la mienne un peu plus loin).

Une table pour chaque classe. C’est la solution la plus directe, menant pour notre exemple à créer des tables Vidéo, Film et Reportage. Remarque très importante: on doit dupliquer dans la table d’une sous-classe les attributs persistants de la super-classe. Le titre et l’année doivent donc être dupliqués dans, respectivement, Film et Reportage. Cela donne des tables indépendantes, chaque objet étant complètement représenté par une seule ligne.

Remarque annexe: si on considère que Vidéo est une classe abstraite qui ne peut être instanciée directement, on ne crée pas de table Vidéo.

Une seule table pour toute la hiérarchie d’héritage. On créerait donc une table Vidéo, et on y placerait tous les attributs persistants de toutes les sous-classes. La table Vidéo aurait donc un attribut id_realisateur (venant de Film), et un attribut lieu (venant de Reportage).

Les instances de Vidéo, Film et Reportage sont dans ce cas toutes stockées dans la même table Vidéo, ce qui nécessite l’ajout d’un attribut, dit discriminateur, pour savoir à quelle classe précise correspondent les données stockées dans une ligne de la table. L’inconvénient évident, surtout en cas de hiérarchie complexe, est d’obtenir une table fourre-tout contenant des données difficilement compréhensibles.

Enfin, la troisième solution est un mixte des deux précédentes, consistant à créer une table par classe (donc, trois tables pour notre exemple), tout en gardant la spécialisation propre au modèle d’héritage: chaque table ne contient que les attributs venant de la classe à laquelle elle correspond, et une jointure permet de reconstituer l’information complète.

Par exemple: un film serait représenté partiellement (pour le titre et l’année) dans la table Vidéo, et partiellement (pour les données qui lui sont spécifiques, comme id_realisateur) dans la table Film.

Aucune solution n’est totalement satisfaisante, pour les raisons indiquées ci-dessus. Voici une petite discussion donnant mon avis personnel.

La duplication introduite par la première solution semble source de problèmes à terme, et je ne la recommande vraiment pas. Tout changement dans la super-classe devrait être répliqué dans toutes les sous-classes, ce qui donne un schéma douteux et peu contrôlable.

Tout placer dans une même table se défend, et présente l’avantage de meilleures performances puisqu’il n’y a pas de jointure à effectuer. On risque de se retrouver en revanche avec une table dont la structure est peu compréhensible.

Enfin la troisième solution (table reflétant exactement chaque classe de la hiérarchie, avec jointure(s) pour reconstituer l’information) est la plus séduisante intellectuellement (de mon point de vue). Il n’y a pas de redondance, et il est facile d’ajouter de nouvelles sous-classes. L’inconvénient principal est la nécessité d’effectuer autant de jointures qu’il existe de niveaux dans la hiérarchie des classes pour reconstituer un objet.

Nous aurons alors les trois tables suivantes:

Video (id_video, titre, annee)

Film (id_video, genre, pays, id_realisateur)

Reportage(id_video, lieu)

Nous avons nommé les identifiants id_video pour mettre en évidence une contrainte qui n’apparaît pas clairement dans ce schéma (mais qui est spécificiable en SQL): comme un même objet est représenté dans les lignes de plusieurs tables, son identifiant est une valeur de clé primaire commune à ces lignes.

Un exemple étant plus parlant que de longs discours, voici comment nous représentons deux objets vidéos, dont l’un est un un film et l’autre un reportage.

Tableau 3 La table `Vidéo`¶
id_video	titre	année
1	Gravity	2013
2	Messner, profession alpiniste	2014

Rien n’indique dans cette table est la catégorie particulière des objets représentés. C’est conforme à l’approche objet: selon le point de vue on peut très bien se contenter de voir les objets comme instances de la super-classe. De fait, Gravity et Messner sont toutes deux des vidéos.

Voici maintenant la table Film, contenant la partie de la description de Gravity spécifique à sa nature de film.

Tableau 4 La table `Film`¶
id_video	genre	pays	id_realisateur
1	Science-fiction	USA	59

Notez que l’identifiant de Gravity (la valeur de id_video) est le même que pour la ligne contenant le titre et l’année dans Vidéo. C’est logique puisqu’il s’agit du même objet. Dans Film, id_video est à la fois la clé primaire, et une clé étrangère référençant une ligne de la table Video. On voit facilement quelle requête SQL permet de reconstituer l’ensemble des informations de l’objet.

select * from Video as v, FilmV as f
where v.id_video=f.id_video
and titre='Gravity'

Dans le même esprit, voici la table Reportage.

Tableau 5 La table `Reportage`¶
id_video	lieu
2	Tyroll du sud

En résumé, avec cette approche, l’information relative à un même objet est donc éparpillée entre différentes tables. Comme souligné ci-dessus, cela mène à une particularité originale: la clé primaire d’une table pour une sous-classe est aussi clé étrangère référençant une ligne dans la table représentant la super-classe.

S5: Un peu de rétro-ingénierie¶

Supports complémentaires:

Pour bien comprendre le rapport entre un schéma entité-association et le schéma relationnel équivalent, il est intéressant de faire le chemin à l’envers, en partant d’un schéma relationnel connu et en reconstruisant la modélisation entité-association. Cette courte section présente cette démarche de rétro-ingénierie sur un de nos exemples.

Quelle conception pour la base des immeubles?¶

Reprenons le schéma de la base des immeubles et cherchons à comprendre comment il est conçu. Ce schéma (relationnel) est le suivant.

Immeuble (id, nom, adresse)

Appart (id , no , surface , niveau , idImmeuble)

Personne (id, prénom , nom , profession , idAppart)

Propriétaire (idPersonne , idAppart, quotePart)

Pour déterminer le schéma E/A, commençons par trouver les types d’entité. Une entité se caractérise par un identifiant qui lui est propre et la rend indépendante. Trois types d’entité apparaissent clairement sur notre schéma: les immeubles, les appartements et les personnes.

Il reste donc la table Propriétaire dont l’identifiant est une paire constituée de l’identifiant d’un immeuble et de l’identifiant d’une personne. Cette structure de clé est caractéristique d’une association plusieurs-plusieurs entre les types Immeuble et Personne.

Finalement, nous savons que les associations plusieurs-un sont représentés dans le schéma relationnel par les clés étrangères. Un appartement est donc lié à un immeuble, une personne à un appartement. Celles de la table Propriétaire ont déjà été prises en compte puisqu’elles font partie de la représentation des associations plusieurs-plusieurs. On obtient donc le schéma de la Fig. 37.

_images/schema-immeubles.png — Fig. 37 Le schéma E/A des immeubles après rétro-conception¶

Avec entités faibles¶

On pourrait, à partir de là, se poser des questions sur les choix de conception. Une possibilité intéressante en l’occurrence est d’envisager de modéliser les appartements par entité faible. Un appartement est en effet une entité qui est très fortement liée à son immeuble, et on peut très bien envisager un appartement comme un composant d’un immeuble, en l’identifiant relativement à cet immeuble. Le schéma E/A devient alors celui de la Fig. 38.

_images/schema-immeubles-avec-faible.png — Fig. 38 Le schéma E/A des immeubles avec entité faible¶

L’impact sur le schéma relationnel est limité, mais quand même significatif. La clé de la table Appart devient une paire (idImmeuble, no), et les clés étrangères changent également. On obtient le schéma suivant.

Immeuble (id, nom, adresse)

Appart (idImmeuble, no, surface , niveau)

Personne (id, prénom, nom , profession , idImmeuble, no)

Propriété (idPersonne, idImmeuble, no, quotePart)

Il est important de noter que ce changement amènerait à modifier également les requêtes SQL des applications existantes. Tout changement affectant une clé a un impact sur l’ensemble du système d’information. D’où l’intérêt (et même l’impératif) de bien réfléchir avant de valider une conception.

Avec réification¶

On pourrait aussi réifier l’association plusieurs-plusieurs pour une faire un type d’entité Propriétaire. Le schéma entité-association est donné par la Fig. 39.

_images/schema-immeubles-reifie.png — Fig. 39 Le schéma E/A des immeubles avec réification¶

L’impact principal est le changement de la clé de la table Propriétaire qui devient un identifiant propre. Voici le schéma relationnel.

Immeuble (id, nom, adresse)

Appart (idImmeuble, no , surface , niveau)

Personne (id, prénom , nom , profession , idImmeuble, no)

Propriété (id, idPersonne , idImmeuble, no, quotePart)

Une conséquence importante est que la contrainte d’unicité sur le triplet (idImmeuble, no, idPersonne) disparaît. On pourrait donc avoir plusieurs nuplets pour la même personne avec le même immeuble. Dans ce cas précis, cela ne semble pas souhaitable et on peut alors déclarer que ce triplet (idImmeuble, no, idPersonne) est une clé candidate et lui associer une contrainte d’unicité (nous verrons ultérieurement comment). On peut aussi en conclure que la réification n’apporte rien en l’occurrence et conserver la modélisation initiale.

Voici un petit échantillon des choix à effectuer pour concevoir une base de données viable à long terme!

Exercices¶

Note: vous pouvez produire des diagrammes assez facilement avec https://www.lucidchart.com

Exercice Ex-conc-1: compréhension d’un schéma E/A

_images/medical.png — Fig. 40 Un schéma pour un centre médical¶

On vous donne un schéma E/A (Fig. 40) représentant des visites dans un centre médical. Répondez aux questions suivantes en fonction des caractéristiques de ce schéma (autrement dit, indiquez si la situation décrite est représentable avec ce schéma, indépendamment de sa vraissemblance).

Un patient peut-il effectuer plusieurs consultations?

Un médecin peut-il recevoir plusieurs patients dans la même consultation?

Peut-on prescrire plusieurs médicaments dans une même consultation?

Deux médecins différents peuvent-ils prescrire le même médicament?

Un patient peut-il voir deux médecins dans la même consultation?

Existe-t-il une posibilité de réifier une des associations, si oui laquelle?

Un médecin peut sans doute être également un patient, et vice-versa. Que devient le schéma avec cette hypothèse?

Correction

Réponses:

Bien sûr, 0..* pour l’association Assiste

Non (un patient par consultation).

Oui.

Oui, pas de rapport direct entre un médecin et une consultation, donc pas de contrainte.

Non, un médecin par consultation

Entre Consultation et Médicament, on pourrait créer un type d’entité Prescription avec comme attribut le nombre de prises de médicament.

Il faut unifier les types d’entité Médecin et Patient, attribuer une clé unique id et déclarer noSS et matricule comme clés secondaires.

Exercice Ex-conc-2: un quotidien

Voici le schéma E/A (Fig. 41) du système d’information (très simplifié) d’un quotidien.

_images/quotidien.png — Fig. 41 Système d’information d’un quotidien¶

Répondez aux questions suivantes, en fonction des caractéristiques du modèle.

Un article peut-il être rédigé par plusieurs journalistes?
Un article peut-il être publié plusieurs fois?
Peut-il y avoir plusieurs articles sur le même sujet dans le même numéro?
Connaissant un article, est-ce que je connais le journal dans lequel il est paru?
Un journaliste peut-il travailler pour deux journaux en même temps?
Voyez-vous une entité faible? Comment justifieriez-vous ce choix?

Correction

Réponses:

Non, pas d’après le modèle

Non, pas d’après le modèle

Oui, pas de lien direct, donc pas de contrainte

Oui, par transitivité d’Article vers Numéro puis de Numéro vers Journal

Oui, aucune contrainte sur la période de collaboration (qui n’est d’ailleurs pas représentée)

Le numéro d’un journal est une entité faible, ce qui semble censé: un numéro est indissociable du journal qui le publie.

Exercice Ex-conc-3: cardinalités

Voici (Fig. 42) le début d’un schéma E/A pour la gestion d’une médiathèque. La spécification des besoins est la suivante: un disque est constitué d’un ensemble de plages. Chaque plage contient un oeuvre et une seule, mais une œuvre peut s’étendre sur plusieurs plages (par exemple une symphonie en 4 mouvements). De plus, pour chaque plage, on connaît les interprètes.

_images/mediatheque.png — Fig. 42 Début de schéma pour une médiathèque¶

Répondez aux questions suivantes

Complétez le modèle de la Fig. 42 en ajoutant les cardinalités.

On suppose que chaque interprète utilise un instrument (voix, piano, guitare, etc) et un seul sur une plage. Où placer l’attribut « Instrument » dans le modèle précédent?

Transformez l’association « Joue » dans la Fig. 42 en entité (réification). Donnez le nouveau modèle, sans oublier les cardinalités.

Introduisez maintenant un entité Auteur (d’une œuvre) dans le schéma. Une œuvre peut avoir plusieurs auteurs.

Correction

La Fig. 43 montre la première étape avec les cardinalités et l’instrument. Ma solution présente ce qui semble le plus vraisonnable. Vous avez trouvé autre chose? Si c’est défendable, personne ne peut dire que vous avez tort, à condition que vous sachiez défendre et expliquer vos choix.

_images/mediatheque-solution.png — Fig. 43 Première étape de la solution¶

La Fig. 44 donne la solution complète. La nouvelle entité Contribution est liée à un interprète et une plage, ce qui préserve la signification initiale de l’association. On a généralisé l’entité Interprète en Personne, ce qui présente de multiples avantages. Une personne peut être interprète, mais aussi auteur ou produtcteur.

_images/mediatheque-sol2.png — Fig. 44 Première étape de la solution¶

Exercice Ex-conc-4: normalisation

Reprenons le schéma de la Fig. 40. Nous allons appliquer l’algorithme de normalisation.

Indiquez toutes les dépendances fonctionnelles définies par ce schéma
En déduire le schéma des relations, en mettant en valeur clés primaires et clés étrangères

Correction

Pas besoin d’être malin ici, il faut juste être soigneux (d’ailleurs un ordinateur saurait le faire).

\(codeMédicament \to libellé\)

\(matricule \to nom\)

\(noSS \to nom\)

\(noConsultation \to date\)

\(noConsultation \to matricule\)

\(noConsultation \to noSS\)

\(codeMédicament, noConsultation \to nbPrises\)

On applique donc l’algorithme:

Médecin (matricule, nom)

Patient (noSS, nom)

Médicament (codeMédicament, libellé)

Consultation (no, matricule, noSS, date)

Prescription(codeMédicament, noConsultation, nbPrises)

Exercice Ex-conc-5: schéma relationnel

Donner le schéma relationnel pour le modèle de la médiathèque (partez du modèle initial, celui de la Fig. 42 ou, mieux, de votre modèle final.

Correction

Attention à l’entité faible, avec son identifiant composé.

Personne (id, prénom, nom)
Disque (id, titre, année, idProducteur)
Oeuvre (id, titre, année)
Plage (idDisque, no, durée, idOeuvre, dateEnregistrement)
Contribution (id, idPersonne, instrument, idDisque, noPlage)
AuteurOeuvre (idPersonne, idOeuvre)

Exercice Ex-conc-6: rétroconception

Vous connaissez maintenant par cœur le schéma de la base des voyageurs. Saurez-vous trouver, par inversion de l’algorithme de normalisation, le schéma E/A dont il est issu?

Correction

Au départ, Séjour était probablement une association plusieurs-plusieurs. Notez que Activité est une entité faible, ce qui peut se déduire de la structure de son identifiant, constitué en partie de l’identifiant d’une autre entité.

_images/association-sejour.png — Fig. 45 Le schéma de la base Voyageur, montrant le Séjour comme une association¶

Puis le concepteur s’est sans doute rendu compte qu’un même voyageur ne pouvait visiter un même logement qu’une seule fois, et a décidé de réifier l’association Séjour, ce qui lève cette contrainte.

_images/schema-voyageurs-mieux.png — Fig. 46 Réification de l’association Séjour¶

Atelier: étude du cas « Zoo »: le schéma normalisé¶

Nous reprenons l’étude du schéma « Zoo » vu dans le chapitre Le modèle relationnel. Maintenant, on va chercher un schéma correct.

Donner une décomposition en troisième forme normale.

Quelles sont, dans la décomposition, les clés primaires et étrangères.

Quel serait le schéma E/A correspondant?

Est-il encore possible d’avoir les anomalies constatées dans la table initiale?

Pour conclure, vous pouvez (optionnel) installer un outil de conception comme le MySql workbench (https://www.mysql.com/fr/products/workbench/) et saisir votre schéma entité association avec le module Entity relationship diagram (voir Fig. 47). À partir de là vous pouvez tout paramétrer et engendrer automatiquement le schéma de la base.

Fig. 47 L’outil de conception de MySQL¶

Correction

Voici les relations issues de la normalisation

Animal (idAnimal, nom, année_naissance, espèce, codeEmplacement)

Emplacement (codeEmplacement, surface, prénomGardien)

Gardien (prénom, salaire)

Espèce (espèce, origine, classe)

Les clés primaires sont en gras. Il faudrait améliorer certaines choses, notamment en identifiant les gaerdiens autrement que par leur prénom… Les clés étrangères sont en italiques.

Les DF nous disent que la paire (nom, espèce) est une clé candidate pour la relation Animal. On la définit comme clé secondaire, la clé primaire étant le code de l’animal.

Le schéma de la base est donné par la Fig. 48. Vous noterez qu’on ne représente pas dans le schéma les clés étrangères puisque qu’elle sont remplacées par les associations.

Fig. 48 Modéle de la base Zoo¶

Atelier collectif: concevons le système d’information d’un hôpital¶

À faire en groupe: proposer le modèle conceptuel d’une base de données permettant à un hôpital de gérer l’admission de ses patients, leur prise en charge par des médecins, leur placement dans une chambre, les examens qui leur sont prescrits, etc. Pas de spécification particulière: les besoins sont à exprimer en groupe, et la solution aux besoins s’élabore par consensus.

Vous pouvez utiliser un outil comme Mysqlworkbench, ou travailler sur papier ou au tableau. À la fin, il faut disposer d’un schéma relationnel correct: en troisième forme normale, et correspondant aux besoins.

Conception d’une base de données¶

S1: La normalisation¶

La décomposition d’un schéma¶

Algorithme de normalisation¶

Une approche globale¶

Quiz¶

S2: Le modèle Entité-Association¶

Le schéma de la base Films¶

Entités, attributs et identifiants¶

Types d’entités¶

Associations binaires¶

Quiz¶

S3: Concepts avancés¶

Entités faibles¶

Associations généralisées¶

Spécialisation¶

Bilan¶

Quiz¶

S4: Du schéma E/A au schéma relationnel¶

Application de la normalisation¶

Illustration avec la base des films¶

Associations avec type d’entité faible¶

Spécialisation¶

Quiz¶

S5: Un peu de rétro-ingénierie¶

Quelle conception pour la base des immeubles?¶

Avec entités faibles¶

Avec réification¶

Exercices¶

Atelier: étude du cas « Zoo »: le schéma normalisé¶

Atelier collectif: concevons le système d’information d’un hôpital¶

Table Of Contents

Recherche