JSS 2013 – Webcast SSIS Design Pattern

Bonne année à tous !

Me voilà de retour de vacances et un petit post rapide concernant le webcast de la session SSIS – Design Pattern que l’on a animé avec David Joubert.

Bonne visualisation 😉

Publicités

Développement configuration et déploiement avec SSIS 2012

SSIS 2012 offre une toute nouvelle manière de gérer la configuration des packages. Cette nouvelle façon de gérer la configuration est accompagnée d’un nouveau modèle de déploiement.

Cet article aura pour but de décortiquer ces nouveaux usages. Est ce qu’il y a un impact sur le développement ? sur la gestion des packages sur le server ? etc.

Côté développement

Petite piqûre de rappel, avec SSIS 2012 il n’ y a plus de fichier de configuration.

Dans SQL Server Data Tools on a maintenant des paramètres. Ces paramètres peuvent avoir deux portées (scope) soit une portée Package soit une portée Projet. Il faut voir la portée Projet comme des « variables globales » de notre projet SSIS et la portée package comme des « variables globales du package ». Par exemple : nom de server, chemin d’accès d’un emplacement sur le réseau etc.

Cela ressemble étrangement aux variables qu’on stockait dans notre fichier de configuration en 2008…
Attention, la notion de paramètre peut être mêlée avec la notion de variables, sauf que ce sont deux notions totalement différentes.

Déjà en terme d’utilisation et sans compter que les types supportés par les paramètres sont différents des types des variables. Par exemple il n’y a pas de type Objet dans les paramètres.
Les paramètres peuvent être utilisées dans les expressions et leur nomenclature diffère de celle des variables : @[$Project::ParameterName]

On peut voir les paramètres à deux endroits :

Si le scope est Projet : Solution Explorer, en double cliquant sur Project.params

Si le scope est package  : Onglet Parameters du package.

Ces paramètres nous aident donc à faire la configuration de nos packages SSIS. Donc oui il y a un impact sur le développement comme c’était déjà le cas en 2008. Il faut donc utiliser impérativement ces paramètres pour rendre le développement configurable et exécutable dans différents environnements.

Par contre tout les éléments d’une solution SSIS ne peuvent être paramétrés. On peut paramétrer la plupart des tâches du control flow et les connexions du Connection Manager.

En parlant des connexions, elles peuvent désormais être converties en connexions de projet, ce qui permet de les rendre disponibles à l’ensemble des packages du projet SSIS.

ProtectionLevel

Le niveau de proctection des packages SSIS, joue également un rôle dans cette floppée de configuration, la propriété ProtectionLevel existe toujours au niveau du package et elle est présente également dans les propriétés du projet.

Un dernier point intéressant, on peut créer différentes configurations dans notre projet SSIS, grâce au configuration Manager de Visual Studio,ce n’est pas nouveau on pouvait le faire en 2008. Personnellement je ne jamais touché à cela…

Mais grâce à ceci on peut changer la valeur des paramètres durant le Design Time. Donc être capable de déveloper et debugger selon différentes configurations.

Le déploiement

Une fois le développement terminé et les paramêtres en place on peut passer au déploiement.

Pour un simple développeur, un clic droit sur la solution puis deploy.

Mais il existe d’autres méthodes de déploiement. Sachez tout de même que lorsqu’on Build un projet SSIS, un fichier .ispac est créé dans le dossier Bin de votre projet.

Attention : si vous utilisez des configurations choisissez la bonne avant de compiler.

Si vous cliquez sur ce .ispac l’assistant de déploiement va se lancer.

Que contient ce fichier .ispac ?
Si vous changez l’extension du fichier en .zip ou .cab vous allez pouvoir voir le contenu. Vous aller retrouver tous les éléments de votre projet SSIS (package, paramètre, fichier xml de configuration)

Côté administration

Avec SQL Server 2012 on a un server dédié SSIS : Integration Services Catalog. Ce qui sous entend qu’on fait un déploiement en MSDB.

A partir de ce catalogue on peut configurer nos packages en attribuant des valeurs aux paramètres définis dans le développement. On peut avoir plusieurs jeux de valeurs de paramètres car on est capable désormais de définir des environements.

Ces environements pemettent donc d’exécuter des packages dans un certain contexte.

Pour chaque environnement on va définir un ensemble de variables.

Conseil : je ne connais pas encore quelles sont les bonnes pratiques à avoir avec cette nouvelle façon de procéder, mais je vous conseille de garder les mêmes noms de variables dans chaque environnement : donc de reproduire le même set de variables.

Et on va pouvoir configurer notre projet SSIS. Un clic droit Configure sur le projet.

Le premier panneau de configuration vous permet de modifier les différents paramètres de votre projet sauf qu’il faut avant tout faire des références aux envrionnements créés précédemment.

Donc rendez-vous dans le deuxième panneau References. c’est dans ce panneau que vous allez donner les différentes envrionnement de configuration.

Note : On peut directement créer des environnements via ce panneau.

Par la suite vous pourrez utiliser vos variables d’environnement dans le premier panneau.

Les ConnectionString

Comme vous pouvez voir dans mes screenshots, il y a un onglet dédié aux Parameters et un autre pour le Connections Managers.

Vous pouvez voir dans l’onglet parameters que j’ai paramétrer une connectionString et que l’on peut faire de mêne dans l’onglet Connection Managers.

Quelle approche prendre, paramétrer toutes les connectionString via un paramètre où modifer les connexions dans l’onglet Connection Managers ?

Réponse : les deux sont possibles à vous de voir vos connexions en fonction de votre besoin et d’ajuster votre configuration. Au final on reviendra à la même chose, une variable d’un de vos environnements peut changer les valeurs. Sauf que d’un côté une connectionString à changer et de l’autre, 6 propriétés (ConnectionString,InitiaalCatalog, Password,RetainSameConnection,ServerName,UserName).

Note: On peut toujours donner une valeur manuelle sans passer par des variables d’environnement.

Dans mon cas, la connectionString de ma source ne change pas mais je l’ai tout de même mis en paramètre, si il faut la changer un jour je peux le faire… Par contre mes connexions de destination sont variables car tout dépend de l’environnement.

Je vous conseille très fortement  de faire une validation de votre configuration : Clic droit Validate sur votre projet.

Conclusion

La prise en main de ce nouveau modèle de déploiement parait complexe au premier abord. Cela est dû je pense à plusieurs choses.
Dans un premier temps les appellations : « variables, paramètres, variables d’environement, configuration etc. » qui naturellement quand on l’entend nous fait penser à des choses existantes, par conséquent on peut être facilement confus, mêlé voir perdu … Un bon départ est d’oublier un peu ce que l’on sait et reconstituer le tout petit à petit en mettant les nouvelles choses au bon endroit.

La découverte de ce modèle me laisse penser qu’on a plus de flexibilité et permet à tous les intervenants d’un projet d’intégration de données avec SSIS, d’avoir leur part du travail dans de meilleurs conditions. Dans un deuxième temps, étant habitué à développer et à déployer de la même manière depuis un petit moment déjà, il est difficile d’absorber ce modèle. Mais les nouveaux réflexes s’apprennent vite et au fure et à mesure on peut se dire que  » ce truc est quand même pas mal fichu et qu’on galère moins qu’avant… » Pour l’instant c’est sûre que l’on est en période de changements, les premiers projets avec SQL Server 2012 pointent leur nez sans conpter que SSIS 2012 réserve encore pas mal de suprises je pense notamment au reporting intégré et une meilleure intégration des projets avec TFS.

Déploiement package SSIS 2008 R2 File System + Fichier de configuration + SQL Agent

Un article pour parler d’une chose assez abstraite (surtout lorsque l’on débute SSIS) : Le déploiement de SSIS.

Il existe différentes méthodes de déploiement avec SSIS 2008.

Pour infos la version 2012 offre une toute nouvelle approche.

Alors en 2008, le déploiement des packages SSIS peut paraitre farfelu.

Déjà il faut choisir un mode File System ou MSDB (Déploiement fichier ou base de données).

Je ne vais pas débattre sur le choix le plux optimisé. Tout dépend des organisations et à la bonne volonté de chacun.

Après il faut aussi penser à la configuration des packages :

  • Fichier Configuration
  • Variable d’environnement
  • Configuration Indirecte

Dans différents projets utilisant le mode File System et la configuration indirecte, il y a toujours pas mal d’interrogations.

Je vais essayer de tout expliquer … Retenez que tout est une histoire de contexte.

Développement des packages

Commencons par le début : le développement des packages. Le développeur travaille sur son poste, il cré des packages à la pelle. Il utilise des comptes pour se connecter aux sources et aux destinations. Un genre de DOMAIN\etl_user pour les sources : qui ne fait que lire la ou les différentes sources. Et ce même compte pour manipuler les données dans la destination / Staging etc.

Le développeur possède un compte active directory, DOMAIN\IamTheDev. Si ses packages utilisent divers fichiers de configuration DtsConfig (indirect ou direct) alors ils doivent contenir les ConnectionString vers les sources et les destinations. Qui dit ConnectionString dans un fichier de configuration dit : identifiants pour accéder aux données = DOMAIN\read_user + Mot de passe. Et oui ces informations sont stockées en claires dans le fichier.

Lorsque le développeur va exécuter un package dans BIDS, ce dernier étant configuré, va utiliser toutes les information de connexions contenues dans le fichier de configuration pour se connecter aux sources et aux destinations. Vu que le développeur possède les droits sur le fichier de configuration alors celui va être lu et utlisé dans ce contexte (exécution par le développeur sur son poste).

Le mode/type de déploiement déjà défini préalablement le développeur sait que l’on va déployer en file system et utiliser un fichier de configuration.

Sauf qu’à la création d’un package celui ci possède un ProctectionLevel qui par défaut est mis à EncryptSensitiveWithUserKey. Ce qui signifie que les informations du package sont encryptées avec les informations de la personne qui a créé le package, dans notre cas le développeur. Donc si on laisse cette propriété par défaut, et que l’on souhaite exécuter ce package ailleurs par un autre utilisateur ou  sur notre serveur SSIS il y aura à coup sûre un message d’erreur.

Par conséquent il faut changer le protectionLevel de vos packages : DontSaveSentive ou SaveSensitiveWithPassword.

Le déploiement en file system est assez simple:

  • Un bon vieux copier coller des packages
  • Utilisation du DeploymentManifest
  • Autres ?

Vers le dossier contenant les packages sur votre serveur. Idem pour les fichiers de configurations.

Exécution et planification des packages

Pareil plusieurs manières d’exécuter un package SSIS. (Ligne de commande DTUTIL, DTEXEC et SQL Agent) Concentrons nous sur le service SQL Agent, il  doit être lancé dans un premier temps. Dans SQL Agent, un job devra être créé. Ce job contiendra votre package SSIS.

Sauf que…

Je vais vous ai dit tout en haut de cet article que tout est une histoire de contexte. A coup sûre tout ne fonctionnera pas du premier coup. Surtout si vous avez des bases de données externes de votre serveur SSIS.

Pour bien exécuter un package, il faut comprendre que celui va appeller différente sources données. Et que le service SQL Agent de base ne pourra pas forcément y accéder.

C’est pour cela qu’il faut utiliser un proxy. Et un un proxy nécessite un credential qui est lui même lié à un compte active directory. : DOMAIN\etl_user

Un bon schéma vaut mieux qu’un long discours !

Retour – Certifications SQL Server 2012

Bien que SQL Server 2012 soit officiellement sorti ses certifications sont encore en BETA.

Ayant profité de l’offre gratuite de passage de certifs, j’ai pu testé ces nouveaux examens.

Merci Christian pour le bon plan : http://blogs.codes-sources.com/christian/archive/2012/03/23/certifications-sql-server-2012-alias-denali-disponibles-gratuitement-en-beta.aspx

Alors autant vous dire tout de suite que je me suis rendu dans le centre de test sans vraiment préparer. Je comptais essentiellment sur ma veille technologique, les conférences, Webcasts et articles que j’ai pu faire, assister et lire. Je n’espère pas grand chose…

Voici la liste des certifications SQL Server 2012, et la combinaison d’exam forment soit la stack Data Platform ou la stack Business Intelligence.

  • Exam 70-461: Querying Microsoft SQL Server 2012
  •  Exam 70-462: Administering Microsoft SQL Server 2012 Databases
  • Exam 70-463: Implementing a Data Warehouse with Microsoft SQL Server 2012
  • Exam 70-464: Developing Microsoft SQL Server 2012 Databases
  • Exam 70-465: Designing Database Solutions for Microsoft SQL Server 2012
  • Exam 70-466: Implementing Data Models and Reports with Microsoft SQL Server 2012
  • Exam 70-467: Designing Business Intelligence Solutions with Microsoft SQL Server 2012

Au programme, sur les 7 certifications SQL Server 2012 je me suis inscrit à 3 d’entre elles le même jour :). (Une bonne piqûre !)

  • Exam 70-463: Implementing a Data Warehouse with Microsoft SQL Server 2012
  • Exam 70-466: Implementing Data Models and Reports with Microsoft SQL Server 2012
  • Exam 70-467: Designing Business Intelligence Solutions with Microsoft SQL Server 2012

Je me suis attaqué aux certifs de la stack Business Intelligence,  il faudrait ajouté 70-461 et  70-462 pour avoir la totale.
Avant d’y aller, j’ai jeté un oeil sur le contenu des certifications :

Contrairement aux certifications 2008 on a vraiment plus de certifications et on voit bien que la BI prend vraiment un sens au niveau des compétences SQL Server.
En effet les composantes BI et les domaines de compétences sont mieux dissociés au lieu d’avoir 2 certifications BI regroupant SSAS, SSIS, SSRS et un peu de reste  (comme c’était le cas pour 2008) on a désormais 3 certications qui partagent un peu les 3 grandes familles d’outils BI.

Je ne vais pas tout détailler, mais globalement les questions sont bien posées et maintenant elles sont interractives.

Fini les textes très long à lire on a des screenshots interractifs, des drag and drop des étapes à mettre en place pour répondre à une question, je vous rassure les QCM sont encore là.

La 70-463 est intéressante enfin des mises en situation de  data warehouse (modélisation, chargement etc).

La 70-466 : Plutot dure, n’étant pas un Master du MDX et de l’optimisation de cube, et ne connaissant pas tous les secrets du BISM : Multidimensionnal VS Tabular, j’avoue avoir répondu un peu au hasard.

La 70-467 : est un peu équivalente à la 70-452 de SQL Server 2008. Elle regroupe une peu tout est plus plus orienté cas de tout les jours.

Les 3 ont a peu près 60 questions chacune

Toutes les nouveautés sont couvertes dans différentes proportions : on parle de SSDT, SQL Azure, DQS, MDS, PowerPivot, PowerView, ColumnStore, Nouveautés SSIS en veux tu en voilà, Modèle Tabulaire, DAX.

Cela reste des BETA, tout peut encore arrivé.

Et pas mal de question en référence à 2008 aussi.

Certaines questions sont vraiment pointilleuses, d’autres sont des « par coeur », il y en a des fastoches TAC-O-TAC et par rapport aux certifications 2008 il y avait des questions toutes simples mais Dieu sait qu’on a la réponse mais on ne sait plus comment s’appelle ce truc, on l’utilise tous les jours mais on ne fait plus attention au nom de cette propriété, de cette tâche, composant ou onglet. (GRRrrr)

A croire les feuilles imprimées en sortant résultat par mail dans 8 semaines.

SSIS – Charger une dimension hiérarchique style Employee (Initial, Incrémental, SCD Type 2)

Récemment on m’a demandé de me pencher sur ce cas. En prenant en compte certains pré requis

Le tout consiste à charger une dimension Dim_Employees avec prise en compte du Slowly Changing Dimension de Type 2. Le SCD s’active lorsque le manager change.

Considérations de l’exercice.

  • Utiliser le plus possible SSIS
  • Prendre en compte le composant SCD Natif
  • Le volume de données est faible (de l’ordre du millier)
  • Ne pas changer la structure des tables
  • Pas de tables temporaires

Ci-dessous la structure des tables. Rien d’extraordinaire, noté juste la présence des clés (EmployeeKey et ParentEmployeeKey) de la source dans la destination. Elles sont préfixé par src_ .

Comment on charge  ?

 » On charge les managers puis les autres » –> Bouing !
 » On charge les employées puis les managers » –> Presque !

Une voir LA réponse : On charge tout le monde sans les managers puis on affecte les managers.
La colonne manager acceptant les valeurs NULL on peut la laisser sans valeur.

Note : Dans le cas ou cette colonne était NOT NULL il aurait fallu mettre une valeur par défaut comme -1. Cela voudrait dire que chaque employé possède un manager, et voir la possibilité qu’un employé soit manager de lui même si il n’a pas de manager. Bref…

Le traitement s’effectuera en deux passes, on charge tous les employés (peu importe qu’ il soit manager ou pas) puis on assignera les managers via un Update.
Mais….
il faut prendre en compte du SCD sur le manager, si on fait notre UPDATE alors le  SCD va s’activer, cela aura pour conséquence de créer une nouvelle ligne. Oui c’est vrai mais ne l’oublions pas on a toujours un scénario de chargement Initial et un scénario Incrémental.

En effet lors du chargement initial le SCD ne sera pas appelé, par contre dans l’incrémental il faudra l’utiliser.

Ce qui donne un package de ce genre :

Explication rapide :
Le composant  SQL_Count_Row va faire un COUNT sur la table de destination et stocker la valeur du count dans une variable SSIS. Il y a des vérifications par la suite si le Count retourne 0 alors c’est un chargement Initial si le count est supérieur à 0 alors on est dans un chargement Incrémental.

Note : Dans un développement ETL avec SSIS, plusieurs manières de gérer le chargement initial et le chargement incrémental. On aurait pu développer deux packages différents pour chaque scénarios : Un package initial et un package incérmental. On aurait alors soit un package Master pour chaque type de chargement soit un seul package master et des tables de configurations pour gérer les types d’exécution des packages.

Chargement Initial

Le Sequence Container SEQ_Initial_Load, contient deux tâches de flux de données.

Le premier (DFT_Load_All_Employees) est tout simple il insère les employés en laissant la colonne Manager_Id à NULL.

Le second (DFT_Affect_Manager_To_Employee) est un peu plus complexe. Il y a un double Lookup pour assigner le bon Manager_Id en se basant sur le nouvel Employee_Id généré par la table.

Détail du premier Lookup (LKP_Employeed_Id)

Détail du second Lookup (LKP_Manager_Id)

Etat des données :

A la source :

Après l’exécution du DFT_Load_All_Employees

Après l’exécution du DFT_Affect_Manager_To_Employee

Chargement Incrémental

Si on exécute le package par la suite il ira dans la branche incrémentale.

Explications :

Le premier lookup (LKP_DESTINATION) va juste vérifier si l’enregistrement existe. Il va comparer les clés de la source avec la clé naturelle de la destination. Si il n’y a pas de correspondance alors c’est une insertion d’un nouveau record (DST_Insert_New_Employees).

Note du 7 Mars : Après revisite de la solution il manque un lookup avant d’insérer un nouvel enregistrement. Ce lookup va récupérer l’ID du manager un peu comme dans le chargement initial.

 Si il y a correspondance alors l’enregistrement existe dans ce cas là on laisse le SCD gérer le changement.

Configuration du composant SCD_Manage_Data :

Le dernier lookup (LKP_Manager_Id) est nécessaire ici car il re assigner le nouvel ID du manager en récupérer son Employee_ID.

Détail du Lookup :

Note : La sortie du composant SCD New Output peut être supprimé elle ne sert à rien étant donné que le premier lookup gère les nouvelles entrées.

Test

On change les données de la source.

On exécute le package.

Résultats dans la destination :

Conclusion

Un article assez long pour un sujet sensiblement facile aux premiers abords.

Le chargement de données dans un entrepôt de données est un art, pour réaliser cette oeuvre il faut jouer de différentes techniques.
La prodédure décrite dans cet article permet de remplir les objectifs dans un certain contexte. Différents facteurs peuvent intervenir et de ce fait l’approche peu changer. Tout de même certains principes demeureront à jamais. Un data warehouse connait un chargement Initial et un chargement incrémental, il faut donc adapter le développement pour chacune de ces phases. Les problématiques et les questionnements peuvent trouver leurs solutions tout simplement en leur mettant dans le contexte associé.

SQL Server 2012 – Nouveautés Business Intelligence

Récemment j’ai dû écrire un article concit concernant les nouveautés BI de SQL Server 2012. Un discours mi-technique mi-descriptif que vous trouverez juste en dessous…

Pour rappel j’ai publié plusieurs articles concernant :

La base de données SQL Server de Microsoft connaitra une nouvelle version majeure : SQL Server 2012.

Tout au long de son histoire, cette base de données a évolué et depuis quelques années elle est devenue bien plus qu’un simple moteur de base de données… SQL Server est plus que jamais une plate-forme complète d’analyse de données d’entreprise. Cette version 2012 vient étoffer cette offre en apportant un lot d’améliorations et de nouveautés.

Cet article vous dévoilera les nouveautés Business Intelligence de SQL Server 2012.

La BI connaitra une riche année 2012

La partie BI de SQL Server 2012 connait un bon nombre de nouveautés et Microsoft a même créé une nouvelle édition spécialement dédiée à l’intelligence d’affaire : SQL Server 2012 Business Intelligence.

La naissance d’un nouvel outil : Power View

La famille de Reporting Services s’agrandit et accueille un nouvel outil : Power View. Cet outil mêle reporting ad-hoc et visualisation de données, ce qui offre une toute nouvelle expérience utilisateur. Techniquement, Power View permet de manipuler des données dans une interface Silverlight intégré à SharePoint.

Le principe est simple, on se trouve face à une feuille blanche sur laquelle on dépose différentes données provenant d’une liste de tables. Cela  va créer un tableau et grâce à cet outil on est capable de transformer ce tableau en visualisations. Parmi les nombreuses visualisations on trouve un graphique à bulles qui animera vos données sur un axe des temps.
Power View s’appuie sur la nouvelle couche sémantique BI et utilise un nouveau modèle de données de type tabulaire, utilisé par Power Pivot, et désormais greffé à Analysis Services (SSAS).
Un outil à voir : http://www.youtube.com/watch?v=75szAtMrkNs

Le nettoyage de données : un sujet important et un service dédié

Data Quality Services (DQS) est un nouveau service de SQL Server 2012. Il vous permettra de nettoyer vos données en faisant participer les responsables de données, les personnes métiers et le SI.
Par le biais d’une interface cliente il sera possible de créer des bases de connaissance. Ces bases contiendront vos règles d’épuration, de validation ainsi que vos données de référence. DQS vous épaulera également dans la recherche de correspondance (Matching/Doublons) et dans l’évolution de vos bases de connaissance.
Les différentes règles de nettoyage pourront être utilisées au niveau les flux de données dans Integration services (SSIS) via un nouveau composant.
Concernant SSIS, ce dernier connait des améliorations qui simplifieront le développement de flux de données ainsi que le déploiement des solutions ETL dans différents environnements.

Autres nouveautés

SQL Server s’ouvre davantage aux services dans cloud en donnant la possibilité d’étendre vos analyses/nettoyages/références avec des données du SQL Azure DataMarket. https://datamarket.azure.com/browse/Data/

Reporting Services (SSRS) connait deux changements marquants. Tout d’abord son intégration dans SharePoint est simplifiée. Puis SSRS possède maintenant un système d’abonnement plus efficace et mieux adapté aux besoins des consommateurs de rapports. Il est dorénavant possible de créer des règles qui alerteront vos usagers en fonction du mouvement de vos données dans vos rapports.

Pour terminer les outils des utilisateurs finaux appartenant à pile BI Microsoft viendront compléter l’artillerie d’analyse des données : Excel + Power Pivot 2.0 + Mater Data Services.

Les licences et prix

Microsoft profite de cette nouvelle version pour simplifier les licences en proposant uniquement 3 éditions principales.

  • SQL Server 2012 Entreprise
  • SQL Server 2012 Business Intelligence
  • SQL Server Standard

Les prix sont aussi revus, désormais le coût des licences dépendra du nombre de cœurs de vos serveurs et non plus du nombre de processeurs.

Plus de détails : http://www.microsoft.com/sqlserver/en/us/future-editions/sql2012-editions.aspx

Avant d’entreprendre de nouveaux défis avec SQL Server 2012 il faudra être patient, car elle devrait être disponible dans les premiers mois de la nouvelle année. En attendant vous pouvez toujours essayer la version RC0 disponible sur le site de Microsoft : http://www.microsoft.com/sqlserver/en/us/future-editions.aspx

SSIS – Charger des données dans des tables liées

Un titre très vaste pour un sujet très commun.

En effet il arrive souvent (très très souvent) qu’on doit alimenter des tables.
Il arrive de temps en temps (voir tout le temps) que ces tables soient reliées à une ou plusieurs tables.

Les relations entre ces tables s’appuient sur des contraintes de type clé étrangère. Donc si on alimente une table qui possède une clé étrangère on peut rencontrer des erreurs à cause de cette contrainte.

Une erreur du genre :

The INSERT statement conflicted with the FOREIGN KEY constraint "FK_XXX_YYY"

Comment fait on pour pallier à ce problème de contraintes dans SSIS ?

Se poser des questions

Avant de se lancer dans le développement il faut se poser des questions:

  • Quelle la nature des données ?  Données critiques ou non critiques ?
  • Quelle est le type de ma destination ? Dimensions ? Table de faits ? Tables d’une base de données classique ? Tables externes/références ? Tables de Staging ? Tables Temporaires ?
  • Quel est l’importance de l’intégrité de ces données ?
  • Il y a t’il une logique de chargement ? L’ordre d’exécution de mes flux de données est il important ?
  • Est ce que cela doit prendre du temps ?
  • Est ce que je peux toujours changer ce qui a été fait pour m’adapter aux changements ?
  • Quelles sont les politiques et les pratiques actuelles concernant la gestion des données ? Et ma méthode sera t’elle adoptée ou rentre elle en conflit avec ce qui est déjà établi ?

Que de questions …

Les méthodes

Plusieurs techniques existent. Cet article n’a pas pour but de dévoiler la méthode à privilégiée, mais il vous présente les différents école de pensées.

A vous de faire un choix dépendant de la situation rencontrée.

Méthode 0

 « Selon la théorie, si j’ordonne mes flux tout ira bien »

Dans un monde parfait, les données issues de vos systèmes sources sont entièrement intègres. Par conséquent si l’on charge en premier la table de référence puis la table reliée à cette table de référence,
logiquement, vous n’aurez pas de problème.
Exemple : Une table Sous Catégorie reliée à une table Catégorie.
Si on charge toutes les Catégories dans un premier temps puis on charge les Sous Catégorie.

Sauf que dans le monde de la BI, les données ne sont pas si parfaites que ça  surtout quand vous intégrez plusieurs sources de données. Il se peut qu’une sous catégorie ne fasse pas du tout référence à une catégrorie.

Avantages :

  • Exécution logique voir naturelle
  • Principe d’ordonnancement des flux : l’ordre d’exécution des flux  est une notion fondamentale

Inconvénients :

Cette méthode est purement théorique, la pratique est une triste réalité. Dans un environnement où on intègre des données diverses et variées,  il est très propable de rencontrer des exceptions.

Méthode 1
« La contrainte nous dérange… Bah on l’enlève ! Et on la remet après »


Avec des composants Execute SQL de chaque côté de votre composant Data Flow Task.
Le premier Execute SQL va forcer le fait qu’on ne vérifie pas les contraintes via un ALTER TABLE  :

ALTER TABLE  SubCategory NOCHECK CONSTRAINT FK_SubCategory_Category

Le second Execute SQL va quant à lui  ré appliquer la contrainte après le chargement des  données.

ALTER TABLE SubCategory WITH CHECK CHECK CONSTRAINT FK_SubCategory_Category

Avantages:

  • Fonctionne bien et on contrôle ce que l’on fait.
  • Pas besoin d’ordonnancer vos flux.

Inconvénients:

  • Il faut connaitre les noms des contraintes
  • Il faut avoir les droits nécessaires sur les tables et pas sûre que l’idée emballe tout le monde.
  • Petite porte ouverte aux erreurs d’intégrités ?
  • Maintenance : Si on a plusieurs FK et que d’autre FK s’ajoute avec le temps

Méthode 2
« La contrainte nous dérange ? Heu non pas tout à fait, on peut passer à travers … »


Lorsque l’on utilise un composant OLE DB Destination, on a la possiblilté de décocher le Check Contraints.

Avantages:

  • Rapide et simple
  •  Pas besoin d’ordonnancer vos flux.

Inconvénients:

  • Grandes Portes ouvertes aux erreurs d’intégrités ? Désactive toutes les contraintes.
  • Fonctionne uniquement avec les destinations OLE DB en mode FAST LOAD (certes le mode le plus utilisé)

Méthode 3
 » On vérifie qu’il y a une correspondance dans la table de référence puis on charge si c’est vérifié »

C’est ce que l’on fait typiquement pour charger une table de faits. La vérification se fait grâce à un composant Lookup. En temps normal on a autant de LOOKUP que de FK.


Avantages:

  • Sagesse et Sécurité
  • Détections des erreurs

Inconvénients:

  • Le chargement doit être ordonné.
  •  Dépendance au composant Lookup qu’il faut savoir gérer (performance, optimisation…)

Conclusion

En fonction des cas et des situations que vous rencontrez, l’intégration de données dans des tables liées peut varier. Plusieurs critères sont à prendre en compte afin d’adopter une méthode adéquate.

Bien évidemment il n’est pas possible de prévoir tout les scénarios possibles, n’hésitez pas à partager vos points de vue.