De wat en hoe van Azure Data Factory
(Big) data speelt een steeds grotere rol binnen organisaties. Je verzamelt doorgaans veel gegevens over diverse onderdelen van de organisatie en jouw klanten. Het verzamelen van deze data gebeurt vaak in meerdere applicaties. Echter is het integreren van deze verschillende bronsystemen vaak niet zo makkelijk als het lijkt. Dit leidt tot op zichzelf staande en onbewerkte gegevens. Deze gegevens hebben niet de juiste context of betekenis om de inzichten te kunnen bieden die jij zou willen. Met Azure Data Factory kunnen wij hierbij helpen door data snel en eenvoudig te laden naar een data warehouse.
Wat is Azure Data Factory?
Azure Data Factory is ontworpen door Microsoft om de integratie van diverse bronsystemen te vereenvoudigen voor ontwikkelaars van datasystemen. Microsoft is van mening dat er een service nodig is die ervoor zorgt dat processen georganiseerd en geoperationaliseerd worden om de enorme hoeveelheid data om te zetten naar bruikbare inzichten voor jouw organisatie. Azure Data Factory helpt je hierbij. Deze beheerde cloudservice is speciaal ontworpen voor ETL (extract-transform-load).
De betrokken componenten
Bij de Azure Data Factory zijn een aantal componenten betrokken. Zo is er allereerst een connectie nodig naar een bestaande databron. Dit wordt ook wel een Linked service genoemd. Een voorbeeld hiervan is een Azure SQL Database, maar dit kan ook een REST API zijn, bestanden in een data lake, of records uit een SharePoint Lijst.
Ten tweede is er een dataset nodig. Hierin bevindt zich de data. Deze dataset moet altijd gekoppeld zijn aan een linked service. Als bijvoorbeeld de linked service een verbinding is naar een Azure SQL Database, dan zou een dataset een tabel in deze database kunnen zijn.
De derde betrokken component is de zogenoemde ‘pipeline’. Een data factory kan éen of meerdere pipelines hebben. Maar wat is een pipeline eigenlijk? Een pipeline is een groepering van meerdere activiteiten die gezamenlijk een taak uitvoeren. De activiteiten in zo een pipeline laten de acties zien die worden uitgevoerd op de data. Voorbeelden hiervan zijn het kopiëren van bestanden, het uitlezen daarvan en het laden in een bestemming, zoals je data warehouse. Om je een beter beeld te geven van zo een pipeline, is hieronder onze hoofd pipeline te zien die wij gebruiken in ons gestandaardiseerde Kimura Data Framework.
Handmatig versus templates
Het proces van Azure Data Factory wordt in de basis handmatig uitgevoerd. Handmatig betekent blokjes maken, lijnen trekken en het grafisch vormgeven. Hiervoor hoef je geen ervaren expert te zijn, maar het is toch erg tijdsintensief. Wij houden van automatiseren en het creëren van snelle winst voor jou en jouw organisatie. Daarom hebben we een standaard template, ook wel framework genoemd, ontwikkeld voor de pipelines die we in een datawarehouse gebruiken. Dit kan zeer snel geïnstalleerd worden, vaak binnen een dag.
Als het framework eenmaal staat kan je zelf het proces beheren. Bijvoorbeeld als nieuwe tabellen ontsloten dienen te worden. Doordat Data Factory kan zoeken in een SQL Database, werkt dit goed. We hebben dus een databasemodel met daarin de metadata van de te laden tabellen en scripts. Ons Kimura Data Framework zoekt in dat model om te bepalen welke processen moeten worden uitgevoerd.
Dit maakt dat je als beheerder van een door ons gebouwd data warehouse zelf eenvoudig je ETL-processen kan beheren. Benieuwd naar Azure Data Factory of heb je nog vragen hierover? Neem vooral contact met ons op en dan helpen we je graag.