Categoriearchief: Blogs

10 Fouten in het Datalandschap (waar Testen het verschil kan maken) – Introductie

In juni 2021 geeft Armando Dörsek, onze consultant op gebied van testen, kwaliteit en compliance, een presentatie voor het KNVI. Deze heeft als titel: “10 Beginnersfouten in het Datalandschap (waar Testen het verschil kan maken)” en bij deze sessie kunnen de deelnemers door middel van stemming besluiten welke vijf (van tien) onderwerpen die avond toegelicht worden.

Onderwerpen
De deelnemers kunnen kiezen uit de volgende onderwerpen:
– Meer is niet altijd beter… (over gebruik van productiedata)
– Doet u mij maar een testertje! (over specifieke vaardigheden en eigenschappen)
– Onderschatting van kaders… (over security en privacy)
– Datakwaliteit, dat kunnen we niet echt meten? (over data-kwaliteitsattributen)
– Datakwaliteit? Garbage In = Garbage Out, toch? (over eigenaarschap van data, datakwaliteit en effecten op data-projecten)
– We herstellen die data hier – omdat het kan. (ten koste waarvan corrigeer je data in een datawarehouse)
– Onze helden: de bugfixers (over de delicate balans tussen snel en goed)
– Slepen met Data (over het effect van “meerdere waarheden” – naast het risico op datalekken)
– Wil de echte klant opstaan? (over acceptatietesten in een dataproject)
– Risico’s? Eh… (over het nut van risicogebaseerd testen in een dataproject).

Opname
De presentatie (opname) wordt binnenkort beschikbaar gesteld door KNVI, een link volgt op deze pagina.

Blogreeks
Op basis van de onderwerpen zal Armando Dörsek een blogreeks schrijven, te starten met de onderwerpen die bij KNVI gepresenteerd zijn.
Houd de site in de gaten!

Cursusdata 1e Half Jaar 2021

Voor de training DAU Certified Data & Analytics Tester (CDAT) hebben we de volgende data ingepland voor het eerste half jaar van 2021.

  • 25 & 26 januari 2020, Live in Utrecht indien mogelijk (anders on line), Nederlands gesproken
  • 18 & 25 februari en 4 & 11 maart, Online sessies van 1400-1700 uur (CET), Engels Nederlands gesproken
  • 25 & 26 maart, Live in Den Haag Utrecht (indien mogelijk, anders online). Nederlands gesproken
  • 19, 20 & 21 april, Online sessies, Engels gesproken.
  • 10 & 11 mei, Live in Berlijn (indien mogelijk, anders on line). Engels gesproken.
  • 26 mei en 2, 16 & 23 juni, Online sessies van 14:00-17:00 uur (CET), Engels gesproken.
  • 8 & 9 juni, Live in Amsterdam (indien mogelijk , anders on line). Nederlands gesproken.
  • 12 & 13 juli, Live in Berlijn (indien mogelijk, anders on line). Engels gesproken.

Zie de evenementenkalender voor details en voor het inschrijvingsformulier.

Daarnaast blijft het mogelijk om in company trainingen  en trainingen op maat aan te vragen.  Vragen? Neem vooral contact met Verified op, we staan je graag te woord.

Certified Data & Analytics Tester: Mijlpaal

Borrelmoment bij grondleggers CDAT Foundation

Ongeveer twee jaar geleden legden Jaap de Roos (DataConnected), Rogier Ammerlaan (Ammerlaan Trainingen) en Armando Dörsek (Verified.nl) de basis voor de training van Certified Data & Analytics Tester (CDAT). Na het verzorgen van een reeks trainingen in Nederland werd het tijd voor enige vernieuwing: binnenkort volgt hier meer nieuws.

(Een tipje van de sluier: uw certificaat (er)kent men straks ook buiten Nederland…)

Screenshot van een online meeting met afbeeldingen van Armando Dörsek (links), Rogier Ammerlaan (midden) and Jaap de Roos (rechts)
v.l.n.r. Armando Dörsek, Rogier Ammerlaan, Jaap de Roos

 

Data & Analytics Testing Tools Summary (2)

Testing of Data & Analytics environments is increasingly supported by test tools. At Verified, we wonder what your experience is with one of these tools – and if you propose certain tools that have helped you ?

Please let us know, by leaving a message under this post, through the Contact FormLinkedIn or Twitter or contact us in any way you prefer. If you like, we can reply with a listing of more than 15 tools that should help testers and analysts  in testing and quality issues. 

The previous post on Test Tools can be found here.

Note: We are not sponsored in any way by the tool providers.

RTTS QuerySurge

Querysurge is a commercial product made for testing ETL, where comparison of source and target tables is the main object.

It offers dashboards, query wizards, various prefabricated queries for comparison of data, text search etc.

A trial version is available: https://www.querysurge.com/compare-trial-options

Note that for BI Testing, an add on is available. Connectors are available for Cognos, Tableau, SAP Business Objects, Microstrategy and OBIEE.  Features include comparison of reports when upgrading or migrating, querying report meta data.

ICEDQ

iCEDQ is a commercial ETL Test Tool, which runs in the cloud, on premise or hybrid.

It offers a rule engine module, which features:

  • Checksum rules (e.g. row counts)
  • Reconciliation rules (e.g. missing records)
  • Validity rules (SCD Type 2, Format Checks)
  • Script rules (e.g. execute DML/DDL, pre and post actions).

iCEDQ currently integrates with Jenkins, TFS, Jira, HP ALM and ServiceNow.

iCEDQ offers trials through their website:

https://icedq.com/download-icedq-trial

Bitwise QualiDI

QualiDI focuses on ETL testing from sources to targets.

It provides data validation and comparison of data, has a centralized repository of requirements, test cases, test results and has a API trigger based automation of test execution.

There is Business Rules Engine, enabling non-technical users to write rules instead of queries. It integrates with Bitwise Test Data Management Suite for providing test data.

QualiDi is a commercial product, a 30 day trial is available

Source: https://www.bitwiseglobal.com/innovations/qualidi/

SSIS Tester

SSIS Tester is offered by bytesoftwo and focuses on testing Microsoft SSIS.

SSIS Tester is a testing framework built on top of SQL Server Integration Services. It enables you to test packages, tasks and precedence constraints. It supports two types of tests:

  1. unit tests
  2. integration tests.

SSIS Tester helps you to develop you ETL process in the test driven manner and to identify errors early in the development process. It offers “data taps” and fake source or targe components, enabling developers to work independently. Tests target packages or particular tasks.

More information on SSIS Tester on MSDN can be found here:

http://msdn.microsoft.com/en-us/magazine/dn342874.aspx

SSIS Tester offers a free 21-day trial version:

http://www.bytesoftwo.com/download.html

Next 4 Tools

In a few weeks I will publish the next Blog post, asking for new experiences. Thanks for reading this post!

Omdat deze tekst gericht is op een internationaal publiek, heb ik ervoor gekozen om de bovenstaande tekst in het Engels op te stellen. Stelt u prijs op een vertaling naar het Nederlands? Neemt u dan aub contact met ons op.

Data & Analytics Testing Tools Summary (1)

Introduction

During the training Certified Data & Analytics Tester (Foundation Level) we provide a list of tools that can be used in testing or monitoring Business Intelligence and Data Warehouse products.

Below you can find the first 4 tools of this list, with a short description and links to the tool providers.

We are curious for your experiences when using these tools. What have they brought to your (testing) team? What is a Big Plus of using the tool – and with which features are you less impressed? Is an active user community available, or a help desk that makes a difference? Please let us know, by leaving a message under this post, through the Contact Form, LinkedIn or Twitter.

Note: We are not being sponsored by one of the products or their integration partners.

Data Cleaner

Data Cleaner is software which is used for Data Profiling.

It can also be used in the process of creating logical and physical test cases as it offers extensive support to analyze and browse through data sets.

Data Cleaner also offers features to clean, transform and export data sets. Rules can be built and reused.

Data Cleaner is free, additional (paid) features are available.

It can be downloaded to your desktop (Windows, Mac) environment from sourceforge or the community website:

https://datacleaner.org/

SAS Unit

SAS Unit is a framework for the unit testing of SAS programs (SAS EG 9.2, 9.3, 9.4).

Amongst others, SAS Unit offers features to assess test coverage of SAS Macros, running tests in batch mode, performance testing of SAS programs.

SAS Unit uses assertions to test the values of macro variables, contents of SAS data sets, relations between data sets, the existence of files incl. log files and – messages.

SAS Unit is open source software and built from SAS macros.

https://sourceforge.net/projects/sasunit/

Informatica DVO

Informatica offers a testing solution called Data Validation Option for PowerCenter (DVO).

The DataValidator for PowerCenter product was originally developed by a company DVO SOFTWARE. It is now available under the Informatica brand as Informatica PowerCenter Data Validation Option.

DVO is a custom tool built on top of Informatica PowerCenter. DVO integrates with the Informatica PowerCenter Repository and Integration Services and enables developers and business analysts to create rules to test the data being transformed during the data integration process.

Informatica mentions the following ETL Testing Use Cases: Production Validation Testing, Source to Target Testing and Application upgrades.

Amongst others, it features:

  • An easy-to-use GUI interface to test the rules created for data validations for multiple projects.
  • No programming skills needed to create validation tests.
  • A repository with reporting capabilities to provide a complete audit trail of all tests and their results.
  • Reading data definitions from PowerCenter metadata repositories and can easily deal with data definition changes.

Note that DVO tests data only, not mappings or workflows. Testing mappings is unit testing, which is different from data validation.

As DVO is a commercial product it may be attractive to Informatica Power Center users. At this moment, no free trial seems available (Feb 9, 2020).

www.informatica.com

Datagaps ETL Validator

Datagaps offers several products, e.g. ETL Validator, BI Validator, Data Flow and Test Data Manager.

The Datagaps ETL Validator comes pre-packaged with an ETL engine capable of extracting and comparing millions of records from multiple data sources while executing test cases in parallel.

ETL Validator also has a Visual Test Case Builder with drag-and-drop capabilities and a Query Builder that enables defining tests without manual typing.

Key features include enterprise collaboration, flat file testing, data profile testing, baselining, data quality testing, and database metadata testing.

Datagaps offers a free 30-day trial.

https://www.datagaps.com/etl-testing-tools/etl-validator-download

Next 4 Tools

The next page shows another 4 tools.

Omdat deze tekst gericht is op een internationaal publiek, heb ik ervoor gekozen om de bovenstaande tekst in het Engels op te stellen. Stelt u prijs op een vertaling naar het Nederlands? Neemt u dan aub contact met ons op.

Certified Data & Analytics Tester – ingepland voor 2020

In 2019 hebben we een aantal succesvolle cursusreeksen uitgevoerd voor de training “Certified Data Analytics Tester”, oftewel CDAT.

Oók een CDAT-training volgen? Goed idee! Dat kan in 2020 op diverse locaties in Nederland:

16-04-2020 Amsterdam
07-09-2020 Utrecht
19-11-2020 Den Haag

Uiteraard kunnen we in-house trainingen verzorgen, vraag naar de mogelijkheden.

Kalender

Verified feliciteert 6 nieuwe Certified Data & Analytics Testers

Geslaagd: afbeelding van studenten die hun hoofddeksels in de lucht gooien

Afgelopen week verzorgde Verified samen met Ammerlaan IT & Trainingen en DataConnected de training “Certified Data & Analytics Tester” en we zijn trots op alle deelnemers!

Het waren dagen met goede discussies en nieuwe inzichten voor iedereen. We hebben hard gewerkt en plezier gehad met uiteindelijk een prima resultaat. Zes van de zeven deelnemers zijn in één keer geslaagd voor het examen. De docenten ontvingen een mooie 8 als beoordeling.

CDAT-FL ook voor 2019 ingepland

Kalender

In 2018 hebben DataConnected, Ammerlaan en Verified drie succesvolle cursusreeksen uitgevoerd voor de training “Certified Data Analytics Tester”, oftewel CDAT.

Oók een CDAT-training volgen? Goed idee! Dat kan in 2019 op diverse locaties in Nederland:

  • Utrecht, 4 februari 2019 – 6 februari 2019
  • Zwolle, 23 mei 2019 – 25 mei 2019
  • Utrecht, 11 september 2019 – 13 september 2019
  • Den Haag, 7 oktober 2019 – 9 oktober 2019
  • Utrecht, 11 november 2019 – 13 november 2019

Uiteraard kunnen we in-house trainingen verzorgen, vraag naar de mogelijkheden.

 

Opnieuw training CDAT beoordeeld met 8

Rating 8De training “Certified Data & Analytics Tester (Foundation)” die we op 1, 2 en 3 oktober hebben mogen verzorgen is bijzonder goed ontvangen: de cursisten gaven de training het mooie cijfer van (gemiddeld) een 8!

Over de training

CDAT-FL is een training die je leert om de verbinding te maken tussen de “standaard” testpraktijk en de bijzonderheden van de BI/DWH/Analytics-omgeving. Bovendien vul je je virtuele gereedschapskist aan met direct inzetbare technieken en tools.

Meer weten?

Meer over de training weten? Neem de Flyer eens door en neem contact op met Armando Dörsek van Verified via (06) 23 054 054 of vul het Contactformulier in.

Training “Data & Analytics Tester” goed ontvangen!

Rating 8De maatwerk-training op basis van “Certified Data & Analytics Tester (Foundation)” die we eind mei en begin juni hebben mogen verzorgen is goed ontvangen.

De cursisten gaven de training het mooie cijfer van (gemiddeld) een 8!

Over de training

CDAT-FL is een training die testers bekend maakt met het testen van Business Intelligence, Data Warehouse en Analytics oplossingen. Het traject is voor deze klant aangepast naar een in-house training van 4 avonden (inclusief examen).

Meer weten?

Meer over de training weten? Bekijk de uitgebreide beschrijving en neem contact op met Armando Dörsek via (06) 23 054 054 of vul het Contactformulier in.

Datakwaliteit: invloeden, meten en maatregelen

Klanten rekenen op de betrouwbaarheid van de informatie waarmee ze werken. De teams die zich bezig houden met data warehousing, business Intelligence en analytics zijn gebaat bij juiste, volledige en accurate gegevens. Als we die termen noemen, raken we het aspect datakwaliteit.

Datakwaliteit is de “fitness for use” van de gegevens.

Elk bedrijfsproces kan zijn eigen eisen stellen aan de data.
De systemen die de primaire bedrijfsprocessen ondersteunen (bv. logistiek, verkoop, planning, polisadministratie) zullen zich richten op een goede kwaliteit van gegevens voor hún specifieke bedrijfsproces of -keten. Niet meer en niet minder. Zodra we deze gegevens willen gebruiken in een bredere context, voor business intelligence en analyticsdoeleinden, kunnen we ertegenaan lopen dat deze gegevens niet zonder meer bruikbaar blijken: de datakwaliteit kan te laag zijn.

Oorzaken voor slechte datakwaliteit
Datakwaliteit kan onder meer te wensen overlaten door (1) slechte invoer bij de bron.  Medewerkers in een callcenter worden soms afgerekend op het aantal verwerkte gesprekken, niet op de kwaliteit van de ingevoerde data. Om tijdswinst te boeken kunnen zij o.a. besluiten om het niet zo nauw te nemen met de spelling bij het opvoeren van klantgegevens en om niet-verplichte velden over te slaan. Dit heeft direct weerslag op de datakwaliteit.

Datakwaliteit zal afnemen door het (2) verstrijken van de tijd. Adressen van klanten zullen als gevolg van verhuizingen enz. veranderen. Regelmatige controle op de actualiteit van dergelijke gegevens helpt bij het behouden van juistheid van deze gegevens. Ook veranderende afspraken over de notatie van o.a. kentekens, telefoonnummers en landenaanduidingen hebben hun weerslag op de datakwaliteit.

Gegevens kunnen inboeten aan kwaliteit als gevolg van (3) internationalisatie: bij het combineren van data uit binnen- en buitenland kunnen bv. issues optreden ten aanzien van gebruikte character sets of door het introduceren van andere valuta, adresnotaties, etc.

Bij (4) conversies en migraties van gegevens, bv. als gevolg van vervanging of integratie van geautomatiseerde systemen, overnames (integreren van datasets van verschillende bedrijven) of schoning (verouderde producten, verstreken bewaartermijnen) kunnen mankementen ontstaan aan de gegevens.

Voorkomen en repareren
Op voorgaande oorzaken kan een datawarehouse- en business intelligence team slechts indirect invloed uitoefenen. Waar het team wél direct invloed op heeft, is op de (5) kwaliteit van de verwerking: het extractie-, transformatie- en laadproces van de data en de  (6) juiste weergave van de data in de informatieproducten. Dit kan door goed testen en toetsen onder controle worden gebracht.

Onder de noemer (7) data cleaning of data cleansing worden activiteiten geschaard die de gegevens moet corrigeren en aanvullen. Deze activiteit is niet voorbehouden aan datawarehouse- en business intelligence teams, maar kan ook direct op de primaire systemen zelf plaats vinden.

Gegevensarchitecten moeten besluiten nemen over wáár de gegevens gerepareerd worden: in de bron of bv. in het datawarehouse. Als voor de laatste optie wordt gekozen dan is één ding zeker: dit vergt een forse inspanning in termen van ontwikkeling en testen.

Objectief meetbare datakwaliteit
Kwaliteit kunnen we meetbaar maken aan de hand van kwaliteitsattributen of -dimensies. Zo kennen we voor het in kaart brengen van de kwaliteit van software en ICT systemen de norm ISO25010 en de kwaliteitsatributen van TMap Next.

De datakwaliteit kun je uitdrukken met met behulp van specifieke kwaliteitsattributen of dimensies, zoals die van ISO 25012, het IDQ model van Valori (Bouman) of die van de Data Management Association (DAMA).

Take Aways van de Dag

  • Start met het meten van data kwaliteit en stel jezelf als organisatie doelen
  • Stem het testproces hierop af en bepaal de te behalen dekking
  • Integreer data profiling vanaf de start in het analyse-, ontwerp- en testproces. Voeg data profiling structureel toe aan het beheerproces om niet verrast te worden door wijzigingen (in data) in bronsystemen.
  • Besef dat de datakwaliteit niet statisch is maar zich zal ontwikkelen. Zorg dat het systeem niet alleen kan omgaan met de data van gisteren – maar óók van morgen!

Vragen?
Als u vragen heeft over het bovenstaande, bv. u wilt een start maken met het objectief meetbaar maken van de datakwaliteit in uw organisatie, neem vooral contact op met Verified. We staan u graag te woord.