Vast in de cloud: 90% van data wordt vergeten

In de verhitte discussies over data soevereiniteit vliegen de grote termen ons om de oren: geopolitiek, de Cloud Act, strategische autonomie en de macht van Big Tech. We voeren analyses uit op onze kernapplicaties, debatteren over de voor- en nadelen van een EU-cloud en maken vuistdikke risicoanalyses.

Maar we vergeten één ding. We vergeten de data. Niet de keurig geordende data in ons CRM- of HR-systeem, maar de rest. De 90% die rondslingert. In zijn diepgravende paper ‘Made in Europe – the Road to Sovereignty’ noemt Peter Rietveld, board member bij de Dutch Cyber Warfare Community, dit het “grotendeels genegeerde maar zeer verontrustende” probleem van ongestructureerde data. Het is, zo stelt hij, “een hoofdpijn die we proberen te verbergen voor onze auditors en risicomanagers”.

Dit is geen klein, technisch detail. Het is de fatale blinde vlek die vrijwel elke soevereiniteitsstrategie bij voorbaat nutteloos kan maken.

De illusie van controle

De meeste organisaties leven in de comfortabele illusie van controle. We hebben beleid. We hebben systemen. We vertellen de auditor: “Maakt u zich geen zorgen, al onze HR-data staat in ons beveiligde HR-systeem. En alle klantdata staat in Salesforce of ons CRM. Die systemen hebben we onder controle.” We richten vervolgens al onze beveiliging en compliance-inspanningen op die 10% van de data die keurig in de daarvoor bestemde vakjes past. Maar wat gebeurt er in de praktijk?

Complexe datastromen via hyperscalers kunnen ondermijnd worden

Een manager downloadt een lijst met personeelsbeoordelingen (HR-data) om deze te bespreken. Hij mailt die lijst naar zijn privé-mail “omdat het makkelijk is” of slaat hem op in zijn persoonlijke Google Drive of Dropbox. Een sales-medewerker exporteert een bellijst (CRM-data) en laat deze als Excel-bestand achter op een openbare fileshare. Een jurist bespreekt een gevoelige overname in een e-mail-thread die honderden berichten lang is.

Blinde vlek ongestructureerde data

Ook zakelijke e-mail draait tegenwoordig volledig in de cloud. En als je Microsoft gebruikt, betekent dat in de praktijk: dataopslag in de VS. Daar wringt het. Recent maakte Microsoft bijvoorbeeld nieuwe krantenkoppen nadat zij weigerde datastromen te openbaren aan Police Scotland, waarmee duidelijk werd hoe complexe datastromen via hyperscalers ondermijnd kunnen worden. Het is een illustratie van de blinde vlek die veel organisaties hebben rond ongestructureerde data.

Sommige experts beperken de definitie van ‘gestructureerde data’ tot vaste syntaxis, zoals e-mailadressen, BSN’s of IBAN’s, maar vergeten dat het in wezen gaat om gestructureerde opslag: weten wat waar staat. En dat weet je meestal niet. De inhoud van mailboxen, chats of OneDrives onttrekt zich vaak volledig aan enig informatiemanagement. Denk aan de affaire-Gotlieb bij de NZa, waar gevoelige documenten in open fileshares opdoken. Met Teams en vergelijkbare tools creëren organisaties vandaag dezelfde kwetsbaarheid, zij het in een modern jasje. En ja, er zijn manieren om dat te beperken, maar die blijven in de praktijk vaak marginaal.

Welkom in de wereld van ongestructureerde data. Volgens analyses bestaat tot 90 procent van alle data in een organisatie hieruit. Het is, zoals Rietveld het scherp definieert, “data die we hebben, maar we weten niet wat het is. Waar het is. Waarom we het hebben.”

De ‘we houden onszelf voor de gek’-clausule

Peter Rietveld Vast in de cloud — Peter Rietveld

Hier wordt het pijnlijk, en hier raakt het direct de soevereiniteitsdiscussie. Veel organisaties sussen hun geweten met een beleidsregel: “Het is verboden om privacygevoelige data in de Amerikaanse cloud (zoals Microsoft 365 of Google Workspace) op te slaan.” We zetten een vinkje en gaan door met de orde van de dag.

Rietveld prikt dwars door deze redenering heen: “Wanneer we zeggen dat we de cloud niet gebruiken voor privacygevoelige data, houden we, bovenal, onszelf voor de gek.” Waarom? Omdat we massaal e-mail en fileshares, zoals OneDrive en Google Drive, in diezelfde Amerikaanse cloud gebruiken. En als u déze systemen in de cloud heeft, weet u simpelweg niet welke gevoelige data erin zit. U neemt aan van niet, omdat uw beleid het verbiedt. Maar de praktijk is weerbarstiger.

Rietveld stelt dat juist e-mail een van de meest risicovolle bronnen is. “Vooral in de e-mail, omdat die nauwgezet volgt wat uw mensen aan het doen zijn, zal veel gevoelige data te vinden zijn.”

Een ‘impact multiplier’ voor risico

Het probleem van ongestructureerde data is op zichzelf al een nachtmerrie voor compliance. Maar in de context van soevereiniteit wordt het een ‘impact multiplier’. Stel u voor dat een Amerikaanse overheidsinstantie, via de Cloud Act, toegang vordert tot de data van uw organisatie bij Microsoft. U bent niet alleen bezorgd over die 10% aan data in uw (misschien on-premise) CRM. De vordering geldt voor alles dat u bij die provider heeft staan. Dat betekent: toegang tot al uw e-mailarchieven. Al uw OneDrive-bestanden. Al uw Teams-chats.

Wanneer de autoriteiten, of uw eigen raad van bestuur, u vervolgens vragen welke specifieke data is ingezien, is het enige eerlijke, en tevens meest vernietigende, antwoord: “Dat weten we niet. Het kan alles zijn.” U kunt niet vertellen welke klantgegevens, intellectueel eigendom of personeelsdossiers zojuist zijn geëxfiltreerd, omdat u nooit heeft geweten dat ze daar überhaupt stonden.

De oplossing bestaat (nog) niet

Dit probleem is zo fundamenteel omdat onze traditionele beveiligingsmethoden er niet op gebouwd zijn. Rietveld merkt op dat “traditioneel identity and access management (IAM) is ontworpen voor gestructureerde data, dus dat volstaat niet”. Nieuwe, door AI-gedreven oplossingen zoals data security posture management (DSPM) proberen dit gat te dichten door data automatisch te identificeren en classificeren. Maar deze technologie staat in de kinderschoenen en is nog geen alomvattende oplossing. De enige échte oplossing, zo stelt de paper, is om “alle data die uw organisatie gebruikt te beheren. Alles.”

Weten waar de e-mail van gisteren en het Excel-bestand van vorige week zijn gebleven

Voordat we diep duiken in geopolitieke risicoanalyses, moeten we misschien beginnen bij de basis: weten waar de e-mail van gisteren en het Excel-bestand van vorige week zijn gebleven. Doen we dat niet, dan is elke discussie over ‘soevereiniteit’ een theoretische exercitie, gebouwd op de gevaarlijke aanname dat we onze eigen chaos onder controle hebben. Zoals Rietveld de sectie veelbetekenend afsluit: “Hadden we al gezegd dat dit ‘big’ was?”

Serie ‘Vast in de cloud’
Dit is deel ➍ in een serie van vijf artikelen. Dit zijn de overige delen:
➊ De weg uit de soevereine impasse
➋ Dit zijn de 5 wegen vooruit
➌ 3 mythes die cloudstrategie verlammen
➎ Expert-interview met Peter Rietveld