Andmete turvalisus AI-projektides

83% ettevõtetest on kogenud vähemalt ühte andmeleket. (Allikas: IBM Cost of a Data Breach Report, 2023) Keskmine lekke hind on 4.45 miljonit dollarit.

AI-projektid teevad riski suuremaks. Mitte sellepärast, et AI oleks ebaturvaline. Vaid sellepärast, et sa saadad andmeid kohtadesse, mida sa ei kontrolli.

Kui sa kleebid kliendi e-kirja ChatGPT-sse - see läheb OpenAI serveritesse USAs. Kui sa kleebid sinna arsti kirja - see on terviseandmed, mis lähevad väljapoole EL-i.

See pole alati halb. Aga sa pead teadma, mida teed.

Kolm küsimust enne AI-projekti alustamist

1. Kuhu minu andmed lähevad?

Enamik AI-teenuseid hoiab andmeid USAs. GDPR lubab seda, kui on "piisav kaitse" - aga see tähendab, et sa pead kontrollima.

Teenus	Serveri asukoht	DPA olemas?
OpenAI (ChatGPT)	USA	Jah
Anthropic (Claude)	USA	Jah
Google (Gemini)	USA/EL	Jah
Microsoft (Copilot)	USA/EL	Jah

DPA = Data Processing Agreement. See on leping, mis reguleerib, kuidas teenusepakkuja su andmeid töötleb.

2. Kas minu andmeid kasutatakse treenimiseks?

See on oluline küsimus. Mõned teenused kasutavad sinu sisestatud andmeid mudelite treenimiseks. See tähendab, et sinu andmed võivad - teoreetiliselt - ilmuda kellegi teise vastusesse.

Enamik teenuseid lubab selle välja lülitada: - OpenAI API: vaikimisi välja - OpenAI ChatGPT: pead ise välja lülitama seadetest - Claude: vaikimisi välja - Google: sõltub kontotüübist

Kontrolli enne kasutamist.

3. Kas mul on plaan, kui midagi läheb valesti?

GDPR nõuab, et teavitaksid andmelekke korral 72 tunni jooksul. Sul peab olema: - Protsess lekke tuvastamiseks - Vastutav isik - Teavituse mall - Andmeinspektsiooni kontakt

Praktilised sammud

1. Kasuta API-t, mitte veebiliidest

API kaudu: - Saad logida, mis andmeid saadad - Andmeid ei kasutata treenimiseks (enamiku teenuste puhul) - Saad lisada oma turvareegleid

Veebiliidese kaudu: - Sa ei tea täpselt, mis andmeid saadetakse - Andmeid VÕIDAKSE kasutada treenimiseks - Sul pole logi

2. Anonümiseeri enne saatmist

Enne kui saadad AI-le andmeid: - Eemalda nimed - Eemalda kontaktandmed (e-post, telefon) - Eemalda ID-numbrid (isikukood, lepingu number) - Asenda konkreetsed numbrid ligikaudsetega

Sageli saab seda automatiseerida regex-mustritega. Vaadake, kuidas AI-audit aitab teie andmeturbesüsteemide hinnangutel.

3. Dokumenteeri andmevood

Loo lihtne dokument:

Etapp	Kirjeldus
Allikas	Kust andmed tulevad?
Töötlemine	Mida nendega tehakse enne AI-le saatmist?
AI-teenus	Kuhu saadetakse? Milline DPA?
Säilitamine	Kas AI-teenus säilitab andmeid? Kui kaua?
Tagastus	Mida tehakse vastusega?

See dokument aitab nii GDPR-auditi kui ka sinu enda selge mõtlemise jaoks.

Praktiline näide

Üks klient tahtis kasutada AI-d klientide e-kirjade kokkuvõtete tegemiseks.

Algne plaan: Kopeeri kirjad ChatGPT-sse.

Probleem: Kliendkirjad sisaldavad nimesid, kontaktandmeid, mõnikord terviseinfot.

Lahendus: 1. Kasutasime OpenAI API-t (andmeid ei kasutata treenimiseks) 2. Ehitasime automaatse anonümiseerija (asendab nimed [NIMI], kontaktid [KONTAKT]) 3. Logisime kõik päringud 4. Dokumenteerisime andmevoo ja lisasime DPA kliendilepingusse

Tulemus: Sama funktsionaalsus, GDPR-kooskõlaline, jälgitav.

Levinumad vead

1. "See on lihtsalt test"

Isegi testis kasutad sa päris andmeid. Ja päris andmed on päris andmed. GDPR kehtib ka testile.

2. "Ma usaldan seda teenust"

Usaldus pole sama mis turvalisus. Sa pead teadma, mida teenus andmetega teeb - mitte lihtsalt uskuma, et nad on korralikud.

3. "Keegi pole seda kunagi küsinud"

Kuni keegi küsib. Ja siis on sul 72 tundi aega vastata.

Kokkuvõte

AI-projektides on turvalisus alus, mitte lisa.

Enne alustamist: 1. Tea, kuhu su andmed lähevad 2. Kontrolli, kas neid kasutatakse treenimiseks 3. Anonümiseeri tundlikud andmed 4. Dokumenteeri andmevood 5. Oma plaan lekke puhuks

Kui tunned end ebakindlalt - kaasa keegi, kes aitab. See on odavam kui leke.