Diferenciškai privatus federacijos mokymasis: kliento lygio perspektyva

Robinas Geyeris, Tassilo Kleinas ir Moinas Nabi („ML Research Berlin“)

Paprastai dėl standartinių mašininio mokymosi metodų kyla poreikis kaupti mokymo duomenis vienoje centrinėje vietoje. Tačiau neseniai padidėjus privatumo apsaugai mokantis mašinų, nauja tyrimų sritis, vadinama federaliniu mokymu, sukėlė visuotinį susidomėjimą. Šiame tinklaraščio įraše pateikiame pirmuosius rezultatus, susijusius su privatumo išsaugojimu bendradarbiaujant kompiuteriu, tęsdami ankstesnį tinklaraščio įrašą, kuriame pristatyti trys skirtingi požiūriai į šios srities privatumo problemą.

Tačiau prieš gilindamiesi į mūsų siūlomą požiūrį, pakartokime pagrindinius idėjos principus. Federuoto mokymosi idėja yra mokyti mašininio mokymosi modelių, tiesiogiai nebendraujant su duomenimis ir neslėpiant dalyvavimo mokyme. Šis scenarijus yra svarbus tiek pramonės, tiek asmeniniame lygmenyje ir tampa ypač svarbus scenarijuose, kai kenksmingi klientai gali norėti daryti išvadą apie kito kliento dalyvavimą.

Kaip paprastą pavyzdį galima paminėti kelių ligoninių ir draudimų bendradarbiavimą, mokant universalaus modelio, atsižvelgiant į kiekvieno paciento ir kliento duomenis, kad būtų galima geriau suprasti dabartines ligas, diagnozes ir medicinos išlaidas. Dabar įsivaizduokite, kad vienas iš dalyvaujančių draudimų norėtų prisijungti prie šio bendradarbiavimo, tikėdamasis išsiaiškinti konkrečią informaciją apie pacientus, priklausančius prisidedančios ligoninės duomenų rinkiniui. Jei bendrojo lavinimo mokymo proceso metu ligoninė atskleistų konfidencialius duomenis, jos pacientų privatumas būtų pažeistas, o draudimas gali naudoti šiuos pagrindus tam tikriems pacientams reikalauti didesnės kainos.

Kita įmanoma situacija iškyla tada, kai klientai siekia atsisakyti paslaugos, prie kurios prisidėjo rengdami modelį, abonemento, nepalikdami per daug specifinio modelio duomenų pirštų atspaudų. Grįžtant prie ligoninių ir draudimo pavyzdžių, jei vienas draudimas norėtų nustoti prisidėti prie modelio mokymo, jo panaikinimas atskleistų tam tikrą konfidencialią informaciją apie klientus, kuri galėtų būti panaudota kitų modelio konkuruojančių draudimų naudai.

Trumpai tariant, norėdami apsaugoti privatumą mašininio mokymosi kontekste, turime užkirsti kelią galimybei atsekti atskirus klientus, prisidedančius prie modelio. Tai tampa ypač svarbu, kai modelio mokymo pavyzdžių nėra per daug. Todėl mūsų išvados kelia ypatingą susirūpinimą įstaigoms, tokioms kaip ligoninės ar draudimai, kurios nori gauti naudos iš apibendrintų prognozavimo modelių, tačiau patiria didelius klientų svyravimus ir kartu yra griežtai privatūs.

Federacinis mokymasis - kai kurios detalės

Mes manome, kad mokymosi aplinka yra federacinė, kai patikimas kuratorius renka parametrus, optimizuotus decentralizuotai pagal daugelį klientų, kurių duomenys paprastai nėra vidiniai, nesubalansuoti ir masiškai platinami. Gautas modelis tada išplatinamas visiems klientams, galiausiai pereinant prie bendro reprezentacinio modelio, klientams neprivalo aiškiai dalintis duomenimis.

Kiekviename naujame komunikacijos etape ir paskirstant naują centrinį modelį pateikiama informacija apie klientų duomenų nutekėjimą. Taigi, nutekėjusi informacija ir tokiu būdu prarandamas privatumas kaupiasi mokymo metu. Nors ši tikimybė gali būti be galo maža, mašininio mokymosi modelis paprastai treniruojamas keliais etapais, o tai reiškia, kad toks privatumo nutekėjimas gali žymiai padidinti.

Tokiu atveju bendravimas tarp kuratoriaus ir klientų gali būti ribotas ir (arba) pažeidžiamas perėmimo, todėl federalinio mokymosi tikslas yra nustatyti modelį, kuriame tarp klientų ir kuratoriaus būtų kuo mažiau informacijos. Nepaisant to, kad buvo pasiekta ši minimali pridėtinė vertė, protokolas vis dar yra pažeidžiamas diferencinių atakų, kurios gali kilti iš bet kurios šalies, prisidedančios prie federalinio mokymosi proceso. Tokio išpuolio metu kliento indėlis mokymų metu bei informacija apie jo duomenų rinkinį gali būti atskleisti analizuojant paskirstytus parametrus.

Atsižvelgdami į šią problemą, mes siūlome algoritmą, skirtą kliento skirtingam privatumui, kad išsaugotume jungtinį mokymąsi. Tikslas yra paslėpti klientų indėlį mokymų metu, siekiant subalansuoti privatumo praradimą ir modelio veikimą. Mūsų pirmosios galimybių studijos rezultatai rodo, kad vis daugiau dalyvaujančių klientų skaičiaus mūsų siūloma procedūra gali dar labiau optimizuoti kliento lygio skirtingą privatumą.

Mūsų požiūris

Mašinų mokymosi algoritmai tampa tokie patrauklūs, kad jie sukuria savo numatymo modelį, darydami išvadą apie modelius, nebūdami aiškiai užprogramuoti. Dėl to šie algoritmai labai priklauso nuo užkoduotos informacijos, todėl norint apsaugoti privatumą reikia pridėti juos prie tam tikrų savybių.

Čia pradedamas diferencijuoto privatumo apibrėžimas. Tai gali būti vertinama kaip jautrumo matas duomenų pokyčiams. Tiksliau, tai suteikia garantiją apie efekto buvimo ar nebuvimo ribas, kurias atskiras duomenų elementas gali turėti galutiniame algoritmo išvestyje. Intuityviai kalbant, mašininio mokymosi metodas, kuris yra skirtingai privatus, reikšmingai nepakeis prognozuojamo elgesio tuo atveju, jei daiktas bus pašalintas iš treniruočių komplekto. Remiantis ankstesniu pavyzdžiu, tai reikštų, kad visi prisidedantys draudimai ir ligoninės vis tiek galėtų pasikliauti aukštu universaliojo modelio veiksmingumu ir informacijos tikslumu, nors viena iš ligoninių vengia teikti ar išimti informaciją apie tam tikrą pacientą.

Siūlomu požiūriu mes siekiame perkelti naują privatumo lygį į naują lygį, atsižvelgiant į duomenis, esančius ne tik į vieną duomenų elementą, ir taip sugriežtindami jautrumą. Mes siekiame užtikrinti, kad kliento pašalinimas su visais jo duomenų elementais neturėtų didelės įtakos algoritmo rezultatams. Mūsų pavyzdyje tai reiškia, kad jei ligoninė, kurioje yra didelis pacientų skaičius, nusprendžia nebebendrauti su centrinio modelio mokymu, tai nepakenks kitų dalyvaujančių institucijų darbui.

Taškų sujungimas - diferencijuotas privatumas, išsaugojant federacinį mokymąsi

Siekdamas apsaugoti federalinį mokymosi protokolą nuo galimų diferencinių atakų, vadinamasis privatumo apskaitininkas seka patirtus privatumo praradimus ir sustabdo mokymus, kai pasiekiama apibrėžta riba.

Šiame kontekste siūlome taikyti atsitiktinių imčių mechanizmą, susidedantį iš dviejų etapų: Kiekvieno bendravimo etapo pradžioje pasirenkamas atsitiktinis klientų pogrupis. Tik šie klientai gauna centrinį modelį ir dalijasi jo atnaujinimais. Tada, prieš paskirstant naują centrinį modelį, naudojamas Gauso mechanizmas, kuris iškreipia atnaujinimų vidurkį. Tai daroma siekiant paslėpti vieno kliento indėlį apibendrinant ir tokiu būdu per visą decentralizuoto mokymosi procedūrą.

2 paveiksle pavaizduotas komunikacijos turas, kuriame laikomasi siūlomo požiūrio. Šiame optimizuotame federaliniame mokymosi kontekste atsitiktinis klientas nustoja prisidėti per bendravimo ratą, o kiti klientai ir toliau atnaujina modelį. Tačiau vieno bendraautorio pasitraukimas nei atskleidžia duomenis, nei pakenkia modelio veikimui.

Eksperimentinė sąranka

Mes modeliuojame decentralizuotą nustatymą, norėdami išbandyti mūsų siūlomą algoritmą. Mūsų pasirinkimas treniruoti vaizdų klasifikatoriaus modelį leidžia palyginti protokolą su moderniausiais metodais centralizuoto mokymosi metu. Federacinė, ne vidinė sąranka užtikrina, kad kiekvienas klientas gauna tik ribotą skaičių pavyzdžių, kai kiekvieno kliento pavyzdžiai susiejami tik su dalija bendrųjų klasių. Atlikdamas tokią konfigūraciją, vienas klientas niekada negalėtų išmokyti modelio, kuriame būtų fiksuojamos visos klasės, atsižvelgiant tik į atskirus duomenis. Mes nustatėme du reikalavimus diferencijuotai privačiam federacijos mokymosi procesui:

  • Įgalinkite klientus kartu išmokti modelio, kuris pasiekia aukštą klasifikavimo tikslumą
  • Mokydamiesi paslėpkite, kokius duomenis laiko individualus klientas, kad išsaugotumėte privatumą

Mūsų išvados

Galiausiai, mūsų darbas pateikia du indėlius. Pirma, mes parodome, kad dalyvaujant pakankamai šalių, mūsų algoritmas pasiekia aukštą modelio tikslumą, palyginamą su centralizuoto mokymosi sąrankoje. Tuo pačiu metu mūsų siūlomas modelis kliento lygmeniu išlieka skirtingas. Nors kiti tyrimai rodo panašius rezultatus, mūsų eksperimentinė sąranka skiriasi dėl aiškaus elementų lygio privatumo priemonių integravimo. Antra, mes siūlome dinamiškai pritaikyti diferencinį privatumo išsaugojimo mechanizmą decentralizuoto mokymosi proceso metu, kad dar labiau padidintumėte modelio našumą. Nors tai keičia paskutinius rezultatus, taikant diferencijuotą privatumą centralizuotose vietose, mes tvirtiname, kad federacijos mokymosi parametrų gradientuose rodomi skirtingi triukšmo ir partijos dydžio pokyčiai.

Apskritai, mūsų išvados yra pritaikomos įvairioms pramonės šakoms. Kažkada tyrimo metodas įmonėms gali padėti kartu išmokti numatymo modelius arba, kaip mūsų pavyzdyje, padėti kelioms ligoninėms mokyti diagnostikos modelių. Siūlomas algoritmas leistų šiems įvairiems subjektams naudotis universaliu modeliu, išmoktu iš daugelio kolegų bendraautorių duomenų, nereikalaujant centralizuoti duomenų ar rizikuojant atskleisti privačią informaciją.

Mes pristatėme savo privatumo apsaugos pažangą decentralizuoto mokymosi metu „NIPS 2017“ seminare: mašinų mokymasis telefone ir kituose vartotojų įrenginiuose. Žemiau galite pamatyti mūsų NIPS pristatytą plakatą. Daugiau informacijos galite rasti čia.

Norėdami gauti daugiau informacijos apie mūsų darbą, skaitykite originaliame tyrime: https://arxiv.org/abs/1712.07557