Kaip analizuoti Pew tyrimų centro tyrimų duomenis R

„Pew Research Center“ skelbia savo apklausos duomenis viešai kaip „IBM SPSS“ failai su .sav plėtiniu. Bet jei neturite prieigos prie SPSS, yra nemokamų atvirojo kodo įrankių, skirtų duomenims analizuoti ir jais naudotis.

Net naudojant pagrindinę SPSS prieigą, darbui su apklausos duomenimis reikalingi papildomi įrankiai ar metodai, kad būtų galima teisingai valdyti apklausų svorius ar kitas sudėtingas apklausos dizaino ypatybes. Analizės, kuriose neatsižvelgiama į šias projektavimo ypatybes, gali duoti šališkus rezultatus ir pervertinti įverčių ar statistinių testų tikslumą. Laimei, įrankiai, skirti tinkamai atlikti tokio tipo analizę, yra laisvai prieinami „R“ statistinės programinės įrangos platformoje.

Šis įrašas pateikia trumpą pamokymą, kaip teisingai išanalizuoti centro apklausos duomenis naudojant R. Tai yra pirmasis iš retkarčiais pateikiamų pranešimų, skirtų padėti analizuoti apklausos duomenų rinkinius naudojant R., serijos.

Kas yra R?

R yra kalba ir aplinka statistiniam skaičiavimui ir grafikai. „R“ galima įsigyti kaip nemokamą programinę įrangą šaltinio kodo forma pagal „Free Software Foundation“ GNU bendrosios viešosios licencijos sąlygas. Jis kaupia ir veikia įvairiose UNIX platformose ir panašiose sistemose (įskaitant „FreeBSD“ ir „Linux“), „Windows“ ir „MacOS“. Norėdami daugiau sužinoti apie R ir kaip jį atsisiųsti, apsilankykite r-project.org.

Šiame įraše bus analizuojama:
 - R
 - „R Studio“ (atvirojo kodo redaktorius ir sąsaja, veikianti R kalba)
 - Šios laisvai prieinamos R pakuotės:
· Užsienio
· Apklausa
· Mezgėjas

Norėdami įdiegti šiuos paketus, naudokite šį kodą:

install.packages (c („užsienio“, „apklausa“, „mezgėjas“))

Prieiga prie „Pew Research Center“ duomenų

Daugelį „Pew Research Center“ apklausų duomenų rinkinių galima atsisiųsti apsilankant „Duomenų rinkinių“ skirtuke centro svetainėje. Norėdami gauti daugiau informacijos apie tai, kokius duomenis išleidžia centras ir kaip prie jų prieiti, skaitykite šiame tinklaraščio įraše.

Beveik visi duomenys, kuriuos galima atsisiųsti iš centro, yra saugomi kaip SPSS .sav failai. SPSS failuose dažnai yra ir vertybių, ir etikečių - pavyzdžiui, 1 - respublikonų, 2 - demokratų.

Šioje instrukcijoje bus naudojami duomenys iš 2017 m. Balandžio mėn. Centro politinės apklausos, kurioje daugiausia dėmesio buvo skirta tokioms temoms kaip amerikiečių nuomonė apie nacionalines institucijas ir jų pasitikėjimas vyriausybe.

Apklausos duomenys įkeliami į R

Pirmasis tyrimo duomenų analizės R žingsnis yra duomenų failo nuskaitymas į jūsų R aplinką. Kadangi duomenys saugomi kaip .sav failas, norėsite naudoti read.spss () funkciją iš R „užsienio“ paketo. Žemiau pirmiausia įkeliame pakuotės bibliotekas ir tada nuskaitysime duomenis į „data.frame“, kurį vadinsime „Apr17“. Pagal numatytuosius nustatymus read.spss () išlaiko visas apklausos duomenų kintamųjų ir reikšmių etiketes, tačiau jis automatiškai nesukuria duomenų rėmelio, todėl turime tiksliai nustatyti parametrą. Čia mes naudojame to.data.frame = TRUE, kad įkeltume failą į mūsų R aplinką kaip data.frame.

 biblioteka (užsienio)
 biblioteka (apklausa)
 biblioteka (mezgėja)
 17 balandis <- read.spss („Apr17 public.sav“, # failo kelias į duomenų rinkinį
                    to.data.frame = TRUE) # nustato objektą prie duomenų rėmelio
## pakartotinis kodavimas iš CP1252

Jei paleisite šį kodą, gausite įspėjimą apie kintamuosius, kurie neturi etikečių kiekvienai kategorijai, pvz., Amžių. Tokiais atvejais read.spss () pridės šias etiketes pagal numatytuosius nustatymus. Jei ieškote kitokio elgesio, patikrinkite parinktį add.undeclared.levels ().
 
 Daugelis Centro duomenų rinkinių kintamųjų, tokių kaip lytis, rasė ir pan., Yra kategoriški. R, šios rūšies kintamieji vadinami veiksniais. Norėdami pamatyti, kaip koeficiento kintamasis pasiskirsto taip, galite naudoti funkciją lentelė ():

stalas (balandžio 17 d. vakarėlis)
 ##
 ## respublikonų demokratas
 ## 375 466
 ## Nepriklausomas Nėra pirmenybės (VOL.)
 ## 616 28
 ## Kita šalis (VOL.) Nežinau / Atsisakyta (VOL.)
 ## 9 7

Apklausos projekto sudarymas

Kitas tyrimo duomenų analizės žingsnis yra apklausos projektavimo objekto sukūrimas naudojant „R“ apklausos paketo „svydesign“ funkciją. Šis žingsnis yra svarbus tuo, kad jame aiškiai nurodomas apklausos planas, siekiant tinkamai naudoti apklausos svorius ir kitus projektavimo komponentus. „Svydesign“ funkcija priima daug įvairių formų sudėtingų apklausų dizainus. Norėdami perskaityti daugiau informacijos apie funkciją, spustelėkite čia.

Daugelio „Pew Research Center“ apklausų, įskaitant 2017 m. Balandžio mėn. Duomenų rinkinį, naudojamą šiame vadove, vartotojams deklaruojant apklausos planą reikia nurodyti tris elementus:
 
 1. Grupės identifikatoriai, kurių ID yra =. Beveik visi JAV atlikti centro tyrimai neturi klasterio identifikatorių. Naudokite ~ 0 formulę ir nurodykite, kad šioje apklausoje nėra klasterių.
 2. Tyrimo duomenų rinkinys su duomenimis =
 3. Tyrimo svarmenys su svoriais =

Apr17_design = svydesign (
         ID = ~ 0, # forma nurodo, kad nėra klasterių
         data = Apr17, #tai yra duomenų rinkinys
         svoriai = ~ svoris) #tai yra 'svorio' kintamasis
                            #iš „Apr17“ duomenų rinkinio

Įvertinkite dažnį su tyrimo svoriais

Paskelbę apklausos planą, naudodami funkciją svymean (), galite gauti įvertintus įvertinimus. Pagrindiniai „svymean“ () argumentai yra formulė, identifikuojanti jus dominantį kintamąjį ir apklausos projekto objektą.

Funkcija „svymean“ () gali būti naudojama apskaičiuojant svertinius vidurkius, dispersijas, koeficientus, sumas ir dar daugiau. Grąžinta statistika priklauso nuo kintamojo, į kurį jis kreipiasi, klasės. Pvz., Norint įvertinti prezidento Donaldo Trumpo patvirtinimą dėl darbo (q1 - koeficiento kintamasis), naudokite šį kodą:

svymean (~ q1, # kintamas įvertinti
         dizainas = Apr17_design # apklausos dizaino objektas
                                #kurtas su „svydesign“ ()
         )
 ## reiškia SE
 ## q1Patvirtinti 0.394008 0.0144
 ## q1Atmesti 0.542368 0.0147
 ## q1Nežinau / atsisakyta (VOL) 0,063624 0,0078

Norėdami pažvelgti į Trumpo darbo patvirtinimą skirtinguose pogrupiuose, galite naudoti funkciją „svyby“ (), kuri skaičiuoja duomenų rinkinio pogrupių statistiką. Funkciją „svymean“ () galima naudoti kartu su funkcija „svyby“ (), norint apskaičiuoti svertinius įverčius duomenų pogrupiuose, kuriuos nustato kiti veiksnių kintamieji. Mezgėjo paketo funkcija „kable ()“ rodo statistiką lentelių forma.

Pavyzdžiui, norint įvertinti vyrų ir moterų prezidento patvirtinimą, galite naudoti šį kodą:

q1_by_sex = svyby (~ q1, # kintamasis įvertinti
                   ~ lytis, #grupės kintamasis
                   dizainas = Apr17_design,
                   FUN = svymean, #funkcija, naudojama kiekviename pogrupyje
                   keep.names = FALSE #neįtraukiami eilutės pavadinimai
                                       #for pogrupio kintamasis
      )
 
 mezgėjas :: kablelis (q1_by_sex, skaitmenys = 2)

Šis įrašas tiesiog nubraižo įvairių rūšių analizę, kurią galite atlikti „R“ su apklausos paketu, bet tikiuosi, kad to pakanka norint pradėti. Ateityje planuojame su R. rašyti papildomus pranešimus apie apklausos duomenų analizę ir vizualizaciją. Jei turite klausimų apie šį įrašą ar turite kitų dalykų, susijusių su apklausos duomenimis ir R, kuriuos norite žinoti, kaip tai padaryti, praneškite mums žinoti adresu info@pewresearch.org.

Nickas Hatley yra „Pew“ tyrimų centro tyrimų analitikas.