• Legfontosabb
  • Mód
  • 1. Az online nonprobability felmérések pontosságának felmérése

1. Az online nonprobability felmérések pontosságának felmérése

Az online felmérés becslésének pontossága az egyes gyártók között jelentősen eltérA kereskedelemben kapható online nonprobability minták jelenlegi helyzetének jobb megértése érdekében a Pew Research Center elvégzett egy tanulmányt, amelynek során azonos kérdőívet adtak be kilenc mintának, amelyeket nyolc különböző gyártó szállított, valamint a Center valószínűség-alapú online paneljét. A benchmarking elemzés - amelyben az egyes felmérések eredményeinek egy részét összehasonlították az arany-standard kormányzati forrásokból származó eredményekkel - az online mintapiaci szolgáltatók között jelentős eltéréseket tár fel a súlyozott becslések pontosságában.

A legjobban teljesítő minta átlagosan közel 1,5 százalékponttal volt pontosabb, mint a második legjobban teljesítő minta (az átlagos becsült torzítás 5,8 százalékpont az I. minta esetében, szemben a 7,2 a H minta esetében). A legrosszabbul teljesítő minták átlagosan körülbelül 10 százalékponttal elmaradó becsléseket eredményeztek.

Általánosságban a bonyolultabb mintavételi és súlyozási eljárásokkal és hosszabb terepi periódusokkal rendelkező minták pontosabb eredményeket hoztak. A kevésbé pontos mintákat általában csak a nem, az életkor és a régió szempontjából választották (vagy „kiegyensúlyozottak” voltak). A legjobban teljesítő minták ezzel szemben nemcsak ezekre a jellemzőkre, hanem olyan változókra is kiegyensúlyozódtak, mint az oktatás és a jövedelem. Ez utóbbi mintahalmaz szintén hosszabb ideig volt a terepen, ami valószínűleg arra utal, hogy a szigorúbb kiválasztási eljárások alkalmazása időigényesebb, mint a kevésbé szigorú eljárások alkalmazása. Ennek a tanulmánynak a korlátai azonban a következtetéseket legjobb esetben is megalapozzák. Adataink mindössze kilenc mintából származnak, amelyek egyike sem kísérleti úton manipulálta ezeket a tervezési jellemzőket. Következésképpen ezeknek a tulajdonságoknak a hatása nem eléggé elszigetelt.

Összesen 20 benchmark mérést alkalmaztak ebben a vizsgálatban (lásd a D. függeléket). Számos különböző témát érintenek, beleértve a dohányzást, az egészségügyi ellátást, a jövedelmet, a részvételt civil vagy rekreációs szervezetekben, a szavazást, a háztartás összetételét, az internethasználatot és egyebeket. A referenciaértékeket magas színvonalú szövetségi forrásokból származtatták, nemzeti felmérések vagy adminisztratív adatok alapján. Jóllehet ezek a pontosság jó mutatói, fontos szem előtt tartani, hogy a politikai attitűd mérései gyakran a felmérések célpontjai, de csak gyengén kapcsolódnak ezekhez a benchmark változókhoz, és így nem feltétlenül ugyanazok az elfogultságok. Például az a tény, hogy a G minta átlagosan becsült 8,0 torzítást eredményezett a 20 referenciaértéken keresztül, nem jelenti azt, hogy szükségszerűen megfigyelnénk ezt az elfogultsági szintet a minta becsléseiben, például az amerikaiak bevándorlással kapcsolatos nézeteiről.

A legalacsonyabb átlagos becsült torzítást mutató minta (I) az egyetlen nem valószínűsíthető minta, amelynél az eladó által biztosított súlyok jobban teljesítettek, mint az a standardizált súlyozási protokoll, amelyet a Központ valószínűség-alapú online paneljén használt gereblyézéshez igazítottunk, az American Trends Panel (ATP). A tanulmányban alkalmazott szabály az volt, hogy melyik súlyt (szállító által biztosított vagy standardizált súlyunk) kell alkalmazni, ami jobban teljesít az átlagos becsült torzítás minimalizálása szempontjából. Ez a szabály tiszta minták összehasonlítását áldozza fel a „rendelkezésre álló legjobb csomag” összehasonlítás mellett, amely lehetővé teszi annak lehetőségét, hogy az eladók képesek legyenek hatékonyabban súlyozni saját mintájukat, mint mi.

A vizsgálatban szereplő kilenc nem valószínűségi minta közül az eladók öt súlyt adtak meg (B, C, E, F és I). A másik négy mintát (A, D, G és H) szállító szállítók nem voltak hajlandók súlyokat adni, jelezve, hogy a minta kiegyenlítése (például kvóták) elegendő egy országosan reprezentatív felmérés elkészítéséhez. Az összehasonlító eredmények azt sugallják, hogy néhány széles kvóta bevezetése valójában nem elegendő ezen minták legalább egy részéhez.



Míg több gyártó képes mintavételezésre vagy súlyozásra olyan változók között, amelyek meghaladják a szokásos demográfiai adatokat, az I. minta ebben a tekintetben szokatlan volt. A 20 referenciaérték közül kettő, a választói regisztráció és az internethasználat azon változók között szerepelt, amelyekre a mintát kiigazítottam. Különböző okokból az adott minta súlyozott becslései nem érték el pontosan az egyik referenciaértéket sem. Az a puszta tény, hogy a minta ezeken a változókon volt feltételezve, megkérdőjelezi az I. minta teljesítményének összehasonlíthatóságát ebben a benchmarking elemzésben a többi értékelt mintához képest. Pontosabban felveti a kérdést, hogy a többi minta jobban teljesített volna-e, ha őket is kiválasztják és súlyozzák, ahogyan az I. mintát. Annak érdekében, hogy ne tegyük hüvelykujjunkat a skálára, különösen mivel az ATP az egyik összehasonlítási pont, megengedtük, hogy mindkét változó maradjon a benchmarking elemzésben, és hogy az I. minta profitáljon a jobban teljesítő szállítói súlyából.

Annak megértése érdekében, hogy ezek a döntések milyen hatást gyakorolnak a benchmarking eredményekre, újból lefuttattuk az elemzést, csak a 18 változó felhasználásával, amelyeket legjobb tudásunk szerint nem használtunk egyik minta mintavételénél vagy súlyozásánál sem. Ismét elvégeztük azt az elemzést, amely a standard súlyt az I. mintára vetette ki, nem pedig a szállító súlyát. Mindegyik esetben az I. minta továbbra is a legkisebb átlagos becsült torzítást mutatta. Ez azt jelzi, hogy az I. minta felsőbbrendűsége nem egyszerűen az eladó súlyozási protokolljának függvénye; toborzási és / vagy mintaválasztási folyamatokból is fakad.

Feszültség a kondicionálás és a mérés között

Míg az én mintám teljesítette a legjobban a benchmarking elemzést, ennek az eredménynek az elérési módja kiemeli a felmérés kutatóinak kritikus kérdését ebben a korszakban, amikor a minták hiányosságainak kijavítására szolgáló modellek egyre nagyobb mértékben támaszkodnak. Az I. minta megtervezése több olyan változóra támaszkodott, amelyet sok társadalomtudós tanulmányozott felmérés eredményeként - politikai párt, ideológia, politikai érdeklődés, szavazói regisztráció és internethasználat. Ha az ilyen változókat a felmérésben „kiegyenlítik”, „megegyezik” vagy más módon „kiigazítják”, akkor a felmérés által becsült véletlen változók már nem; ehelyett a felmérés tervezője előre meghatározta, hogy mi lesz a felmérés becslése (vagy legalábbis a becslések lehetséges tartománya) ezekre a változókra. Ebben az esetben az I. minta kiválasztásában és súlyozásában használt változók közül kettő, a választói regisztráció és az internethasználat szerepelt az elemzés során használt benchmark eredmények között.

E felmérések megbízásából szerzett tapasztalataink alapján valódi aggodalomra ad okot annak lehetősége, hogy egy mintavevő előre meghatározzon egy vagy több olyan változót, amelyet egy kutató tanulmányozni szándékozik. Történelmileg ez viszonylag csekély kérdés volt, mivel a felmérés-beszállítók általában csak azokhoz a demográfiai változókhoz igazodnának (pl. Nem, életkor, faj, régió), amelyekről a hozzáértő felmérés fogyasztói megértették, hogy nem ezek a felmérésben becsült legfontosabb eredmények. Az utóbbi években azonban megfigyelhető az a tendencia, hogy a mintákat a változók nagyobb számú és sokfélesége alapján állítsák be - ez a tendencia különösen hangsúlyos egyes online mintakészítők esetében.

Manapság számos online felmérés-forgalmazó nem demográfiai változóktól feltételezi a mintákat annak érdekében, hogy reprezentatívabbak legyenek.8.Óvatosan és a felmérés célkitűzéseinek teljes figyelembevételével megvalósítva ez a gyakorlat hozzájárulhat az adatok minőségének javításához.9.Ha azonban az eladó a mintát az attitűdökre vagy viselkedésre igazítja, anélkül, hogy figyelembe venné az analitikai tervet, fennáll annak a kockázata, hogy akaratlanul befolyásolja a tanulmányi eredményeket. A probléma elkerülése érdekében elengedhetetlennek tűnik az eladó és az ügyfélkutatók közötti gondos koordináció.

Néhány elfogultság meglehetősen következetes az online mintákban, mások nem

Míg az átlagos becsült torzítások tartománya (az 5,8 százalékponttól alacsonyabb értékig a 10,1-es csúcsig) egyértelmű különbségeket mutat az online nem valószínűségi minták között, az elfogultságok iránya néhány közös vonást feltár.

Valamennyi minta több politikai és állampolgári elkötelezettséggel rendelkező egyént tartalmaz, mint amennyire a referenciaértékek szerint jelen kell lennie. Az önkéntesség és a közösségi problémamegoldás intézkedéseinek elfogultsága nagyon nagy volt, míg a politikai elkötelezettség szerényebb volt. Például a kilenc online nonprobabilty minta átlagosan 20 százalékponttal túlbecsülte azoknak a felnőtteknek a részarányát, akik az elmúlt év során a környéken dolgoztak egy probléma megoldása vagy a közösségük vagy más helyzetek állapotának javítása érdekében. Ugyanezek a minták átlagosan 9 ponttal becsülték felül a helyi választásokon mindig szavazó felnőttek arányát. Az ezen elemek mérési hibájával kapcsolatos aggodalmak ellenére elfogadott, hogy ezek a hibák valósak, mert számos tanulmány dokumentálta a kapcsolatot a felmérésekkel való együttműködés és az önkéntes tevékenységekben való részvétel iránti hajlandóság között.

Az online minták általában külön társadalmi-gazdasági profilt mutatnak

Vannak olyan bizonyítékok is, amelyek kevésbé következetesek, hogy az online nem valószínűsíthető minták inkább inkább bizonyos életstílusok felé hajlanak. Különösen a minták többségében aránytalanul magas azok a felnőttek, akik egyedül élnek, munkanélküli ellátásokat gyűjtenek, nincsenek gyermekeik és alacsony jövedelműek. Például a Munkaügyi Minisztérium jelenlegi népességfelmérése (CPS) szerint az amerikai felnőttek 4% -a olyan háztartásban él, amelyben valaki állami vagy szövetségi munkanélküli kártérítést kapott az elmúlt évben. A kilenc nem valószínűségi minta súlyozott becsléseinek átlaga ezzel szemben 10% volt, és a legalacsonyabb 8% -tól (H és I minta) 16% -ig (D minta) terjedt. Más témakörökben azonban az online nonprobabilty becslések vagy elég pontosak, vagy az elfogultságok nem állnak összhangban. Például az összes minta súlyozott becsléseket adott, amelyek ésszerűen közel voltak (4 százalékponton belül) a vezetői engedély birtoklásának referenciaértékéhez (86%).

Az American Trends Panel teljesítménye

Az American Trends Panel, a Pew Research Center országos, felnőttekből álló testülete, amelyet egy nagy, kettős keretű RDD felmérés végén toboroztak, az egyetlen valószínűségen alapuló minta a vizsgálatban. A többi értékelt mintához hasonlóan a válaszadók többsége online vett részt, de az ATP abban különbözik, hogy az internetes hozzáféréssel nem rendelkező felnőttek számára is válaszol. Arra kérjük az ATP minden tagját, hogy töltse ki az összes felmérést, amelyet nagyjából havonta végeznek. Összehasonlításképpen, az összes nem valószínűségi minta összehasonlító módon választja ki a potenciális válaszadókat egy adott felméréshez úgy, hogy almintát vesz a paneljéből, egyeseknél pedig a folyóforrásokból.10.

Az ATP nagyobb hibákat mutat a polgári és politikai becsléseknél, mint másokEbben a tanulmányban az ATP nem célja, hogy az összes valószínűségi mintát bármilyen érdemi módon képviselje, hanem egy összehasonlítási pontot nyújt. Az ATP-vel kapcsolatos tipikus felmérés kumulatív válaszaránya 3,5%, ami azt a tényt tükrözi, hogy a 9% körüli válaszadási arányú toborzási telefonos felmérések után is jelentős mértékű lemorzsolódás történt. Nyitott kérdés, hogy ebben az elemzésben egy egyszeri kettős keretű RDD minta vagy valamilyen más valószínűségen alapuló megközelítés hogyan kerülne egymásra. A Pew Research Center jövőbeli munkája adatokkal szolgál majd erről a kérdésről.

Ebben az elemzésben a magányos valószínűség-alapú panel - az ATP - nem áll ki olyan következetesen pontosabbnak, mint a nem valószínûségi minták, mivel a benchmark elemek többségében tapasztalható általános erõsségét aláássák a polgári vonatkozású témák hiányosságai. Összességében az ATP az átlagosan becsült torzításban az ötödik helyen állt a 10 értékelt minta között. A politikai és a polgári szerepvállalással nem összefüggő intézkedések átlagos átlagos elfogultsága volt (4,1 százalékpont), de lényegében három másik mintához volt kötve, mivel ezeknél a kérdéseknél a legnagyobb az elfogultság (13,4 pont).

Valószínű magyarázat erre a mintára az, hogy az ATP elfogultabb a polgári kapcsolatban álló felnőttek felé, mivel egy 20 perces telefonos felmérésből toboroztak. Amint arról a Pew Research Center korábban beszámolt, az önkéntes tevékenységet folytató emberek nagyobb valószínűséggel vállalják, hogy részt vesznek a felmérésekben, mint azok, akik nem vesznek részt. Logikus, hogy a hosszú távú politikai felméréssel folytatott együttműködés szűkítette az ATP-tagok potenciális állományát azokra, akik hajlamosabbak a polgári és politikai szerepvállalásra. A panel felvételét viszont tovább szűkíthették azok, akik kedvezően értékelték a telefonos felmérés tapasztalatait.

Van néhány bizonyíték ebben a tanulmányban ezekre az összetevő tényezőkre. A CPS becslése alapján az összes amerikai felnőtt 69% -át regisztrálták szavazásra. Az ATP felvételéhez használt telefonos felmérés regisztrációs becslése 73% volt, az ebben a tanulmányban használt ATP becslés (a 10. hullámból) 76% volt. A regisztrált választók nagyobb valószínűséggel csatlakoztak a testülethez, mint a nem regisztráltak, és az idő múlásával a testületben nem regisztrált felnőttek valamivel nagyobb eséllyel esnek ki.tizenegy

A spanyolok, feketék, fiatal felnőttek becslései általában különösen elfogultak

A spanyolok és a feketék becslései mutatják a legnagyobb torzítást az összes fő alcsoport közülA legfelsõbb becslések fontosak, de a felmérések megpróbálják jellemezni a kulcsfontosságú népességi alcsoportok véleményét és viselkedését is. Ez felveti a kérdést, hogy a teljes mintabecsléseknél megfigyelt átlagos torzítási szintek a legfontosabb alcsoportokban eltérnek-e. Ennek felmérésére kiszámoltuk a nemek, életkor, végzettség, faj és etnikai hovatartozás alapján meghatározott főbb alcsoportok referenciaértékeit, és megismételtük az elemzéseket az egyes alcsoportok esetében. Ez az elemzés az összes referenciaértéket felhasználja, kivéve a vezetői engedély meglétét (az adott jellemző alcsoportjának benchmark értékeinek kiszámításához nem állt rendelkezésre mikradatkészlet).

A spanyolok és a feketék alapján készített online nonprobability minta becslések különösen nagy torzításokat mutatnak. A kilenc nem valószínűsíthető minta esetében a referenciaértékektől való átlagos eltérés 15,1 százalékpont volt a spanyol becsléseknél, és 11,3 százalékpont a feketék esetében. Az I. minta és az ATP az egyetlen megvizsgált minta, amelynek átlagos referencia-eltérései vannak az egyes számjegyekben mindkét alcsoport esetében.

Az elfogultság általában nagyobb a fiatalabb felnőtteknél, mint az idősebb felnőtteknélA becsült torzítás különösen nagy volt a fiatal felnőttek esetében is. A fiatalabb becsléseknél nagyobb átlagos eltérés mint az idősebb felnőtteknél (11,8 pont 18-29 éves korig, szemben a 9,6 ponttal 65 éves és idősebb korban) kissé meglepő, mivel a fiatal felnőttek internethasználata sokkal magasabb, ami arra utal, hogy jobban képviseltesse magát az online paneleken.

A becsült elfogultság nemenként is változott. A vizsgálat összes mintájának nagyobb volt az elfogultsága a férfiakról, mint a nőkről szóló következtetések levonásakor. A kilenc nem valószínűségi minta esetében az átlagos eltérés 9,9 százalékpont volt a férfiaknál, szemben a nők 7,6 százalékponttal.

Az oktatási kategóriák közötti különbségek nem voltak túl drámai, bár az átlagos becsült torzítások általában valamivel nagyobbak a középiskolai végzettségű felnőttekre alapozott becsléseknél, vagy alacsonyabbak, mint a formálisabb végzettséggel rendelkező felnőttek esetében.

Figyelmeztetések a benchmarkokkal kapcsolatban

A felmérések elfogultságának értékelése objektív standardot igényel, amelyhez a felmérés eredményeit össze lehet hasonlítani. A választási szavazásnak ilyen színvonala van, legalábbis a szavazási szándék mérésére: a választás eredménye. Az adminisztratív nyilvántartások, például a licencben szereplő illesztőprogramok száma ebben a jelentésben, másokat is biztosíthatnak. De a legtöbb ilyen referenciaértéket más felmérésekből veszik. Az engedéllyel rendelkező járművezetők számától eltekintve, az itt használt viszonyítási alapokat nagy kormányzati felmérések vonják le, amelyeket jelentős költségekkel és a felmérés minőségére fordítva nagy figyelmet fordítanak. De mégisfelmérésekés ugyanazoknak a problémáknak vannak kitéve, mint amilyenek az olyan felmérések, mint az American Trends Panel és az itt vizsgált nonprobability felmérések.

A kormányzati felmérések válaszadási aránya általában nagyon magas, összehasonlítva a kereskedelmi beszállítók vagy nonprofit szervezetek, például a Pew Research Center által végzett valószínűségi mintákkal. Ennek megfelelően a válasz nélküli elfogultság kockázatát általában alacsonyabbnak tartják ezeknél a kormányzati felméréseknél, bár ez még mindig fennáll. Ennél relevánsabb az a tény, hogy minden felmérés, a válaszaránytól függetlenül, mérési hibának van kitéve. A kormányzati felmérések során feltett kérdéseket gondosan kidolgozzák és tesztelik, de nem mentesek azoktól a tényezőktől, amelyek minden felmérés során megbízhatósági és érvényességi problémákat vetnek fel. A kérdés feltevésének kontextusa - az előtte felmerülő kérdések - gyakran befolyásolja a válaszokat. Tekintettel arra, hogy tanulmányunk több mint egy tucat különböző kormányzati felmérésből választ ki referenciaértékeket, lehetetlen újrateremteni azt a pontos kontextust, amelyben az egyes kérdéseket feltették. Hasonlóképpen, az összes felmérési elemre vonatkozhat bizonyos fokú válasz-torzítás, nevezetesen a „társadalmi kívánatosság torzítása”. Különösen akkor, ha egy kérdező van jelen, a válaszadók időnként módosíthatják válaszaikat, hogy kedvezőbb fényben jeleníthessék meg magukat (például a szavazás gyakoriságának túlértékelésével). Mindezek a tényezők befolyásolhatják a különböző felmérések során kért látszólag azonos intézkedések összehasonlíthatóságát.

Egy másik kérdés: A viszonyítási alapok általában nem állnak rendelkezésre olyan attitűdökkel és magatartással kapcsolatos kérdések esetében, amelyeket a kormány nem vizsgál. Ennek eredményeként ez az elemzés a felmérés során feltett kérdéseknek csak egy részéhez használ referenciaértékeket. Sőt, a Pew Research Center munkája - és más politikai és társadalmi kutatásokat végző közvélemény-kutató szervezetek munkája - általában más témákra és kérdésekre összpontosít, mint amelyekre referenciaértékek állnak rendelkezésre. Az elnökválasztásokon végzett közvélemény-kutatások általában jó eredményei, beleértve a Pew Research Center felméréseit is, arra utalnak, hogy a jól megtervezett felmérések akár valószínűségi, akár nem valószínűségi minták felhasználásával pontos mérőszámokat adhatnak a politikai preferenciákról. De a választások közvélemény-kutatási eredményei alig hibátlanok, és a jelöltválasztás csak egy jelenség a sok általunk vizsgált közül. Az adatok minőségének értékelése a legjobb esetben is pontatlan folyamat. Ezért fontos szem előtt tartani, hogy a benchmarking biztosítja az intézkedéseketbecsültelfogultság, és nagymértékben függ az adott intézkedéstől.