• Legfontosabb
  • Mód
  • Új javaslat értékelése az adatok hamisításának felderítésére felmérések során

Új javaslat értékelése az adatok hamisításának felderítésére felmérések során

Frissítve 2016. február 25


A cikk egy változatát az IAOS Statisztikai Lapjában tették közzé.

Írta: Katie Simmons, Andrew Mercer, Steve Schwarzer és Courtney Kennedy


Az adathamisítással kapcsolatos aggodalom ugyanolyan régi, mint a közvélemény-kutatás szakma. Az adatok hamisításának mértékét azonban nehéz számszerűsíteni, és nem kellően dokumentált. Ennek eredményeként a hamisítás statisztikai becslésekre gyakorolt ​​hatása lényegében ismeretlen. Mindazonáltal létezik egy bevett megközelítés az adathamisítás problémájának kezelésére, amely magában foglalja a megelőzést, például kérdezőbiztosok képzésével, szoros felügyelet és észlelés biztosításával, például a technikai adatok mintáinak körültekintő értékelése révén, más néven paradata néven, és az érdemi adatok.

Kuriakose és Robbins (2015) nemrégiben megjelent cikkében új megközelítést javasol a hamisítás felderítésére. Az intézkedés kiterjeszti az adatkészleteken belüli duplikátumok keresésének hagyományos módszerét. A megközelítésük újdonsága az az állítás, hogy a válaszadók jelenléte, akik a megkérdezettek több mint 85% -ában megfelelnek egy másik válaszadónak, amit magas egyezésnek nevezünk, valószínű hamisításra utal. Ezt a küszöböt alkalmazzák a nyilvánosan elérhető nemzetközi felmérési adatsorok körére, és arra a következtetésre jutnak, hogy minden ötödik nemzetközi felmérési adatkészlet valószínűleg hamisított adatokat tartalmaz.

Az az állítás, hogy a nemzetközi felmérésekben széleskörű hamisítás van, egyértelműen aggasztó. A Pew Research Center által lefolytatott és a jelentésben összefoglalt kiterjedt vizsgálat azonban azt állítja, hogy az állítás nem támogatott. Az eredmények azt mutatják, hogy a természetes, jóindulatú felmérési jellemzők megmagyarázhatják a magas egyezési arányt. Konkrétan a Kuriakose és Robbins által javasolt küszöb rendkívül érzékeny a kérdések számára, a válaszlehetőségek számára, a válaszadók számára és a lakosságon belüli homogenitásra. A több paraméterre való érzékenysége miatt a válaszadók valós körülmények között a kérdések tetszőleges százalékában képesek egyezni, még akkor is, ha a felmérés adatai érvényesek és sértetlenek. Más szavakkal, elemzésünk azt jelzi, hogy a javasolt küszöb hajlamos hamis pozitív eredmények generálására - hamisításra utal, ha valójában nincs is ilyen. Talán a legmeggyőzőbb bizonyíték, amely kétségessé teszi a széles körben elterjedt hamisítást, az, ahogyan a megközelítés magában foglal néhány magas színvonalú amerikai felmérést. A küszöb hamis pozitív adatokat generál, feltételezhetően hamisítás nélkül, de hasonló jellemzőkkel bír, mint a megkérdőjelezett nemzetközi felmérések.

Ez a cikk a következőképpen folytatódik. Először röviden áttekintjük az adathamisítás problémáját a felmérések során, és annak tipikus kezelését. Másodsorban összefoglaljuk Kuriakose és Robbins érvét a hamisított adatok azonosítására javasolt küszöbük mellett, és megvitatjuk a bizonyítékaikkal kapcsolatos aggályainkat. Harmadrészt felvázoljuk azokat a kutatási lépéseket, amelyeket a javasolt küszöbérték kiértékeléséhez követtünk, majd részletesen áttekintjük elemzésünk eredményeit. Végül a megállapítások és a terület egyéb módszereinek megbeszélésével zárulunk a minőség-ellenőrzési módszerek javításán.


I. Adathamisítás a felmérésekben

Minden felmérési adat, függetlenül az adatgyűjtés módjától, hajlamos a felmérési hibákra. Groves és mtsai. (2009) vázolja azokat a különböző hibaforrásokat, amelyek a teljes felmérési hibakeret keretében befolyásolhatják a felméréseket. Az egyik különösen a hibaforrást az adatok hamisítása jelenti.

Az American Association for Public Opinion Research (AAPOR) 2003. évi jelentése a felmérések hamisításának problémáját az irányelvektől vagy utasításoktól való szándékos eltérésként határozza meg (1. o.). A kutatóknak a terepi házra, az interjúztatókra és még a válaszadókra is támaszkodniuk kell a felmérés tervezési irányelveinek és a kérdőívre vonatkozó utasítások betartásához. Ez klasszikus megbízó-ügynök problémát vet fel. A terepi házak, a kérdezők és a válaszadók (az ügynökök) jobb információval rendelkeznek a terepmunkáról és az interjú helyzetéről, mint a kutatók (a vezetők) (Kosyakova et al., 2015, 418. o.). A személyes meghallgatáson alapuló felmérések esetében a hamisítással kapcsolatos kutatások hagyományosan az interjúztató-alapú hamisítás különböző formáira összpontosítottak (például teljes interjúk készítése vagy „megfékezése”, kérdések kihagyása, kérdések vagy válaszok módosítása), míg azokra a felmérésekre, amelyek nem kérdezőbiztosok bevonásával a hangsúly a válaszadók hibás magatartására összpontosult (például egyenes vonalvezetés vagy gyorshajtás a kérdőív segítségével).


Az adathamisítás korai tanulmányában Crespi (1945) azzal érvelt, hogy az interjúprotokollaktól való eltérés kevésbé az erkölcs, és inkább a morál problémája (431. o.). Crespi, aki főként az interjúztatókra koncentrált, felvázolta azokat a különféle tényezőket, amelyek visszatarthatják az interjúztatókat a feladataik hűséges elvégzésétől, ideértve a kérdőív jellemzőit (hosszú, összetett vagy érzékeny kérdőívek), az adminisztratív szempontokat (a nem megfelelő díjazás vagy a kérdezőbiztosok elégtelen képzése) és külső tényezőket ( rossz időjárás, nem biztonságos környezetek vagy nehezen elérhető területek).

Az adathamisítás problémájának mértéke nincs egyértelműen megállapítva, bár tudjuk, hogy a probléma létezik (Singer, 2008; Loosveldt, 2008). A tanulmányok főként az interjúkészítői módokra összpontosítottak, különös tekintettel a személyes felmérésekre. A kutatások azt mutatják, hogy a tapasztalatlan kérdezőbiztosok nagyobb valószínűséggel hamisítják az adatokat, és ezt szélesebb körben teszik meg, mint a tapasztaltabb kérdezők (Schreiner et al., 1988; Hood & Bushery, 1997). Ennek ellenére csak néhány tanulmány számol be becslésekről a hamisítás nagyságrendjéről. Ezek a tanulmányok nagyméretű, keresztmetszeti felméréseket értékeltek, és azt sugallják, hogy a hamisított interjúk aránya ritkán haladja meg az 5% -ot (Schreiner et al., 1988; Schraepler & Wagner, 2005; Li et al., 2009).

A hamisított adatok jelenléte nem egyértelmű a felmérés eredményeire. Az irodalomban közölt bizonyítékok nem vezetnek végleges következtetésre, hogy a hamisított adatok megváltoztatják-e a marginális eloszlást vagy a többváltozós statisztikai technikák eredményeit (pl. Reuband, 1990; Schnell, 1991; Diekmann, 2002; Schraepler & Wagner, 2005). Mindezek a kutatások azonban olyan felméréseken alapulnak, amelyek csak kis hányadban tartalmazzák a hamisított adatokat.

Az adatok hamisításának mértékétől függetlenül a közvélemény területe nagyon foglalkozik a probléma kezelésével. A szokásos megközelítés kettős: megelőzés és detektálás (AAPOR, 2003; Lyberg & Biemer, 2008; Lyberg & Stukel, 2010). A megelőzés magában foglalja az eladóval való kapcsolat kialakítását, az interjúztatók alapos kiképzését az adott felmérés céljairól, protokolljairól és kialakításáról, valamint az interjúk készítésének általános elveiről és gyakorlatáról, az interjúztatók megfelelő díjazásáról, az adott interjúztató felelős interjúinak számának korlátozásáról, az interjúk egy részhalmazának felügyelete minden interjúalany számára, és végül újbóli kapcsolatfelvétel vagy újbóli interjúzás, amelyet általában visszamenőleges ellenőrzésnek neveznek, az egyes kérdezőbiztosok interjúinak egy alcsoportja annak igazolására, hogy dokumentáltan elkészültek és lefolytattak. De a megelőzés költséges lehet. Annak ellenére, hogy nagyon hatékony lehet, nem garantálja a tökéletesen érvényes adatokat (Koch, 1995; Hood & Bushery, 1997).


A kimutatási módszerek két célt szolgálnak. Először segítenek a költséges megelőzési módszerek teljesítményének értékelésében. Másodsorban felhasználhatók olyan hamis interjúk azonosítására, amelyek megelőzték a megelőző intézkedéseket (Bredl et al., 2012; Diakité, 2013; Menold & Kemper, 2013; Winker et al., 2013). A detektálási módszerek magukban foglalják a legfontosabb mutatók értékelését, ideértve a paradata (interjú hossza, időbélyegek, geokódolás, az interjúk időzítése), a kérdezővel kapcsolatos adatok (tapasztalat, napi munkaterhelés, sikeresség) és az interjúval kapcsolatos adatok (a válaszadók jellemzői, interjú felvételei, eredmények ellenőrzése), valamint a válaszok szerkezetének elemzése (Benford törvénye, elutasítások, szélsőértékek, a válaszok koherenciája, idősorok konzisztenciája, ismétlődések).

De az észlelési módszerek pusztán olyan adatokat jelölnek meg, amelyek gyanúsak lehetnek. A hamisított adatok azonosítása nem egyetlen intézkedés eredménye, hanem a különböző szempontok értékelése azon tanulmány-specifikus környezeten belül, amelyben az interjúztatók munkájukat végzik. Bíró és Schechter (2009) a felmérés adatainak elemzéséből arra a következtetésre jutottak, hogy több tényező járulhat hozzá az adatok gyanús megjelenésű mintáihoz, és hogy a detektálási módszereket nem szabad „elkülönítve használni az adatkészlet minőségének megítélésekor” (24. o.). Minden probléma intenzív nyomon követést igényel a gyártókkal a minták mögöttes magyarázatának meghatározása érdekében.

Kuriakose és Robbins egy új detektálási módszert javasol, amely szigorú küszöböt javasol az adathalmaz magas egyezésének számára a hamisított adatok megjelölésére. A következő szakasz vázolja az érvelésüket.

II.a Kuriakose és Robbins eljárása és küszöbértéke

Kuriakose és Robbins dolgozatukban a lehetséges hamisítás egy bizonyos típusával foglalkozik, amelynek során az interjúztatók, a felügyelők vagy akár egy felmérő cég székhelye megismétli az érvényes interjúk válaszait, hogy elérje a kívánt minta nagyságát. Az észlelés elkerülése érdekében a hamisító (k) módosítanák az egyes válaszadók néhány kérdésre adott válaszait, hogy a válaszadók ne legyenek pontosan másolatai egymásnak.

A maximális százalékos mérkőzés kiszámításaEzt a hamisítási modellt szem előtt tartva a szerzők kifejlesztenek egy eszközt a Stata statisztikai programhoz, amely meghatározza a kérdések azon maximális százalékos arányát, amelyekre minden válaszadó megegyezik az adatkészlet bármely más válaszadójával. Ha az A válaszadó a B válaszadóval egyezik meg a kérdések 75% -ával, és a C válaszadóval megegyezik a kérdések 25% -ával, akkor az A válaszadó maximális százalékos egyezési statisztikája 75%. A táblázat szemlélteti ezt a példát.

Kuriakose és Robbins szerint két olyan válaszadónak, amely a kérdések nagy százalékában egyezik, az érvényes adatokban ritkának kell lennie. Erre a következtetésre a közvélemény-szakirodalom áttekintése, a szintetikus adatokkal végzett szimulációk és az Egyesült Államok széles körben elismert és megbízható amerikai nemzeti választási tanulmányok (ANES) és az Általános Szociális Felmérés (GSS) adatainak elemzése alapján hivatkoznak.

A szerzők Converse (1964) és Zaller (1992) két tudósra hivatkoznak, akik segítettek megalapozni azt a bölcsességet, miszerint az egyének politikai meggyőződése csak gyengén érvényesül, és ritkán strukturálódik koherensen ideológiai vonalak mentén. Emiatt a válaszadók általában következetlenek a hasonló témájú felmérési kérdésekre adott válaszaikban, nemcsak idővel, hanem ugyanazon felmérésen belül is. Kuriakose és Robbins ezt a logikát kiterjesztve azzal érvelnek, hogy két, azonos attitűddel rendelkező válaszadó nem valószínű, hogy következetesen hasonló válaszokat adna a felmérés kérdéseire.

Ennek az elméleti elvárásnak a továbbfejlesztése érdekében Kuriakose és Robbins Monte Carlo szimulációt hajtottak végre szintetikus adatokkal. A szintetikus adatokkal végzett szimulációk hasznosak lehetnek a komplex statisztikai folyamatok megértéséhez, amelyeket a valós adatokban nehéz megfigyelni. A szintetikus adatok felhasználásának potenciális hátránya azonban az, hogy a generált jóslatoknak alig lehet szerepük a valóságban, ha a kutató feltételezései ésszerűen nem képviselik a valós adatok szerkezetét.

Első szimulációjukhoz Kuriakose és Robbins véletlenszerűen generált 100 000 szintetikus adatkészletet, amelyek mindegyike 1000 válaszadót és 100 független változót tartalmazott. A változókhoz véletlenszerűen 1 vagy 0 értéket rendeltünk minden válaszadóhoz. Bármely érték 1-re vagy 0-ra esésének valószínűségét a cikk nem határozza meg, bár úgy tűnik, hogy az összes szimulált változó esetében mindkét eredmény egyformán valószínű, ami azt jelenti, hogy minden változó átlagos értéke 0,5. A szerzők ezután kiszámolták az egyes válaszadók maximális százalékos egyezési statisztikáját. Ebben a szimulációban azt találják, hogy ennek a statisztikának az átlaga 66%, és soha nem haladja meg a 85% -ot mind a 100 000 szimulációnál.

Ahogy Kuriakose és Robbins vitatják, első szimulációjuk azt feltételezte, hogy az adatkészlet változói függetlenek egymástól, ami nagyon különbözik a tényleges felmérési adatoktól. Ennek a korlátozásnak a kezelése érdekében megismételték ezt a szimulációt egy véletlenszerűen generált korrelációs mátrix segítségével, hogy teszteljék azt a helyzetet, amikor a változók nem függetlenek, és megállapították, hogy a maximális százalékos egyezési statisztika soha nem haladja meg a 85% -ot, bár az átlagérték magasabb, mint amikor a változók független. Kuriakose és Robbins azt sugallják, hogy egy valódi felméréshez képest szimulációik konzervatív tesztet jelentenek az adatkészlet maximális százalékos egyezésének, mert a legtöbb felmérés kétnél több értéket tartalmazó kérdéseket használ. Vagyis arra számítanak, hogy a szimulációnak átlagosan magasabb a maximális százalékos megfeleltetése, mint a gyakorlatban a nem hamisított adatokkal.

Szimulációjuk eredményeinek érvényesítéséhez Kuriakose és Robbins két, az Egyesült Államokban végzett tanulmány adatai alapján kiszámítja a maximális százalékos egyezési statisztikát - az American National Election Studies (ANES, 1948-2012) és az General Social Survey összes rendelkezésre álló hulláma. GSS, 1972–2014), amely legalább 100 kérdést tartalmazott. Az összes ilyen adatkészletben a szerzők 35 olyan válaszadót találtak, akik a válaszadók több mint 85% -ában egy másik válaszadóval találkoztak, ami az összes válaszadó kevesebb mint 0,05% -át tette ki.

Kuriakose és Robbins ezeket az eredményeket megerősítik szimulált eredményeikkel, és arra a következtetésre jutnak, hogy ésszerű küszöb a valószínű hamisítás azonosítására az a válaszadók százaléka, akik az összes érdemi változó több mint 85% -án egy másik válaszadóval egyeznek. A szerzők azzal érvelnek, hogy a válaszadók több mint 5% -ának jelenléte egy olyan adatkészletben, amely a 85% -os küszöb szerint magas egyezésnek számít, valószínű adathamisítást jelez.

II.b Kuriakose és Robbins megközelítésével kapcsolatos aggodalmak

Figyelembe véve azokat a kihívásokat, amelyekkel minden kutató szembesül a magas színvonalú felmérési adatok belföldi és nemzetközi összegyűjtésében, Kuriakose és Robbins új diagnosztikai eszköz kifejlesztésére tett erőfeszítései a kutatás egyik fontos részét képezik. A szerzők megközelítésének logikája azonban két fő hibával rendelkezik. Az első az, hogy az érvelésüket alátámasztó matematikai feltételezések nem megfelelőek. A második az, hogy szimulációik, amelyek a megállapított küszöbük egyik kulcsfontosságú alapját képezik, alul specifikáltak, és alig hasonlítanak a valós felmérési adatokhoz.

Kuriakose és Robbins kezdeti elméleti elvárásai arról, hogy két válaszadó azonos válaszokat ad-e a kérdések egy részére (85%), azon a valószínűségen alapul, hogy két válaszadó minden kérdésre azonos választ ad. A szerzők megjegyzik, hogy két válaszadó, akinek 95% esélye van a 100 kérdés mindegyikében való megegyezésre, mind a 100 kérdésben kevesebb, mint 1% -ban egyezik (4. o.). A szerzők azonban nem foglalkoznak azzal, hogy a kérdések egy részének, például 85% -nak való megfelelés valószínűsége hatványozottan nagyobb, mint az összes kérdésre való egyezés valószínűsége. Például egy 100 kérdésből álló felmérésben csak egy olyan kérdéscsoport létezik, amely lehetővé teszi két válaszadó számára, hogy mind a 100 kérdésben találkozzanak. De vannak 3,1 × 1017.különböző kérdéssorok, amelyek lehetővé teszik, hogy két válaszadó legalább 85 kérdéssel találkozzon. Ez azt jelenti, hogy két válaszadó, akiknek a száz kérdés mindegyikében 95% -os az esélyük, egyetértenek legalább 85 kérdésben, az esetek 99% -ában.

Ez Kuriakose és Robbins szemléletének nagyobb gyengeségére utal - nevezetesen arra, hogy a szerzők nem szisztematikusan értékelik azokat a felmérési jellemzőket, amelyek miatt a magas egyezések valószínűsége változhat, például a minta nagysága, a kérdések száma, a szám a válaszadási lehetőségek vagy a lakosság homogenitása. Ezek a paraméterek közvetlenül befolyásolják a lehetséges válaszkombinációk számát, valamint a potenciálisan egyező válaszadók számát.

Kuriakose és Robbins azt állítják, hogy Monte Carlo-szimulációik konzervatív becslést adnak a maximális százalékos egyezési statisztika eloszlásáról. Mint megmutatjuk, szimulációikhoz azonban nagyon specifikus feltételeket választottak - 100 kérdés, 1000 válaszadó, 0,5 változó az összes változóhoz -, amelyek arra késztették őket, hogy kevés magas egyezést találjanak. Különösen az a feltételezés, hogy az összes változó átlagos értéke 0,5, kevéssé hasonlít a valóságra. A legtöbb közvélemény-kutatásban bizonyos arányok közelebb vannak akár nullához, akár egyhez, ami azt a tényt tükrözi, hogy a felmérésekben vizsgált témákban gyakran vannak többségi vélemények vagy magatartásformák. Feltételezve, hogy egy felmérés minden egyes kérdésének átlaga 0,5, alábecsüli, hogy a válaszadók között milyen természetes hasonlóság tapasztalható.

Figyelembe véve a szerzők nemzetközi felmérésekben elterjedt hamisításra vonatkozó aggodalmát, valamint a javasolt küszöböt megalapozó érvekkel kapcsolatos kétségeinket, többlépcsős kutatási tervet folytattunk annak érdekében, hogy teljes mértékben megértsük, hogy a felmérési adatkészletben a magas egyezések vannak-e csalás következményei vagy különféle felmérési jellemzőkkel rendelkezik.

III. a A küszöbérték értékelése

A paraméterek hatásának elvárásai a magas egyezések százalékáraÉrtékeltük a javasolt küszöb érzékenységét az eredeti cikkben nem tesztelt további paraméterek iránt, hogy jobban megértsük, hogyan reagálna a statisztika a valós felmérési körülmények változásaira. Az első paraméter a kérdések száma. Több kérdés esetén csökken annak a valószínűsége, hogy két válaszadó megfelel a kérdések nagy százalékának. A második a válaszlehetőségek száma a kérdésekben. Több válaszlehetőség mellett a válaszadók kevésbé valószínű, hogy ugyanazt a választ adják, mint valaki más. A harmadik a válaszadók száma. Ha több válaszadó van az adatkészletben, több lehetőség kínálkozik a válaszadók számára az egyezésre. A negyedik a mintán belüli homogenitás. Amikor a felmérés tartalma vagy a vizsgált népesség nagyobb homogenitást eredményez a véleményben, akár a teljes mintában, akár bizonyos alcsoportokban, meg kell nőnie annak a valószínűsége, hogy két válaszadó megegyezik. A táblázat ezeket az elvárásokat foglalja össze.

Szintetikus adatok és tényleges felmérési adatok felhasználásával, valamint magas színvonalú amerikai és nemzetközi felmérések elemzésével értékeltük e négy paraméter hatását az adatsorokban a magas egyezések arányára. Megállapítottuk, hogy Kuriakose és Robbins küszöbértéke rendkívül érzékeny a fent említett mind a négy paraméterre. Mivel meglehetősen gyakori körülmények között magas, maximális százalékos egyezéseket lehet elérni nem hamisított adatokkal, elemzésünk azt mutatja, hogy a hamisítás azonosításához nem megfelelő egyetlen küszöböt használni a maximális százalékos egyezési statisztikához.

Szimulációk szintetikus adatokkal

A szimulációk azért hasznosak, mert lehetővé teszik a kutató számára, hogy elemzéseket végezzen nagyon ellenőrzött környezetben. Megadhatjuk a feltételeket azoknak a paramétereknek, amelyeket szerintünk fontosnak tartunk, és kiértékelhetjük, hogyan változik a statisztika, ha ezek közül csak az egyiket változtatjuk. Ez a fajta elemzés lehetővé teszi számunkra, hogy elméleti elvárásokat fejlesszünk ki a valós adatok viselkedésének módjáról. A szintetikus adatoknak az ilyen típusú elemzéshez való felhasználásának komoly korlátja az, hogy ha a feltételezések jelentősen eltérnek a valós helyzetektől, akkor az ezekből származó elméleti elvárások nem lehetnek túl hasznosak.

Megismételtük Kuriakose és Robbins szimulációját, amely független bináris változókat használt, ahol az egyes változók átlaga 0,5 volt. Bővítettük elemzésüket a kérdések számának, a válaszadók számának és a változók átlagának változtatásával. A kérdések számához 20 és 120 közötti értékeket teszteltünk 20-as lépésekben. A válaszadók számához 500 és 2500 közötti értékeket teszteltünk 500 lépésekben. Ezt a szimulációs halmazt kétszer is elvégeztük. Először minden változó átlagát 0,5-re állítottuk, összhangban Kuriakose és Robbins megközelítésével. Másodszor minden változó átlagát véletlenszerűen állítjuk be, 0 és 1 közötti egyenletes eloszlás alapján. Ez a második feltétel jobban hasonlít a felmérési adatok valóságára, ahol egyes változók átlagértékei közel 0,5-nek, míg mások a szélsőségeket megközelítő eszközöknek vagy 0 vagy 1. A 0-hoz vagy 1-hez közeli átlagokkal rendelkező változók azt a típusú kérdést jelentik a felmérésekben, ahol a válaszadók homogénebbek a véleményükben.

Szimulációk felmérési adatokkal

Míg a szintetikus adatokkal végzett szimulációk tisztán matematikai gyakorlata hasznos lehet az alapvető elméleti elvárások kialakításához, az az aggodalom, hogy a szintetikus adatok nem megfelelően reprezentálják a tényleges felmérési adatokat, komoly korlátot jelent. Ennek megoldására szimulációkat is végeztünk tényleges felmérési adatokkal, hogy megértsük a különféle paraméterek valós körülmények közötti hatását. A további szimulációk alapjául a 2012-es amerikai Nemzeti Választási Tanulmányt és az Arab Barometer Wave Libanon III felméréseket használtuk. Ez két magas színvonalú felmérés, amelyet Kuriakose és Robbins küszöbértéke alapján feltételezzük, hogy nem párhuzamosak. A két felmérés nagy mintamérettel rendelkezik, 1000 és 2000 eset között, hosszadalmas kérdőívek, nagyjából 200 vagy annál több érdemi kérdéssel.1A felmérések nagysága lehetővé teszi számunkra, hogy véletlenszerűen kiválasszuk a kérdések és válaszadók részmintáit az összes kérdésből és az összes elérhető válaszadóból. Ezzel képesek vagyunk megváltoztatni a kulcsparamétereket egy félig kontrollált környezetben a valós felmérési adatok felhasználásával, ahol a változók és a válaszadók most korrelálnak. Kizártunk minden olyan kérdést, amelynél a válaszadók több mint 10% -ának hiányzik az értéke.

Ezzel a módszerrel az ANES segítségével értékeltük a kérdésekre adott válaszlehetőségek számának hatását is. A fent leírtakhoz hasonló szimulációkat hajtottunk végre, változtatva a kérdések számát és a minta nagyságát, de véletlenszerűen mintavételezett változókat is választási lehetőségeik száma alapján. Ezt a válaszlehetőségek tartományának átfedő szegmensei esetében tettük (pl. Két-négy válaszlehetőséggel rendelkező változók, három-öt válaszlehetőséggel stb.).

Kiváló minőségű, amerikai felmérési adatok értékelése

Végül részletesebben megvizsgáljuk a népesség homogenitásának a magas egyezések százalékos arányára gyakorolt ​​hatását. A népesség mögöttes homogenitását befolyásolja a felmérés tartalma - a válaszadók nagyobb valószínűséggel értenek egyet bizonyos kérdésekben, mint más kérdések - és a természetes egyezés a lakosság alcsoportjain belül - a válaszadók egyes csoportjai nagyobb valószínűséggel értenek egyet egymással a többi válaszadó kivételével.

A felmérés tartalmának értékeléséhez összehasonlítottuk a Pew Research Center hazai felmérési adataiban a magas egyezések arányát az ANES alapján végzett szimulációkból származó elméleti elvárásokkal. Az általunk használt valós felmérési adatok hasonlítanak az ANES-hez, mivel kevéssé aggódnak a hamisított adatok jelenléte miatt, mivel a felmérések véletlen számjegyű telefonos telefonos felmérések, központosított és élő kérdezői megfigyeléssel és részletes kapcsolattartási adatok gyűjtésével. Abban különböznek az ANES-től, hogy rövidebb kérdőívekkel rendelkeznek néhány koncentrált témában. Az elemzéshez négy, a Pew Research Center által 2014-ben és 2015-ben végzett felmérést tekintettünk át, köztük a nagy, 2014-es politikai polarizáció és tipológia felmérést, egy 2014. októberi választási felmérést és két, 2015-től származó tipikus havi felmérést, amelyek a legfontosabb politikai kérdésekkel foglalkoztak a hírekben a az idő. Az összes felmérés által lefedett tartalom jelentősen eltér, de a havi felmérések általában néhány főbb hírértékű kérdésre koncentrálnak.

Az alcsoportok népességhomogenitásának a magas egyezések jelenlétére gyakorolt ​​hatásának megértéséhez a fent leírt négy politikai felmérést, valamint a Pew Research Center által végzett 2014-es vallási tájkép-tanulmányt használtuk, amely 35 071 amerikai felnőtt országos reprezentatív telefonos felmérése. 41 érdemi kérdés, amelyet az összes válaszadó feltett. A Landscape Study adatgyűjtését három különböző kutatócég végezte. Általában az amerikai népesség nagyon változatos. De magában foglalja a homogénebb alcsoportok különálló zsebeit is az egyes felmérések által érintett különböző kérdések tekintetében. A politikai felmérések számos olyan kérdést vetnek fel, amelyek polarizálják a demokratákat és a republikánusokat, lehetővé téve számunkra, hogy értékeljük, hogy a magas mérkőzések aránya hogyan különbözik a pártos csoportok között. A vallási tájkép tanulmány többek között a vallási identitással, meggyőződéssel és gyakorlatokkal kapcsolatos kérdéseket tartalmaz. A felmérés nagysága lehetővé teszi számunkra, hogy olyan vallási csoportokat elemezzünk, amelyek viszonylag kicsi, homogén lakossági szegmensek, például mormonok, robusztus mintamérettel.

III.b eredmények: Szimulációk szintetikus adatokkal

Szimulációkat végeztünk szintetikus adatok felhasználásával, hogy megteremtsük a kezdeti elméleti elvárásokat arra nézve, hogy mit kell látnunk a valós felmérési adatokban, ha magas egyezések vannak jelen. Első szimulációnk kibővítette Kuriakose és Robbins megközelítését azáltal, hogy a változó átlagokat 0,5-nél tartotta, de az egyes felmérésekben szereplő kérdések és válaszadók számának variációit teszteltük. Minden szimulált felméréshez kiszámoltuk a magas egyezésnek minősített válaszadók arányát, vagyis a válaszadók a kérdések több mint 85% -án egy másik válaszadóval egyeznek. A minta nagyságának és a válaszadók számának minden kombinációját 1000-szer replikálták.

1. ábra: A magas egyezési statisztika érzékenysége a kérdések és eszközök számával szembenHa a változó átlag értéke 0,5, akkor a 100 vagy annál több kérdéssel rendelkező szimulációk egyikében sem szerepel magas egyezésű válaszadó, és csak néhányan teljesítik a 85% -os küszöböt 40 vagy 60 kérdéssel, a minta nagyságától függetlenül. A válaszadók jelentős százaléka csak 20 kérdésnél minősül magas egyezésnek: medián értéke 10%, ha a minta nagysága 500, és a medián értéke 40%, ha a minta nagysága 2500. A 100 változóval és 1000 válaszadóval rendelkező adatkészletek eredményei összhangban vannak Kuriakose és Robbins szimulációjával. Mindezen szimulációk grafikonja az A. függelékben található.

Ha azonban a változó eszközök véletlenszerűen változhatnak, akkor egészen más kép rajzolódik ki. Az 1. ábra összehasonlítja ezeknek a szimulációknak az eredményeit, amikor a mintaméretet 1000-re állítják (az A. függelék grafikonokat tartalmaz az összes szimulációhoz). Ha az eszközök kérdésenként változnak, drámai módon megnő a magas egyezésnek minősülő válaszadók aránya. 20 kérdéssel a medián felmérés 91% -kal volt magas, míg 60 kérdésnél a medián felmérés 15% -ot ért el. A szimulációk több mint egyharmada 120 kérdésnél is magas, 2% és 14% között mozog.

Szimulációiban Kuriakose és Robbins a felmérés paramétereinek egyetlen kombinációját tesztelték - 1000 válaszadó és 100 bináris kérdés implicit módon 0,5-re rögzített átlagokkal. További szimulációink bizonyítják, hogy eredményeik nagyon érzékenyek a paraméterek megválasztására. Kevesebb kérdéssel, nagyobb mintával vagy magas válaszadói egyetértéssel rendelkező felmérésekkel számolhatunk azzal, hogy olyan válaszadókat állítunk elő, akik jobban hasonlítanak egymásra. Ezenkívül ezek a szintetikus adatszimulációk továbbra is irreálisak. A kérdéseknek csak két válaszkategóriája van, és mindegyik független. Ez nem megfelelő alap ahhoz, hogy hipotéziseket alkossanak arról, hogy mire kell számítani a gyakorlatban, mivel a kérdések gyakran összefüggnek egymással, és gyakran több válaszlehetőséget tartalmaznak.

III.c eredmények: Szimulációk a tényleges felmérési adatokkal

Annak érdekében, hogy megismételjük a reálisabb felmérési feltételeket, miközben továbbra is megőrizzük a felmérés jellemzőinek feletti ellenőrzést, további szimulációkat hajtottunk végre a 2012-es ANES választások előtti felmérés és az Arab Barometer Wave III Libanon felmérés adatainak felhasználásával, véletlenszerűen kiválasztva a kérdéseket és a válaszadókat a változó kombinációk. Ezek olyan felmérések, amelyek sok kérdést tartalmaznak, kettőnél több válaszlehetőséggel, és ahol a kérdések és a válaszadók közötti összefüggések a tényleges népességét tükrözik.

Először az ANES adatait használtuk fel annak felmérésére, hogy a felmérésben szereplő magas egyezések aránya hogyan függ össze a felmérési kérdésekben szereplő válaszkategóriák számával. Ezt úgy hajtottuk végre, hogy olyan szimulációkat hajtottunk végre, amelyek a kérdések számán és a minta nagyságán kívül változtak a kérdésenkénti válaszlehetőségek száma. Ahelyett, hogy véletlenszerűen válogatnának egy felmérés összes lehetséges kérdése közül, ezek a szimulációk véletlenszerűen választanak ki olyan kérdésekből, amelyek két-négy, három-öt, négy-hat vagy öt-hét válaszkategóriát tartalmaznak. A 2. ábra az 1000 válaszadóval rendelkező adatkészletek eredményeit tartalmazza.

2. ábra: A magas egyezési statisztika érzékenysége a válaszkategóriák számára

A szintetikus szimulációkhoz hasonlóan a kérdések és a válaszadók száma továbbra is befolyásolja a magas egyezések arányát. Azt is tapasztaljuk, hogy a válaszlehetőségek számának csökkenésével a magas egyezések aránya jelentősen megnő. A várakozásoknak megfelelően ez a kérdések számától és a minta nagyságától függően is változik, de ha csak két-négy válaszlehetőség van, a magas egyezések mediánszázalékos aránya 87%, ha 20 kérdés van, és 25%, ha 80 kérdés van . Ez megerősíti azt, amire intuitíve számíthatunk - hogy a felmérésben szereplő magas mérkőzések aránya nemcsak a kérdések számára, hanem a felmérésben szereplő kérdésekre is érzékeny lesz. A legtöbb felmérés vegyes kérdéseket tartalmaz, különböző válaszadási lehetőségekkel, kevesektől a sokig. Bármelyik felmérésnél az eloszlás részletei egy másik fontos meghatározó tényezők a jelen lévő magas egyezések számában.

3. ábra A magas egyezések összehasonlítása az ANES és Libanon szimulációkbanA két-négy válaszlehetőség eredményei szintén jelentős eltérést jelentenek a szintetikus adatszimulációkkal kapott eredményektől. A szintetikus adatoknál, amikor a válaszadók száma 1000, a változó átlagot 0,5-re rögzítik, a kérdések számát 80-ra és a válaszlehetőségek számát kettőre írják le, ilyen körülmények között nincs magas egyezés. Ugyanezen feltételek mellett az ANES-ben (a 0,5 átlag kivételével) az 1000 replikáció során a magas egyezések középértéke 25%. Ez az összehasonlítás újból hangsúlyozza, hogy Kuriakose és Robbins állításával ellentétben szimulációik nem konzervatív becslések a magas egyezések arányáról a valós felmérési adatokban. Ez az összehasonlítás továbbá azt sugallja, hogy a szintetikus adatokkal végzett szimulációkon alapuló küszöbérték nem releváns abban, amit a valós adatokban látnunk kellene.

Összehasonlító szimulációkat hajtottunk végre a 2013-ban indított arab barométer hullám III libanoni felméréssel is. Ennek az összehasonlításnak az a célja, hogy értékelje a magas egyezések jelenlétét különböző körülmények között egy nem népesített adatkészletben, amely egy másik populációt vizsgált meg. A 3. ábra az ANES és az Arab Barométer felmérésekből nyert szimulációk összehasonlítását tartalmazza 1000 mintamérettel, és a kérdések számát 20 és 120 kérdés között változtatja.2Ebben a szimulációs sorozatban a kérdésekben szereplő válaszlehetőségek száma változhat.

Az ANES és az Arab Barométer felméréseiben nagyon eltérő eloszlásokat láthatunk a magas mérkőzésekről. Míg az ANES-ben a magas mérkőzések aránya a 20 kérdés kivételével közel nulla, a libanoni szimulációk a magas egyezések nagyobb arányát tükrözik, még 100 vagy 120 kérdés esetén is. Ez azt jelzi, hogy annak a valószínűsége, hogy két válaszadó a kérdések több mint 85% -án megfelel, nemcsak a válaszadók számától vagy a kérdések számától függ, hanem a felmérés adott tartalmától és a megkérdezett népességtől is. Más szóval, az ANES és más, az Egyesült Államokban végzett felméréseken alapuló küszöbérték nem feltétlenül általánosít más országokra. Még egyetlen országon belül sincs eleve oka feltételezni, hogy az egyik felmérés során megfigyelt magas egyezések aránya hasonló legyen egy másik, eltérő tartalmú felméréshez.

III.d eredmények: Pew Research Center amerikai felmérési adatok

Ebben a következő részben a Pew Research Center hazai felméréseivel értékeljük a népesség homogenitásának - akár tartalmi, akár alcsoportos megegyezésből adódó - hatását a magas egyezések arányára. A kutatás e szakaszának kettős előnye van. Először is, értékelhetjük a magas egyezések százalékos arányának változását a valós körülmények között, és összehasonlíthatjuk ezeket az eredményeket a szimulációkból származó elméleti elvárásokkal a szintetikus adatokkal és az ANES adatokkal. Kettő, mivel ezek a felmérések kiváló minőségű telefonos felmérések, élő kérdezői megfigyeléssel és részletes kapcsolattartási adatok gyűjtésével, kevés okunk van feltételezni az adatok hamisítását. Ezért az elméleti várakozások és a valós adatok közötti különbségeket valószínűleg a népesség homogenitása magyarázza, nem pedig a csalárd adatok.

A kérdőív tartalmának hatásának értékelése

Az általunk elemzett négy politikai felmérés viszonylag szerény számú kérdést tett fel a teljes mintára (kb. 30-50). A válaszadók száma 1500 és 2000 között mozog a három havi felmérésnél, és 10 000 a polarizációs vizsgálatnál. A táblázat a négy elemzett négy felmérés mindegyikében az érdemi változók több mint 85% -ánál egy másik válaszadóval egyező válaszadók arányát tartalmazza, az egyes felmérések paramétereivel együtt, beleértve a válaszadók számát, a kérdések számát és az öt vagy több kérdés százalékos arányát. több válaszlehetőség.

Nagy meccsek az Egyesült Államok politikai felméréseibenÖsszességében a négy felmérés során a teljes mintában a magas egyezések aránya jelentős, a 2015. szeptemberi felmérés 12% -ától a 2014. évi Polarization tanulmány 39% -áig terjed. Nagyrészt a magas egyezések számát valószínűleg az általában feltett kérdések alacsony száma, a viszonylag alacsony válaszlehetőségek és a nagy mintaméret okozza, különösen a Polarization tanulmányban.

Mindazonáltal a 2015. júliusi, 52 kérdéssel és 2 002 válaszadóval végzett felmérésben azt találjuk, hogy a minta 13% -a magas egyezés. A szintetikus adatokkal végzett 0,5 szimbólummal végzett szimulációkban, valamint az ANES adatokkal végzett szimulációkban az 1000 replikáció során a magas egyezés medián százaléka ezekkel a feltételekkel 0. Mivel kevés az aggály az adatok hamisításának 2015. júliusi felmérés, ez az összehasonlítás feltárja, hogy a kérdőív tartalma és kontextusa jelentősen befolyásolhatja az adatkészlet magas egyezésének százalékos arányát. Az eredmények azt is sugallják, hogy a szintetikus adatokkal végzett szimulációk és az ANES alapján a maximális százalékos egyezési statisztika egyetlen küszöbértéke nem megfelelő.

A népesség homogenitásának hatásának értékelése

Magas mérkőzések a Partizáncsoport részérőlAnnak megértése érdekében, hogy a népesség homogenitása milyen hatással van az adatsor magas egyezésének százalékára az alcsoportok megállapodása miatt, értékeltük, hogy a négy politikai felmérés során hogyan változik a magas egyezések aránya pártos csoportonként. A táblázat megmutatja a válaszadók százalékos arányát az egyes partizáncsoportokban minden felméréshez, amely magas egyezésnek felel meg. Azok az emberek, akik azonosulnak egy politikai párttal, általában polarizáltabbak és szilárdabbak politikai meggyőződésükben, mint azok, akik azt mondják, hogy függetlenek, és ezért magasabb szintű homogenitásra számítunk a partizánok körében. Valójában azt tapasztaljuk, hogy a republikánusok és a demokraták általában magasabb arányban mutatják be a magas meccseket, mint a függetlenek, bár a pontos százalék felmérésenként változik. Azt is tapasztalhatjuk, hogy a felmérések során a magas egyezések aránya a pártok csoportjain belül eltér, amely összhangban áll a felmérés tartalmával és politikai kontextusával. Például a 2014-es választások széles körű előnyökhöz vezettek a Republikánus Párt számára. A 2014. októberi választásokra összpontosító felmérésben a republikánusok aránya volt a legmagasabb a magas mérkőzések arányában, ami azt jelzi, hogy a választásokon részt vevő csoportban magas a homogenitás szintje.

A lakosság homogenitásának hatását a 2014-es vallási tájkép-tanulmány felhasználásával is megvizsgáltuk, amely egy nagyon nagy, 35 071 válaszadóból álló felmérés, amely számos kérdést felölelt, beleértve a vallási identitást és meggyőződéseket. Mivel a Kuriakose és Robbins által kifejlesztett százalékos egyeztetési eszköz nem képes ekkora adatkészlet feldolgozására, nagyjából 1000 válaszadóból álló adatkészletből 10 véletlenszerű mintát értékeltünk, hogy megértsük az összesített magas mérkőzések számát. A 10 véletlenszerű minta bármelyikében az érdemi változók több mint 85% -án egy másik válaszadóval egyező válaszadók legnagyobb aránya 6%. Ezenkívül elemeztük a mintegy 1000 válaszadó véletlenszerű mintáit a felmérést végző három mezőház mindegyikéhez. Mindegyik pályaház viszonylag hasonló százalékos arányban mutat magas mérkőzéseket, 4% és 7% között. Ez megerősíti azt az érvet, hogy ezeket az adatokat nem hamisították meg.

Magas mérkőzések a vallási csoportok között az RLS-benMiután megnézzük a konkrét vallási alcsoportokat, a magas egyezések aránya jelentősen megnő. Négy vallási alcsoportot külön elemeztünk, ugyanazon 41 kérdésből. Ebben a 41 kérdésből álló kérdéscsoportban a kérdések 54% -ának öt vagy több válaszlehetősége van. A táblázat felsorolja a magas egyezések arányát és a válaszadók számát mind a négy különböző vallási csoport esetében. A mormonok aránya a legmagasabb, a válaszadók 39% -a magas rangú. Az ateisták 33% -kal, a Southern Baptisták pedig 31% -kal. Sok vallási felmérés során ez a három vallási csoport általában homogénebb meggyőződésben és gyakorlatban, mint más amerikai vallási csoport. A zsidóknak viszont nagyon kevés a magas meccsük (1%). Akárcsak a politikai felmérés partizánbeli különbségei, a felmérés vallási különbségei is azt sugallják, hogy a meghatározott populációkon belüli homogenitás növelheti az adatkészletben a magas egyezések arányát anélkül, hogy jelezné a hamisított adatok jelenlétét.

Mind a politikai felmérések, mind az RLS eredményei azt mutatják, hogy még az Egyesült Államokban szigorú minőségellenőrzés mellett végzett kiváló minőségű adathalmazokban is jelentős eltérések mutatkoznak a magas egyezések százalékában. Ezt a variációt részben a felmérés által érintett témák, mind a lakosság, vagy a lakosság alcsoportjai homogenitása vezérli ezeken a témákon. Az ANES felméréseket nagyon változatos populációval végzik változatos és hosszú kérdőív segítségével. Az ebben a szakaszban szereplő megállapítások, valamint a korábban tárgyalt szimulációk eredményei arra utalnak, hogy nem helyénvaló az ANES elemzésén alapuló küszöbértéket alkalmazni más populációkra és más típusú kérdőívekre.

IV. Vita

Kuriakose és Robbins azt állítják cikkükben, hogy két olyan válaszadónak, amely a kérdések nagy százalékának felel meg, ritka eseménynek kell lennie az érvényes adatokban, és hogy a válaszadók jelenléte, amely a kérdések több mint 85% -án egyezik, hamisításra utal. Erre a következtetésre a közvélemény-szakirodalom áttekintése, a szintetikus adatokkal végzett szimulációk, valamint az American National Elections Study és az General Social Survey adatainak elemzése alapján hivatkoznak.

Az érvelésüket alátámasztó feltételezések - és a küszöbértékük kidolgozásához felhasznált adatkészletek - azonban komoly kérdéseket vetnek fel azzal kapcsolatban, hogy az adatkészlet magas egyezései a hamisítás végleges mutatója-e, vagy a felmérés jellemzőinek különböző permutációiból származhatnak-e magas egyezések. . Ennek a cikknek az volt a célja, hogy megértse azokat a feltételeket, amelyek mellett a magas egyezések jelen lehetnek az érvényes felmérési adatokban.

Szintetikus szimulációk, valamint kiváló minőségű hazai és nemzetközi adathalmazok segítségével megmutatjuk, hogy a magas egyezések százaléka nagyban változik az egyes adatsorok között, és számos tényező befolyásolja. A felmérés jellemzői, mint például a kérdések száma, a válaszadási lehetőségek száma, a válaszadók száma, valamint a lakosság, vagy a benne lévő alcsoportok homogenitása, mind befolyásolják az adatkészlet magas egyezésének százalékos arányát. Az eredmények azt mutatják, hogy a nem hamisított adatokban a maximális százalékos egyezési statisztika bármely értékét meg lehet szerezni, a felmérés paramétereitől függően. Így a statisztika küszöbének meghatározása és a felmérések során történő egységes alkalmazása hibás megközelítés a hamisítás észlelésében. Valójában a válaszadók ezen intézkedés alapján történő eltávolítása az adatkészletből a kiválasztási torzítást jelentheti a felmérési adatokban, és nem az adatok minőségének javítását, hanem javítását szolgálhatja.

Kuriakose és Robbins küszöbének érzékenysége ezekre a jellemzőkre rávilágít arra, hogy meg kell érteni egy felmérés tanulmány-specifikus környezetét az adatok bármilyen statisztikai értékelésének értelmezéséhez. Bredl és mtsai. (2011) ezt kiemeli azzal a következtetéssel, hogy „szem előtt kell tartani, hogy a feltűnő mutatóértékeket nem feltétlenül az adatok előállítása okozza, hanem a„ hagyományos ”kérdezői hatások vagy a klaszterhez kapcsolódó tervezési hatások (térbeli homogenitás) eredménye is lehet ( 20. o.). Az adatminőség-értékelés során a következtetések levonása előtt figyelembe kell venni a tervezés egyedi jellemzőit, valamint a felmérés sajátos feltételeit.

Mindazonáltal Kuriakose és Robbins fontos vitában vesznek részt arról, hogyan lehetne javítani az adathamisítás észlelési módszereit. Az új technológiák személyes szemlére történő felhasználása, például a számítógéppel segített személyes interjúk (CAPI) eszközei, számos új lehetőséget kínálnak az adatok minőségének megelőzéssel és felderítési módszerekkel történő biztosítására. A CAPI sokkal könnyebbé teszi az adatgyűjtést a felmérési folyamat fontos szempontjairól, az érdemi adatokon túl (azaz paradata vagy segédadatok). Ezek az adatok a felmérés melléktermékéből átalakíthatók a felmérés minőségének értékelésére szolgáló elsődleges analitikai eszközzé.

Az egyik különösen ígéretes újítás az idő mérése a felmérés során személyes tanulmányok során. Ez magában foglalja a felmérés teljes hosszát, az elejétől a végéig, de azt az időt is, amely a kérdőív szakaszainak áttekintéséhez vagy egy adott kérdés megválaszolásához szükséges. A szekció időzítésének mérésével fel lehet mérni, hogy a válaszadónak vagy a kérdezőnek szokatlan nehézségei voltak-e egy adott szekcióval kapcsolatban, vagy az interjúkészítő nem szánt megfelelő időt bizonyos kérdések feltevésére. A hamisított adatok CAPI-n keresztül történő észlelésének másik érdekes lehetősége az interjú véletlenszerű pontjain történő hangfelvételek használata. Ez lehetővé teszi a kutató számára annak áttekintését, hogy a válaszadó és / vagy kérdező beszélt-e, és hogy ugyanaz a válaszadó válaszol-e a kérdésekre a felmérés során. További szempontok, amelyeket hatékonyan be lehet ágyazni egy számítógéppel segített interjúkörnyezetbe, a háztartások kiválasztási eljárásai, valamint a földrajzi nyomon követési információk gyűjtése. A közösség még vizsgálja, hogyan lehet az ilyen információkat a leghatékonyabban felhasználni.

Ennek ellenére még ezeket az új megközelítéseket is értékelni kellene számos más mutatóval együtt. Az adatok utólagos statisztikai elemzésének vannak korlátai. Így a kutatóknak meg kell próbálniuk az eladókat bevonni az adatok minőségének értékelésébe.

Az eladók bevonása a gyanús adatok értékelésébe két előnnyel jár. Először is, segít csökkenteni a fő-ügynök dilemma által okozott információs rést azáltal, hogy lehetővé teszi a kutatók számára, hogy megtudjanak valamit azokról a konkrét körülményekről, amelyek mellett a kérdezőbiztosok működtek. Ez hozzájárul maga az adat átfogó értelmezéséhez, de elősegíti a gyanús adatminták értékelését is. Másodszor, az eladók bevonása bezárja a megelőzés és felderítés körét, és az egész értékelést a minőségbiztosítás tágabb kontextusába helyezi. Az eladók bevonása lehetővé teszi az eladó és a kutató számára, hogy értékeljék és megtanulják a jövőbeli projekteket. A kimutatási intézkedések eredményeinek tájékoztatniuk kell a jövőbeni kérdőívek felépítését és felépítését, új megközelítésekhez kell vezetniük a kérdezőbiztosok ösztönzésére, és segíteniük kell új megelőzési és felderítési módszerek kidolgozásában.