Mätning Beslut Teori

Link: http://echo.edres.org:8080/mdt/

Utvecklat av Wald (1947), första gången tillämpas på mätning av Cronbach och Gleser (1957), och nu allmänt används i teknisk, jordbruk, datorer, beslut teori ger en enkel modell för analys av kategoriska data. Det som är mest tillämpligt i mätning när målet är att klassificera deltagarna in i två kategorier, t ex pass/fail-eller master – /icke-master.

Från ett pilotprojekt för att testa, ett uppskattningar

  1. Den andel av master och icke mästare i befolkningen, och
  2. betingade sannolikheter av deltagarna i varje mästerskap staten svara korrekt på varje punkt.

Efter testet administreras, man kan beräkna (baserat på tentanden svar och pilot-data):

  1. sannolikheten för att en tentanden svar mönster för herrar och för icke-masters
  2. sannolikheten för att den som undersöks är en mästare och sannolikheten för att den som undersöks är en icke-master.

Den här guiden ger en översikt av mätning beslut teori. Centrala begrepp presenteras och illustreras med hjälp av en binär klassificering (pass/fail) prov och ett prov tre-post test. Interaktiv tutorial kan du variera resultaten av pilotprojektet, den som undersöks svar mönster, och kostnadsstruktur. Olika regler för klassificering av en tentanden sedan presenteras tillsammans med de underliggande beräkningarna. En snabb länk till det interaktiva verktyget är på toppen av denna sida. Excel-verktyget. kan du variera sannolikheter, punkt svar, och kostnadsstruktur för att hjälpa dig att bättre förstå modellen.

Måste

Klassisk mätning teori och artikel som svar teori handlar främst med rang beställning testade över en förmåga kontinuum. Dessa modeller är i fråga, till exempel med att differentiera deltagarna på 90th och 92a percentiler. Men är man ofta intresserad av att klassificera testade i en av ett begränsat antal diskreta kategorier, som pass/fail eller proficient/grundläggande/under-grundläggande. Detta är en enklare resultatet och en enklare modellen bör räcka. Mätning Beslut Teori är en sådan enklare verktyg.

Mätning beslut teori kräver endast ett grundläggande antagande – att objekt är oberoende av varandra. Alltså, den testade domän behöver inte vara endimensionell, tentanden förmåga behöver inte vara normalfördelad, och man behöver inte vara orolig med passningen av data till en teoretisk modell som i item response theory (IRT) eller i de flesta latent klass modeller. Modellen är attraktiv som dirigering mekanism för intelligent tutoring system, för slutet-av-enhet undersökningar, för adaptiv testning, och som ett medel för att snabbt erhålla den klassificering proportioner på andra undersökningar. Mycket få pilot-test testade behövs och är, med mycket få artiklar, klassificering noggrannhet kan överstiga item response theory. Med tanke på dessa attraktiva funktioner, är det förvånande att modellen har inte fått större uppmärksamhet inom mätning gemenskapen.

Isolerade delar av beslutsteori har dykt upp sporadiskt i mätningen litteratur. De viktigaste artiklarna i mastery testar litteratur av 1970-talet anställd beslut teori (Hambleton och Novick, 1973; Huynh, 1976; van der Linden och Mellenbergh, 1977) och bör ses i ljuset av dagens mätning problem. Lewis och Sheehan (1990) och andra använde beslut teori för att på ett adaptivt välj objekt. Kingsbury och Weiss (1983), Reckase (1983), och Spray och Reckase (1996) har använt beslut teori för att avgöra när du vill sluta testa. De flesta av den forskning som hittills har tillämpats beslut teori till testlets eller testa batterier eller som ett komplement till punkt svar teori och specifika latent klass modeller. Anmärkningsvärda artiklar av Macready och Dayton (1992), Vos (1997) och Welch och Frick (1993) visar den mindre vanliga post-nivå tillämpningen av beslut teori undersöks i denna handledning.

Teorin

Översikt och notation

Målet är att bilda en bästa gissning att behärska staten (klassificering) av en person som undersöks baserat på tentanden punkt svar, förhand information om objekt, och förhand befolkning klassificering proportioner. Således modellen har fyra komponenter: 1) det är möjligt att behärska staterna för en tentanden, 2) kalibreras objekt, 3) en enskild persons svar mönster, och 4) beslut som kan bildas om den som undersöks.

Det är K möjligt mästerskap stater, att ta på värden mk. I fråga om pass/fail tester, det finns två möjliga tillstånd och K=2. Man vet oftast, förhand, den ungefärliga proportioner för befolkningen av alla testade i varje mästerskap staten.

Den andra komponenten är en uppsättning objekt för vilka sannolikheten för varje möjligt observation, oftast rätt eller fel, med tanke på varje mästerskap staten är också känd förhand,

Svaren till en uppsättning av N objekt utgör den tredje komponenten. Varje artikel bedöms vara en diskret stokastisk variabel stochastically relaterade till behärskning stater och insåg med observerade värden zN. Varje tentanden har ett svar vektor, ö, som består av z1, z2, … zN. Bara dichotomously fått poster som behandlas i denna artikel.

Den sista komponenten är beslutet utrymme. Man kan bilda en rad av D beslut baserade på data. Typiskt, man vill antar att behärska staten och det kommer att vara D=K beslut. Med adaptiv eller sekventiell testning, ett beslut som kommer att fortsätta att testa kommer att läggas till, vilket gör att det kommer att vara D=K+1 beslut. Varje beslut kommer att betecknas dk.

Testning börjar med andelen av deltagarna i befolkningen som är i var och en av K kategorier och andelen testade med varje kategori att svara korrekt. Befolkningen proportioner kan bestämmas på olika sätt, bland annat från tidigare tester, omvandling av befintliga värderingar, befintliga klassificeringar, och omdömet. I avsaknad av information lika priors kan antas. Andelen som svarar på rätt sätt kan härledas från en liten pilot test med provtagarna som redan har klassificerats eller förändringar av befintliga data. När dessa uppsättningar av priors är tillgängliga objekt administreras, svar (z1, z2, … zN) observerade, och sedan en klassificering beslut dk, baserat på svaren till dessa poster.

Proportioner från pilot test behandlas som sannolikheter och följande notation användas:

  • Före
  • p(mk) – sannolikheten för att en slumpmässigt vald tentanden med en behärskning staten mk
  • – p(zn|mk) – sannolikheten för svar zn som ges k-e mastery tillstånd
  • Iakttagelser
  • ö – en individs svar vektor z1, z2, …, zN, där z0 (0,1)

En uppskattning av en tentanden mästerskap stat bildas med hjälp av före och synpunkter. Av Bayes Teorem,

1 (1)

Den bakre sannolikheten P(mk|ö) som den som undersöks är av att behärska staten mk gett sitt svar vektor är lika med produkten av en normaliserande konstant (c), sannolikheten för att de svar vektor med tanke på mk , och tidigare klassificering sannolikhet. För varje tentanden, det är K sannolikheter, en för varje mästerskap staten. Normaliserande konstant i (1),

2

försäkrar att summan av den bakre sannolikheter är lika med 1.0.

Förutsatt att lokal självständighet,

2-2 (2)

Det är, sannolikheten för att de svar vektor är lika med produkten av betingade sannolikheter av objektet svar. I denna tutorial, varje svar är antingen rätt (1) eller fel (0) och P(z1=0|mk) = 1 – P(z1=1|mk).

Tre centrala begrepp från beslut teori diskuteras på nästa:

  1. beslutsregler – alternativa förfaranden för klassificering av deltagarna utifrån deras svar mönster,
  2. för stegvis testning – alternativa förfaranden för att på ett adaptivt sätt att välja objekt baserat på en individs svar mönster, och
  3. sekventiell beslut – alternativa förfaranden för att avgöra huruvida att fortsätta att testa.

Modellen illustreras här med en undersökning av två möjliga mästerskap m1 och m2 och två möjliga beslut d1 d2 som är rätt beslut för m1 och m2, respektive. Exempel använda en tre objekt testa med posten statistik som visas i Tabell 1. Vidare, också baserat på pilot test data, före klassificering sannolikheter P(m1)=0.2 och P(m2)=1-P(m1) = 0.8.I de exempel som undersöks svar vektor [1,1,0].

plats för Tabell 1: betingade sannolikheter för ett korrekt svar, P(z=1|mk) Punkt 1Punkt 2Punkt 3Mästare (m1).6.8.6Icke-masters (m2).3.6.5

beslutsregler

Uppgiften är att göra en bästa gissning att en tentanden s klassificering (master, icke-master) baserat på data i Tabell 1 och den som undersöks svar vektor. Från (2), sannolikheten för vector ö= [1,1,0] om den som undersöks är en mästare är .6*.8*.4 = .19, och .09 om han är en icke-master. Det är, P(ösom|m1)=.19 och P(ö|m2)=.09. Normaliserad, P(ösom|m1)=.68 och P(ö|m2)=.32.

En tillräcklig statistik för beslutsfattande är sannolikheten förhållandet

3

som till exempel är L(ö)= .09/.19 = .47. Detta är en tillräcklig statistik eftersom alla beslut regler kan ses som ett test för att jämföra L(ö) mot ett kriterium value8.

3-3 (3)

Värdet av den 8 återspeglar den valda metoder och antaganden om den relativa betydelsen av olika typer av klassificeringsfel.

Maximal sannolikhet beslut kriterium

Detta är den enklaste beslut och är enbart baserad på den betingade sannolikheten för att de svar vektorer ges varje mästerskap stater, dvs P(ö|m1) och P(ö|m2). Konceptet är att välja mästerskap staten som är den mest sannolika orsaken till svar vektor och kan anges som :

Med tanke på en uppsättning av objekt för svar ö, göra beslut dk, om det är sannolikt att mk som genereras ö.

Baserat på detta kriterium, skulle klassificera den som undersöks som en mästare – det mest sannolika klassificering eftersom P(ösom|m1)=.68 > P(ö|m2)=.32.

Detta kriterium ignorerar förhandsinformation om proportioner av masters och icke-masters i befolkningen. Dvs, det förutsätter att befolkningen priors är lika. Med exempel, några testade är mästare, P(mk)=.20. Med tanke på att den betingade sannolikheten för att de svar vektorer är ganska nära, denna klassificering regel kan inte resultera i ett gott beslut.

Lägsta sannolikhet för fel beslut kriterium

I den binära beslut fallet två typer av fel som är möjliga i beslut d1, när m2 som är sant eller besluta d2, när m1 som är sant. Om man tänker på att m1 som nollhypotesen, då i form av statistisk teori, sannolikheten för att avgöra en person som är en mästare, d1 när verkligen att personen i fråga är icke-master m2, är bekant nivå av betydelse, ” och P(d2|m2) är kraften av testet, sek. När båda typerna av fel är lika dyrt, det kan vara angelägna att få maximal noggrannhet eller minimera den totala sannolikheten för fel, Pe. Detta kriterium kan anges som:

Med tanke på en uppsättning av objekt för svar ö, välj beslutet regioner som minimerar den totala sannolikheten för fel.

Detta kriterium är ibland kallat ideal observatör kriterium. I det binära fallet, Pe = P(d2|m1) + P(d1|m2) och sannolikheten förhållandet test i (3) är anställd med

Med exempel 8=.25 och de beslut d2, ” icke-master.

Maximum a posteriori (KARTA) beslut kriterium

Den högsta sannolikheten för beslut kriterium använder bara sannolikheten för att de svar vektor. Den lägsta sannolikheten för fel kriterium också använt sig av den tidigare klassificering sannolikheter P(m1) och P(m2). KARTA är en annan metod som använder tillgänglig information:

 

Med tanke på en uppsättning av objekt för svar ö, besluta dk, om mk som är det mest sannolikt att behärska staten.

Med andra ord,

4-4

Sedan från ekvation (2), P(mk|ö)=c P(ö|mk) P(mk), KARTA motsvarar den lägsta sannolikheten för fel beslut kriterium.

Bayes Risk Kriterium

En betydande fördel med beslut teori ram är att man kan ta beslut om kostnader i analysen. Av dessa kriterier, kostnader som är tilldelade till varje rätt och fel beslut och sedan minimera den totala genomsnittliga kostnader. Till exempel, falska negativa resultat kan vara dubbelt så illa som falska positiva. Om cij som är kostnaden för att besluta d, när mj är sant, då är den förväntade eller genomsnittliga kostnaden B är

B=c11 P(d1|m1) + c21 P(d2|m1)) P(m1) + c12 P(d1|m2) + c22 P(d2|m2)) P(m2)

och kriteriet kan anges som

Med tanke på en uppsättning av objekt för svar ö och kostnader i samband med varje beslut, välj dk för att minimera den totala förväntade kostnaden.

För två mästerskap staterna, de totala förväntade kostnaderna kan minimeras med hjälp av sannolikheten förhållandet test i (2) med

4-4-4 (4)

Detta kallas också för minsta förlust kriterium och optimala beslut kriterium. Om kostar c11=c22=0 och c12=c21=1 och B är identiska Pe och denna metod är identisk med lägsta sannolikhet för fel och KARTA. Med c11=c22=0 och c21=2, c12=1, och urvalet av uppgifter, 8=.50, och beslutet d2, ” icke-master.

Adaptiv testning

Hellre än att göra en klassificering beslut för en enskild när administrera ett fast antal objekt, är det möjligt att sekventiellt välj objekt för att maximera information, uppdatera den uppskattade mästerskap staten klassificering sannolikheter och sedan utvärdera om det är tillräckligt med information för att avsluta testning. I denna mätning är ofta kallas adaptiv eller skräddarsydda tester. I statistiken är det som kallas för stegvis testning.

Vid varje steg, den bakre klassificering sannolikheter p(mk|ö) behandlas som uppdateras före sannolikheter p(mk) och används för att hjälpa till att identifiera nästa punkt ska administreras. För att illustrera beslut teori för stegvis testning, återigen överväga situationen för vilka det finns två möjliga mästerskap m1 och m2 och använda objekt statistik i Tabell 1. Antar att den som undersöks svarat rätt på det första objektet och uppgiften är att välja vilken av de två återstående objekt för att administrera nästa.

Efter att svara korrekt på den första punkten, den nuvarande uppdaterad sannolikheten för att en master är .6*.2/(.6*.2+.3*.8) = .33 och sannolikheten för att en icke-master är .66 från formel (1).

Den aktuella sannolikheten av att svara rätt sätt är

5 (5)

Att tillämpa (5), den aktuella sannolikheten för korrekt svara till artikel 2 P(z2=1)=.8*.33+ .6*.66 = .66 och för punkt 3, P(z3=1)=.53. Följande är några metoder för att identifiera vilka av dessa två punkter för att administrera nästa.

Lägsta förväntade kostnaden

Detta synsätt definierar den optimala punkt att ges nästa som varan med i den lägsta förväntade kostnaden. Ekvation (4) ger beslut kostar som en funktion av klassificering sannolikheter. Om c11=c22=0 då

B=c21 P(d2|m1) P(m1) + c12 P(d1|m2) P(m2) (6)

I den binära beslut fallet sannolikheten för att göra ett felaktigt beslut är ett minus sannolikheten för att göra rätt beslut och sannolikheter för att göra rätt beslut är per definition, den bakre sannolikheter som ges i (1). Således, med c12=c21=1, den nuvarande Bayes kostnaden är B=1*(1-.33)*.33 + 1*(1-.66)*.66 = .44.

Minsta förväntade kostnad är ofta associerat med sekventiell testning och har tillämpats på mätproblem av Lewis och Sheehan (1980), Macready och Dayton (1992), Vos (1997), och andra.

Följande steg kan användas för att beräkna den förväntade kostnaden för varje objekt.

  1. Antar för närvarande att den som undersöks kommer att svara korrekt. Beräkna den bakre sannolikheter med hjälp av (1) och sedan kostnader med hjälp av (6).
  2. Ta den som undersöks kommer att svara felaktigt. Beräkna den bakre sannolikheter med hjälp av (1) och sedan kostnader med hjälp av (6).
  3. Multiplicera kostnaden från steg 1 med sannolikheten för ett korrekt svar att posten
  4. Multiplicera kostnaden från steg 2 med sannolikheten för ett korrekt svar att posten
  5. Lägg till värden från steg 3 och 4.

Alltså, den förväntade kostnaden är summan av kostnaderna för varje svar viktas med sannolikheten för att ett svar. Om tentanden svarar korrekt på punkt 2, då den bakre sannolikheten för att en master kommer att vara (.8*.33)/(.8*.33+.6*.66)=.40 och tillhörande kostnader kommer att vara 1*(1-.40)*.40+1*(1-.60)*.60 =.48. Om tentanden svar felaktigt, då den bakre sannolikheten för att en master kommer att vara (.2*.33)/(.2*.33+.4*.66)=.20 och tillhörande kostnader kommer att vara 1*(1-.20)*.20+1*(1-.80)*.80 =.32. Eftersom sannolikheten för ett korrekt svar (5) .66 den förväntade kostnaden för punkt 2 är .66*.48+(1-.66)*.32 = .42.

Kostnaden för punkt 3 är .47 om svaret är korrekt och .41 om något är fel. Alltså, den förväntade kostnaden för punkt 3 är .53*.47+(1-.53)*.41 = .44. Eftersom punkt 2 har den lägsta förväntade kostnaden, skulle det vara administreras nästa.

Information Gain

Hela denna uppsats handlar om användningen av föregående punkt och som undersöks distribution av information i avkodning svar vektorer att göra en bästa gissning till behärskning medlemsstaterna av de testade. Den vanligen använt mått för uppgifter teori (se Omslag och Thomas, 1991), Shannon (1948) entropi, är tillämpliga här:

5-5 (5)

där pk är den del av Er som tillhör klass k. Entropin kan ses som ett mått på uniformness av en distribution och har ett maximalt värde när pk = 1/K) för alla k. Målet är att ha en toppig fördelning av P(mk) och välj därefter den artikel som har störst förväntad minskning av entropi, dvs

H(S0) – H(S) (6)

där H(S0) är den nuvarande entropi H(S) är den förväntade entropi efter administrering posten I vill säga summan av de viktade villkorlig entropies av klassificering sannolikheter som motsvarar en korrekt och en inkorrekt svar

7 (7)

Detta kan beräknas med hjälp av följande steg:

  1. Beräkna normaliserade bakre klassificering sannolikheter som är resultatet av en korrekt och en inkorrekt svar punkt som jag använder (1).
  2. Beräkna den betingade entropies (villkorad på ett rätt svar och villkorade på ett felaktigt svar) med (5).
  3. Vikt villkorlig entropies med deras sannolikheter med hjälp av (7).

Tabell 2 visar beräkningar med data prov.

 

plats för Tabell 2: Beräkning av förväntade klassificering entropies för posterna 2 och 3.
Svar

(z)

Bakre klassificering sannolikheter Villkorlig entropi P(zi) H(Si)
Punkt 2 Rätt P(m1)=.40 .97 .66 .89
P(m2)=.60
Fel P(m1)=.20 .72 .33
P(m2)=.80
Punkt 3 Rätt P(m1)=.38 .96 .53 .92
P(m2)=.62
Fel P(m1)=.29 .87 .47
P(m2)=.71

Efter administrering av den första punkten, P(m1)=.33, P(m2)=.66, och H(S)=.91. Artikel 2 resulterar i den största förväntade entropi få och bör administreras med nästa.

En variant av denna metod är relativ entropi som också kallas Kullback-Leibler (1951) information åtgärd och information skillnader. Chang och Ying (1996), Eggen (1999), Lin och Spray (2000) har väl utvärderade K-L information som en adaptiv testning strategi.

Läsaren bör observera att den förväntade entropi efter administrering punkt 3 skulle vara större än H(S) och resultera i en förlust av information. Det är, klassificering sannolikheter förväntas bli mindre toppig bör punkt 3 ges. Som en följd av denna artikel bör inte betraktas som en kandidat för nästa punkt. Man kanske vill sluta administrera objekt när det inte finns några objekt kvar i poolen som förväntas resultera i information få.

Sekventiell Beslut

Denna artikel har diskuterat förfaranden för att göra en klassificering beslut och förfaranden för att välja nästa objekt som skall administreras jämfört med föregående kvartal. I detta avsnitt presenteras de förfaranden för att fatta beslut när man har tillräckligt med information för att fara en klassificering gissa. Man skulle kunna göra denna bedömning efter varje svar.

Kanske den enklaste regeln är Neyman-Pearson beslut kriterier – fortsätt testa tills sannolikheten för ett falskt negativt, P(d2|m1), mindre än en förvalda värdet “. Antar att “= .05 var utvalda. Efter den första artikel, sannolikheten för att en icke-master är P(m1|ö) = .66. Om tentanden förklaras som icke-master, då den aktuella sannolikheten för att detta är ett falskt negativa är (1-.33). Eftersom detta är mer än ” är beslutet att fortsätta testa.

En variant av Neyman-Pearson är fast felprocenten kriterium – upprätta två trösklar, “1, “2, och fortsätt testa tills P(d2|m1) < “1, och P(d1|m2) < “2. En annan variant är kostnad tröskeln kriterier. , Enligt detta synsätt, kostnader som är tilldelade till varje rätt och fel beslut och att beslut om att ta en annan iakttagelse. Testa fortsätter tills kostnaden tröskel nås. En variant på detta synsätt är att ändra den kostnadsstruktur som antalet administreras objekt ökar.

Wald (1947) sekventiell sannolikhet förhållandet test (SPRT, uttalad spurt) är helt klart den mest kända sekventiell beslut som regel. SPRT för K flera kategorier kan sammanfattas som

8

9

10

där P(mj)’s är den normaliserade bakre sannolikheter,” är den acceptabla felmarginalen, och $ är önskad effekt. Om villkoret inte träffa någon kategori k, sedan testa fortsätter. I mätningen område, det är en stor och imponerande samling av litteratur som visar att SPRT är mycket effektiv som en uppsägning som regel för IRT dator med anpassade tester (c.f. Reckase, 1983; Spray och Reckase, 1994, 1996; Lewis och Sheehan, 1990; Sheehan och Lewis, 1992).

Diskussion

I sin inledning, Cronbach och Gleser (1957) menar att det yttersta syftet för tester för att komma fram till kvalitativa klassificering beslut. Dagens beslut är ofta binära, till exempel om att anställa någon, oavsett om en person har lärt en viss uppsättning kunskaper, om att främja en individ. Multi-state tillstånd är vanliga i statliga bedömningar, t ex procent av eleverna som presterar på den grundläggande, goda kunskaper eller avancerad nivå. Den enkla modellen som presenteras i denna artikel är tillämpliga på dessa och andra situationer där man är intresserad av kategorisk information.

Modellen har en mycket enkel ram – man börjar med betingade sannolikheter av deltagarna i varje mästerskap staten svara korrekt på varje punkt. Man kan få dessa sannolikheter från en mycket liten pilot prov. Denna forskning har visat att en minsta cell storlek av en tentanden per artikel är en rimlig kalibrering urvalsstorlek. Den noggrannhet av tester kalibreras med en så liten urvalsstorlek är mycket nära noggrannhet av tester kalibreras med hundratals granskade per cell.

En individs svar mönster utvärderas mot dessa betingade sannolikheter. Man beräknar sannolikheten för att de svar vektor ges varje mastery nivå. Med hjälp av Bayes’ teorem, betingade sannolikheter kan omvandlas till en a posteriori sannolikheter som representerar sannolikheten för varje mästerskap staten. Alternativa beslut reglerna presenterades.

Denna artikel har undersökt två sätt att på ett adaptivt sätt, eller jämfört med föregående kvartal, administrera objekt med hjälp av en modell. Traditionell beslutsteori strategi för stegvis testning, minsta kostnad, och en ny strategi, information gain, vilket är baserat på entropi och kommer från information teorin.

Forskning har visat att mycket få pilot-test testade behövs för att kalibrera systemet (Rudner, i tryck). En eller två granskade per cell per artikel resultera i ett test som är lika exakt som en kalibrerad med hundratals pilottest granskade per cell. Resultaten var samstämmiga över objekt pooler och testa längder. Det väsentliga data från pilot är andelen testade i varje mästerskap staten att svara korrekt. Man inte verkligen behöver förhand sannolikheten för att ett slumpmässigt valt tentanden att i varje mästerskap staten. Uniform priors kan förväntas öka antalet saker som behövs och som inte allvarligt påverkar noggrannhet med tanke på ordentligt valt att stanna regler.

Detta är helt klart en enkel men ändå kraftfull och allmänt gällande modell. fördelar med denna modell är många-modellen

  • ger exakt mästerskap staten klassificeringar,
  • kan innehålla en liten artikel pool,
  • är enkel att genomföra,
  • kräver lite pre-test,
  • är tillämpliga kriterium som refereras tester,
  • kan användas i diagnostiska tester,
  • kan anpassas för att ge klassificeringar på flera färdigheter,
  • kan använda för stegvis testning och en sekventiell beslut regel, och
  • ska vara lätt att förklara för icke-statistiker.

Det är författarens förhoppning att denna forskning kommer att fånga fantasin hos forskning och tillämpad mätning samhällen. Författaren kan föreställa sig en bredare användning av den modell som dirigering mekanism för intelligent tutoring system. Objekt kan styras med ett fåtal antal testade att kraftigt förbättra slutet-av-enhet undersökningar. Certifiering undersökningar kan skapas för specialiserade yrken med ett begränsat antal utövare som är tillgängliga för objekt kalibrering. Kort tester kan vara förberedd för lärare att hjälpa till att göra en preliminär placering och uppflyttning beslut. En liten samling av föremål från ett test, säger state-NAEP, kan bäddas in i ett annat test, säger en stat bedömning, för att ge meningsfull cross-regional information.

Forskningsfrågorna är många. Hur kan modellen utökas till flera snarare än dikotoma punkt svar kategorier? Hur kan fördomar upptäckas? Hur effektiva är alternativa adaptiv testning och sekventiell beslut om regler? Kan modellen vara effektivt utökas till 30 eller fler kategorier och ger en ranking beställning av deltagarna? Hur kan vi dra nytta av det faktum att data är ordningstal? Hur kan begreppet entropi vara anställd vid prövningen av tester? Är det nya objektet analys förfaranden som kan förbättra mätning beslut teori tester? Hur kan modellen vara bäst att kriteriet refereras tester för bedömning av flera färdigheter, var och en med ett fåtal antal objekt? Varför är lägsta möjliga kostnad och information att få så liknande? Hur kan olika kostnadsstrukturer vara effektivt anställd? Hur kan objekt från en test att användas i en annan? Hur gör man för att jämställa dessa tester? Författaren är närvarande på att utreda tillämpningen av modellen till dator poäng av uppsatser. I denna forskning, uppsats har en stor pilot behandlas som objekt och holistisk poäng som behärskar staterna.

Obs!

Denna handledning har utvecklats med medel från National Library of Education, Department of Education award xxx och från det Nationella Institutet för elevernas resultat, Läroplaner och Bedömning, U.S. Department of Education, beviljande av bidrag R305T010130. De synpunkter och åsikter som uttrycks i denna artikel är författarens egna och inte nödvändigtvis de av forskningsfinansiärernas.

Referenser

Allen, Nancy L., James E. Carlson, och Christine A. Zelenak (2000).

< em > NAEP 1996 Teknisk Rapport. Washington, DC: National Center for Educational Statistics. Tillgänglig online: http://nces.ed.gov/nationsreportcard/pubs/main1996/1999452.asp

Baker, F. (2001). Grunderna för Item Response Theory. Andra upplagan. College Park: VD: ERIC Clearinghouse på Bedömning och Utvärdering.

Birnbaum, A. (1968). Vissa latent egenskap modeller. I F. M. Lord & M. R. Novick, (Eds.), Statistiska teorier om psykisk provresultat. Reading, MA: Addison-Wesley.

Chang, H.-H., och Ying, Z. (1996). En global strategi för datoriserad adaptiv testning. Tillämpad Psykologisk Mätning, 20, 213-229.

Colorado State Department of Education (2000). Colorado Student Assessment Program (TAP), Teknisk Rapport, Årskurs 5 i Matematik. Tillgänglig online: http://www.cde.state.co.us/cdeassess/download/pdf/as_csaptech5math99.pdf

Täcka, T. M. och J. A. Thomas, Element av Information Teori. New York: Wiley, 1991.

Cronbach, L. J. och Gleser, C. G. (1957). Psykologiska tester och personal beslut.. Urbana: University of Illinois Press

Eggen, T. J. H. M. (1999). Val av föremål i Adaptiv Testning med Sekventiell Sannolikhet Ratio Test. Tillämpad Psykologisk Mätning, 23(3), 249-61.

Ferguson, R. L. (1969). Utveckling, implementering och utvärdering av en datorstödd grenade test för individuellt förskrivna instruktion. Doktorsavhandling. University of Pittsburgh, Pittsburgh, PA.

Hambleton, R. och Novick, M (1973). Mot en integrering av teori och metod för att criterion-referenced tester. Journal of Educational Measurement, 10, 159-170.

Huyhn, H. (1976). Statistiska överväganden för att behärska poäng. Psychometrika., 41, 65-79.

Kingsbury, G. G., & Weiss, D. J. (1983). En jämförelse av IRT-baserade adaptiva mastery testar och en sekventiell mästerskap tester. I D. J. Weiss (Red.), Nya horisonter i test: Latent egenskap test-teori och datoriserad adaptiv testning (sid 257-283). New York: Academic Press.

Kullback, S. & Leibler, R. A. (1951). På information och tillräcklighet. Annals of Matematisk Statistik, 22, 79-86.

Lewis, C. och Sheehan, K. (1990). Med Bayesiansk beslutsteori för att utforma en datoriserad mastery test. Tillämpad Psykologisk Mätning, 14(2), 367-86.

Lin, Chuan-Ju; Spray, Judith (2000). Effekter av Post-Kriterier för Klassificering Testa med Sekventiell Sannolikhet Ratio Test. ACT Research Report Series.

Macready, G. och Dayton C. M. (1977). Användning av probabilitistic modeller i bedömningen av behärskning. Journal of Educational Statistics. 2(2), 99-120.

Macready, G. och Dayton C. M. (1992). Tillämpningen av latent klass modeller i adaptiv testning. Psychometrika, 57(1), 71-88.

Mislevy, R. J., & Gitomer, D. H. (1996). Den roll av sannolikhet-baserad inferens i en intelligent tutoring system. User-Medierad och Användare-Anpassad Interaktion, 5, 253-282.

Reckase, M. D. (1983). Ett förfarande för beslutsfattandet hjälp av skräddarsydda tester. I D. J. Weiss (Red.), Nya horisonter i test: Latent egenskap test-teori och datoriserad adaptiv testning (sid 237-255). New York: Academic Press.

Shannon, C. E. (1948). En matematisk teori för kommunikation, Bell System Tekniska Tidning, 27, 379-423 och 623-656, juli och oktober. Tillgänglig online: http://cm.bell-labs.com/cm/ms/what/shannonday/paper.html

Sheehan, Kathleen och Lewis, Charles (1992). Datoriserad Mastery Testar med Nonequivalent Testlets. Tillämpad Psykologisk Mätning, v16 n1 p65-76 Mar 1992

Spray, Judith A. och Reckase, Mark D. (1996). Jämförelse av SPRT och Sekventiell Bayes Rutiner för Klassificering av Deltagarna in i Två Kategorier med Hjälp av ett Datoriserat Test.en Tidning av Utbildnings-och Beteendemässiga Statistik, 21(4), 405-14.

Spray, Judith A. och Reckase, Mark D. (1994). Valet av Test Objekt för Beslutsfattande med en Dator Adaptiva Test. Paper som presenterades vid det Årliga Mötet av det Nationella Rådet för Mätning i Utbildning (New Orleans, LA, 5-7 April, 1994).

van der Linden, W. J. och Mellenbergh, G. J. (1978). Koefficienter för tester av ett beslut-teoretisk synvinkel. Tillämpad Psykologisk Mätning, 2, 119-134.

van der Linden, W. J. och Vos, H. J. (1966) En Kompensatorisk Strategi för att Optimalt Utbud med skicklighet Poäng. Psychometrika, 61(1), 155-72.

Vos, Hans J. (1999). Tillämpningar av Bayesiansk beslutsteori för att Sekventiell Mästerskap Testning. Tidning av Utbildnings-och Beteendemässiga Statistik, 24(3), 271-92.

Wald, A. (1947). Sekventiell analys. New York: Wiley.

Welch, R. E. & Frick, T. (1993). Datoriserad adaptiv testning i instruktions-inställningar. Educational Technology Research & Utveckling, 41(3), 47-62.

Trä, R. (1976). Adaptiv Testning: En Bayesiansk Förfarande för Effektiv Mätning av Förmåga. Programmerade undervisningen och Teknik, 13, 2, 36-48.