Kursens hemsida    schema    övningar    kommentarer
Aktuell Information
 

Tentan den 8/6 är nu rättad.

Av fem giltiga skrivande (en saknade kursval och får inte tentera) blev en underkänd, två fick trea och två fick fyra. Ingen komplettering.

Måndag 11/6

Ursäkta, jag missade att lägga ut den här sidan i fredags. Här kommer alltså sent omsider:

Fredag 8/6: Svaren till tentan

  1. Hetero­skedasti­citet betyder att E[e2 | x] inte är konstant, utan beror på x. Problemen med OLS är ii) och iii). Om man använder Whites korrektion så av­hjälper det iii), men skattningen är fort­farande in­effektiv (om man vet formen för hetero­skedasti­citeten)
  2. Problemet är i). Därmed blir ii) och iii) irrelevanta. Instrument­variabel­metoden innebär att man hittar en upp­sättning instrument­variabler z som är minst lika många som x-variablerna. Dessa instrument­variabler måste uppfylla E[e | z] = 0, och x-variablerna måste vara väl korre­lerade med z, dvs en regres­sion av xk på z måste ha hör förklarings­grad (högt R-streck-kvadrat). Exogena x-variabler bör ingå bland instrument­variablerna.
  3. En lämplig specifikation är en logit eller probit. Vi bildar dummy-variablerna (ja) [dvs (ja)=1 om svaret är "ja" och 0 annars], (s), (kvinna) och den numeriska variabeln (ålder). vi bidlar
        hi = β0 + β1*(s) + β2*(kvinna) + β3*(ålder)
    och skattar logit ekvationen
        prob(ja) = exp(hi)/(1 + exp(hi))
    med ML, alternativt använder vi en probit i stället. (Vi kan också skatta
        (ja) = exp(hi)/(1 + exp(hi)) + e
    med GNLLS (generaliserad icke-linjär minsta kvadrat), det blir samma sak.)
       Det är bäst att sträva efter ungefär lika många (s) som (fp); det ger en bättre konditionerad ekvation.
  4. Det är bättre att skatta (4.1) eftersom vi mindre residualer. Mindre residualer ger bättre skattning av parametern. Standardavvikelsen (eller medelkvadratfelet) blir mindre.
  5. Summan blir noll.
  6. Nej, skattningen blir inte väntevärdesriktig.

Måndag 12/3: Svaren till tentan

Här är tentan

Här är svaren:

  1. Vi kan tolka (1) och (2) som predik­tions­modeller. I ekvation (2) mäter β1 ökningen i pris för en ökning i motor­styrka då bilens vikt hålls konstant. I (1) mäter α1 ökningen i pris för en ökning i motor­styrka utan att vikten hålls konstant. Eftersom tyngre bilar i genom­snitt har högre motrstyrka och också är (större och) dyrare, kommer α1 att fånga upp en del av pris­ökningen pga. högre vikt (större bil). Rimligt­vis är alltså α1 > β1.
       Om man byter ut (pris) mot ln(pris) så får men den speci­fikation jag efter­frågar.
  2. Svaret beror på vilken mot­hypotes man ställer upp, eller annor­lunda uttryckt, om man gör ett ensidigt eller tvåsidigt konfidens­intervall för β1 - 2 β3. Om mot­hypotesen är att β1 - 2 β3 > 0, så är nivån 10%, om mot­hypotesen är att β1 inte är lika med 2β2, (mot­svarande ett tvåsidigt konfidens­intervall) så blir nivån på 20%. Jag singlar slant om vilket svar jag kommer att bedömma som rätt.
  3. Här är uppen­barligen ln(p) endogen, och ln(p) kommer att vara korre­lerad med resi­dualen; det ser vi om vi löser de två ekva­tionerna och betraktar ln(Q) och ln(p) som obekanta. En lämplig skattnings­modell är instrument­variabel-metoden med ln(x) som instrument för ln(p). Variabeln ln(x) är exogen. (Det här fungerar iaf. rent teoretiskt — i prak­tiken kanske det inte blir nå't bra.)
  4. De två summorna är lika om resi­dualerna kommer från en OLS-skattning. Det är ganska lätt att visa. Tydligen var summorna olika i det här fallet.
  5. Variansen för residualen e är pi(1-pi). Det har vi visat i samband med logit- och probit-modellerna, och det är lätt att rekon­struera den här­ledningen. På grund av denna hetero­skedasti­citet är OLS inte effektiv. En effektiv skat­tning är Maximum Likelihood. Alter­nativt en tvåstegs GLS (först en OLS för att få ett preliminart β, sedan predik­terade pi:n och därmed en skattad diagonal kovarians-matris som vi kan använda i en GLS.)
  6. Eftersom z är en fungerande instrument­variabel, gäller att cov(z,e) = 0. Då följer meddetsamma att

    β1 = cov(z,y) / cov(z,x)

Tisdag 27/2

Jag svek er igen. Det är mitt eländiga mag-problem som slog till igen. Jag hade planerat att göra två övnings­uppgifter, dels övning 34, dels härleda Theorem 4.6.1. (Firsch-Waugh-Lovell; det är Theorem 3.7.1 i nya upp­lagan). Denna här­ledning är inte en del av teorin i kursen, jag tänker mig den i stället som en ren övning i att mani­pulera regres­sions­ekvationer. I övrigt hade jag bara tänkt att göra nå'n slags snabb översikt över kursen, men det har ni ju om ni kollar den här sidan (Aktuellt) och kommentarerna.

De två övningarna skriver jag ner som en pdf-fil här.

Tack för ert del­tagande, och jag hoppas givetvis det går bra på tentan.

Måndag 26/2

Jag har korrigerat ett fel i kommen­tarerna; jag nämnde det på under­visningen.

Vi repeterade en del om censurerade data och självselektion. Vi tog upp

Vad skall ni kunna utantill (igen)

Jag fick litet kalla fötter när jag läste igenom vad jag skrivit om utantill-kunskaper. Det jag syftade på var formler för skatt­ningar, som ju kan vara rätt in­vecklade, och det är inte rimligt — eller ens påkallat — att man kan alla utan­till. Men givet­vis för­väntar jag mig att ni vet vad en logit-speci­fikation är, hur en enkel Tobit modell ser ut osv.

Fredag 23/2

Jag gick igenom Tobit-modeller och selektions-modeller, motsvarande kapitel 14.3 och 14.4 i Hansen (12.3 och 12.4 i nya upplagan.) Jag nämnde också att ML är en alternativ skattnings­metod till Heckmans lambda-metod. Vi skall också ta upp durations-modeller, men det står inte i Hansen. Jag skriver litet om dem i kommen­tarerna, så tar vi upp dem på måndag. Sedan tar vi inte upp fler modeller — om ni är intres­serade kan ni läsa i Hansen om paneldata-modeller, men formellt ingår de alltså inte i den här kursen.

Onsdag 21/2

Vi löste ytterligare några problem, nämligen 31 och 33, med litet runsdnack omkring dem.

Häromdagen delade jag ut ett utdrag ut Peter Kennedys "A Guide to Econometrics". Några av punkterna under "21.4 Common Mistakes" är inte relevanta för kursen. Det gäller punkterna

1. Det här handlar om auto­korrelation (DW) och är relevant för tids­serier, vilket inte ingår i den här kursen.

6. Jag tror inte någon skulle komma på att göra detta misstag.

8–9. Inte aktuellt.

11. Detta är tids­serie­analys.

I övrigt är det mycket tänk­värda på­pekanden och råd!

Vad skall ni kunna?

Jag har fått den naturliga frågan om vilka formler jag förväntar mig att ni kan utan­till på tentan. Här är vad jag för­väntar mig vad gäller formel­kunskap:

I övrigt skall ni natur­ligt­vis känna till Wald-testet och hur det används och så vidare, men de exakta formlerna förväntar jag mig inte att ni lärt utan­till.

Tisdag 20/2

Vi löste problem. Uppgift 30 och 32. Upp­gift 30 innebar att vi gjorde hela här­led­ningen av "NNLS with Instru­mental Vari­ables" som jag be­skrivit i kommen­tarerna. Uppgift 32: a) var bara en tillämp­ning på Lagen om Upp­repad För­väntan, i b) var svaret att 2SLS ger samma skatt­ning som OLS, och vi visade mer gene­rellt att det gäller alltid om alla x-vari­ablerna ingår som instru­ment­vari­abler. Svaret på c) är att det inte ger samma resul­tat — man kan alltså för­bättra skatt­ningarna om man har fler instru­ment­vari­abler utöver x-vari­ablerna.

Måndag 19/2

Första timmen ägnade vi åt projekt­uppgiften. Jag tycker det gick bra, vi hade en bra diskus­sion, och ni hade litet olika sätt att angripa problemet, vilket jag också tycker var bra.

Andra timmen pratade jag litet allmänt om modell­val: hur man kan tänka sig att trans­formera vari­abler som inte kan anta alla reella värden (t.ex. alltid är positiva eller alltid ligger mellan noll och ett, som t.ex. en andel). Jag tog också upp "inter­aktions-termer", dvs. produkten av två ingående variabler. Flera av er hade en sådan i projekt­uppgiften: (dummy för "black")x("education"). På slutet tog jag upp litet grand om "boots­trap". Boot­strap används framför allt vid icke-linjära modeller för att skatta osäker­heten i punkt­skatt­ningarna. Ibland används det ochså för hypotes­test av ett icke-linjärt samband mellan koeffici­enterna i en modell. Anled­ningen till att man gärna använder boot­strap i dessa fall är att man un­dviker att lita på asymp­totiska resultat som förmod­ligen är goda aproxima­tioner bara då man har väldigt många observa­tioner. Detta är extra känsligt vid icke-linearitet, eftersom man då också gör Taylor-approxima­tioner som kan vara rätt grova.

Bootstrap behandlas i kap. 8 (6 i nya uppl.) i Hansen, men tyvärr är det rätt hopplöst att läsa. Man kan hoppa till kapitel 8.12 (6.12) och sedan titta litet bakåt för att se vad han syftar på. Det bästa är natur­ligtvis att gå Gunnar Englunds kurs i "Dator­intensiva Metoder"

Fredag 16/2

Idag tittade vi bara på övningsuppgifter. Vi gjorde klart "modelltentan", och sedan också 9.1 (7.1 i nya uppl.) i Hansen (dvs. övning 29).

Onsdag 14/2

Första timmen här­ledde jag ML-esti­matorn av en Logit- eller Probit-ekvation. Det visade sig vara ekvi­valent med GNLLS-esti­matorn, som jag pratade om igår.

Andra timmen tittade vi på de första upp­gifterna i "modell­tentan". I uppgift ett tänkte jag mig att man skulle mis­tänka multi­ko­linearitet: Ålder – studie­tid bör vara unge­fär kon­stant (=multipel av inter­ceptet). Åt­gärden kan då vara att ta bort "ålder" ur ekva­tionen.

I andra uppgiften är problemet "själv­selek­tion" — det är fri­villigt att deltaga i "åtgärd" vilket gör att gruppen som är i åtgärd kan ha andra karak­teris­tika än de som inte deltar. En metod att komma till­rätta med detta är att ut­nyttja en instru­ment­variabel (väl korre­lerad med dummy­variabeln "del­tagit" men okorre­lerad med resi­dualen). Men en sådan hittar man knappast, så åt­gärden skulle väl snarast vara en "Heckit", som vi ännu inte berört på under­visningen.

I tredje upp­giften kan vi helt enkelt införa en ny para­meter a = β1 + β2, och substi­tutera β2 = a – β1.

Tisdag 13/2

Jag repeterade först snabbt "moment­metoden" eftersom jag tycker att jag inte lyckats förklarat den tydligt tidigare. Därefter tog jag upp NLLS med instru­ment­variabler — detta står inte i Hansen; jag har skrivit litet om det i kommen­tarerna. Syftet är bara att ni skall känna till att man kan använda tekniken med instru­ment­variabler även vid icke-linjär regres­sion.

Därefter tog jag upp generali­serad NLLS (GNLLS). Detta står inte heller i Hannsen (!), men jag tycker det är rätt centralt. Jag har skrivit kort­fattat om det i kommen­tarerna, men jag tog upp det mer detal­jerat på under­visningen.

Andra timmen visade jag hur man kan skatta Logit- och Probit-modeller med GNLLS. Det visar sig vara ekviva­lent med att skatta med Maximum Likeli­hood (ML); det tar jag upp i morgon. Logit- och Probit-modeller behandlar Hansen i kapitel 14.1 (12.1 i nya upplagan).

Måndag 12/2

Jag löste först uppgift 7.7 i Hansen (5.7 i nya upp­lagan). Därefter gick jag igenom Non Linear Least Squares (NLLS), litet nog­gran­nare än i kommen­tarerna; se också Hansen kap. 7.4 (5.4 i nya upplagan). Jag kom inte in på instru­ment­variabler med NLLS, jag tar upp det litet grand i morgon.

Glöm inte projekt­upp­giften som skall redo­visas nästa måndag!

Fredag 9/2

Jag har fått påpekat av Gunnar Englund att det var ett tryck­fel under måndagen 17/1. Det gällde "Lagen om Upprepad För­väntan". Det är rättat nu.

Idag tog jag upp uppgift 21 i övningarna. Jag lämnade som övning:

  1. Visa att om X har ko­varians­matris Ω så har Y=AX (X är en k x 1-matris av sv., A en fix r x k-matris) ko­varians­matrisen   AΩA'.

Sedan visade jag lemmat

Med hjälp av danna sats visade jag sedan satsen

  1. Om X är normal­fördelad med vänte­värdet 0 och ko­varians­matris  Ω  så är  X'Ω-1X  Chi-två-för­delad med k fri­hets­grader.

Wald-testet (t.ex övning 21) bygger på satserna 1 och 2. På samma sätt som jag visade sats 2 kan man lösa uppgift 7.5 i Hansen (5.5 i nya versionen). Gör det!

Sedan tog jag upp predik­tion. Tyvärr blev det litet hafsigt, efter­som jag var stressad av att tiden var knapp. Hansen behand­lar det här i kapitel 7.3 (5.3 i nya upp­lagan), och jag har skrivit en kort samman­fattning. (något uppdaterad kl. 20.10)

Onsdag 7/2

Först pratade jag litet om asymp­totiska egen­skaper hos OLS och instru­ment­variabel-skatt­ningar. Det står i Hansen kapitel 6 (kapitel 4 i nya); relevant sannolik­hets­teori finns i kapitel 5 (appendix C i nya). Jag tog bara upp det här litet över­siktligt, det är inte meningen att ni skall gå in i tekniska detaljer!

Andra timmen tog jag upp problem 11.7 i Hansen (9.7 i nya). Jag pratade en del om det som står i k1p. 11.0–11.3 (9.1–9.3 i nya), dvs. "struktur­ekva­tioner", "reducerad form" och "identi­fikation". Det är viktigt att ni har hört talas om dessa saker, eftersom det hör till allmän­bild­ningen, men jag förordar en-ekvations-metoder (dvs. instrument­variabler) framför system-metoder (skatta redu­cerade formen och sedan identifiera struktur­ekva­tionerna), så i stället för problem med identi­fikation gäller det att hitta bra instrument. Vi löste problem 23 i övningarna. Slutligen löste vi också övning 25.

Tisdag 6/2

Jag gick igenom GLS (Hansen kap. 7.1 (5.1 i nya uppl.)). Se också mina samman­fattningar. Andra timmen löste jag uppgift 26 i övningarna, dvs övning 7.8 i Hansen (5.8 i nya upplagan).

I morgon går jag bl.a. igenom övningarna 21, 23 och 25.

Måndag 5/2

Jag gick först igenom "Adjusted R2" (R2 med streck över — går inte i HTML). Jag har skrivit om det kort­fattat i samman­fatt­ningen, men det står också bra i Hansen — där står också formlerna för ut­räkning.

Sedan pratade jag om kraven på instrument­variabler. De måste

  1. vara okorre­lerade med residualen
  2. vara väl korre­lerade med den endogena variabel de är instrument för.

För att kontrol­lera om krav 2 är upp­fyllt föreslog jag att man kan göra en OLS av x (den endogena variabeln) på instru­menten (z1, ..., zm plus inter­cept) och titta om justerade R2 är någor­lunda stor. Om den är alltför liten kan man inte vänta sig annat än skräp.

Slutligan disku­terade vi uppgift 11.8 i Hansen (9.8 i nya upp­lagan), se uppgift 22 och 24

Vi kom också överens om att under­visningen måndag den 19/2 är obliga­torisk närvaro för dem som vill ha 1p. för projekt­upp­giften! Då skall ni som har gjort upp­giften skriva upp er på en lista, och sedan lottar jag ut en person på listan som skall redovisa sin rapport för oss andra, och vi ställer frågor och kommen­terar. Det behöver inte vara någon lång­dragen historia, kanske 10–15 minuter plus diskus­sion. Sedan får alla på listan sina 1p. Läs mer om projekt­upp­giften här.

Fredag 2/2

Jag fortsatte med instrument­variabel-metoden, då man har fler instrument är x-variabler. Det visade sig ta hela lektionen. Det jag gick igenom finns samman­fattat i mina kommen­tarer. (Jag gick inte igenom GLS som står i slutet av kommentarerna — det kommer vi till senare.) Det är tyvärr svårt att extrahera det här ur Hansens kompendium; det står i kapitel 11 (9 i nya upplagan) men syftar också tillbaks till kapitel 9 (7 i nya upplagan).

Onsdag 31/1

Jag tog först upp situa­tionen med för­klarings­variabler som är korre­lerade med resi­dualen. Orsakerna kan grovt delas upp i: 1. Simul­tanitet, 2. Ute­lämnad relevant variabel, 3. Mätfel i för­klarings­variabeln. Det här osakerna tar Hansen upp på olika ställen i kompendiet.

Sedan gick vi igenom övningarna 17–20. Uppgift 20 var litet lurig: det rätta svaret är att det är bra att välja 50–50, efter­som man då får ett bättre kondi­tionerat problem — mindre tendens till ko­lineari­tet. Det kan också vara bra att se till att både bra och dåliga gymnasie­betyg finns med, blandat bland män och kvinnor. Om t.ex. alla i samplet har exakt samma betyg så blir den vari­abeln propor­tionell mot inter­ceptet, och då har vi singu­laritet. Samma sak om alla män har ett betyg och alla kvinnor ett annat. Då kan betygs-variabeln skrivas som en linjär­kombina­tion av "1" (inter­ceptet) och "kvinna"; dvs. vi har multi­ko­linearitet.

På slutet tog jag upp en åtgärd mot "edogena variabler": instrument­variabler. Jag tog bara upp fallet då man har lika många instrument som för­klarings­variabler. Tyvärr står det här fallet litet begravt i Hansen; kap. 11.0, 11.1 och 11.5 (9.0, 9.1 och 9.5 i senaste upp­lagan). Jag har en kort samman­fattning i mina kommentarer. Där finns också ut­trycket för Whites ko­varians­matris i fallet med instrument­variabler — jag kan inte finna det i Hansen! Stanna vid lemmat, resten har jag inte gått igenom ännu.

Fundera gärna till på fredag på vad som even­tuellt skulle kunna fungera som instrument­variabler i övningarna vi gått igenom där vi har problem med endo­genitet. Titta också på uppgift 11.8 (9.8 i senaste upp­lagan). Försök inte lösa upp­giften, men fundera över om de före­slagna instrument­variablerna är lämp­liga, eller om de kan vara proble­matiska ur någon syn­punkt.

Tisdag 30/1

Vi gick igenom övningarna 1, 2 och 9–16. "Problemet" är i något fall multi­kolinearitet, i de flesta fall korrela­tion mellan en x-variabel och residualen av olika anledningar.

Vi tog också något fall upp speci­fikations­problem av typen att en variabel kanske skall tas med kvadrerad, e.d.

Ni kan nu börja fundera över projekt­uppgiften. Den ger 1p (separat moment), det står om den längst ner på den här sidan. Om ni vill ha ett exempel på hur man kan skriva en artikel kan ni titta på den här. Det är en artikel jag skrev till­sammans med Stefan Lundgren 1991 för Economics Letters. Vi kanske tittar på den igen litet senare som exempel på model­lering och skatt­nings­metod, men ni kan ju också ta den som ett exempel på hur man kan skriva en kort rapport — den är på bara tre sidor. (Detta är natur­ligt­vis ingen obliga­torisk läsning, jag kommer givet­vis inte att ge nå'n tenta­uppgift som syftar på denna artikel.) Er projekt­rapport kan natur­ligt­vis vara kortare.

Kommentarer till Hansen

Jag har skrivit några korta kommentarer till Hansens kompendium, eftersom ett par formler kan vara svåra att hitta. Det är hittills Whites kovariansmatris och Walds teststatistika. Det blir kanske mer senare.

Måndag 29

Jag pratade om T-test och Wald-test. Hansen skriver om det här i kapitel 6.8–6.10 (4.7–49 i nya upplagan.) Med mina beteck­ningar ser det ut så här:

Låt β vara kolonn­matrisen (β0 ... βk)' och b = (b0 ... bk)' kolonn­matrisen av skatt­ningen av β. Vi skattar kovarians­matrisen Ω för b med Whites metod. Låt R vara en  r x (k+1)-matris och μ en  r x 1-matris. Vi vill nu testa noll­hypotesen Ho: Rβ = μ. Då ut­nyttjar vi att under Ho gäller approxi­mativt

(Rb-μ)'(RΩR')-1(Rb-μ) är chi-2 med r frihets­grader.

Detta är Wald-testet. Alterna­tiva test är F-testet och LM-testet (Lagrange-Multiplyer test). Ni bör känna till att de finns, dvs. känna igen namnen, men vi tar bara upp Wald-testet — alla tre gör ungefär samma sak.

Sista kvarten pratade jag om modell­problemet då någon x-variabel är korre­lerad med residu­alen. Detta problem har många namn; "endo­geneity", "omitted relevant variable", "simul­taniety", "unob­served hetero­geneity". Mate­matiskt är problemet detsamma, men benäm­ningen varierar med tolk­ningen. Hansen tar upp det här på flera olika ställen, men väsent­ligen bara som tekniskt problem. Vi skall också disku­tera problemen ur modell-synpunkt. Ni kan tänka på övningarna 14–20, så tar vi upp dem i morgon.

Fredag 26/1

Jag ser att Hansen upp­daterat kompen­diet den 18/1. Det verkar som han korri­gerat enligt mina kommen­tarer — det var ju trevligt att se! Jag får nu hän­visa både till gamla och nya upp­lagan i fort­sättningen.

Idag var bara ungefär hälften av studenterna på under­visningen. Nå't obliga­toriskt var visst på gång i nå'n annan kurs.

Jag gick igenom en del om kvadra­tiska former (linjär algebra, alltså) och ko­varians­matriser. Ni som inte var där kan läsa i kapitel 2 i Hansen (Appendix A i nya upp­lagan). Därefter visade jag att OLS är BLUES (Best Linear Unbiased EStimator) om man har homo­skedasti­citet. Har man hetero­skedasti­citet är OLS fort­farande konsi­stent (om än ineffektiv), och Whites ko­varians­matris är också OK, medan den "klassiska" ko­varians­matrisen är felaktig — den skall man aldrig använda. Detta mot­svarar ungefär kapitel 3.8, Gauss–Markovs Sats, i Hansen (3.9 och beviset för sats 3.9.1 i av­snitt 3.13 i nya upplagan)

Precis på slutet nämnde jag kort­fattat pro­blemet med multi­ko­linearitet; kapitel 4.11 i Hansen (kap. 3.11 i nya upp­lagan.)

Ni kan nu pröva på de tretton första övningarna!

Onsdag 24/1

Jag ville nu beräkna kovarians­matrisen för skatt­ningen av para­metrarna (β0, ... ,βk). Jag gör detta under förut­sättningen att E(e | x) = 0, dvs. att vi åtminstone approxi­mativt lyckats få x'β = E(y | x). Jag beräknade ko­variansen betingat x-observa­tionerna!, och jag pladd­rade en hel del om varför jag väljer att göra så (obser­vera att Hansen betraktar x-vari­ablerna som sto­kastiska, och inte betingar map. dessa).

Jag tog först upp fallet med homo­skedas­tisk residual. Detta är det klassiska sättet att skatta ko­varians­matrisen — detta står i kap. 4.7 i Hansen.

Sedan beskrev jag Whites hetero­skedasti­citets­korri­gerade skatt­ning. Detta står i kapitel 6.3 och 6.4, men det är fram­ställt på ett sätt som gör det svårläst, tyvärr. Resultatet är iaf. att ko­varians­matrisen kan skattas med

(X'X)-1X'D(e)X(X'X)-1

där D(e) är den stora diagonal­matris (n x n-matris där n=antalet obser­vationer) som har kva­draterna på de skattade residu­alerna i huvud-diago­nalen och nollor för övrigt, alltså samma matris som höger­ledet i formel (4.20), sid 31, i Hansen, men där man i stället för σ12 har e12, där e1 är den skattade resi­dualen för obser­vation ett, osv.

Man skall alltid avnända denna senare kovariansmatris! Den är korrekt även om man har heteroskedasticitet (trots att OLS då inte är effektiv), medan den klassiska metoden då ger felaktiga värden. Tyvärr lever den klassiska formeln kvar i t.ex. EXCEL. White kom på sin metod redan 1980, och den är numera standard.

Nu kan ni göra övningarna 11 och 12 till på fredag!

Tisdag 23/1

Jag repe­terade det vi hit­tils gått igenom, och räknade också på ett litet nume­riskt exempel, för att det skulle bli lättare att tolka matris­beteck­ning­arna. Jag visade också att MME-skatt­ningen av en linjär regres­sion (Hansen kallar det "linjär pro­jektion") också är OLS-skatt­ningen. Slut­ligen gick vi snabbt igenom övningarna 4–7. Svaren är

  1. Ja, men man får hetero­skedas­ticitet: vari­ansen för resi­dualen blir x'β. (Man måste också se till att x'β alltid är posi­tivt.)
  2. E(y | x) = 1/2 + 1/(12x2+4), och y = 55/73 - 15x/73
  3. True
  4. False

Vi har nu klarat av kapitel 1, 3, 4.0, 4.1, huvuddelen av 4.2, och 4.4.

Måndag 22/1

Lektionen fick ställas in pga. min opasslighet. Men jag har återhämtat mig, så i morgon fortsätter vi.

Fredag 19/1

Det blev tyvärr ganska rörigt idag. Jag repe­terade snabbt betingat vänte­värde och tog sedan upp linjär regres­sion. Jag gav en definition som påminner om den för betingat vänte­värde, och till slut fann vi följande sätt att karak­teri­sera en regres­sion:

om y och x0,...,xk är stokastiska variabler, så är

x0β0 + ... + xkβk

regres­sionen av y på x0,...,xkom

y = x0β0 + ... + xkβk+ e     (1)

där

E(exi) = 0   för alla i.

I praktiken sätter vi alltid x0 = 1, så E(e) = 0. Vi skattar koeffici­enterna βi genom att sätta sample-medel­värdena av   exi = 0   för i = 0,...,k i ekva­tion (1). Detta ger ett ekva­tions­system med k+1 ekva­tioner ur vilket vi löser de k+1 para­met­rarna βi, i=0,...,k.

Vi hann inte längre än så, eftersom vi hade litet besvär med att parsa matris­beteck­ningarna. Läs följande avsnitt i Hansens kompen­dium: 3, 4.0, 4.1, 4.4. Beteck­ningen xi är defini­erad i (3.1) på sidan 11. Obser­vera alltså att X på sidan 26 är en n x k-matris! Ni kan också titta övningarna 4–8

Torsdag 18/1

Jag har gjort en länk härifrån (gråa fältet högst upp) och från kurssidan till en sida med övningar. Jag samlar övningarna där efter hand. Till i morgon kan ni titta litet på uppgifterna 4 – 8.

Onsdag 17/1

Jag tog först upp ett indedande exempel där vi frågade om kvinnor får lägre lön än män. Vi observerade att frågan inte är precist ställd, och efter att vi perciserat frågan skrev vi upp en regressons­modell

ln(wage) = β0 + β1(eduction) + β2(south) + β3(nonwhite) + β4(hispanic) +
β5(female) + β6(experience) + β7(experience)2 + β8(union)

där vi disku­terade modellen och tolk­ningarna av den. (Jag gav också punkt­skatt­ningarna av para­metrarna och deras skattade standard­av­vikelser.)

Andra timmen ägnade jag åt begreppet betingat väntevärde. Låt Y och X=(X1,...,Xk) vara stokastiska variabler. Vi definierar E[Y | X] = g(X) den funktion av X som minimerar E[(Y - g(X))2], dvs. som uppfyller att

E[(Y - h(X))2] ≥ E[(Y - g(X))2]   för alla funktioner h(X).

Vi fann att detta var ekvivalent med "orto­gonali­tets­egen­skapen"

E[(Y - g(X)) h(X)] = 0   för alla funktioner h(X).

Jag härledde ur detta uttryck det vanliga integral-uttrycket för g(X) = E[Y | X] (för en given täthets­funktion) som man finner i läro­böckerna. Vi tog också fram den extremt viktiga regeln "Lagen om Upprepad Förväntan":

E[Y] = E(E[Y | X])   och

E[h(X)Y | X] = h(X) E[Y | X]   för alla funktioner h(X).

Måndag 15/1

Kursen börjar på onsdag. Jag planerar att (efter ett inledande exempel och litet kring­snack) gå igenom den del matris­kalkyl (en del repe­tition, men också en del nytt) och prata om betingade vänte­värden och linjär regres­sion. Jag åter­kommer om onsdagens lektion när den har varit.

Projektuppgift (Obs! obligatorisk närvaro må. 19/2)

En poäng i kursen utgörs av en projektuppgift. Den gör ni två och två (eller ensam, om någon föredrar det; en grupp kan vara tre personer om det inte går jämnt upp annars.) Den skall sedan redovisas på ett sätt som jag återkommer till.

Uppgiften är följande: Här är ett dataset med löner år 1976 för 2215 personer i USA (ned­laddat från Bruce Hansens hem­sida; se övning 8 sidan 134 i hans kompendium (sidan 100 i nya upplagan)) och beskrivning av data­setet. Här finns också uppgift om utbildning (education). Högre utbildning ger högre lön — ett års extra utbildning höjer lönen. Den fråga som ni skall studera i första hand är följande: Är denna effekt på lönen av mer utbildning den­samma för svarta som för icke-svarta? Lönar det sig mer eller mindre i form av högre lön för en svart person, jämfört med en icke-svart, att utbilda sig mer, och hur stor är skilnaden. Att jag skriver "icke-svart" och inte "vit" beror på att i data finns en dummy-variabel för "black", men det framgår inte om alla andra är vita eller om där ingår asiater, indier, osv. Tyvärr framgår inte heller om alla är män, kvinnor eller om det är blandat.

Ni skall gärna ställa och belysa även andra frågor som ni finner av intresse.

Ni skall skriva en liten rapport — den behöver inte vara speciellt lång — där ni

Allt detta skall med, men ni behöver inte göra några lång­randiga utläggningar: fatta er kort och koncist.

Om ni vill ha ett exempel på hur man kan skriva en artikel kan ni titta på den här. Det är en artikel jag skrev till­sammans med Stefan Lundgren 1991 för Economics Letters. Vi kanske tittar på den så småningom som exempel på model­lering och skatt­nings­metod, men ni kan ju också ta den som ett exempel på hur man kan skriva en kort rapport — den är på bara tre sidor. (Detta är natur­ligt­vis ingen obliga­torisk läsning, jag kommer givet­vis inte att ge nå'n tenta­uppgift som syftar på denna artikel.) Er projekt­rapport kan natur­ligt­vis vara kortare.


 

Valid HTML 4.01! valid css