(Regression Diagnostics) Ngày 5 tháng 1 năm 2016

Similar documents
Một phân tích giữa các kỹ thuật trong dự đoán kết quả học tập Nguyễn Thái Nghe 1, Paul Janecek 2, Peter Haddawy 3

TRƯỜNG ĐẠI HỌC XÂY DỰNG KHOA CÔNG NGHỆ THÔNG TIN GIÁO TRÌNH PHẦN III NGÔN NGỮ LẬP TRÌNH PASCAL -2

PHƯƠNG PHÁP SIXFRAME

Higher Education Accreditation in Vietnam and the U.S.: In Pursuit of Quality

HIGHER EDUCATION IN VIETNAM UPDATE MAY 2004

Double Master Degrees in International Economics and Development

Developing Autonomy in an East Asian Classroom: from Policy to Practice

Curriculum Vitae. Jonathan D. London. Assistant Professor of Sociology, City University of Hong Kong, January 2008-

Probability and Statistics Curriculum Pacing Guide

MINUTE TO WIN IT: NAMING THE PRESIDENTS OF THE UNITED STATES

STT 231 Test 1. Fill in the Letter of Your Choice to Each Question in the Scantron. Each question is worth 2 point.

AP Statistics Summer Assignment 17-18

Detailed course syllabus

STA 225: Introductory Statistics (CT)

1 We would like to thank participants of the Economics of Education group in Maastricht University, of the International

Vocational Training Dropouts: The Role of Secondary Jobs

LANGUAGE DIVERSITY AND ECONOMIC DEVELOPMENT. Paul De Grauwe. University of Leuven

CATALOG. Educating Tomorrow s Missionaries. A Roman Catholic College Seminary owned and operated by the Society of the Divine Word

A Decision Tree Analysis of the Transfer Student Emma Gunu, MS Research Analyst Robert M Roe, PhD Executive Director of Institutional Research and

Evaluation of Teach For America:

ABILITY SORTING AND THE IMPORTANCE OF COLLEGE QUALITY TO STUDENT ACHIEVEMENT: EVIDENCE FROM COMMUNITY COLLEGES

VOL. 3, NO. 5, May 2012 ISSN Journal of Emerging Trends in Computing and Information Sciences CIS Journal. All rights reserved.

Lahore University of Management Sciences. FINN 321 Econometrics Fall Semester 2017

Ryerson University Sociology SOC 483: Advanced Research and Statistics

Race, Class, and the Selective College Experience

Building a Semantic Role Labelling System for Vietnamese

Instructor: Mario D. Garrett, Ph.D. Phone: Office: Hepner Hall (HH) 100

Algebra 1, Quarter 3, Unit 3.1. Line of Best Fit. Overview

A Program Evaluation of Connecticut Project Learning Tree Educator Workshops

J j W w. Write. Name. Max Takes the Train. Handwriting Letters Jj, Ww: Words with j, w 321

Malicious User Suppression for Cooperative Spectrum Sensing in Cognitive Radio Networks using Dixon s Outlier Detection Method

Predicting the Performance and Success of Construction Management Graduate Students using GRE Scores

Detecting English-French Cognates Using Orthographic Edit Distance

School Size and the Quality of Teaching and Learning

Investment in e- journals, use and research outcomes

12- A whirlwind tour of statistics

Session 2B From understanding perspectives to informing public policy the potential and challenges for Q findings to inform survey design

Universityy. The content of

PROMOTING QUALITY AND EQUITY IN EDUCATION: THE IMPACT OF SCHOOL LEARNING ENVIRONMENT

Do multi-year scholarships increase retention? Results

A Model to Predict 24-Hour Urinary Creatinine Level Using Repeated Measurements

An Empirical Analysis of the Effects of Mexican American Studies Participation on Student Achievement within Tucson Unified School District

American Journal of Business Education October 2009 Volume 2, Number 7

Jack Jilly can play. 1. Can Jack play? 2. Can Jilly play? 3. Jack can play. 4. Jilly can play. 5. Play, Jack, play! 6. Play, Jilly, play!

The direct effect of interaction quality on learning quality the direct effect of interaction quality on learning quality

Knowledge management styles and performance: a knowledge space model from both theoretical and empirical perspectives

The Effects of Ability Tracking of Future Primary School Teachers on Student Performance

Chapters 1-5 Cumulative Assessment AP Statistics November 2008 Gillespie, Block 4

Grade Dropping, Strategic Behavior, and Student Satisficing

PROFESSIONAL TREATMENT OF TEACHERS AND STUDENT ACADEMIC ACHIEVEMENT. James B. Chapman. Dissertation submitted to the Faculty of the Virginia

Peer Influence on Academic Achievement: Mean, Variance, and Network Effects under School Choice

Edexcel GCSE. Statistics 1389 Paper 1H. June Mark Scheme. Statistics Edexcel GCSE

ARTICULATION AGREEMENT

DO CLASSROOM EXPERIMENTS INCREASE STUDENT MOTIVATION? A PILOT STUDY

The Relationship Between Poverty and Achievement in Maine Public Schools and a Path Forward

The Effect of Explicit Vocabulary Application (EVA) on Students Achievement and Acceptance in Learning Explicit English Vocabulary

Trends in College Pricing

Measures of the Location of the Data

Visit us at:

A Comparison of Charter Schools and Traditional Public Schools in Idaho

Professional Development and Incentives for Teacher Performance in Schools in Mexico. Gladys Lopez-Acevedo (LCSPP)*

About the College Board. College Board Advocacy & Policy Center

Travis Park, Assoc Prof, Cornell University Donna Pearson, Assoc Prof, University of Louisville. NACTEI National Conference Portland, OR May 16, 2012

OF CHILDREN WITH DISABILITIES

TRENDS IN. College Pricing

TOEIC LC 1000: A? (Korean Edition)

Multiple regression as a practical tool for teacher preparation program evaluation

Reading Project. Happy reading and have an excellent summer!

Antecedents and consequences of cloud computing adoption in education to achieve knowledge management. Computers in Human Behavior

Introduction to the Practice of Statistics

FRAMEWORK FOR IDENTIFYING THE MOST LIKELY SUCCESSFUL UNDERPRIVILEGED TERTIARY STUDY BURSARY APPLICANTS

A Comparison of Academic Ranking Scales

The elimination of social loafing behavior (i.e., the tendency for individuals

IS FINANCIAL LITERACY IMPROVED BY PARTICIPATING IN A STOCK MARKET GAME?

Story Problems with. Missing Parts. s e s s i o n 1. 8 A. Story Problems with. More Story Problems with. Missing Parts

The Implementation of Interactive Multimedia Learning Materials in Teaching Listening Skills

GRAMMATICAL MORPHEME ACQUISITION: AN ANALYSIS OF AN EFL LEARNER S LANGUAGE SAMPLES *

Janine Williams, Mary Rose Landon

NIH Public Access Author Manuscript J Prim Prev. Author manuscript; available in PMC 2009 December 14.

Enhancement of Self Efficacy of Vocational School Students in Buffer Solution Topics through Guided Inquiry Learning

Conversions among Fractions, Decimals, and Percents

FACTORS INFLUENCING POSITIVE INTERACTIONS ACROSS RACE FOR AFRICAN AMERICAN, ASIAN AMERICAN, LATINO, AND WHITE COLLEGE STUDENTS

MODULE 4 Data Collection and Hypothesis Development. Trainer Outline

Unequal Opportunity in Environmental Education: Environmental Education Programs and Funding at Contra Costa Secondary Schools.

Cross-Year Stability in Measures of Teachers and Teaching. Heather C. Hill Mark Chin Harvard Graduate School of Education

THE PENNSYLVANIA STATE UNIVERSITY SCHREYER HONORS COLLEGE DEPARTMENT OF MATHEMATICS ASSESSING THE EFFECTIVENESS OF MULTIPLE CHOICE MATH TESTS

Studies on Key Skills for Jobs that On-Site. Professionals from Construction Industry Demand

The lab is designed to remind you how to work with scientific data (including dealing with uncertainty) and to review experimental design.

February Statistics: Multiple Regression in R

*In Ancient Greek: *In English: micro = small macro = large economia = management of the household or family

Regression Analysis on Experience Based Factory Model for Software Development Process

Examining the Earnings Trajectories of Community College Students Using a Piecewise Growth Curve Modeling Approach

STA2023 Introduction to Statistics (Hybrid) Spring 2013

FY year and 3-year Cohort Default Rates by State and Level and Control of Institution

CAVE LANGUAGES KS2 SCHEME OF WORK LANGUAGE OVERVIEW. YEAR 3 Stage 1 Lessons 1-30

FACTORS AFFECTING ENTREPRENEURIAL INTENSIONS AND ENTREPRENEURIAL ATTITUDES IN HIGHER EDUCATION

Enhancing Students Understanding Statistics with TinkerPlots: Problem-Based Learning Approach

THEORY OF PLANNED BEHAVIOR MODEL IN ELECTRONIC LEARNING: A PILOT STUDY

Do EMO-operated Charter Schools Serve Disadvantaged Students? The Influence of State Policies

Individual Differences & Item Effects: How to test them, & how to test them well

Transcription:

Chiến lược Xây dựng và Chuẩn đoán Mô hình Hồi quy (Regression Diagnostics) Lê Việt Phú Chương trình Giảng dạy Kinh tế Fulbright Ngày 5 tháng 1 năm 2016 1 / 18

Một số đặc điểm đáng lưu ý của các nghiên cứu sử dụng mô hình hồi quy đa biến 1. Xu hướng chọn biến giải thích sao cho có ý nghĩa thống kê mà không quan tâm đến lý thuyết kinh tế học của mô hình ước lượng. Với mẫu quan sát lớn, việc tăng số mẫu sẽ làm tăng sự tương quan ngẫu nhiên, mặc dù thực tế không có bất kỳ liên hệ nào giữa các biến đó. 2. Xu hướng sử dụng quá nhiều biến giải thích trong mô hình, kể cả những biến không thực sự liên quan vì khả năng giải thích mô hình (R 2 ) được tăng lên. R 2 = ESS TSS = 1 RSS TSS = i (ŷ i ȳ i ) 2 i (y i ȳ i ) 2 ; R2 = 1 (1 R 2 ) N 1 N K. 3. Xu hướng chọn lọc điều chỉnh dữ liệu sao cho mô hình có kết quả phù hợp với định kiến có trước. 2 / 18

Xây dựng và chuẩn đoán mô hình trong nghiên cứu thực nghiệm 1. Thống kê mô tả dữ liệu. 2. Kiểm tra tính tương quan giữa các biến giải thích (multicolinearity). Phát hiện nếu dữ liệu phân phối bất đối xứng (skewed distribution). 3. Chạy thử mô hình hồi quy đơn giản và mở rộng. 4. Phát hiện và xử lý nghi vấn về cấu trúc hàm (tuyến tính hoặc phi tuyến). 5. Hậu hồi quy: rà soát những vấn đề có thể xảy ra và lựa chọn mô hình phù hợp: Hệ số phóng đại phương sai - Variance Inflation Factors (VIF). Biến ngoại vi - Outliers. Đồ thị phần dư - Residuals plot. 3 / 18

Thực hành Bộ dữ liệu của chúng ta là bộ dữ liệu điểm số SAT cuối cấp 3 (standard assessment test) của học sinh trung học tại Mỹ. Bộ số liệu này có số liệu trung bình của 51 bang. Chúng ta muốn ước lượng mô hình hồi quy giải thích điểm SAT theo các đặc trưng của bang như thu nhập (trung vị) của hộ gia đình, tỉ lệ chi tiêu trung bình cho mỗi học sinh tiểu và trung học, tỷ lệ học sinh thi lấy điểm SAT và các biến giải thích liên quan khác. Trong mô hình này chúng ta tạm thời bỏ qua sự khác biệt về khái niệm quan hệ tương quan với quan hệ nhân quả. Học viên có thể thực hành trên file dữ liệu có tên là states.dta. 4 / 18

Mô tả các biến sử dụng describe csat expense percent income high college region Loại biến Tên biến Giải thích Biến phụ thuộc csat điểm số SAT trung bình Biến giải thích expense chi phí trung bình cho một học sinh percent phần trăm học sinh thi lấy điểm SAT income thu nhập trung bình hộ gia đình (trung vị) high phần trăm người có bằng tốt nghiệp phổ thông college phần trăm người có bằng tốt nghiệp cao đẳng hoặc đại học 5 / 18

Mô tả dữ liệu summarize csat expense percent income high college region Variable Obs Mean Std. Dev. Min Max csat 51 944.098 66.93497 832 1093 expense 51 5235.961 1401.155 2960 9259 percent 51 35.76471 26.19281 4 81 income 51 33.95657 6.423134 23.465 48.618 high 51 76.26078 5.588741 64.3 86.6 college 51 20.02157 4.16578 12.3 33.3 region 50 2.54 1.128662 1 4 Điểm SAT (csat), phần trăm học sinh trung học thi SAT (percent) có thể có phân phối lệch. 6 / 18

Hồi quy đa biến tuyến tính Bắt đầu bằng mô hình đơn giản nhất, sau đó thêm dần các biến: (1) (2) (3) expense -0.0223*** 0.00335-0.00202 (0.00367) (0.00478) (0.00359) percent -2.618*** -3.008*** (0.229) (0.236) income 0.106-0.167 (1.207) (1.196) high 1.631 1.815 (0.943) (1.027) college 2.031 4.671** (2.114) (1.600) _Iregion_2 69.45*** (18.00) _Iregion_3 25.40* (12.53) _Iregion_4 34.58*** (9.450) R-sq 0.217 0.824 0.911 adj. R-sq 0.201 0.805 0.894 * p<0.05, ** p<0.01, *** p<0.001. Standard errors in parentheses. 7 / 18

Giải thích mô hình Mô hình 1: chi phí có ý nghĩa thống kê, nhưng chiều hướng tác động không như kỳ vọng. Mở rộng mô hình để kiểm soát các biến khác cho thấy chi phí không còn có ý nghĩa thông kê mô hình (1) hoặc là không đầy đủ, hoặc là do biến chi phí có tương quan với biến khác trong mô hình đầy đủ. R 2 tăng cao khi kiểm soát thêm các biến trong mô hình (2) và (3) cho thấy sự cần thiết phải mở rộng mô hình. Có thể sử dụng kiểm định F để xác nhận ý nghĩa thống kê của các biến đưa thêm vào mô hình. test percent=income=high=college=0 F( 4, 41) = 99.71 Prob > F = 0.0000 8 / 18

Kiểm tra hệ số tương quan giữa các biến giải thích Pearson s coefficient of correlation r = cov(x,y ) Var(X )Var(Y ) ; 1 r 1 pwcorr csat expense percent income high college, star(0.05) sig csat expense percent income high college csat 1.0000 expense -0.4663* 1.0000 0.0006 percent -0.8758* 0.6509* 1.0000 0.0000 0.0000 income -0.4713* 0.6784* 0.6733* 1.0000 0.0005 0.0000 0.0000 high 0.0858 0.3133* 0.1413 0.5099* 1.0000 0.5495 0.0252 0.3226 0.0001 college -0.3729* 0.6400* 0.6091* 0.7234* 0.5319* 1.0000 0.0070 0.0000 0.0000 0.0000 0.0001 * Có ý nghĩa thống kê ở mức 5% Dấu hiệu tương quan khá rõ rệt giữa các biến giải thích. 9 / 18

Kiểm tra tính tương quan giữa các biến giải thích bằng đồ thị điểm - scatter plots graph matrix csat expense percent income high college, half maxis(ylabel(none) xlabel(none)) 10 / 18

Khi dữ liệu có phân phối lệch (skewed distribution) Các giả định Gauss-Markov và ước lượng sử dụng OLS là BLUE không liên quan đến phân phối của dữ liệu, ngoại trừ phân phối của biến dư là IID chuẩn để kiểm định giả thuyết. Tuy nhiên, phân phối lệch có thể làm sai lệch điều kiện phân phối chuẩn của biến dư hoặc thay đổi phương sai của biến dư. Nếu có phân phối lệch, cần thiết phải kiểm tra ý nghĩa của biến về mặt kinh tế. Ví dụ khi ước lượng mô hình liên quan đến tỷ suất, biến phụ thuộc thường là logarit chuyển đổi dữ liệu sang hàm log có thể hạn chế được vấn đề phân phối lệch. logincome = β 0 +β 1 EDUC +β 2 EDUC 2 +β 3 EXPER +u 11 / 18

Phát hiện và xử lý vấn đề liên quan đến cấu trúc hàm Sử dụng đồ thị phân phối điểm (scatter plot) và hồi quy nội tại (local regression) để chuẩn đoán cấu trúc hàm: Khả năng phần trăm học sinh thi SAT có quan hệ phi tuyến với điểm SAT. Tại sao lại có quan hệ nghịch biến giữa điểm số SAT và số phần trăm học sinh thi SAT? 12 / 18

Điều chỉnh mô hình csat i = β 0 +β 1 expense i +β 2 percent i +β 3 income i +β 4 high i +β 5 college i + j α j Region j + β 6 percent 2 i + ε i (1) (2) (3) (4) expense -0.0223*** 0.00335-0.00202 0.00141 percent -2.618*** -3.008*** -5.945*** income 0.106-0.167-0.914 high 1.631 1.815 1.869 college 2.031 4.671** 3.418** _Iregion_2 69.45*** 5.077 _Iregion_3 25.40* 5.209 _Iregion_4 34.58*** 19.25* percent 2 0.0460*** R-sq 0.217 0.824 0.911 0.940 adj. R-sq 0.201 0.805 0.894 0.927 13 / 18

Hậu hồi quy Đồ thị phân phối của phần dư - residuals plots: Kiểm tra khả năng phương sai thay đổi. Bỏ sót biến quan trọng trong mô hình. 14 / 18

Biến ngoại vi - Outliers Dựa vào thống kê mô tả và đồ thị phân phối Bỏ các quan sát ngoại vi và ước lượng lại mô hình 15 / 18

Hệ số phóng đại phương sai - Variance Inflation Factor (VIF) Sử dụng để đo lường độ tương quan giữa các biến. Nếu các biến tự tương quan với nhau được sử dụng trong cùng một mô hình sẽ dẫn đến ước lượng phương sai bị chệch và kiểm định giả thuyết không chính xác. csat i = β 0 + β 1 expense i + β 2 percent i + β 3 income i + β 4 high i +β 5 college i + j α j Region j + u i Cần lọc ra những biến quan trọng nhất (về mặt thống kê). VIF được tính bằng cách hồi quy mỗi biến giải thích X i dựa vào các biến khác, 1 VIF i = 1 Ri 2 16 / 18

Hệ số phóng đại phương sai Nếu biến X i tự tương quan với các biến khác thì Ri 2 có giá trị cao, dẫn đến VIF lớn. Nguyên tắc chung là VIF>10 chứng tỏ biến X i có độ tương quan cao với các biến khác. Variable VIF income 4.78 high 4.71 college 4.34 _Iregion_3 4.18 percent 3.88 _Iregion_2 3.57 expense 3.18 _Iregion_4 1.8 Mean VIF 3.81 Dự đoán điều gì xảy ra nếu sử dụng bình phương của phần trăm số học sinh thi SAT trong mô hình hồi quy? 17 / 18

Một số loại kiểm định khác Kiểm định RAMSEY RESET về mô hình bị thiếu biến quan trọng: Ramsey RESET test using powers of the fitted values of csat Ho: model has no omitted variables F(3, 38) = 2.15 Prob > F = 0.1096 Kiểm định Durbin-Watson về tương quan chuỗi: Durbin-Watson d-statistic( 9, 50) = 2.36287 Kiểm định Breusch-Pagan về phương sai của sai số thay đổi (kỳ sau). Breusch-Pagan / Cook-Weisberg test for heteroskedasticity Ho: Constant variance Variables: fitted values of csat chi2(1) = 1.40 Prob > chi2 = 0.2375 18 / 18