24/05/2018, 22:19

Biến phân loại

Trong các mô hình hồi quy mà chúng ta đã khảo sát từ đầu chương 3 đến đây đều dựa trên biến độc lập và biến phụ thuộc đều là biến định lượng. Thực ra mô hình hồi quy cho phép sử dụng biến độc lập và cả biến phụ thuộc là biến định tính. Trong ...

Trong các mô hình hồi quy mà chúng ta đã khảo sát từ đầu chương 3 đến đây đều dựa trên biến độc lập và biến phụ thuộc đều là biến định lượng. Thực ra mô hình hồi quy cho phép sử dụng biến độc lập và cả biến phụ thuộc là biến định tính. Trong giới hạn chương trình chúng ta chỉ xét biến phụ thuộc là biến định lượng. Trong phần này chúng ta khảo sát mô hình hồi quy có biến định tính.

Đối với biến định tính chỉ có thể phân lớp, một quan sát chỉ có thể rơi vào một lớp. Một số biến định tính có hai lớp như:

Bảng 4.1. Biến nhị phân

Người ta thường gán giá trị 1 cho một lớp và giá trị 0 cho lớp còn lại. Ví dụ ta ký hiệu S là giới tính với S =1 nếu là nữ và S = 0 nếu là nam.

Các biến định tính được gán giá trị 0 và 1 như trên được gọi là biến giả(dummy variable), biến nhị phân, biến phân loại hay biến định tính.

Hồi quy với một biến định lượng và một biến phân loại

Ví dụ 4.1. Ở ví dụ này chúng ta hồi quy tiêu dùng cho gạo theo quy mô hộ có xem xét hộ đó ở thành thị hay nông thôn.

Mô hình kinh tế lượng như sau:

Yi = β size 12{β} {}1 + β size 12{β} {}2X i+ β size 12{β} {}3Di + β size 12{β} {}i(4.19)Y: Chi tiêu cho gạo, ngàn đồng/năm

X : Quy mô hộ gia đình, người

D: , D = 1 nếu hộ ở thành thị, bằng D = 0 nếu hộ ở nông thôn.

Chúng ta muốn xem xét xem có sự khác biệt trong tiêu dùng gạo giữa thành thị và nông thôn hay không ứng với một quy mô hộ gia đình Xi xác định.

Đối với hộ ở nông thôn

(4.20)

Đối với hộ ở thành thị

(4.21)

Vậy sự chênh lệch trong tiêu dùng gạo giữa thành thị và nông thôn như sau

(4.22)

Sự khác biệt trong tiêu dùng gạo giữa thành thị và nông thôn chỉ có ý nghĩa thống kê khi β3 khác không có ý nghĩa thống kê.

Chúng ta đã có phương trình hồi quy như sau

Y = 187 + 508*X - 557*D (4.23)

t-stat [0,5] [6,4] [-2,2]

R2 hiệu chỉnh = 0,61

Hệ số hồi quy khác không với độ tin cậy 95%. Vậy chúng ta không thể bác bỏ được sự khác biệt trong tiêu dùng gạo giữa thành thị và nông thôn.

Chúng ta sẽ thấy tác động của làm cho tung độ gốc của phuơng trình hồi quy của thành thị và nông thôn sai biệt nhau một khoảng β size 12{β} {}3 = -557 ngàn đồng/năm. Cụ thể ứng với một quy mô hộ gia đình thì hộ ở thành thị tiêu dùng gạo ít hơn hộ ở nông thôn 557 ngàn đồng/năm.Chúng ta sẽ thấy điều này một cách trực quan qua đồ thị sau:

Hình 4.1. Hồi quy với một biến định lượng và một biến phân loại.

Hồi quy với một biến định lượng và một biến phân loại có nhiều hơn hai phân lớp

Ví dụ 4.2. Giả sử chúng ta muốn ước lượng tiền lương được quyết định bởi số năm kinh nghiệm công tác và trình độ học vấn như thế nào.

Gọi Y : Tiền lương

X : Số năm kinh nghiệm

D: Học vấn. Giả sử chúng ta phân loại học vấn như sau : chưa tốt nghiệp đại học, đại học và sau đại học.

Phuơng án 1:

Di = 0 nếu chưa tốt nghiệp đại học

Di = 1 nếu tốt nghiệp đại học

Di =2 nếu có trình độ sau đại học

Cách đặt biến này đưa ra giả định quá mạnh là phần đóng góp của học vấn vào tiền lương của người có trình độ sau đại học lớn gấp hai lần đóng góp của học vấn đối với người có trình độ đại học. Mục tiêu của chúng ta khi đưa ra biến D chỉ là phân loại nên ta không chọn phương án này.

Phương án 2: Đặt bộ biến giả

D1iD2iHọc vấn

00Chưa đại học

10Đại học

01Sau đại học

Mô hình hồi quy

Yi = β size 12{β} {}1 + β size 12{β} {}2X + β size 12{β} {}3D1i + β size 12{β} {}4D2i + β size 12{β} {}i(4.24)

Khai triển của mô hình (4.24) như sau

Đối với người chưa tốt nghiệp đại học

E(Yi )= β size 12{β} {}1 + β size 12{β} {}2X (4.25)

Đối với người có trình độ đại học

E(Yi )= ( β size 12{β} {}1 + β size 12{β} {}3)+ β size 12{β} {}2X3(4.26)

Đối với người có trình độ sau đại học

E(Yi )= ( β size 12{β} {}1 + β size 12{β} {}3+ β size 12{β} {}4 )+ β size 12{β} {}2X (4.27)

Cái bẩy của biến giả

Số lớp của biến phân loạiSố biến giả

Trong ví dụ 4.1. 21

Trong ví dụ 4.232

Điều gì xảy ra nếu chúng ta xây dựng số biến giả đúng bằng số phân lớp?

Ví dụ 4.3. Xét lại ví dụ 4.1.

Giả sử chúng ta đặt biến giả như sau

D1iD2iVùng

10Thành thị

01Nông thôn

Mô hình hồi quy là

Yi = β size 12{β} {}1 + β size 12{β} {}2X i+ β size 12{β} {}3D1i + β size 12{β} {}4D2i + β size 12{β} {}i(4.28)

Chúng ta hãy xem kết quả hồi quy bằng Excel

Kết quả hồi quy rất bất thường và hoàn toàn không có ý nghĩa kinh tế.

Lý do là có sự đa cộng tuyến hoàn hảo giữa D1, D2 và một biến hằng X2 =-1.

D1i + D2i + X2 = 0 ∀i size 12{ forall i} {}.

Hiện tượng đa cộng tuyến hoàn hảo này làm cho hệ phương trình chuẩn không có lời giải. Thực tế sai số chuẩn tiến đến vô cùng chứ không phải tiến đến 0 như kết quả tính toán của Excel. Hiện tượng này được gọi là cái bẩy của biến giả.

Quy tắc: Nếu một biến phân loại có k lớp thì chỉ sử dụng (k-1) biến giả.

Hồi quy với nhiều biến phân loại

Ví dụ 4.4. Tiếp tục ví dụ 4.2. Chúng ta muốn khảo sát thêm có sự phân biệt đối xử trong mức lương giữa nam và nữ hay không.

Đặt thêm biến và đặt lại tên biến

GTi: Giới tính, 0 cho nữ và 1 cho nam.

TL : Tiền lương

KN: Số năm kinh nghiệm làm việc

ĐH: Bằng 1 nếu tốt nghiệp đại học và 0 cho chưa tốt nghiệp đại học

SĐH: Bằng 1 nếu có trình độ sau đại học và 0 cho chưa.

Mô hình hồi quy TLi = β size 12{β} {}1 + β size 12{β} {}2KNi + β size 12{β} {}3ĐHi + β size 12{β} {}4SĐHi + β size 12{β} {}5GTi+ β size 12{β} {}i(4.29)

Chúng ta xét tiền lương của nữ có trình độ sau đại học

E(TLi /SĐH=1∩GT=0)= ( β size 12{β} {}1 + β size 12{β} {}4)+v2KNi

Biến tương tác

Xét lại ví dụ 4.1. Xét quan hệ giữa tiêu dùng gạo và quy mô hộ gia đình.Để cho đơn giản trong trình bày chúng ta sử dụng hàm toán như sau.

Nông thôn: Y = β size 12{β} {}1 + β size 12{β} {}1X

Thành thị: Y = β size 12{β} {}2 + β size 12{β} {}2X

D : , bằng 1 nếu hộ ở thành thị và bằng 0 nếu hộ ở nông thôn.

Có bốn trường hợp có thể xảy ra như sau

β size 12{β} {}1= β size 12{β} {}2 và β size 12{β} {}1= β size 12{β} {}2, hay không có sự khác biệt trong tiêu dùng gạo giữa thành thị và nông thôn.

Mô hình : Y = a + b X

Trong đó β size 12{β} {}1= β size 12{β} {}2 = a và β size 12{β} {}1= β size 12{β} {}2 = b.

β size 12{β} {}1≠ β size 12{β} {}2 và β size 12{β} {}1= β size 12{β} {}2, hay có sự khác biệt về tung độ gốc

Mô hình: Y = a + bX + cD

Trong đó β size 12{β} {}1 = a, β size 12{β} {}2 = a + c và β size 12{β} {}1 = β size 12{β} {}2 = b.

β size 12{β} {}1= β size 12{β} {}2 và β size 12{β} {}1≠ β size 12{β} {}2, hay có sự khác biệt về độ dốc

Mô hình: Y = a + bX + c(DX)

Trong đó DX = X nếu nếu D =1 và DX = 0 nếu D = 0

β size 12{β} {}1 = β size 12{β} {}2 = a , β size 12{β} {}1 = b và β size 12{β} {}2 = b + c.

β size 12{β} {}1≠ β size 12{β} {}2 và β size 12{β} {}1≠ β size 12{β} {}2, hay có sự khác biệt hoàn toàn về cả tung độ gốc và độ dốc.

Mô hình: Y = a + bX + cD + d(DX)

β size 12{β} {}1 = a , β size 12{β} {}2 = a + c, β size 12{β} {}1 = b và β size 12{β} {}2 = b + d.

Hình 4.2. Các mô hình hồi quy

Biến DX được xây dựng như trên được gọi là biến tương tác. Tổng quát nếu Xp là một biến định lượng và Dq là một biến giả thì XpDq là một biến tương tác. Một mô hình hồi quy tuyến tổng quát có thể có nhiều biến định lượng, nhiều biến định tính và một số biến tương tác.

0