Kiểm Định Phương Sai Sai Số Không Đồng Nhất trong SPSS

Hướng Dẫn Chi Tiết Từ Lý Thuyết đến Báo Cáo Học Thuật

Chuyên mục: Phương pháp nghiên cứu  |  Từ khóa: heteroskedasticity, Breusch-Pagan, White test, HC3 robust standard errors, SPSS, hồi quy tuyến tính

Khi chạy hồi quy tuyến tính (OLS), một trong những giả định quan trọng nhất là phương sai của sai số không đổi (homoskedasticity). Nếu giả định này bị vi phạm — tức là có hiện tượng phương sai sai số không đồng nhất (heteroskedasticity) — thì các ước lượng hệ số hồi quy vẫn không chệch, nhưng sai số chuẩn (SE), giá trị t, F và p-value sẽ không còn chính xác, dẫn đến kết luận thống kê sai.

Bài viết này hướng dẫn toàn diện cách phát hiện và xử lý heteroskedasticity trong SPSS, bao gồm lý thuyết các kiểm định, thao tác bằng menu và syntax, đọc kết quả, và viết báo cáo học thuật. Câu trích dẫn chuẩn mực được nhiều bài báo quốc tế sử dụng là:

"Nghiên cứu kiểm tra hiện tượng phương sai sai số không đồng nhất bằng kiểm định Breusch–Pagan và White (Breusch & Pagan, 1979; White, 1980). Khi phát hiện heteroskedasticity, nghiên cứu sử dụng sai số chuẩn hiệu chỉnh robust theo HC3 để đảm bảo suy luận thống kê đáng tin cậy hơn (MacKinnon & White, 1985)."

1. Heteroskedasticity là gì và tại sao quan trọng?

1.1. Định nghĩa

Trong mô hình hồi quy tuyến tính y = Xβ + ε, giả định homoskedasticity đòi hỏi Var(εi) = σ² cho mọi quan sát i. Heteroskedasticity xảy ra khi phương sai của sai số thay đổi theo các giá trị của biến độc lập — tức là Var(εi) = σ²iσ²i không hằng số.

Hậu quả kỹ thuật quan trọng nhất được trình bày trong Breusch & Pagan (1979) và White (1980): ước lượng OLS vẫn không chệch (unbiased) và nhất quán (consistent), nhưng không còn hiệu quả (efficient). Nghiêm trọng hơn, sai số chuẩn OLS thông thường bị ước lượng sai — thường là quá nhỏ — dẫn đến t-statistic và F-statistic bị thổi phồng, làm tăng xác suất mắc lỗi Loại I (kết luận có ý nghĩa khi thực tế không có).

1.2. Nguyên nhân phổ biến

            Dữ liệu chéo (cross-sectional): công ty lớn có biến động doanh thu lớn hơn công ty nhỏ

            Dữ liệu chuỗi thời gian: biến động tăng theo thời gian do tăng trưởng kinh tế

            Mô hình đặc tả sai: bỏ sót biến quan trọng hoặc dạng hàm không phù hợp

            Outliers: một vài giá trị cực đoan có thể tạo ra phương sai không đều

1.3. Tại sao cần báo cáo và xử lý?

Các tạp chí quốc tế hàng đầu trong quản trị, marketing, kinh tế và khoa học xã hội ngày càng yêu cầu tác giả báo cáo kiểm định heteroskedasticity. Theo MacKinnon & White (1985), ngay cả khi không phát hiện được heteroskedasticity bằng các kiểm định chính thức, vẫn nên cân nhắc sử dụng robust standard errors vì các kiểm định có thể thiếu power ở mẫu nhỏ.

2. Các kiểm định heteroskedasticity: Lý thuyết và so sánh

2.1. Kiểm định Breusch–Pagan (1979)

Nguồn gốc: Breusch & Pagan (1979), Econometrica, Vol. 47, pp. 1287–1294.

Breusch–Pagan test dựa trên khuôn khổ kiểm định Lagrange Multiplier (LM). Ý tưởng cốt lõi là: nếu có heteroskedasticity, bình phương phần dư OLS (û²) sẽ có mối quan hệ có ý nghĩa với các biến dự báo. Quy trình gồm ba bước:

1.          Bước 1: Chạy hồi quy OLS gốc, lấy phần dư û

2.        Bước 2: Tính gt = û²/σ̂² (chuẩn hóa bình phương phần dư)

3.        Bước 3: Hồi quy gt theo các biến dự báo. Thống kê LM = ½ × ESS (explained sum of squares) ~ χ²(p-1)

 

Đặc điểm

Chi tiết

Giả thuyết H0

Phương sai sai số đồng nhất (homoskedasticity)

Phân phối thống kê

χ² với bậc tự do = số biến dự báo

Kết luận khi

Sig. < 0.05 bác bỏ H0 có heteroskedasticity

Đặc điểm

Nhạy với dạng heteroskedasticity tuyến tính; giả định normality của sai số

Trong SPSS 29

Lệnh /PRINT BP trong UNIANOVA

 

2.2. Kiểm định White (1980)

Nguồn gốc: White (1980), Econometrica, Vol. 48, pp. 817–838.

White test tổng quát hơn Breusch–Pagan. Nó không giả định dạng cụ thể của heteroskedasticity và cũng là kiểm định chung về sự phù hợp của đặc tả mô hình. Quy trình hồi quy phụ đưa û² vào làm biến phụ thuộc, với các biến độc lập bao gồm: tất cả biến gốc, bình phương của chúng, và tích chéo giữa chúng.

Đặc điểm

Chi tiết

Giả thuyết H0

Phương sai sai số không phụ thuộc vào các biến độc lập

Phân phối thống kê

nR² ~ χ² với bậc tự do = K(K+1)/2 (K = số biến gốc)

Kết luận khi

Sig. < 0.05 có heteroskedasticity hoặc đặc tả sai

Đặc điểm

Không cần giả định normality; phát hiện được nhiều dạng heteroskedasticity

Ưu điểm

Cả MacKinnon & White (1985) đều khuyến nghị dùng White test

Trong SPSS 29

Lệnh /PRINT WHITE trong UNIANOVA

 

2.3. Modified Breusch–Pagan và F-test

SPSS 29 cũng cung cấp hai biến thể bổ sung:

            Modified Breusch–Pagan: Phiên bản hiệu chỉnh theo Koenker (1981), ít nhạy cảm hơn với giả định về phân phối sai số

            F-test for heteroskedasticity: Kiểm định dạng F thay vì χ², thường cho kết quả tương tự BP nhưng với phân phối khác

2.4. So sánh tổng thể các kiểm định

Kiểm định

Giả định sai số

Dạng heteroskedasticity phát hiện

Bậc tự do SPSS

Breusch–Pagan

Gần chuẩn

Tuyến tính theo biến dự báo

= số biến độc lập

Modified BP

Linh hoạt hơn

Tuyến tính, ít cần normality

= số biến độc lập

White test

Không cần chuẩn

Bất kỳ, kể cả phi tuyến

= K(K+1)/2

F-test

Gần chuẩn

Tuyến tính

df1=1, df2=n-k-1

 

Khuyến nghị thực tiễn: Nên báo cáo ít nhất hai kiểm định (thường là Breusch–Pagan và White). Nếu cả hai đều có ý nghĩa, kết luận về heteroskedasticity sẽ mạnh hơn.

3. HC3 Robust Standard Errors: Giải pháp khi có heteroskedasticity

3.1. Tại sao cần robust standard errors?

Khi phát hiện heteroskedasticity, có hai hướng xử lý chính: (1) biến đổi dữ liệu (Weighted Least Squares), hoặc (2) giữ nguyên ước lượng OLS nhưng sử dụng sai số chuẩn hiệu chỉnh (heteroskedasticity-consistent standard errors). Hướng thứ hai được ưa chuộng hơn trong thực tiễn nghiên cứu vì đơn giản và không yêu cầu biết dạng heteroskedasticity.

3.2. Các phiên bản HC (từ HC0 đến HC4)

White (1980) đề xuất ước lượng gốc HC0. MacKinnon & White (1985) — trong bài báo gốc "Some Heteroskedasticity-Consistent Covariance Matrix Estimators with Improved Finite Sample Properties" — so sánh hiệu năng của các phiên bản HC trong mẫu nhỏ:

Phiên bản

Công thức điều chỉnh

Đặc điểm

Khuyến nghị

HC0 (White)

û²

Gốc, có thể có bias ở mẫu nhỏ

Tránh khi n nhỏ

HC1

n/(n–k) × û²

Điều chỉnh bậc tự do đơn giản

Tốt hơn HC0

HC2

û²/(1–hᵢᵢ)

Điều chỉnh theo leverage hᵢᵢ

Tốt trong nhiều tình huống

HC3 (Jackknife)

û²/(1–hᵢᵢ

Điều chỉnh mạnh hơn, ít bias nhất

Khuyến nghị cao nhất

HC4

û²/(1–hᵢᵢ)^δ

Điều chỉnh thêm cho outliers mạnh

Cho dữ liệu có leverage cao

 

Trong đó hᵢᵢ là phần tử đường chéo thứ i của hat matrix H = X(X'X)¹X'. MacKinnon & White (1985) kết luận: HC3 luôn cho hiệu năng tốt nhất trong tất cả các thực nghiệm mô phỏng, kể cả khi mẫu nhỏ và mức heteroskedasticity cao. SPSS 29 mặc định dùng HC3 trong lệnh /ROBUST=HC3.

Trích dẫn chuẩn cho HC3: MacKinnon, J.G., & White, H. (1985). Some heteroskedasticity-consistent covariance matrix estimators with improved finite sample properties. Journal of Econometrics, 29(3), 305–325.

4. Thực hiện trong SPSS: Hướng dẫn từng bước

4.1. Cách A — Kiểm tra sơ bộ bằng đồ thị phần dư

Trước khi chạy kiểm định chính thức, nên xem xét trực quan bằng scatterplot phần dư chuẩn hóa (ZRESID) theo giá trị dự đoán chuẩn hóa (ZPRED).

Thao tác menu:

1.          Analyze Regression Linear đưa biến vào

2.        Bấm Save tích Standardized Predicted Values (ZPRED) và Standardized Residuals (ZRESID)

3.        Graphs Legacy Dialogs Scatter/Dot Simple Scatter X: ZPRED, Y: ZRESID


Cách đọc biểu đồ: Nếu điểm phân tán đều xung quanh đường y=0 và độ rộng không đổi theo trục X: không có dấu hiệu rõ ràng. Nếu có hình phễu (fan shape) hoặc hình nón mở rộng: nghi ngờ có heteroskedasticity.

Lưu ý: Phương pháp đồ thị chỉ mang tính định tính, không phải kiểm định thống kê chính thức. Luôn cần bổ sung kiểm định Breusch–Pagan hoặc White.

4.2. Cách B — Kiểm định chính thức trong SPSS 29 (Bạn đọc lưu ý, các bản SPSS trước 2024 sẽ không có test này)

Khi nào dùng: Khi mô hình có 1 biến phụ thuộc liên tục và các biến độc lập liên tục (hoặc biến giả), muốn đồng thời kiểm định heteroskedasticity và lấy kết quả với robust SE HC3.

Thao tác menu từng bước:

1.          Analyze General Linear Model Univariate

2.        Dependent Variable: đưa biến phụ thuộc vào (ví dụ: WOM_)

3.        Covariate(s): đưa các biến độc lập liên tục vào (ví dụ: BP_, PDS_)

4.        Bấm Model Custom đưa BP_, PDS_ vào model

5.        Bấm Options tích Descriptive Statistics như hình bên dưới

6.        Bấm OK

 



5. Đọc và diễn giải kết quả SPSS — Ví dụ thực tế

Dưới đây là ví dụ thực tế từ nghiên cứu với biến phụ thuộc WOM_ (Word-of-Mouth) và hai biến độc lập BP_ (Brand Prestige) và PDS_ (Perceived Dependability & Service), N = 270.

5.1. Bảng kiểm định heteroskedasticity

SPSS in ra bốn bảng kiểm định. Dưới đây là cách đọc từng bảng:

 

Kiểm định

Thống kê

df

Sig.

Kết luận

White Test

χ² = 45.222

5

< .001

Có heteroskedasticity

Modified Breusch-Pagan

χ² = 36.217

1

< .001

Có heteroskedasticity

Breusch-Pagan

χ² = 56.743

1

< .001

Có heteroskedasticity

F Test

F = 41.518

df1=1, df2=268

< .001

Có heteroskedasticity

 

Diễn giải: Tất cả bốn kiểm định đều có p < .001, cho thấy giả định phương sai đồng nhất bị vi phạm một cách rõ ràng. Kết quả nhất quán giữa các kiểm định (cả BP và White đều bác bỏ H0) tăng cường độ tin cậy của kết luận.

Chú ý khi đọc footnote SPSS: Mỗi bảng có ghi chú (a, b, c) giải thích biến phụ thuộc và mô hình được sử dụng. Dòng 'c' cho biết White test dùng bình phương và tích chéo của các biến dự báo (BP_ * BP_, BP_ * PDS_, PDS_ * PDS_), đúng với lý thuyết White (1980).

5.2. Bảng Tests of Between-Subjects Effects (mô hình OLS gốc)

 

Nguồn

Type III SS

df

Mean Square

F

Sig.

Corrected Model

126.097

2

63.048

120.424

< .001

Intercept

3.775

1

3.775

7.210

.008

BP_

25.263

1

25.263

48.253

< .001

PDS_

35.470

1

35.470

67.749

< .001

Error

139.789

267

.524

 

 

Total

4357.000

270

 

 

 

Corrected Total

265.885

269

 

 

 

 

Ghi chú: R² = .474 (Adjusted R² = .470). Mô hình giải thích được 47.4% biến thiên của WOM_. TUYỆT ĐỐI KHÔNG dùng bảng này để kết luận về ý nghĩa của BP_ và PDS_ vì SE đã bị sai do heteroskedasticity. Chuyển sang bảng HC3.

5.3. Bảng Parameter Estimates with Robust Standard Errors (HC3) — Bảng chính để diễn giải

 

Tham số

B

Robust SE (HC3)

t

Sig.

95% CI (Lower)

95% CI (Upper)

Intercept

0.585

0.317

1.847

.066

−0.039

1.209

BP_

0.386

0.083

4.672

< .001

0.223

0.549

PDS_

0.451

0.078

5.806

< .001

0.298

0.604

 

Footnote: a. HC3 method.

Đây là bảng quan trọng nhất để diễn giải: Vì có heteroskedasticity, SE trong bảng OLS gốc bị sai. Bảng HC3 cung cấp SE đã được hiệu chỉnh. Mọi kết luận về ý nghĩa thống kê phải dựa trên bảng này.

Diễn giải cụ thể:

            BP_ (Brand Prestige): B = 0.386, SE robust = 0.083, t = 4.672, p < .001, 95% CI [0.223; 0.549]. Khi BP_ tăng 1 đơn vị, WOM_ tăng trung bình 0.386 đơn vị, sau khi kiểm soát PDS_. Tác động này có ý nghĩa thống kê.

            PDS_ (Perceived Dependability & Service): B = 0.451, SE robust = 0.078, t = 5.806, p < .001, 95% CI [0.298; 0.604]. PDS_ có tác động mạnh hơn BP_ (hệ số lớn hơn và t-value lớn hơn).

            Intercept: B = 0.585, p = .066 > .05, không có ý nghĩa thống kê — điều này bình thường và ít khi được quan tâm trong nghiên cứu ứng dụng.

6. Lập bảng báo cáo học thuật chuẩn APA

Bảng 1. Kiểm định phương sai sai số không đồng nhất và độ phù hợp mô hình

 

Nội dung

Giá trị

Sig.

Kiểm định White

χ²(5) = 45.222

< .001

Modified Breusch–Pagan

χ²(1) = 36.217

< .001

Breusch–Pagan

χ²(1) = 56.743

< .001

F-test (heteroskedasticity)

F(1, 268) = 41.518

< .001

Mô hình tổng thể

F(2, 267) = 120.424

< .001

.474 (Adjusted R² = .470)

 

N

270

 

 

Ghi chú: Biến phụ thuộc: WOM_ (Word-of-Mouth). Biến độc lập: BP_ (Brand Prestige) và PDS_ (Perceived Dependability & Service). Kiểm định White và Breusch–Pagan kiểm tra H0: phương sai sai số không phụ thuộc vào các biến độc lập. Tất cả các kiểm định heteroskedasticity đều có ý nghĩa thống kê (p < .001), cho thấy giả định phương sai đồng nhất bị vi phạm. Do đó, các hệ số hồi quy được ước lượng với sai số chuẩn hiệu chỉnh robust theo phương pháp HC3 (MacKinnon & White, 1985).

 

Bảng 2. Kết quả ước lượng hồi quy với Robust Standard Errors (HC3)

 

Biến

B

Robust SE (HC3)

t

p

95% CI

Intercept

0.585

0.317

1.847

.066

[−0.039; 1.209]

BP_

0.386

0.083

4.672

< .001

[0.223; 0.549]

PDS_

0.451

0.078

5.806

< .001

[0.298; 0.604]

 

Ghi chú: Biến phụ thuộc: WOM_ (Word-of-Mouth). N = 270. Sai số chuẩn được ước lượng theo phương pháp HC3 do phát hiện heteroskedasticity. *p < .05, **p < .01, ***p < .001.

 

Bảng 3. Tóm tắt kết quả kiểm định giả thuyết (tuỳ chọn)

 

Giả thuyết

Nội dung

B

p

Kết quả

H1

BP_ tác động cùng chiều đến WOM_

0.386

< .001

Chấp nhận

H2

PDS_ tác động cùng chiều đến WOM_

0.451

< .001

Chấp nhận

 

7. Mẫu viết kết quả theo văn phong học thuật

7.1. Trường hợp vi phạm (có heteroskedasticity)

"Mô hình hồi quy kiểm tra tác động của BP_ và PDS_ lên WOM_ có ý nghĩa thống kê tổng thể, F(2, 267) = 120.424, p < .001, R² = .474, cho thấy hai biến độc lập giải thích được 47.4% biến thiên của WOM_. Nghiên cứu kiểm tra giả định phương sai đồng nhất bằng kiểm định Breusch–Pagan và White (Breusch & Pagan, 1979; White, 1980). Tất cả bốn kiểm định đều có ý nghĩa thống kê (White: χ²(5) = 45.222, p < .001; BreuschPagan: χ²(1) = 56.743, p < .001; Modified BP: χ²(1) = 36.217, p < .001; F-test: F(1, 268) = 41.518, p < .001), cho thấy giả định phương sai đồng nhất bị vi phạm. Do đó, các hệ số hồi quy được ước lượng sử dụng sai số chuẩn hiệu chỉnh robust theo phương pháp HC3 để đảm bảo suy luận thống kê đáng tin cậy hơn (MacKinnon & White, 1985)."

 

"Kết quả ước lượng với robust SE cho thấy BP_ có tác động dương và có ý nghĩa thống kê đến WOM_ (B = 0.386, SE = 0.083, t = 4.672, p < .001, 95% CI [0.223; 0.549]). Tương tự, PDS_ cũng tác động dương và có ý nghĩa thống kê đến WOM_ (B = 0.451, SE = 0.078, t = 5.806, p < .001, 95% CI [0.298; 0.604]). So sánh hệ số cho thấy PDS_ có tác động mạnh hơn BP_ đến WOM_. Như vậy, cả H1 và H2 đều được ủng hộ."

7.2. Trường hợp không vi phạm (tham khảo)

"Nghiên cứu kiểm tra giả định phương sai đồng nhất bằng kiểm định Breusch–Pagan và White (Breusch & Pagan, 1979; White, 1980). Các kiểm định không có ý nghĩa thống kê (p > .05), cho thấy chưa có bằng chứng về hiện tượng phương sai sai số không đồng nhất. Do đó, kết quả OLS tiêu chuẩn được sử dụng để diễn giải."

8. Các lưu ý quan trọng và sai lầm thường gặp

8.1. Levene's test KHÔNG phải là kiểm định heteroskedasticity trong hồi quy

Levene's test kiểm tra bằng nhau phương sai giữa các nhóm (dùng cho ANOVA, t-test). Breusch–Pagan và White kiểm tra phương sai sai số thay đổi theo biến dự báo liên tục trong hồi quy. Đây là hai khái niệm khác nhau hoàn toàn.

Sai lầm phổ biến: Nhiều nghiên cứu sinh dùng Levene's test để kiểm tra heteroskedasticity trong hồi quy — đây là sai về mặt phương pháp. Nếu biến độc lập là liên tục như BP_, PDS_, chỉ Breusch–Pagan và White mới phù hợp.

8.2. Cảnh báo "HOMOGENEITY will be ignored" là bình thường

Dòng cảnh báo trong SPSS: "The HOMOGENEITY specification in the PRINT subcommand will be ignored because there are no between-subjects factors" xuất hiện khi mô hình không có biến phân nhóm (Factor). Đây là bình thường và không ảnh hưởng đến các kiểm định White/BP.

8.3. Nên đọc bảng nào khi có robust SE? ***

Khi có heteroskedasticity

Bảng NÊN đọc

Bảng KHÔNG nên đọc

Hệ số và ý nghĩa

Parameter Estimates with Robust SE (HC3)

Tests of Between-Subjects Effects (OLS)

F mô hình tổng thể

Vẫn đọc từ Tests of Between-Subjects Effects

 

Vẫn đọc từ Tests of Between-Subjects Effects

 

8.4. Làm tròn số và quy ước p-value theo APA

            Hệ số B, SE: làm tròn đến 3 chữ số thập phân

            p-value: viết p < .001 (không viết p = .000)

            Thống kê t, F, χ²: làm tròn đến 3 chữ số thập phân

            Không viết giá trị p thực khi nó nhỏ hơn .001

9. Quy trình khuyến nghị toàn diện

Bước

Hành động

Công cụ SPSS

1

Chạy mô hình hồi quy chính

UNIANOVA hoặc REGRESSION

2

Xem biểu đồ phần dư sơ bộ (ZPRED vs ZRESID)

Graphs Scatter/Dot

3

Chạy kiểm định Breusch–Pagan và White chính thức

/PRINT WHITE BP MBP F trong UNIANOVA

4a

Nếu p > .05: Đọc kết quả OLS tiêu chuẩn

Tests of Between-Subjects Effects

4b

Nếu p < .05: Chuyển sang robust SE HC3

/ROBUST=HC3 trong UNIANOVA

5

Báo cáo: F, R², các kiểm định, B, robust SE, t, p, CI

Bảng báo cáo học thuật

 

Kết luận

Kiểm định phương sai sai số không đồng nhất không chỉ là thủ tục bắt buộc trong phân tích hồi quy nghiêm túc, mà còn là tiêu chí ngày càng được các hội đồng phản biện quốc tế yêu cầu. Kết hợp kiểm định Breusch–Pagan và White với robust standard errors HC3 — đúng như câu trích dẫn chuẩn mực "(Breusch & Pagan, 1979; White, 1980; MacKinnon & White, 1985)" — là thực hành tốt nhất hiện tại cho nghiên cứu định lượng trong khoa học xã hội.

Nếu bạn cần hỗ trợ phân tích dữ liệu hồi quy, kiểm định heteroskedasticity, hoặc viết báo cáo kết quả cho luận văn và bài báo khoa học, có thể liên hệ với chúng tôi để được tư vấn.

Tài liệu tham khảo

Breusch, T. S., & Pagan, A. R. (1979). A simple test for heteroscedasticity and random coefficient variation. Econometrica, 47(5), 1287–1294.

Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2019). Multivariate Data Analysis (8th ed.). Cengage Learning.

MacKinnon, J. G., & White, H. (1985). Some heteroskedasticity-consistent covariance matrix estimators with improved finite sample properties. Journal of Econometrics, 29(3), 305–325.

White, H. (1980). A heteroskedasticity-consistent covariance matrix estimator and a direct test for heteroskedasticity. Econometrica, 48(4), 817–838.

Nếu đọc giả muốn tham khảo tài liệu trong nước (tiếng Việt), bạn đọc có thể tham khảo cuốn Mô hình hồi quy và Khám phá khoa học của tác giả GS. Nguyễn Văn Tuấn

Nếu đọc giả muốn tham khảo các ấn bản quốc tế, chúng tôi xin phép được giới thiệu 2 cuốn sách khá hay là "Introduction to Business Analytics Using Simulation" của Pinder, Jonathan P. (2023) và "Introduction to Robust Estimation and Hypothesis Testing" của Rand R. Wilcox (2022)

0971202308