Xác Suất
Chúng ta thường quan tâm đến xác suất biến ngẫu nhiên nhận được một giá trị xác định. Ví dụ khi ta sắp tung một súc sắc và ta muốn biết xác suất xuất hiện Xi = 4 là bao nhiêu. Do con súc sắc có 6 mặt và nếu không có ...
Chúng ta thường quan tâm đến xác suất biến ngẫu nhiên nhận được một giá trị xác định. Ví dụ khi ta sắp tung một súc sắc và ta muốn biết xác suất xuất hiện Xi = 4 là bao nhiêu.
Do con súc sắc có 6 mặt và nếu không có gian lận thì khả năng xuất hiện của mỗi mặt đều như nhau nên chúng ta có thể suy ra ngay xác suất để X= 4 là: P(X=4) = 1/6.
Nguyên tắc lý do không đầy đủ(the principle of insufficient reason): Nếu có K kết quả có khả năng xảy ra như nhau thì xác suất xảy ra một kết quả là 1/K.
Không gian mẫu: Một không gian mẫu là một tập hợp tất cả các khả năng xảy ra của một phép thử, ký hiệu cho không gian mẫu là S. Mỗi khả năng xảy ra là một điểm mẫu.
Biến cố : Biến cố là một tập con của không gian mẫu.
Ví dụ 2.3. Gọi Z là tổng số điểm phép thử tung hai con súc sắc.
Không gian mẫu là S = {2;3;4;5;6;7;8;9;10;11;12}
A = {7;11}Tổng số điểm là 7 hoặc 11
B = {2;3;12}Tổng số điểm là 2 hoặc 3 hoặc 12
C = {4;5;6;8;9;10}
D = {4;5;6;7}
Là các biến cố.
Hợp của các biến cố
E = A hoặc B = A∪B size 12{A union B} {} = {2;3;7;11;12}
Giao của các biến cố:
F = C và D = C∩D size 12{C intersection D} {} = {4;5;6}
Các tính chất của xác suất
P(S) =1
Tần suất
Khảo sát biến X là số điểm khi tung súc sắc. Giả sử chúng ta tung n lần thì số lần xuất hiện giá trị xi là ni. Tần suất xuất hiện kết quả xi là
Nếu số phép thử đủ lớn thì tần suất xuất hiện xi tiến đến xác suất xuất hiện xi.
Định nghĩa xác suất
Xác suất biến X nhận giá trị xi là
Hàm mật độ xác suất-Biến ngẫu nhiên rời rạc
X nhận các giá trị xi riêng rẽ x1, x2,…, xn. Hàm số
f(x) = P(X=xi) , với i = 1;2;..;n
= 0 , với x size 12{ <> } {} xi
được gọi là hàm mật độ xác suất rời rạc của X. P(X=xi) là xác suất biến X nhận giá trị xi.
Xét biến ngẫu nhiên X là số điểm của phép thử tung một con súc sắc. Hàm mật độ xác suất được biểu diễn dạng bảng như sau.
Bảng 2.1. Mật độ xác suất của biến ngẫu nhiên rời rạc X
Xét biến Z là tổng số điểm của phép thử tung 2 con súc sắc. Hàm mật độ xác suất được biểu diễn dưới dạng bảng như sau.
Bảng 2.2. Mật độ xác suất của biến ngẫu nhiên rời rạc Z
Hình 2.1. Biểu đồ tần suất của biến ngẫu nhiên Z.
Hàm mật độ xác suất(pdf)-Biến ngẫu nhiên liên tục.
Ví dụ 2.4. Chúng ta xét biến R là con số xuất hiện khi bấm nút Rand trên máy tính cầm tay dạng tiêu biểu như Casio fx-500. R là một biến ngẫu nhiên liên tục nhận giá trị bất kỳ từ 0 đến 1. Các nhà sản xuất máy tính cam kết rằng khả năng xảy ra một giá trị cụ thể là như nhau. Chúng ta có một dạng phân phối xác suất có mật độ xác suất đều.
Hàm mật độ xác suất đều được định nghĩa như sau:f(r) =
Với L : Giá trị thấp nhất của phân phối
U: Giá trị cao nhất của phân phối
Hình 2.2. Hàm mật độ xác suất đều R.
Xác suất để R rơi vào khoảng (a; b) là P(a <r<b) = .
Cụ thể xác suất để R nhận giá trị trong khoảng (0,2; 0,4) là:
P(0,2 < r < 0,4) =, đây chính là diện tích được gạch chéo trên hình 2.1.
Tổng quát, hàm mật độ xác suất của một biến ngẫu nhiên liên tục có tính chất như sau:
f(x) ≥ 0
P(a<X<b) = Diện tích nằm dưới đường pdf
P(a<X<b) =
Hàm đồng mật độ xác suất -Biến ngẫu nhiên rời rạc
Ví dụ 2.5. Xét hai biến ngẫu nhiên rời rạc X và Y có xác suất đồng xảy ra X = xi và Y = yi như sau.
Bảng 2.3. Phân phối đồng mật độ xác xuất của X và Y.
Định nghĩa :Gọi X và Y là hai biến ngẫu nhiên rời rạc. Hàm số
f(x,y) = P(X=x và Y=y)
= 0 khi X size 12{ <> } {} x và Y size 12{ <> } {}y
được gọi là hàm đồng mật độ xác suất, nó cho ta xác xuất đồng thời xảy ra X=x và Y=y.
Hàm mật độ xác suất biên
f(x) = ∑yf(x,y) size 12{ Sum cSub { size 8{y} } {f ( x,y ) } } {} hàm mật độ xác suất biên của X
f(y) = ∑xf(x,y) size 12{ Sum cSub { size 8{x} } {f ( x,y ) } } {} hàm mật độ xác suất biên của Y
Ví dụ 2.6. Ta tính hàm mật độ xác suất biên đối với số liệu cho ở ví dụ 2.5.
f(x=2) = ∑yf(x=2,y) size 12{ Sum cSub { size 8{y} } {f ( x=2,y ) } } {}=0,3 + 0,3 = 0,5
f(x=3) = ∑yf(x=3,y) size 12{ Sum cSub { size 8{y} } {f ( x=3,y ) } } {}=0,1 + 0,4 = 0,5
f(y=1) = ∑xf(x,y=1) size 12{ Sum cSub { size 8{x} } {f ( x,y=1 ) } } {}=0,2 + 0,4 = 0,6
f(y=2) = ∑xf(x,y=2) size 12{ Sum cSub { size 8{x} } {f ( x,y=2 ) } } {}=0,3 +0,1 = 0,4
Xác suất có điều kiện
Hàm số
f(x | y) = P(X=x | Y=y) , xác suất X nhận giá trị x với điều kiện Y nhận giá trị y,
được gọi là xác suất có điều kiện của X.
Hàm số
f(y | x) = P(Y=y | X=x) , xác suất Y nhận giá trị y với điều kiện X nhận giá trị x,
được gọi là xác suất có điều kiện của Y.
Xác suất có điều kiện được tính như sau
, hàm mật độ xác suất có điều kiện của X
, hàm mật độ xác suất có điều kiện của Y
Như vậy hàm mật độ xác suất có điều kiện của một biến có thể tính được từ hàm đồng mật độ xác suất và hàm mật độ xác suất biên của biến kia.
Ví dụ 2.7. Tiếp tục ví dụ 2.5 và ví dụ 2.6.
Độc lập về thống kê
Hai biến ngẫu nhiên X và Y độc lập về thống kê khi và chỉ khi
f(x,y)=f(x)f(y)
tức là hàm đồng mật độ xác suất bằng tích của các hàm mật độ xác suất biên.
Hàm đồng mật độ xác suất cho biến ngẫu nhiên liên tục
Hàm đồng mật độ xác suất của biến ngẫu nhiên liên tục X và Y là f(x,y) thỏa mãn
f(x,y) ≥ 0
Hàm mật độ xác suất biên được tính như sau
, hàm mật độ xác suất biên của X
, hàm mật độ xác suất biên của Y
Giá trị kỳ vọng hay giá trị trung bình
Giá trị kỳ vọng của một biến ngẫu nhiên rời rạc
Giá trị kỳ vọng của một biến ngẫu nhiên liên tục
Ví dụ 2.8. Tính giá trị kỳ vọng biến X là số điểm của phép thử tung 1 con súc sắc
Một số tính chất của giá trị kỳ vọng
E(a) = avới a là hằng số
E(a+bX) = a + bE(X)với a và b là hằng số
Nếu X và Y là độc lập thống kê thì E(XY) = E(X)E(Y)
Nếu X là một biến ngẫu nhiên có hàm mật độ xác suất f(x) thì
, nếu X rời rạc
, nếu X liên tục
Người ta thường ký hiệu kỳ vọng là μ size 12{μ} {} : μ size 12{μ} {} = E(X)
Phương sai
X là một biến ngẫu nhiên và μ size 12{μ} {} = E(X). Độ phân tán của dữ liệu xung quanh giá trị trung bình được thể hiện bằng phương sai theo định nghĩa như sau:
Độ lệch chuẩn của X là căn bậc hai dương của σX2 size 12{σ rSub { size 8{X} } rSup { size 8{2} } } {}, ký hiệu là σX size 12{σ rSub { size 8{X} } } {}.
Ta có thể tính phương sai theo định nghĩa như sau
, nếu X là biến ngẫu nhiên rời rạc
, nếu X là biến ngẫu nhiên liên tục
Trong tính toán chúng ta sử dụng công thức sau
var(X)=E(X2)-[E(X)]2
Ví dụ 2.9. Tiếp tục ví dụ 2.8. Tính var(X)
Ta đã có E(X) = 3,5
Tính E(X2) bằng cách áp dụng tính chất (4).
E(X2) =15,17
var(X)=E(X2)-[E(X)]2 = 15,17 – 3,52 = 2,92
Các tính chất của phương sai
E(X- μ size 12{μ} {})2 =E(X2 )2 - μ size 12{μ} {}2
var(a) = 0 với a là hằng số
var(a+bX) = b2var(X)với a và b là hằng số
Nếu X và Y là các biến ngẫu nhiên độc lập thì
var(X+Y) = var(X) + var(Y)
var(X-Y) = var(X) + var(Y)
Nếu X và Y là các biến độc lập, a và b là hằng số thì
var(aX+bY) = a2var(X) + b2var(Y)
Hiệp phương sai
X và Y là hai biến ngẫu nhiên với kỳ vọng tương ứng là μ size 12{μ} {}x và μ size 12{μ} {}y. Hiệp phương sai của hai biến là
cov(X,Y) = E[(X- μ size 12{μ} {}x)(Y- μ size 12{μ} {}y)] = E(XY) - μ size 12{μ} {}xμ size 12{μ} {}y
Chúng ta có thể tính toán trực tiếp hiệp phương sai như sau
Đối với biến ngẫu nhiên rời rạc
cov ( X , Y ) size 12{"cov" ( X,Y ) } {}
Đối với biến ngẫu nhiên liên tục
Tính chất của hiệp phương sai
Nếu X và Y độc lập thống kê thì hiệp phương sai của chúng bằng 0.
cov(X,Y) = E(XY) – μ size 12{μ} {}xμ size 12{μ} {}y
= μ size 12{μ} {}xμ size 12{μ} {}y– μ size 12{μ} {}xμ size 12{μ} {}y
=0
cov(a+bX,c+dY)=bdcov(X,Y)với a,b,c,d là các hằng số
Nhược điểm của hiệp phương sai là nó phụ thuộc đơn vị đo lường.
Hệ số tương quan
Để khắc phục nhược điểm của hiệp phương sai là phụ thuộc vào đơn vị đo lường, người ta sử dụng hệ số tương quan được định nghĩa như sau:
Hệ số tương quan đo lường mối quan hệ tuyến tính giữa hai biến. ρ size 12{ρ} {} sẽ nhận giá trị nằm giữa -1 và 1. Nếu ρ size 12{ρ} {}=-1 thì mối quan hệ là nghịch biến hoàn hảo, nếu ρ size 12{ρ} {}=1 thì mối quan hệ là đồng biến hoàn hảo.
Từ định nghĩa ta có
cov(X,Y) = ρ size 12{ρ} {}σ size 12{σ} {}xσ size 12{σ} {}y
Gọi X và Y là hai biến có tương quan
Mô men của phân phối xác suất
Phương sai của biến ngẫu nhiên X là mô men bậc 2 của phân phối xác suất của X.
Tổng quát mô men bậc k của phân phối xác suất của X là
E(X- μ size 12{μ} {})k
Mô men bậc 3 và bậc 4 của phân phối được sử dụng trong hai số đo hình dạng của phân phối xác suất là skewness(độ bất cân xứng) và kurtosis(độ nhọn) mà chúng ta sẽ xem xét ở phần sau.
Phân phối chuẩn
Biến ngẫu nhiên X có kỳ vọng là μ size 12{μ} {}, phương sai là σ size 12{σ} {}2. Nếu X có phân phối chuẩn thì nó được ký hiệu như sau
Dạng hàm mật độ xác xuất của phân phối chuẩn như sau
μ- σ μ σ μ σ μ σ μ σ μ σμXấp xỉ 68%Xấp xỉ 95%
Hình 2.3. Hàm mật độ xác suất phân phối chuẩn
Tính chất của phân phối chuẩn
Hàm mật độ xác suất của đối xứng quanh giá trị trung bình.
Xấp xỉ 68% diện tích dưới đường pdf nằm trong khoảng μ±σ size 12{μ +- σ} {} xấp xỉ 95% diện tích nằm dưới đường pdf nằm trong khoảng μ±2σ size 12{μ +- 2σ} {}và xấp xỉ 99,7% diện tích nằm dưới đường pdf nằm trong khoảng μ±3σ size 12{μ +- 3σ} {}
Nếu đặt Z = thì ta có Z~N(0,1). Z gọi là biến chuẩn hoá và N(0,1) được gọi là phân phối chuẩn hoá.
Định lý giớí hạn trung tâm 1: Một kết hợp tuyến tính các biến có phân phối chuẩn,, trong một số điều kiện xác định cũng là một phân phối chuẩn. Ví dụ X1~N(μ1,σ12) size 12{X rSub { size 8{1} } "~" N ( μ rSub { size 8{1} } ,σ rSub { size 8{1} } rSup { size 8{2} } ) } {} và X2~N(μ2,σ22) size 12{X rSub { size 8{2} } "~" N ( μ rSub { size 8{2} } ,σ rSub { size 8{2} } rSup { size 8{2} } ) } {} thì Y =aX1+bX2 với a và b là hằng số có phân phối Y~N[(a μ size 12{μ} {}1+b μ size 12{μ} {}2),( a2σ12+b2σ22) size 12{a rSup { size 8{2} } σ rSub { size 8{1} } rSup { size 8{2} } +b rSup { size 8{2} } σ rSub { size 8{2} } rSup { size 8{2} } ) } {}].
Định lý giới hạn trung tâm 2: Dưới một số điều kiện xác định, giá trị trung bình mẫu của các một biến ngẫu nhiên sẽ gần như tuân theo phân phối chuẩn.
Mô men của phân phối chuẩn
Mô men bậc ba: E[(X- μ size 12{μ} {})3]=0
Mô men bậc bốn : E[(X- μ size 12{μ} {})4]=3 σ size 12{σ} {}4
Đối với một phân phối chuẩn
Độ trôi (skewness):
Độ nhọn(kurtosis):
Dựa vào kết quả ở mục (6), người có thể kiểm định xem một biến ngẫu nhiên có tuân theo phân phối chuẩn hay không bằng cách kiểm định xem S có gần 0 và K có gần 3 hay không. Đây là nguyên tắc xây dựng kiểm định quy luật chuẩn Jarque-Bera.
JB tuân theo phân phối x2với hai bậc tự do(df =2).
Phân phối x2
Định lý : Nếu X1, X2,…, Xk là các biến ngẫu nhiên độc lập có phân phối chuẩn hoá thì χk2=∑i=1kXi2 size 12{χ rSub { size 8{k} } rSup { size 8{2} } = Sum cSub { size 8{i=1} } cSup { size 8{k} } {X rSub { size 8{i} } rSup { size 8{2} } } } {} tuân theo phân phối Chi-bình phương với k bậc tự do.
Tính chất của x2
Phân phối x2 là phân phối lệch về bên trái, khi bậc tự do tăng dần thì phân phối x2 tiến gần đến phân phối chuẩn.
μ= size 12{μ={}} {} k và σ size 12{σ} {}2 = 2k
χk12+χk22=χk1+k22 size 12{χ rSub { size 8{k1} } rSup { size 8{2} } +χ rSub { size 8{k2} } rSup { size 8{2} } =χ rSub { size 8{k1+k2} } rSup { size 8{2} } } {}, hay tổng của hai biến có phân phối x2cũng có phân phối x2 với số bậc tự do bằng tổng các bậc tự do.
Phân phối Student t
Định lý: Nếu Z~N(0,1) và χk2 size 12{χ rSub { size 8{k} } rSup { size 8{2} } } {} là độc lập thống kê thì tuân theo phân phối Student hay nói gọn là phân phối t với k bậc tự do.
Tính chất của phân phối t
Phân phối t cũng đối xứng quanh 0 như phân phối chuẩn hoá nhưng thấp hơn. Khi bậc tự do càng lớn thì phân phối t tiệm cận đến phân phối chuẩn hoá. Trong thực hành. Khi bậc tự do lớn hơn 30 người ta thay phân phối t bằng phân phối chuẩn hoá.
μ size 12{μ} {} = 0 và σ size 12{σ} {} = k/(k-2)
Phân phối F
Định lý : Nếu χk12 size 12{χ rSub { size 8{k1} } rSup { size 8{2} } } {} và χk22 size 12{χ rSub { size 8{k2} } rSup { size 8{2} } } {} là độc lập thống kê thì tuân theo phân phối F với (k1,k2) bậc tự do.
Tính chất của phân phối F
Phân phối F lệch về bên trái, khi bậc tự do k1 và k2 đủ lớn, phân phối F tiến đến phân phối chuẩn.
μ size 12{μ} {} = k2/(k2-2) với điều kiện k2>2 và với điều kiện k2>4.
Bình phương của một phân phối t với k bậc tự do là một phân phối F với 1 và k bậc tự do tk2=F(1,k) size 12{t rSub { size 8{k} } rSup { size 8{2} } =F rSub { size 8{ ( 1,k ) } } } {}
Nếu bậc tự do mẫu k2 khá lớn thì.
Lưu ý : Khi bậc tự do đủ lớn thì các phân phối x2, phân phối t và phân phối F tiến đến phân phối chuẩn. Các phân phối này được gọi là phân phối có liên quan đến phân phối chuẩn