learn-machine-learning-in-two-months/models/logistic-regression at master · bangoc123/learn-machine-learning-in-two-months

Name	Name	Last commit message	Last commit date
parent directory ..
README.md	README.md
logistic-regression.ipynb	logistic-regression.ipynb
marks.txt	marks.txt

6. Bài toán phân loại (Classification)

a. Mô hình Hồi quy Logistic (Logistic Regression Model)

Như trên hình chúng ta có 2 bài toán phân loại: Phân loại 2 lớp (Binary Classification) và Phân loại nhiều lớp (Multiclass Classification).
- Phân loại 2 lớp (Binary Classification)
  - Mô phỏng
  Bài toán ở đây rất đơn giản, cho 1 dữ liệu bất kỳ có giá trị dựa theo trục và . Làm thế nào ta xác định được điểm đó là thuộc lớp ô tròn màu đỏ hay ô vuông màu xanh. Vậy chúng ta có thể kết luận đây và bài toán phân loại.
- Phân loại nhiều lớp (Multiclass Classification)
  - Mô phỏng
  Tương tự bài toán phân loại 2 lớp, là đầu ra chúng ta cần một điểm thuộc 1 lớp nhất định và điều khác biệt ở đây đó là số lượng lớp luôn lớn hơn 2. Ở trong ví dụ này là 3 lớp. Các model phân biệt ảnh lớn có thể có đến 1000 lớp như ImageNet.
- Cách tiếp cận bài toán này
  
  Tôi sẽ lấy bài phân loại 2 lớp để các bạn hình dung trước. Có 2 cách tiếp cận để giải bài toán này:
  
  Discriminative model Generative model
  
  Tìm đường ngăn cách (Decision Boundary) Tìm phân bố xác suất của dữ liệu (Probability distributions of the data)
  
  Theo Supervised Learning cheatsheet
- Tiếp cận theo hướng Discriminative Nhắc lại chúng ta sẽ tìm một đường ngăn cách để có thể phân biệt 2 vùng data với trường hợp phân loại 2 lớp hoặc nhiều vùng data trong trường hợp phân loại nhiều lớp.
  
  Trong trường hợp phân loại 2 lớp:
  
  Phân bố xác suất:
  
  Xác suất 1 điểm là màu xanh:
  
  $\large P(y_i=1|x_i; \theta) = h_{\theta}(x_i) = g(\theta^Tx_i) \ \ \ (1)$
  
  Xác suất 1 điểm là màu đỏ:
  
  $\large P(y_i=0|x_i; \theta) = 1 - h_{\theta}(x_i) = 1- g(\theta^Tx_i) \ \ \ (2)$
  
  Viết gọn lại 2 công thức bên trên ta sẽ được:
  
  $\large P(y_i|x_i; \theta) = h_{\theta}(x_i)^{y_i} (1-h_{\theta}(x_i))^{1-y_i}$
  - $\large y_i = 1 \rightarrow P(y_i=1|x_i; \theta) = h_{\theta}(x_i)^{1} (1-h_{\theta}(x_i))^{1-1} = h_{\theta}(x_i)$
  - $\large y_i = 0 \rightarrow P(y_i=0|x_i; \theta) = h_{\theta}(x_i)^{0} (1-h_{\theta}(x_i))^{1-0} =1-h_{\theta}(x_i)$
  Đoạn này bạn có thấy giống Phân phối Bernoulli không?
  
  Chú ý rằng đây mới là xác suất của một điểm sẽ là xanh hay đỏ. Bài toán của chúng ta cần xét trên toàn bộ tập data set.
  
  $\large X = [x_1, x_2, ..., x_m]$ với $\large X \in \mathbb{R}^{d\times m}$ và $\large Y = \left \{ 0, 1 \right \}$
  
  Vì $\large x_1, x_2, ..., x_m$ là các biến độc lập nhau cho nên:
  
  $\large P(Y|X; \theta) = P(y_1|x_1; \theta) P(y_2|x_2; \theta) ... P(y_m|x_m; \theta) = \prod_{i}^{m} P(y_i|x_i; \theta) = \prod_{i}^{m} h_{\theta}(x_i)^{y_i} (1-h_{\theta}(x_i))^{1-y_i} \ \ \ (4)$
  
  Đọc thêm về Biến cố độc lập để hiểu tại sao lại sử dụng tích này.
  
  Hàm sigmoid
  
  Ở đây ta sử dụng hàm sigmoid:
  
  $\large h_{\theta}(x) = \frac{1}{1 + e^{-z}} = \frac{1}{1 + e^{-{\theta}^Tx}}$
  
  Trong đó:
  
  $\large z = \theta^Tx$
  
  Kết hợp với hàm số (4) ta có:
  
  $P(Y|X; \theta) = \prod_{i}^{m} h_{\theta}(x_i)^{y_i} (1-h_{\theta}(x_i))^{1-y_i} \ \ \ = \prod_{i}^{m} (\frac{1}{1 + e^{-{\theta}^Tx_i}})^{y_i} (1-\frac{1}{1 + e^{-{\theta}^Tx_i}})^{1-y_i} \ \ \ (5)$
  
  Vậy tại sao phải sử dụng hàm này: Bạn chú rằng đầu ra của bài toán này chỉ là 2 giá trị 0 và 1 mà không phải là vô số giá trị thuộc tập số thực giống như bài toán hồi quy tuyến tính.
  
  Hàm sigmoid sẽ giúp đầu ra của biểu thức $\large h_{\theta}(x_i)$ giới hạn trong khoảng [0,1], Việc chuyển đổi này thoả mãn nhu cầu cần tìm ra xác suất của một điểm bất kỳ là xanh hay đỏ ở công thức (1) và (2) ( giá trị này nhỏ nhất bằng 0 và lớn nhất bằng 1) :
  
  Nhìn vào đồ thị chúng ta có thể thấy, dù $\LARGE z$ có lớn thế nào thì đầu ra của hàm tối đa là 1, cũng như kết quả của $\LARGE z$ có nhỏ cỡ nào thì đầu ra của hàm tối đa là 0.
  
  Toàn bộ quy trình học từ một cặp dữ liệu. Quá trình này được biểu diễn dưới một mạng neuron đơn giản.
  - Bước 1: Nhân vector. là một điểm dữ liệu có chiều (nx1). $\theta$ có chiều (nx1). Sau này đến bài mạng neuron bạn sẽ học kỹ hơn về chiều của tham số.
  - Bước 2: Phép biến đổi phi tuyến, chuyển từ giá trị bất kỳ z về một giá trị nhỏ hơn 1 và lớn hơn 0 thông qua hàm sigmoid.
  - Từ xác suất này kết luận là điểm dữ liệu này thuộc lớp 0 hay lớp 1. Giải thích ký hiệu: $1\left \{ True \right \} = 1$ và $1\left \{ False \right \} = 0$ . Trong trường hợp này đầu ra của hàm sigmoid lớn hơn một threshold cho trước (ở đây ta đặt là 0.5) thì sẽ kết luận điểm đó thuộc lớp 1 và ngược lại.
  Loss function
  
  Rõ ràng chúng ta thấy để model chính xác thì chúng ta phải cực đại hoá hàm likelihood $\small P(Y|X; \theta)$ . Hàm này thể hiện xác suất đồng thời xảy tất cả các điểm dữ liệu, càng nhiều điểm dữ liệu xuất hiện, mô hình càng chính xác.
  
  Xem thêm về Cực đại hoá Likelihood.
  
  $\small max \ P(Y|X; \theta) \Leftrightarrow max \ log P(Y|X; \theta) \Leftrightarrow max \ log(\prod_{i}^{m} h_{\theta}(x_i)^{y_i} (1-h_{\theta}(x_i))^{1-y_i}) \Leftrightarrow max \ \sum_{i}^{m} y_i log(h_\theta(x_i)) + (1-y_i)log(1-h_\theta(x_i)) \Leftrightarrow min \ \frac{-1}{m} \sum_{i}^{m} y_i log(h_\theta(x_i)) + (1-y_i)log(1-h_\theta(x_i)) \Leftrightarrow min \ J(\theta)$
  
  Chú ý ta cần lấy log để tránh trường hợp khi số lượng điểm dữ liệu quá lớn dẫn đến tích của nhiều số nhỏ hơn 0 sẽ tiệm cận về không. Vì thế thay vì sử dụng phép tích, chúng ta dùng hàm log để việc cực đại tích này thành cực đại một tổng.
  
  Vì vậy:
  
  Hàm Loss Function của chúng ta chính là:
  
  $\small J(\theta) = \ \frac{-1}{m} \sum_{i}^{m} y_i log(h_\theta(x_i)) + (1-y_i)log(1-h_\theta(x_i))$
  
  Tối ưu Loss Function
  
  Tương tự bài toán Linear Regress, chúng ta sẽ sử dụng thuật toán Gradient Descent.
  
  Cập nhật $\large \theta$ sao cho hàm Loss nhỏ nhất có thể:
  
  $\large \theta_1 = \theta_0 - \alpha \bigtriangledown J(\theta_0)$
  
  Công thức tính đạo hàm riêng của các phần tử trong $\large \theta$ :
  
  $\frac{\partial J(\theta)}{\partial \theta_i} = \frac{1}{m} \sum_{i=1}^{m}(h_\theta(x^i) - y^i)x_j^i$
  
  Vậy câu hỏi đặt ra tiếp theo rằng nếu chỉ sử dụng hàm sigmoid có thể đúng xử lý bài toán phân loại nhiều lớp không?
b. Tiếp cận bài toán phân loại nhiều lớp

Để trả lời câu hỏi bên trên ta có thể vẽ lại mô hình phân loại:

Các bạn đừng sợ khi nhìn vào ảnh này. Đây chỉ là cách biểu thị các phép tính toán.

Ở bước 1, việc các mũi tên trỏ vào thể hiện phép nhân $z_1 = \theta_1^Tx$ .

Bản chất mô hình này có thể coi là một Neural Network với 1 lớp ẩn. Vấn đề này sẽ được đề cập đến trong bài tiếp theo.

Có thể nhận ra rằng mục tiêu của chúng ta là phân phối được tạo ra khi đi qua hàm signmoid phải thoả mãn tổng bằng 1. Nhưng điều này không được đảm bảo.

Vì thế khả năng dự đoán của mô hình không còn chính xác. Cho nên, ta cần một thuật toán có tên Softmax Regression.

Công thức của hàm Softmax:

$\sigma_j = \frac{e^{z_j}}{\sum_{j}^{K}e^z_j}$

Trong đó K là số lớp.

Áp dụng vào trường hợp bên trên ta có:

$\sigma_j = \frac{e^{z_j}}{\sum_{j}^{3}e^z_j}$

Ta có biểu đồ mới:

Rõ ràng ta có thể thấy rằng hàm Softmax đã chuyển phân phối của $\large z$ về phân phối của $\large \sigma$ sao cho thoả mãn điều kiện là tổng các $\large \sigma$ bằng 1.

Và dĩ nhiên rằng giá trị $\large \sigma$ lớn nhất sẽ đại diện cho lớp mà ta dự đoán ra.

Lúc này hàm Loss Function sẽ có dạng:

$J(\theta) = -\frac{1}{m}\sum_{i=1}^{m}\sum_{k=1}^{K}(1\left \{ y^i = k \right \}log(\sigma_k))$

Nếu bạn thay K bằng 2 vào công thức này sẽ được chính hàm mất mát của bài toán phân loại 2 lớp.
c. Mô phỏng hoá quá trình Training

Quan sát ảnh động này ta sẽ thấy quá trình training sẽ diễn ra thế nào, lúc đầu khi khởi tạo $\theta$ độ sai lệch sẽ rất lớn. Nhưng khi cập nhật $\theta$ thì đường thẳng $h_\theta(x)$ đã có khả năng phân biệt giữa 2 lớp.

Thử nghiệm tại đây

Thực hành training mô hình phân loại dữ liệu như hình sau:

Tôi sẽ hướng dẫn các bạn code mô hình này từ đầu ở đây.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

logistic-regression

logistic-regression

README.md

6. Bài toán phân loại (Classification)

Discriminative model	Generative model
Tìm đường ngăn cách (Decision Boundary)	Tìm phân bố xác suất của dữ liệu (Probability distributions of the data)

Files

logistic-regression

Directory actions

More options

Directory actions

More options

Latest commit

History

logistic-regression

Folders and files

parent directory

README.md

6. Bài toán phân loại (Classification)