5.17: Quiz vấn đề thường gặp trong mô hình máy học
5.17: Quiz vấn đề thường gặp trong mô hình máy học
Quiz Summary
0 of 8 Questions completed
Questions:
Information
You have already completed the quiz before. Hence you can not start it again.
Quiz is loading…
You must sign in or sign up to start the quiz.
You must first complete the following:
Results
Results
0 of 8 Questions answered correctly
Your time:
Time has elapsed
You have reached 0 of 0 point(s), (0)
Earned Point(s): 0 of 0, (0)
0 Essay(s) Pending (Possible Point(s): 0)
Categories
- Not categorized 0%
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- Current
- Review
- Answered
- Correct
- Incorrect
-
Question 1 of 8
1. Question
Bias càng cao thì sẽ dễ dẫn đến hiện tượng gì?
CorrectIncorrectHint
Bias (độ chệch) là Sai số của mô hình giữa giá trị dự báo và giá trị thật.
Mục tiêu của huấn luyện mô hình máy học là huấn luyện được mô hình có bias thấp trên dữ liệu đã nhìn thấy (training data – dữ liệu dùng để huấn luyện). Bias cao nghĩa là mô hình bị underfitting (chưa khớp)
-
Question 2 of 8
2. Question
Trong những câu dưới đây, câu nào đúng về hiện tượng có thể xảy ra của việc tăng độ phức tạp của mô hình?
CorrectIncorrectHint
Tăng độ phức tạp của mô hình thường sẽ làm tăng variance và giảm bias. Với những dữ liệu có quan hệ phức tạp, 1 mô hình phức tạp hơn sẽ giúp mô hình học được tốt hơn trên dữ liệu đã nhìn thấy, đồng nghĩa với giảm bias. Tuy nhiên, không đảm bảo tính tổng quát của mô hình vì mô hình có thể đã học quá tốt trên tập train nhưng lại không tổng quát được trên tập test, dẫn tới variance tang. Đây là hiện tượng overfitting.
-
Question 3 of 8
3. Question
Hiện tượng Underfitting thường xảy ra khi nào? (Chọn nhiều đáp án đúng)
CorrectIncorrectHint
Vì kích thước của tập huấn luyện quá ít, mô hình chưa học được hết toàn bộ đặc trưng của dữ liệu quần thể. Do đó mô hình chưa hoàn toàn khớp với tập dữ liệu huấn luyện (underfitting)
-
Question 4 of 8
4. Question
Hiện tượng Overfitting thường xảy ra khi nào?
CorrectIncorrectHint
Vì mô hình quá phức tạp sẽ học được nhiều đặc trưng của dữ liệu huấn luyện. Tuy nhiên khi đó, mô hình chỉ hoạt động được đúng trên phân phối của dữ liệu huấn luyện, nhưng không dự đoán tốt trên những dữ liệu chưa nhìn thấy
-
Question 5 of 8
5. Question
Khi huấn luyện mô hình nên chia tập dữ liệu thành mấy phần?
CorrectIncorrectHint
Khi huấn luyện mô hình, tập dữ liệu được chia thành 3 phần:
- Tập huấn luyện (Train set): tập dữ liệu dùng để huấn luyện mô hình. Kích thước: 60% – 80% kích thước dữ liệu ban đầu
- Tập kiểm định (Valid set): tập dữ liệu với vai trò đưa ra các phản hồi nhằm hiệu chỉnh các mô hình sau quá trình huấn luyện. Kích thước: 10% – 20% kích thước dữ liệu ban đầu
- Tập kiểm tra (Test set): tập dữ liệu với giá trị mới (không dùng để huấn luyện hay kiểm định), với mục đích đánh giá hiệu quả, khả năng tổng quát hóa của mô hình cuối cùng. Kích thước: 10% – 20% kích thước dữ liệu ban đầu
-
Question 6 of 8
6. Question
Để tránh hiện tượng overfitting, ta có thể áp dụng những phương pháp nào dưới đây? (Chọn nhiều đáp án đúng)
CorrectIncorrectHint
Một trong những cách xử lý hiện tượng overfitting là cho thêm dữ liệu vào tập train để mô hình học máy có thể tiếp cận với các đặc trưng khác tốt hơn, không chỉ riêng một loại đặc trưng đặc biệt nào đó mà dẫn đến overfitting. Hoặc một cách khác là sử dụng một mô hình học máy bớt phức tạp hơn để mô hình bớt quá khớp trên dữ liệu huấn luyện.
-
Question 7 of 8
7. Question
Trong những câu dưới đây, câu nào đúng về vai trò của đường cong lĩnh hội (Learning curve)?
CorrectIncorrectHint
Khái niệm về đường cong hội tụ (Learning curve) như sau:
- Learning curve: biểu đồ về hiệu suất của mô hình trên tập huấn luyện và tập kiểm tra so với sự thay đổi về kích thước của tập huấn luyện.
- Đây là một trong những phương pháp xác định mô hình có gặp vấn đề overfitting hay underfitting hay không
-
Question 8 of 8
8. Question
CorrectIncorrectHint
RMSE của hình 2 thấp hơn hình 1 và 3 cho cả train và val set, chứng tỏ hình 2 khớp tốt hơn 2 hình còn lại.
Ngoài ra, valid set của hình 1 có RMSE có giảm nhưng chậm khi dữ liệu huấn luyện tăng, trong khi hình 2, valid set RMSE lớn hơn nhiều so với train set khi số lượng dữ liệu thấp và tiến gần tới nhau khi tăng số lượng dữ liệu. Tuy nhiên 2 đường vẫn còn xa, và để 2 đường gần hơn, ta cần tăng số lượng dữ liệu nhiều hơn nữa.