Một phân tích giữa các kỹ thuật trong dự đoán kết quả học tập Nguyễn Thái Nghe 1, Paul Janecek 2, Peter Haddawy 3

Một phân tích giữa các kỹ thuật trong dự đoán kết quả học tập Nguyễn Thái Nghe 1, Paul Janecek 2, Peter Haddawy 3 Tóm tắt Bài viết này so sánh độ chính xác giữa giải thuật cây quyết định (Decision Tree) và mạng Bayes (Bayesian Network) trong việc dự đoán kết quả học tập của sinh viên đại học và sau đại học ở hai trường khác nhau: Đại học Cần Thơ (CTU) một trường đại học ở khu vực đồng bằng sông Cửu Long với quy mô đào tạo khoảng 30.000 sinh viên và Viện công nghệ Châu Á (AIT) một viện quốc tế trong đào tạo sau đại học ở Thái Lan, quy tụ sinh viên từ 86 quốc gia trên thế giới. Mặc dù tính đa dạng của sinh viên ở hai trường khác nhau nhưng việc khai phá dữ liệu đã cho thấy độ chính xác gần tương tự nhau trong dự đoán kết quả học tập nếu được chia thành 4 mức {rớt, trung bình, khá, giỏi} là 71/73 và 2 mức {đậu, rớt} là 93/94 tương ứng cho AIT và CTU. Những dự đoán này rất hữu ích trong việc xác định và hỗ trợ các sinh viên có kết quả kém ở CTU (chính xác 64), và trong việc lựa chọn các sinh viên giỏi để cấp học bổng ở AIT (chính xác 82). Trong phân tích này, cây quyết định đã cho thấy kết quả chính xác hơn mạng Bayes từ 3 đến 12. Kết quả phân tích ở hai tình huống trên đã cho một cái nhìn sâu hơn trong việc sử dụng các kỹ thuật để dự đóan kết quả học tập của sinh viên, so sánh độ chính xác giữa các giải thuật trong khai phá dữ liệu, và demo kết quả dựa trên ứng dụng mã nguồn mở. Từ khóa: Khai phá dữ liệu, Dự đoán, Cây quyết định, Mạng Bayes. GIỚI THIỆU Dự đoán kết quả học tập của sinh viên một các chính xác là rất hữu ích trong nhiều ngữ cảnh khác nhau ở các trường đại học và sau đại học. Chẳng hạn, việc xác định các ứng viên xuất sắc để cấp học bổng toàn phần hoặc bán phần là một công việc rất cần thiết cho các trường đào tạo sau đại học, hoặc ngay cả việc xác định các sinh viên có năng lực yếu kém để có những biện pháp thích hợp hỗ trợ họ học tập tốt hơn cũng không kém phần quan trọng. Bài viết này nghiên cứu khả năng ứng dụng của khai phá dữ liệu trong việc dự đoán kết quả học tập của sinh viên ở hai tình huống khác nhau. Trong tình huống thứ nhất - Viện công nghệ Châu Á (AIT) Thái Lan, đề tài đã sử dụng các thông tin từ hồ sơ dự tuyển của ứng viên như độ tuổi, giới tính, quốc gia, trình độ Anh văn, và điểm GPA đầu vào để dự đoán kết quả cho cuối năm thứ nhất. Trong tình huống thứ 2 - Đại học Cần Thơ (CTU), đề tài đã sử dụng các thông tin từ hồ sơ đầu vào như độ tuổi, giới tính, trình độ Anh văn, và điểm trung bình tích lũy (CGPA) ở cuối năm thứ hai để dự đoán kết quả của năm thứ 3. Bài viết cũng so sánh độ chính xác của hai giải thuật Cây quyết định và Mạng Bayes khi được áp dụng vào hai tình huống khác nhau nêu trên. Nghiên cứu này đã đưa ra một số đóng góp quan trọng. Thứ nhất, kết quả mà đề tài thực hiện đã cung cấp một cái nhìn sâu hơn trong toàn bộ quy trình ứng dụng khai phá dữ liệu vào thực tế, bao gồm cả những phương pháp trong việc điều chỉnh tập dữ liệu đầu vào và cải thiện độ chính xác của các giải thuật trong dự đoán. Thứ hai, các kết quả từ hai tình huống đã cho thấy rằng giải thuật Cây quyết định cho kết quả chính xác hơn giải thuật Mạng Bayes trong dự đoán kết quả học tập. (thử nghiệm trên công cụ mã nguồn mở Weka [1]) Các phần tiếp theo sẽ trình bày phương pháp nghiên cứu của đề tài, lựa chọn các công cụ hỗ trợ khai phá dữ liệu, so sánh kết quả dự đóan của hai giải thuật, kế tiếp là việc so sánh kết quả của nghiên cứu này với các nghiên cứu liên quan. Sau cùng là việc thảo luận, kết luận. PHƯƠNG PHÁP NGHIÊN CỨU Trong phần này chúng ta sẽ tìm hiểu phương pháp nghiên cứu của đề tài bao gồm việc lựa chọn các công cụ hỗ trợ khai phá dữ liệu; thu thập, phân tích và tiền xữ lý dữ liệu; mô hình hóa trong dự đoán kết quả học tập, và điều chỉnh dữ liệu đầu vào cũng như các tham số của giải thuật để cải thiện độ chính xác. I. Lựa chọn các công cụ hỗ trợ cho khai phá dữ liệu Nghiên cứu này đã xây dựng một bảng so sánh chi tiết các công cụ có thể sử dụng trong khai phá dữ liệu. Trước hết, đề tài bắt đầu với việc lựa chọn 30 công cụ, sau khi tìm hiểu các tính năng của từng công cụ chúng tôi đã chọn lọc ra được 10 công cụ hỗ trợ tốt trong trực quan hóa (visualization). Sau đó đề tài đã áp dụng phương pháp phân tích trên các điều kiện như: khả năng tính toán, tính năng, tính tiện dụng, dựa trên mô hình của Collier [2] để chọn ra một công cụ nhằm phục vụ cho đề tài. Do hệ thống cần được xây dựng để vận hành trên nhiều hệ điều hành khác nhau và hơn thế nữa là tiết kiệm chi phí tối đa nên phương án phát triển từ mã nguồn mở đã được cân nhắc. Điều này đã đưa đến việc tập trung trên 3 công 1 Nguyễn Thái Nghe, Khoa Công nghệ thông tin và Truyền thông, Đại học Cần Thơ, ntnghe@cit.ctu.edu.vn. 2 Paul Janecek, Assistant Professor, AIT, Thailand, paul_janecek@ait.ac.th 3 Peter Haddawy, Professor, AIT, Thailand, haddawy@ait.ac.th 1

cụ mã nguồn mở: Weka [1], Orange [3], và Yale [4]. Về mặt tính năng, Weka và Yale hỗ trợ nhiều giải thuật hơn Orange, đồng thời cũng có công cụ tiền xữ lý dữ liệu tốt hơn. Mặt khác, Weka hỗ trợ tốt cho những tập dữ liệu lớn nên chúng tôi đã lựa chọn Weka như là một công cụ để phát triển ứng dụng cho đề tài này. II. Tiền xữ lý dữ liệu Bước tiếp theo là thu thập, phân tích và tiền xữ lý dữ liệu cho cả hai tình huống CTU và AIT. Đối với CTU, nghiên cứu này đã thu thập 20,492 mẫu tin của các sinh viên tốt nghiệp từ năm 1995 đến 2002. Đối với AIT, có 936 mẫu tin được thu thập ở các sinh viên tốt nghiệp từ năm 2003 đến 2005. Hình 1 dưới đây trình bày sự phân phối dữ liệu của thuộc tính mà đề tài cần dự đoán: Điểm GPA ở cuối năm thứ 3 của sinh viên đại học ở CTU, và GPA ở cuối năm thứ nhất của sinh viên sau đại học ở AIT. Các màu {,,, } trong hình tương ứng đại diện cho các kết quả {Fail, Fair,, }. CTU AIT Hình 1 PHÂN PHỐI DỮ LIỆU ĐIỂM GPA - CTU (TRÁI) VÀ AIT (PHẢI) Trong giai đoạn tiền xữ lý dữ liệu, đề tài đã lựa chọn các thuộc tính có liên quan đến công việc dự đoán dựa trên dữ liệu thu thập được từ các Phòng đào tạo, kết hợp giá trị của các thuộc tính thành các nhóm có nghĩa và dẫn xuất ra các thuộc tính mới. Bảng I và II trình bày tóm tắt các thuộc tính cần dùng để dự đoán cho trường hợp CTU và AIT, giá trị tương ứng của từng thuộc tính và độ lợi thông tin (Information ) trên mỗi thuộc tính. Dựa trên độ lợi thông tin, ta có thể xác định sơ bộ thuộc tính nào ảnh hưởng nhiều nhất trong dự đoán/phân loại kết quả (classification) khi áp dụng giải thuật Cây quyết định. Đối với tập dữ liệu của CTU trong bảng I, hai thuộc tính có độ lợi thông tin cao nhất và ảnh hưởng nhiều nhất đến kết quả dự đoán là điểm trung bình tích lũy ở cuối năm thứ 2 (CGPA2) và trình độ Anh văn (English Skill). Từ phân phối dữ liệu của thuộc tính English Skill, ta có thể suy luận được rằng nếu sinh viên có ngoại ngữ tốt thì kết quả học tập cũng sẽ tốt hơn - có thể do họ có khả năng đọc thêm các tài liệu chuyên ngành hoặc có khả năng tìm kiếm thông tin từ một thư viện khổng lồ - Internet. Đối với tập dữ liệu của AIT trong bảng II, thuộc tính có độ lợi thông tin cao nhất là Xếp hạng các Trường, Viện đầu vào (Institute Rank), đây là một thuộc tính dẫn xuất, sẽ được mô tả chi tiết phía sau. Một thách thức lớn trong khi tiền xữ lý dữ liệu cho trường hợp của AIT là làm thế nào để so sánh điểm GPA đầu vào của các sinh viên từ 329 trường, viện đại học khác nhau của hơn 40 quốc gia trên thế giới (các số này thống kê từ tập dữ liệu mà đề tài thu thập được). Hai vấn đề quan trọng cần giải quyết ở đây là: Thứ nhất, ở mỗi trường khác nhau có thang điểm khác nhau (ví dụ: thang điểm [0-10], [1-5], [0-100], [0-4], ), những thang điểm này cần được chuyển về một thang điểm thống nhất (cụ thể là thang điểm [0-4], thường được sử dụng ở các trường quốc tế). Vấn đề thứ hai khó giải quyết hơn đó là mỗi trường có tiêu chí đánh giá kết quả khác nhau do vậy rất khó khăn để xác định GPA đầu vào của sinh viên ở trường nào là tốt hơn. Chẳng hạn, điểm GPA ở một số trường rất cao còn một số trường khác thì khá thấp, tuy nhiên năng lực thật sự của sinh viên thì không hề thua kém. Bảng I CTU Attributes, Information, and Relative Contribution # Attribute # Val Values Info Rel 1 CGPA Year2 4 {Fail, Fair,, } 0.425 44.4 {A, B, C, N} 21.6 2 English Skill 4 0.207 3 Field of Study 18 {Accounting- Finance, } 0.081 8.4 4 Faculty 7 {Agriculture, } 0.067 7.0 5 Gender 2 {M, F} 0.064 6.7 6 Entry Mark Range 4 {5.0-11.0, 11.5-14.0, 14.5-18.0, 18.5-30.0} 0.043 4.5 7 Age Range 4 {15-17, 18, 19, 20-40} 0.020 2.1 8 Policy Priority 2 {Yes, No} 0.012 1.2 9 Area Priority 2 {Yes, No} 0.011 1.1 10 Institute Rank 10 {1, 2,, 10} 0.011 1.1 {AnGiang, BenTre, CaMau- BL, CanTho, DongThap, HauGiang, KienGiang, SocTrang, TienGiang, 11 Province 11 VinhLong, Others} 0.010 1.0 12 Family Job 7 {Aquaculture, Business, Employee, Farmer, Gardener, Worker, Others} 0.007 0.7 13 Ethnic 2 {KINH, OTHERS} 0.000 0.0 14 Religion 2 {No, Yes} 0.000 0.0 Bảng II AIT Attributes, Information, and Relative Contribution # Attribute # Val Values Info Rel 24.5 1 Institute Rank 10 {1, 2,, 10} 0.046 {Bangladesh, Cambodia, India, Indonesia, Laos, Myanmar, Nepal, Pakistan, PRChina, SriLanka, 2 Country 13 Thailand, Vietnam, Others} 0.035 18.9 10.2 3 Entry GPA 4 {2.0-3.0, 3.0-3.3, 3.3-4.0} 0.019 English 4 Proficiency 4 {TOEFL, Certificate, Other, No 0.017 9.3 5 Donor 8 scholarship providers 0.016 8.5 6 Current FOS 10 {ICT group,, Others} 0.011 6.1 7 Previous FOS 8 {IT group,, Others} 0.008 4.3 8 Current School 3 {Engineering, Resources and Development, Management} 0.008 4.3 Fund {Fellowship, Scholarship, 9 Category 4 Self-Support, Others} 0.007 3.8 10 Marital Status 2 {Married, Single} 0.006 3.4 Gross National 11 Income 3 {Lower, Middle, Upper} 0.006 3.2 {20-24, 25-26, 27-30, 31-12 Age Range 4 50} 0.005 2.9 13 Gender 2 {M, F} 0.001 0.4 14 TOEFL 3 {500-550, 551, 590, 591-677} 2

Trong tập dữ liệu của AIT mà nghiên cứu này sử dụng, các sinh viên đến từ hơn 329 trường khác nhau, do đó thuộc tính Đến từ trường đại học phải được số hóa và chia thành các khoảng (cụ thể là 10 khoảng với các giá trị từ 1 đến 10). Sau khi đã thử nghiệm trên nhiều phương pháp khác nhau, nghiên cứu này đã sử dụng cách xếp hạng cho các trường đầu vào (trường đầu vào là nơi sinh viên đã tốt nghiệp trước khi đến AIT). Trước hết giả định rằng điểm GPA mà các sinh viên đã tốt nghiệp tại AIT có giá trị ngang với điểm GPA mà họ đã tốt nghiệp từ trường họ đã học trước khi đến AIT. Kế tiếp, chúng tôi sẽ tìm ra độ lệch trung bình giữa GPA của các sinh tốt nghiệp tại AIT và trường trước đây của họ theo công thức: Diff Institute = AVG Institute (GPA Graduation GPA Entry ) (1) Sau đó sẽ tạo ra thuộc tính xếp hạng cho các trường bằng cách chuẩn hóa độ lệch này về các giá trị từ 1 đến 10. Giá trị càng lớn là độ lệch càng cao, điều đó có nghĩa là sinh viên ở các trường này sẽ có năng lực tương đối tốt hơn. Biểu đồ phân phối dữ liệu của thuộc tính Institute Rank cho CTU và AIT được trình bày trong hình 2. Các màu sắc thể hiện cho các kết quả tương ứng như trong hình 1. Chẳng hạn, màu xanh dương biểu diễn cho các sinh viên có kết quả Fail, màu đỏ biểu diễn cho các sinh viên Fair,... (Cần lưu ý rằng việc xếp hạng này chỉ là cách số hóa các trường để tiện lợi cho dữ liệu đầu vào, đồng thời cũng phản ánh cho các chính sách điểm khác nhau chứ không phải là chất lượng đào tạo từ các trường) lượng sinh viên nhiều nhất ở khoảng điểm 3.0) thì độ chính xác của mô hình là 58.95. Cách thứ hai là chia thuộc tính điểm GPA này thành 4 nhóm {Fail, Fair,, } (tương ứng với {C, C+, B, B+/A} hoặc {2.0-2.5, [2.5-3.0, [3.0-3.5, [3.5-4.0}) thì độ chính xác có phần giảm đi. Giải pháp thứ 3 là ghép các sinh viên có GPA từ 2.0-3.0 thành một nhóm, kết quả có cải thiện chút ít nhưng vẫn thấp hơn giá trị GPA liên tục. Giải pháp thứ 4 là chia điểm GPA ở mức 3.3 thay vì 3.5 thì độ chính xác tăng 1.3 so với sử dụng giá trị liên tục. Bảng III Tuning the values of the Entry GPA attribute for the AIT Solution Continuous [2.0. 4.0] { Fail, Fair,, } { Warning,, } { 2.0-3.0, 3.0-3.3, 3.3-4.0} Data Distribution Correct - 4 classes 58.95 57.08 58.22 60.27 CTU AIT Hình 2 PHÂN PHỐI DỮ LIỆU XẾP HẠNG CÁC TRƯỜNG, VIỆN Từ bảng II ta thấy rằng, thuộc tính dẫn xuất Institute Rank có độ lợi thông tin cao nhất trong trường hợp của AIT (gấp 2.5 lần thuộc tính Entry GPA). III. Mô hình hóa công việc dự đoán Bước kế tiếp trong vấn đề dự đoán của đề tài là xây dựng và đánh giá các mô hình. Giải thuật Decision Tree và Bayesian Network được cung cấp trong công cụ Weka đã được sử dụng cho việc mô hình hóa. Từ những mô hình này, đề tài đã từng bước điều chỉnh giá trị của các thuộc tính đầu vào bằng cách chuyển thành kiểu số hoặc chia thành nhiều đoạn và đánh giá sự thay đổi của độ chính xác trong kết quả. Trong một số trường hợp, cách làm này cải thiện độ chính xác một cách đáng kể. Chẳng hạn, đề tài đã thử nghiệm trên thuộc tính điểm GPA đầu vào (Entry GPA) như trong bảng III. Ở dòng thứ nhất của bảng III, nếu ta chọn điểm GPA đầu vào là kiểu số (liên tục từ 2.0 đến 4.0; số Nghiên cứu này đã phân tích trên từng thuộc tính theo cách tương tự như trên để xác định những giá trị nào của mỗi thuộc tính sẽ cho độ chính xác tốt nhất cho mô hình. Một số thuộc tính sau khi điều chỉnh có cải thiện tương đối như trong trường hợp của CTU (<1) gồm Religion, Entry Mark, Area Priority, Policy Priority. Từ sự phân phối dữ liệu của thuộc tính Entry Mark chúng ta sẽ dễ dàng nhận ra rằng nếu điểm thi tuyển đầu vào càng cao thì kết quả học tập của sinh viên càng tốt. Kết quả cuối cùng của các giá trị trên từng thuộc tính được trình bày trong bảng I và bảng II. IV. Điều chỉnh các tham số của giải thuật Đề tài cũng đã so sánh độ chính xác trên ba giải thuật phân loại/dự đóan được cung cấp trong Weka: Giải thuật J48-Decision Tree, M5P-Model Tree, và BayesNet-Bayesian Network. Trong phần này chúng ta sẽ tìm hiểu các tham số quan trọng trên từng giải thuật mà đề tài đã sử dụng. Giải thuật J48-Decision Tree trong Weka được cung cấp ở lớp Java có tên weka.classifiers.trees. J48. Giải thuật này sinh ra cây cắt (pruned) hoặc không cắt (un-pruned) C4.5 Decision Tree, và có 3 tham số quan trọng (xem bảng IV): 3

confidencefactor: Nhân tố sử dụng cho việc cắt tỉa (Nếu giá trị này càng nhỏ thì cây sinh ra sẽ được cắt càng nhiều) minnumobj: Số thể hiện (instances) tối thiểu trên một nút lá trong cây. Unpruned: Nếu là True thì cây sinh ra sẽ được cắt tỉa và ngược lại. Bảng IV Parameter Values for the Decision Tree Predicted Values: GPA Classes 4: {Fail, Fair,, } 3: {Fail,, } 2: {Fail, Pass} Parameters CTU AIT confidencefactor 0.25 0.25 MinNumObj 2 3 Unpruned False False confidencefactor 0.25 0.25 MinNumObj 2 3 Unpruned False False confidencefactor 0.25 0.25 MinNumObj 2 7 Unpruned False True Giải thuật M5P- Model Tree trong WEKA được cung cấp ở lớp Java weka.classifiers.trees.m5p gồm có hai tham số chính (xem bảng V): buildregressiontree: Nếu tham số này là True thì sẽ xây dựng Regression Tree, ngược lại là Model Tree. minnuminstances: Số thể hiện tối thiểu trên một nút lá. Bảng V Parameter Values for the Model Tree Predicted Values: GPA Classes Numeric Parameters CTU AIT BuildRegressionTree False MinNumInstances 4 Giải thuật Bayesian Network trong Weka được cung cấp ở lớp Java weka.classifiers.bayes.bayes Net, và có hai tham số chính (xem bảng VI): Estimator: Sử dụng cho việc tìm bảng phân phối xác suất, nó ước lượng xác suất trực tiếp từ dữ liệu vào. SearchAlgorithm: Sử dụng để tìm cấu trúc cho mạng Bayes. Bảng VI Parameter Values for the Bayesian Network Predicted Values: GPA Classes 4, 3, and 2 Estimator Parameters CTU AIT SearchAlgorithm KẾT QUẢ VÀ PHÂN TÍCH SimpleEstimator HillClimbing Trong bảng VII sẽ so sánh độ chính xác của kết quả dự đoán cho tình huống của CTU và AIT khi sử dụng giải thuật Decision Tree (DT) và Bayesian Network (BN). Bảng VIII đến bảng XII trình bày kết quả chi tiết cho giải thuật Decision Tree trong dự đoán điểm GPA khi chia thành 4, 3, và 2 lớp. Trong trường hợp của CTU đề tài đã dự đoán GPA của sinh viên đại học ở cuối năm thứ 3, và dự đóan GPA ở cuối năm thứ nhất của sinh viên sau đại học ở AIT. Độ chính xác khi dự đoán được đánh giá bởi phương pháp kiểm tra chéo với 10 đường (Cross-Validation with 10-folds). Các kết quả của CTU và AIT từ bảng VII đến bảng XII được thử nghiệm trên cả dữ liệu ban đầu (original data) lẫn dữ liệu khi tái lấy mẫu (re-sampling data). Bảng VII Comparison of GPA Prediction Results for CTU and AIT Algo CTU (20,492 records) AIT (936 records) Accuracy Accuracy Accuracy Accuracy Original Resampled Original Resampled Data Data Data Data Predicted GPA Classes 4 classes: {Fail, Fair,, } 3 classes: {Fail,, } DT 66.69 72.95 63.25 70.62 BN 61.32 60.80 57.48 61.54 DT 84.18 86.47 67.74 74.36 BN 78.57 78.73 63.89 66.13 DT 92.86 94.03 91.98 92.74 2 classes: {Fail, Pass} BN 89.75 90.27 90.91 88.57 Kết quả tóm tắt trong bảng VII đã cho thấy rằng khi dự đoán trên tập dữ liệu của CTU cho độ chính xác tốt hơn trên tập dữ liệu của AIT do số lượng mẫu tin của CTU đầy đủ hơn và nhiều hơn. Bên cạnh đó, từ bảng phân tích này cũng đã cho ta thấy giải thuật Decision Tree cho kết quả tốt hơn giải thuật Bayesian Network (chẳng hạn, đến 12 trong trường hợp dự đoán 4 lớp GPA). Bảng VIII Decision Tree Confusion Matrix, CTU Case Study, 4 Classes Class Fail Fair Predicted Class (CTU) Fail Fair Fail 534 890 134 7 849 543 169 4 Fair 360 3499 1888 12 336 3757 1609 23 30 1519 7701 515 83 1093 8214 407 1 15 1135 1290 6 32 977 1428 Hit 34 61 79 53 55 66 84 58 Bảng IX Decision Tree Confusion Matrix, AIT Case Study, 4 Classes Predicted Class (AIT) Class Fail Fair Fail Fair Fail 0 1 14 6 4 1 12 1 Fair 0 1 43 10 1 18 17 14 1 1 247 130 7 10 222 119 1 9 129 344 3 11 79 417 Hit 0 2 65 71 22 36 62 82 4

Bảng X Decision Tree Confusion Matrix, CTU Case Study, 3 Classes Class Fail Predicted Class (CTU) Fail Fail 468 1090 7 579 984 2 312 14707 505 177 14985 360 0 1174 1267 3 1117 1323 Hit 30 95 52 37 97 54 Bảng XI Decision Tree Confusion Matrix, AIT Case Study, 3 Classes Class Fail Predicted Class (AIT) Fail Fail 0 15 6 1 13 4 1 302 130 2 298 108 1 150 332 3 110 397 Hit 0 70 69 5 73 78 Bảng XII Decision Tree Confusion Matrix, CTU and AIT Cases, 2 Classes CTU Data Predicted Class AIT Data Original Re-Sampled Original Re-Sampled Class Fail Pass Fail Pass Fail Pass Fail Pass Fail 471 1094 997 568 2 73 32 36 Pass 300 17665 526 17439 13 848 32 836 Hit 30 98 64 97 2 98 47 96 II. Phân tích các Confusion Matrix Các Confusion Matrix trong dự đoán 4, 3, và 2 lớp (bảng VIII đến XII) cho thấy những thay đổi trong phân phối của các giá trị thực và giá trị dự đoán cho cả dữ liệu ban đầu lẫn dữ liệu tái lấy mẫu. Độ chính xác khi dự đoán trên dữ liệu tái lấy mẫu cải thiện đáng kể đối với những tập dữ liệu có kích thước nhỏ của các lớp ít (minority classes. Xem hình 1 để thấy rõ phân phối dữ liệu thực của các lớp cần dự đoán). Chẳng hạn, trong trường hợp của CTU, độ chính xác khi dự đoán các sinh viên có kết quả Fail tăng từ 34 lên 55 nếu sử dụng resampling (bảng VIII), và từ 0 lên 22 trong trường hợp của AIT (bảng IX) bằng giải thuật Decision Tree. Tương tự, độ chính xác khi dự đoán các sinh viên Fail khi dùng 2 lớp GPA tăng từ 30 lên 64 cho CTU và 2 lên 47 cho AIT (bảng XII). Như vậy, việc dự đoán GPA với 3 lớp thì độ chính xác của toàn bộ mô hình cao hơn so với dự đoán 4 lớp (như trong bảng VII) nhưng thấp hơn khi dự đoán 2 lớp. Khi dự đoán các sinh viên có kết quả Fail, độ chính xác cao nhất thuộc về trường hợp dự đoán 2 lớp ở cả 2 tập dữ liệu (CTU: 64; AIT: 47, bảng XII). Còn khi dự đoán các sinh viên có kết quả thì độ chính xác cao nhất thuộc về trường hợp dự đoán 4 lớp. (CTU: 58 và AIT: 82, bảng VIII, IX). Bảng XIII Phân tích ROC (Receiver Operating Characteristic), 4 Classes CTU Data AIT Data I. Tái lấy mẫu (Re-sampling) Các Confusion Matrix ở các bảng từ VIII đến XII, ta thấy rằng sự phân phối dữ liệu trên thuộc tính cần dự đoán không được cân bằng (imbalance dataset), do đó độ chính xác ở các lớp có giá trị ít hơn (minority classes) sẽ thấp hơn ở các lớp nhiều (majority classes). Chẳng hạn, số lượng sinh viên thuộc lớp Fail trong tập dữ liệu của CTU (bảng VIII, mục ) nhỏ hơn 6 lần so với số sinh viên trong lớp, và độ chính xác cho 2 lớp này tương ứng là 34 và 79. Kết quả đã cho thấy độ chính xác khi dự đoán cho lớp có giá trị nhỏ hơn thì luôn thấp hơn trên cả hai tập dữ liệu mà đề tài thực hiện. Để cải thiện vấn đề này, đề tài đã sử dụng chức năng resample được cung cấp trong Weka. Tính năng này sẽ nâng giá trị của lớp ít (oversample- minority classes) lên nhiều hơn, và giảm giá trị của lớp nhiều (undersample- majority classes) để làm cho tập dữ liệu cân bằng hơn. Bảng VII trình bày độ chính xác khi huấn luyện mô hình trên tập dữ liệu ban đầu và tập dữ liệu sau khi resample. Việc dự đoán sử dụng tái lấy mẫu trên tập dữ liệu đã giúp cho độ chính xác phần nào được cải thiện. Fail AUC = 0.90 AUC = 0.85 AUC = 0.88 AUC = 0.70 Bảng XIII trình bày các giá trị AUC (Area Under the ROC Curve) khi dự đoán cho 4 lớp kết quả GPA. Từ các giá trị AUC trên, ta thấy rằng khi dự đoán các sinh viên có kết quả cho cả 2 tình huống và kết quả Fail cho tình huống của CTU là rất tốt (>0.85). Riêng trường hợp dự đoán Fail cho các sinh viên của AIT thì chỉ ở mức khá và cần phải được cải thiện thêm (do tập dữ liệu thực là quá ít, chỉ có 21 sinh viên thuộc lớp này). Những kết quả dự đoán khá tin cậy trong đề tài này sẽ góp phần quan trọng để hỗ trợ cho những người ra quyết định ở các trường sau đại học trong việc phân phối ngân sách học bổng cho các ứng viên khi đăng ký vào trường của họ. 5

SO SÁNH VỚI NHỮNG NGHIÊN CỨU LIÊN QUAN Khai phá dữ liệu đã được ứng dụng cho nhiều mục đích khác nhau trong giáo dục đào tạo. Delavari [6] đã trình bày một mô hình trong đó có nhiều câu hỏi nghiên cứu ở các lĩnh vực khác nhau và các kỹ thuật khai phá dữ liệu tương ứng với từng loại câu hỏi khi áp dụng trong giáo dục đào tạo. Chẳng hạn, [6] đã trình bày các vấn đề như dự đoán năng lực của sinh viên, phân cụm những sinh viên có đặc điểm giống nhau, mối quan hệ giữa từng loại sinh viên với các môn học, Luan [5] cũng đã trình bày một nghiên cứu trong việc phân cụm các sinh viên có các đặc điểm giống nhau ( self starters và high interaction ). Đề tài này cũng đã so sánh với hai nghiên cứu khác trong lĩnh vực dự đoán năng lực của sinh viên [7,8] như trong bảng XIV. Tập dữ liệu mà đề tài này đã sử dụng lớn hơn tập dữ liệu ở hai nghiên cứu trước. Kết quả dự đoán trên 3 lớp cũng chính xác hơn nghiên cứu [8] trong trường hợp của AIT. Trong trường hợp của CTU thì kết quả cao hơn [8] khoảng 14. Khi dự đoán GPA 2 lớp, [8] tốt hơn đề tài này 3-4. Tuy nhiên, việc so sánh này chỉ là tương đối (do ngữ cảnh ứng dụng, tập dữ liệu và số thuộc tính khác nhau) để giúp chúng ta có một cái nhìn chung khi ứng dụng khai phá dữ liệu vào lĩnh vực dự đoán kết quả học tập của sinh viên. Bảng XIV Comparison with Related Work Criteria Prediction Problem Student type This Research Previous Research CTU AIT [7] [8] Mathematics Final grade of Student GPA / English Physics course performance Undergraduate Graduate High School Undergraduate Data set 20,492 936 514 261 Number of attributes 15 15 8 - Predict attribute values 4-classes (Fail, Fair,, ), 3-classes (Fail,, ), 2-classes (Fail, Pass), Numeric GPA Decision Tree/Model Tree 3-classes (Below, Satisfactory, Above) Bayesian Network 9-classes (0.0,..,4.0) 3-classes (High, Middle, Low) 2-classes (Fail, Pass) Genetic Algorithm Techniques Accuracy 62.88 percentage 72.95 70.62 (9-classes) (4-classes) (3-classes) 86.47 74.36 64 72.52 (2-classes) 94.03 92.74 96.93 System type Web-based Application Application Platform Weka BNJ, Weka MATLAB THẢO LUẬN VÀ KẾT LUẬN Dự đoán kết quả học tập của sinh viên rất hữu ích trong nhiều ngữ cảnh. Trong công việc tuyển chọn ứng viên đầu vào ở các trường sau đại học, dự đoán này có thể dùng để xác định các sinh viên xuất sắc để tài trợ những suất học bổng toàn phần hoặc bán phần tùy theo năng lực của họ, cũng như việc xác định những sinh viên không có khả năng tốt nghiệp. Công việc này thật sự khó khăn khi dự đoán kết quả của các sinh viên quốc tế do họ đến từ nhiều trường đại học với những nền tảng kiến thức và hệ thống đánh giá kết quả (GPA) khác nhau. Độ chính xác cho toàn bộ mô hình trong dự đoán kết quả (khi chia GPA thành 3 lớp) của nghiên cứu này là 86 cho CTU và 74 cho AIT. Trong dự đoán các sinh viên xuất sắc (vd: B+/A) để cấp học bổng ở AIT thì độ chính xác đạt được là 82, và xác định các sinh viên có kết quả yếu kém là 47. Do đó trong khi việc dự đoán là tin cậy được trong trường hợp xác định các sinh viên xuất sắc thì nghiên cứu này cũng cần phải tiếp tục trong trường hợp xác định các sinh viên có kết quả thấp. Đề tài này đã được xây dựng và triển khai như một ứng dụng web cho các sinh viên và giáo viên ở AIT sử dụng. Mặc dù Weka là một ứng dụng desktop nên không hỗ trợ khi thực thi trên web, tuy nhiên đây là một ứng dụng mã nguồn mở, do đó chúng ta hoàn toàn có thể trích ra những lớp Java cần thiết của nó để tạo một ứng dụng khai phá dữ liệu cho riêng mình khi vận hành trên nền web. LỜI CẢM ƠN Nghiên cứu này xây dựng dựa trên một phần của luận văn tốt nghiệp Thạc sĩ ngành Quản lý thông tin của tác giả thứ nhất, được tài trợ bởi chương trình học bổng ngân sách Nhà Nước (Đề án 322) của Bộ giáo dục và Đào tạo Việt Nam. TÀI LIỆU THAM KHẢO [1] Weka, University of Waikato, New Zealand, http://www.cs.waikato.ac.nz/ml/weka/ [2] Collier, K., Carey, B., Sautter, D., and Marjaniemi, C., A methodology for evaluating and selecting data mining software, in Proceedings of the 32nd Annual Hawaii International Conference on System Sciences, IEEE, 1999. [3] Orange, University of Ljubljana, Slovenia, http://www.ailab.si/orange [4] Yale, Rapid-I, http://rapid-i.com/ [5] Luan, J., Zhao, C.-M., and Hayek, J., Exploring a new frontier in higher education research: A case study analysis of using data mining techniques to create NSSE institutional typology, Paper presented at the California Association for Institutional Research, Anaheim, California, November 17-19, 2004. [6] Delavari N. & Beikzadeh M. R & Shirazi M. R. A., A New Model for Using Data Mining in Higher Educational System, in Proceedings of 5th International Conference on Information Technology Based Higher Education and Training (ITHET), Istanbul, Turkey, May 31 to June 2, 2004. [7] Bekele, R. and Menzel, W., A Bayesian approach to predict performance of a student (BAPPS): A case with Ethiopian students, in Proceedings of the International Conference on Artificial Intelligence and Applications (AIA-2005), Vienna, Austria, 2005. [8] Minaei-Bidgoli, B., Kashy, D. A., Kortemeyer, G., and Punch, W. F, Predicting student performance: an application of data mining methods with an educational web-based system, in Proceedings of 33rd Annual Conference on Frontiers in Education (FIE 2003), volume 1, 2003, pages 13 18. 6