Đề cương môn học KHAI PHÁ DỮ LIỆU. (Data Mining)

Similar documents
Một phân tích giữa các kỹ thuật trong dự đoán kết quả học tập Nguyễn Thái Nghe 1, Paul Janecek 2, Peter Haddawy 3

TRƯỜNG ĐẠI HỌC XÂY DỰNG KHOA CÔNG NGHỆ THÔNG TIN GIÁO TRÌNH PHẦN III NGÔN NGỮ LẬP TRÌNH PASCAL -2

PHƯƠNG PHÁP SIXFRAME

Higher Education Accreditation in Vietnam and the U.S.: In Pursuit of Quality

HIGHER EDUCATION IN VIETNAM UPDATE MAY 2004

Double Master Degrees in International Economics and Development

Developing Autonomy in an East Asian Classroom: from Policy to Practice

Curriculum Vitae. Jonathan D. London. Assistant Professor of Sociology, City University of Hong Kong, January 2008-

The 9 th International Scientific Conference elearning and software for Education Bucharest, April 25-26, / X

Mining Association Rules in Student s Assessment Data

Building a Semantic Role Labelling System for Vietnamese

CATALOG. Educating Tomorrow s Missionaries. A Roman Catholic College Seminary owned and operated by the Society of the Divine Word

Rule Learning With Negation: Issues Regarding Effectiveness

Product Feature-based Ratings foropinionsummarization of E-Commerce Feedback Comments

Module 12. Machine Learning. Version 2 CSE IIT, Kharagpur

Rule Learning with Negation: Issues Regarding Effectiveness

Pp. 176{182 in Proceedings of The Second International Conference on Knowledge Discovery and Data Mining. Predictive Data Mining with Finite Mixtures

Learning From the Past with Experiment Databases

Rule discovery in Web-based educational systems using Grammar-Based Genetic Programming

Evaluation of Usage Patterns for Web-based Educational Systems using Web Mining

Evaluation of Usage Patterns for Web-based Educational Systems using Web Mining

Impact of Cluster Validity Measures on Performance of Hybrid Models Based on K-means and Decision Trees

ScienceDirect. A Framework for Clustering Cardiac Patient s Records Using Unsupervised Learning Techniques

TOEIC LC 1000: A? (Korean Edition)

Introduction to Ensemble Learning Featuring Successes in the Netflix Prize Competition

Reducing Features to Improve Bug Prediction

OF CHILDREN WITH DISABILITIES

QuickStroke: An Incremental On-line Chinese Handwriting Recognition System

Mining Student Evolution Using Associative Classification and Clustering

Iterative Cross-Training: An Algorithm for Learning from Unlabeled Web Pages

Exemplar for Internal Achievement Standard French Level 1

Applications of data mining algorithms to analysis of medical data

Python Machine Learning

Detecting English-French Cognates Using Orthographic Edit Distance

An OO Framework for building Intelligence and Learning properties in Software Agents

CSL465/603 - Machine Learning

CAVE LANGUAGES KS2 SCHEME OF WORK LANGUAGE OVERVIEW. YEAR 3 Stage 1 Lessons 1-30

Anatomy and Physiology. Astronomy. Boomilever. Bungee Drop

Learning Methods for Fuzzy Systems

Cross Language Information Retrieval

Twitter Sentiment Classification on Sanders Data using Hybrid Approach

Welcome to. ECML/PKDD 2004 Community meeting

Lecture 1: Machine Learning Basics

PH.D. IN COMPUTER SCIENCE PROGRAM (POST M.S.)

Experiment Databases: Towards an Improved Experimental Methodology in Machine Learning

Exposé for a Master s Thesis

Spring 2014 SYLLABUS Michigan State University STT 430: Probability and Statistics for Engineering

LogiGear MAGAZINE THE EXPLORATORY TESTING ISSUE

Integrating E-learning Environments with Computational Intelligence Assessment Agents

SELF-STUDY QUESTIONNAIRE FOR REVIEW of the COMPUTER SCIENCE PROGRAM and the INFORMATION SYSTEMS PROGRAM

On-Line Data Analytics

Advanced Multiprocessor Programming

International Research Attachment Programmes (i-rap) Presented by Valerie Wan

Australian Journal of Basic and Applied Sciences

Courses in English. Application Development Technology. Artificial Intelligence. 2017/18 Spring Semester. Database access

Word Segmentation of Off-line Handwritten Documents

Malicious User Suppression for Cooperative Spectrum Sensing in Cognitive Radio Networks using Dixon s Outlier Detection Method

A Comparison of Two Text Representations for Sentiment Analysis

Conference Presentation

NCU IISR English-Korean and English-Chinese Named Entity Transliteration Using Different Grapheme Segmentation Approaches

Cultural Diversity in English Language Teaching: Learners Voices

COMPARISON OF TWO SEGMENTATION METHODS FOR LIBRARY RECOMMENDER SYSTEMS. by Wing-Kee Ho

Guru: A Computer Tutor that Models Expert Human Tutors

Customized Question Handling in Data Removal Using CPHC

Humboldt-Universität zu Berlin

*Net Perceptions, Inc West 78th Street Suite 300 Minneapolis, MN

Multilingual Document Clustering: an Heuristic Approach Based on Cognate Named Entities

Speech Emotion Recognition Using Support Vector Machine

Semi-Supervised Face Detection

CS Machine Learning

Learning Optimal Dialogue Strategies: A Case Study of a Spoken Dialogue Agent for

Handling Concept Drifts Using Dynamic Selection of Classifiers

SELF-STUDY QUESTIONNAIRE FOR REVIEW of the COMPUTER SCIENCE PROGRAM

A Case Study: News Classification Based on Term Frequency

*In Ancient Greek: *In English: micro = small macro = large economia = management of the household or family

A Coding System for Dynamic Topic Analysis: A Computer-Mediated Discourse Analysis Technique

Efficient Online Summarization of Microblogging Streams

Present tense I need Yo necesito. Present tense It s. Hace. Lueve.

Lecture 1: Basic Concepts of Machine Learning

IST 649: Human Interaction with Computers

Probabilistic Latent Semantic Analysis

Data Fusion Models in WSNs: Comparison and Analysis

SPECIAL ARTICLES Pharmacy Education in Vietnam

Data Integration through Clustering and Finding Statistical Relations - Validation of Approach

Identification of Opinion Leaders Using Text Mining Technique in Virtual Community

The Use of Statistical, Computational and Modelling Tools in Higher Learning Institutions: A Case Study of the University of Dodoma

Unvoiced Landmark Detection for Segment-based Mandarin Continuous Speech Recognition

JONATHAN H. WRIGHT Department of Economics, Johns Hopkins University, 3400 N. Charles St., Baltimore MD (410)

CNS 18 21th Communications and Networking Simulation Symposium

#4 Boys 200 Yard Medley Relay Varsity AAA League: 1: Lowell High School A. Chan, J. Bautista, S. Chun, G. Yip Team Relay Finals Time

Universidade do Minho Escola de Engenharia

have to be modeled) or isolated words. Output of the system is a grapheme-tophoneme conversion system which takes as its input the spelling of words,

Business Analytics and Information Tech COURSE NUMBER: 33:136:494 COURSE TITLE: Data Mining and Business Intelligence

Data Fusion Through Statistical Matching

Content-based Image Retrieval Using Image Regions as Query Examples

The Method of Immersion the Problem of Comparing Technical Objects in an Expert Shell in the Class of Artificial Intelligence Algorithms

Comparison of EM and Two-Step Cluster Method for Mixed Data: An Application

Georgetown University School of Continuing Studies Master of Professional Studies in Human Resources Management Course Syllabus Summer 2014

Statistics and Data Analytics Minor

CS4491/CS 7265 BIG DATA ANALYTICS INTRODUCTION TO THE COURSE. Mingon Kang, PhD Computer Science, Kennesaw State University

Transcription:

Đại Học Quốc Gia TP.HCM Trường Đại Học Bách Khoa Khoa Khoa Học & Kỹ Thuật Máy Tính Vietnam National University HCMC Ho Chi Minh City University of Technology Faculty of Computer Science & Engineering Đề cương môn học KHAI PHÁ DỮ LIỆU (Data Mining) Số tín chỉ 3 (3.0.6) MSMH CO3029 Số tiết Tổng: 45 LT: 45 TH: TN: BTL/TL: x Môn ĐA, TT, LV Tỉ lệ đánh giá BT: 5% TN: KT: 15% BTL/TL: 40% Thi: 40% Hình thức đánh giá - Kiểm tra: trắc nghiệm + tự luận, 45-60 phút/bài - Thi: trắc nghiệm + tự luận, 120 phút - : tự luận + báo cáo theo nhóm, 30 phút/bài báo cáo - Bài tập: tự luận, 30 phút/bài Môn tiên quyết Môn học trước - Hệ cơ sở CO2013 Môn song hành CTĐT ngành Trình độ đào tạo Khoa Học Máy Tính và Kỹ Thuật Máy Tính Đại học Cấp độ môn học 3 [Có thể dạy vào năm 3-4] Ghi chú khác 3 tiết/buổi, tổ chức trình bày nhóm về đề tài bài từ tuần 11 đến tuần 15. 1. Mô tả môn học (Course Description) Môn học này nhằm giới thiệu quá trình khám phá tri thức, các khái niệm, công nghệ, và ứng dụng của khai phá. Ngoài ra, môn học này cũng trình bày các vấn đề tiền xử lý, các tác vụ khai phá, các giải thuật và công cụ khai phá mà có thể được dùng hỗ trợ nhà phân tích và nhà phát triển ứng dụng khai phá. Các chủ đề cụ thể của môn học bao gồm: tổng quan về khai phá, các vấn đề về được khai phá, các vấn đề tiền xử lý, hồi qui, phân loại, gom cụm, khai phá luật kết hợp, phát triển ứng dụng khai phá, và các đề tài nghiên cứu nâng cao trong khai phá. Course Description: This course aims to introduce the knowledge discovery process as well as concepts, technologies, and of data mining. It is also to discuss data preprocessing issues, data mining tasks, algorithms and tools that can be used to support data analysts and data mining application developers. In particular, its major topics are an overall view about data mining, issues related to data which are going to be mined, data preprocessing issues, data regression, data classification, data clustering, association rules mining, data mining application development, and other research 1/7

topics of interest in the data mining area. 2. Tài học tập Sách, Giáo trình chính: [1] Jiawei Han, Micheline Kamber, Jian Pei, Data Mining: Concepts and Techniques, Third Edition, Morgan Kaufmann Publishers, 2012. [2] David Hand, Heikki Mannila, Padhraic Smyth, Principles of Data Mining, MIT Press, 2001. Sách tham khảo: [3] David L. Olson, Dursun Delen, Advanced Data Mining Techniques, Springer-Verlag, 2008. [4] Graham J. Williams, Simeon J. Simoff, Data Mining: Theory, Methodology, Techniques, and Applications, Springer-Verlag, 2006. [5] ZhaoHui Tang, Jamie MacLennan, Data Mining with SQL Server 2005, Wiley Publishing, 2005. [6] Oracle, Data Mining Concepts, B28129-01, 2008. [7] Oracle, Data Mining Application Developer s Guide, B28131-01, 2008. [8] Ian H.Witten, Frank Eibe, Mark A. Hall, Data mining: practical machine learning tools and techniques, Third Edition, Elsevier Inc, 2011. [9] Florent Messeglia, Pascal Poncelet & Maguelonne Teisseire, Successes and new directions in data mining, IGI Global, 2008. [10] Oded Maimon, Lior Rokach, Data Mining and Knowledge Discovery Handbook, Second Edition, Springer Science + Business Media, LLC 2005, 2010. 3. Mục tiêu môn học (Course Goals) Sau khi học đạt môn học này, sinh viên có thể: Minh họa được các bước trong quá trình khám phá tri thức Mô tả các khái niệm cơ bản, công nghệ và ứng dụng của khai phá Giải thích các tác vụ khai phá phổ biến như hồi qui, phân loại, gom cụm, và khai phá luật kết hợp Nhận dạng được các vấn đề về trong giai đoạn tiền xử lý cho các tác vụ khai phá Sử dụng các giải thuật và công cụ khai phá để phát triển ứng dụng khai phá Course Goals: Upon successful completion, students will be able to: Demonstrate the steps in the overall knowledge discovery process Describe basic concepts, technologies, and of data mining Explain popular data mining tasks including regression, classification, clustering, and frequent itemset and association rules mining Identify data related issues in the data preprocessing phase for data mining tasks Use data mining algorithms and tools for data mining application development 4. Chuẩn đầu ra môn học (Course Outcomes) STT Chuẩn đầu ra môn học CDIO L.O.1 Minh họa được các bước trong quá trình khám phá tri thức L.O.1.1 So sánh quá trình khám phá tri thức và quá trình khai phá L.O.1.2 - Liệt kê được các bước trong quá trình khám phá tri thức 2/7

L.O.2 L.O.3 L.O.4 L.O.5 L.O.1.3 Nêu ví dụ thực tế về quá trình khám phá tri thức Mô tả các khái niệm cơ bản, công nghệ và ứng dụng của khai phá L.O.2.1 Liệt kê các tác vụ khai phá L.O.2.2 Mô tả được các thành phần của tác vụ khai phá tổng quát L.O.2.3 Mô tả được các thành phần của giải thuật khai phá tổng quát L.O.2.4 Mô tả được quy trình khai phá chuẩn L.O.2.5 Liệt kê được các ứng dụng của khai phá trong ít nhất 1 lĩnh vực thực tế L.O.2.6 Phân biệt được hệ thống khai phá với các dạng hệ thống khác như hệ cơ sở diễn dịch, hệ thống truy hồi thông tin, hệ thống học máy, Giải thích các tác vụ khai phá phổ biến như hồi qui, phân loại, gom cụm, và khai phá tập mẫu thường xuyên và luật kết hợp L.O.3.1 Giải thích tác vụ hồi qui L.O.3.2 Giải thích tác vụ phân loại L.O.3.3 Giải thích tác vụ gom cụm L.O.3.4 Giải thích tác vụ khai phá tập mẫu thường xuyên và luật kết hợp Nhận dạng được các vấn đề về trong giai đoạn tiền xử lý cho các tác vụ khai phá L.O.4.1 - Xác định được các mô tả thống kê của tập cho trước L.O.4.2 Mô tả được vấn đề và giải pháp nhận diện nhiễu và phần tử ngoại biên trong tập cho trước L.O.4.3 Thực hiện được các biến đổi trên tập cho trước L.O.4.4 Thực hiện được các thu giảm trên tập cho trước Sử dụng các giải thuật và công cụ khai phá để phát triển ứng dụng khai phá L.O.5.1 Khai phá được mô hình hồi qui /mô hình phân loại dữ /mô hình gom cụm /tập mẫu thường xuyên và luật kết hợp tương ứng trong ứng dụng khai phá L.O.5.3 Sử dụng được thư viện khai phá trong ứng dụng khai phá L.O.5.3 Minh họa được việc sử dụng kết quả khai phá trong một chương trình ứng dụng cụ thể Course outcomes: No. Course outcomes CDIO L.O.1 L.O.2 Demonstrate the steps in the overall knowledge discovery process L.O.1.1 Compare a knowledge discovery process with a data mining process L.O.1.2 List the steps of a knowledge discovery process L.O.1.3 Give a practical example of a knowledge discovery process Describe basic concepts, technologies, and of data mining L.O.2.1 List data mining tasks L.O.2.2 Describe each component of a data mining task in general 3/7

L.O.3 L.O.4 L.O.5 L.O.2.3 Describe each component of a data mining algorithm in general L.O.2.4 Describe a standardized data mining process L.O.2.5 List data mining in at least one application domain L.O.2.6 Determine the differences between a data mining system and other systems such as deductive database systems, information retrieval systems, machine learning systems, and so on Explain popular data mining tasks including regression, classification, clustering, and frequent itemset and association rules mining L.O.3.1 Explain data regression L.O.3.2 Explain data classification L.O.3.3 Explain data clustering L.O.3.4 Explain frequent itemset and association rules mining Identify data related issues in the data preprocessing phase for data mining tasks L.O.4.1 Determine statistical descriptives of a given data set L.O.4.2 Describe noise and outlier detection problems and solutions of a given data set L.O.4.3 Conduct data transformation on a given data set L.O.4.4 Conduct data reduction on a given data set Use data mining algorithms and tools for data mining application development L.O.5.2 Utilize data mining libraries for data mining application development L.O.5.3 Demonstrate using mining models/patterns in a particular data mining application 5. Hướng dẫn cách học - chi tiết cách đánh giá môn học Để đáp ứng mục tiêu của môn học, sinh viên cần thực hiện tốt các đòi hỏi sau đây: a. Có mặt tại lớp phải hơn 75% từ tuần 1 đến tuần 8 và 100% từ tuần 9 đến tuần 15. b. Sau mỗi chương, sinh viên làm các bài tập của chương. Về đánh giá, có tất cả 4 cột điểm: a. Bài tập: : 5% b. : 40% c. Kiểm tra : 15% d. Thi cuối kỳ : 40% Hình thức làm bài như sau: a. Bài tập: tự luận, có thể được thực hiện trên lớp và/hoặc về nhà sau mỗi chương b. : được thực hiện theo nhóm ngoài lớp từ tuần 2 đến tuần 10, báo cáo tự luận và trình bày nhóm trên lớp từ tuần 11 đến tuần 15. c. Kiểm tra: trắc nghiệm + tự luận, được thực hiện trên lớp vào tuần thứ 9, thời gian làm bài 45 phút-60 phút. d. Thi cuối kỳ: trắc nghiệm + tự luận, được thực hiện theo lịch thi cuối kỳ, thời gian làm bài 120 phút. 4/7

6. Dự kiến danh sách Cán bộ tham gia giảng dạy TS. Võ Thị Ngọc Châu TS. Trần Minh Quang Th.S. Dương Ngọc Hiếu Th.S. Huỳnh Văn Quốc Phương Th.S. Trương Quang Hải 7. Nội dung chi tiết Tuần / Chương Nội dung 1 Chương 1: Tổng quan về khai phá 1. Quá trình khám phá tri thức 2. Các khái niệm 3. Ý nghĩa và vai trò của khai phá 4. Ứng dụng của khai phá 5. Tóm tắt (6giờ) 2 Chương 2: Các vấn đề tiền xử lý 3.1. Tổng quan về giai đoạn tiền xử lý 3.2. Tóm tắt mô tả về dữ 3.3. Làm sạch 3.4. Tích hợp 3.5. Biến đổi 3.6. Thu giảm 3.7. Rời rạc hóa 3.8. Tạo cây phân cấp ý niệm 3.9. Biểu diễn 3.10. Tóm tắt (6 giờ) 3 Chương 3: Hồi qui 3.1. Tổng quan về hồi qui 3.2. Hồi qui tuyến tính 3.3. Hồi qui phi tuyến 3.4. Ứng dụng 3.5. Các vấn đề với hồi qui 3.6. Tóm tắt Chuẩn đầu ra chi tiết L.O.1.1 So sánh quá trình khám phá tri thức và quá trình khai phá L.O.1.2 - Liệt kê được các bước trong quá trình khám phá tri thức L.O.1.3 Nêu ví dụ thực tế về quá trình khám phá tri thức L.O.2.1 Liệt kê các tác vụ khai phá dữ L.O.2.2 Mô tả được các thành phần của tác vụ khai phá tổng quát L.O.2.3 Mô tả được các thành phần của giải thuật khai phá tổng quát L.O.4.1 Determine statistical descriptives of a given data set L.O.4.2 Describe noise and outlier detection problems and solutions of a given data set L.O.4.3 Conduct data transformation on a given data set L.O.4.4 Conduct data reduction on a given data set L.O.3.1 Explain data regression Hoạt động đánh giá Bài tập Thi cuối kỳ Thi cuối kỳ và thi cuối kỳ 5/7

(6 giờ) 4, 5 Chương 4: Phân loại dữ 4.1. Tổng quan về phân loại 4.2. Phân loại với cây quyết định 4.3. Phân loại với mạng Bayesian 4.4. Phân loại với mạng Neural 4.5. Các phương pháp phân loại khác 4.6. Tóm tắt (12 giờ) 6, 7 Chương 5: Gom cụm dữ 5.1. Tổng quan về gom cụm 5.2. Gom cụm bằng phân hoạch 5.3. Gom cụm bằng phân cấp 5.4. Gom cụm dựa trên mật độ 5.5. Gom cụm dựa trên mô hình 5.6. Các phương pháp gom cụm khác 5.7. Tóm tắt (12 giờ) 8, 9 Chương 6: Khai phá luật kết hợp 6.1. Tổng quan về khai phá luật kết hợp 6.2. Biểu diễn luật kết hợp 6.3. Khám phá các mẫu thường xuyên 6.4. Khám phá các luật kết hợp từ các mẫu thường xuyên 6.5. Khám phá các luật kết hợp dựa trên ràng buộc 6.6. Phân tích tương quan 6.7. Tóm tắt Yêu cầu tự học đ/v sinh viên (12 giờ) 10 Chương 7: Phát triển ứng dụng khai phá 7.1. Tổng quan về vấn đề phát triển ứng dụng khai phá L.O.3.2 Explain data classification L.O.3.3 Explain data clustering L.O.3.4 Explain frequent itemset and association rules mining 6/7

7.2. Qui trình phát triển ứng dụng khai phá 7.3. Các chuẩn dành cho khai phá 7.4. Các công cụ hỗ trợ phát triển ứng dụng khai phá 7.5. Tóm tắt (6 giờ) 11 Chương 8: Các đề tài nghiên cứu trong khai phá 8.1. Hướng 8.2. Hướng kỹ thuật 8.3. Hướng ứng dụng 8.4. Tóm tắt (6 giờ) 12-15 Báo cáo nhóm của sinh viên về các đề tài bài tập lớn của môn học (24 giờ) 8. Thông tin liên hệ L.O.5.2 Utilize data mining libraries for data mining application development L.O.5.3 Demonstrate using mining models/patterns in a particular data mining application L.O.2.1 List data mining tasks L.O.2.5 List data mining in at least one application domain L.O.2.6 Determine the differences between a data mining system and other systems such as deductive database systems, information retrieval systems, machine learning systems, and so on L.O.5.2 Utilize data mining libraries for data mining application development L.O.5.3 Demonstrate using mining models/patterns in a particular data mining application Bài tập Bộ môn/khoa phụ trách Hệ Thống Thông Tin/ Khoa học và Kỹ thuật Máy tính Văn phòng Nhà A3 Điện thoại 38647256 - Ext 5847 Giảng viên phụ trách TS. Võ Thị Ngọc Châu TS. Trần Minh Quang Email chauvtn@cse.hcmut.edu.vn, quangtran@cse.hcmut.edu.vn 7/7