Data Mining và quá trình khai phá dữ liệu

1. Data Mining là gì?

Data Mining – tạm dịch là khai phá dữ liệu – là quá trình trích xuất và khám phá các mẫu trong tập dữ liệu lớn, liên quan đến các phương pháp ở giao điểm của học máy, thống kê và hệ thống cơ sở dữ liệu. Nhằm mục đích chuyển đổi thông tin thành một cấu trúc dễ hiểu để có thể sử dụng tiếp

Hay để dễ dàng hình dung hơn, bạn có thể hiểu nó theo đúng nghĩa đen của từ “khai phá” là “biến những vùng đất hoang vu hoặc những tài nguyên còn tiềm ẩn trở nên sử dụng được”. Đối với doanh nghiệp các tập dữ liệu chính là những “mãnh đất hoang”  tiềm ẩn giá trị sử dụng to lớn, tuy nhiên nếu không qua quá trình  khai phá thì đó cũng chỉ là những dữ liệu vô dụng.

Chính vì vậy Data Mining luôn là một phần quan trọng trong hệ thống Business Intelligence, nó có nhiệm vụ trích xuất thông tin dữ liệu đã qua xử lý từ Data Warehouse kết hợp với các thuật toán để đưa ra các quyết định có lợi cho việc kinh doanh của doanh nghiệp.

Capture - Data Mining Và Quá Trình Khai Phá Dữ Liệu

Ngoài bước phân tích thô, Data Mining còn liên quan đến các khía cạnh: quản lý cơ sở dữ liệu và dữ liệu, xử lý trước dữ liệu, xem xét mô hình và suy luận thống kê, các thước đo thú vị, các cân nhắc phức tạp, xuất các cấu trúc đã phát hiện, trực quan hóa và cập nhật trực tuyến.

2. Quá trình khai phá dữ liệu thường được xác định qua các giai đoạn:
1. Sơ chế
Trước khi sử dụng các thuật toán vào khai thác dữ liệu cần tập hợp một tập dữ liệu mục tiêu đủ lớn mà vẫn ngắn gọn mà để có thể khai thác trong một thời hạn nhất định.
2. Khai thác dữ liệu

Có 6 nhiệm vụ phổ biến:
+ Phân loại (Classification): Là phương pháp dự báo, cho phép phân loại một đối tượng vào một hoặc một số lớp cho trước.
+ Hồi qui (Regression): Khám phá chức năng học dự đoán, ánh xạ một mục dữ liệu thành biến dự đoán giá trị thực.
+ Phân nhóm (Clustering): Một nhiệm vụ mô tả phổ biến trong đó người ta tìm cách xác định một tập hợp hữu hạn các cụm để mô tả dữ liệu.
+ Tổng hợp (Summarization): Một nhiệm vụ mô tả bổ sung liên quan đến phương pháp cho việc tìm kiếm một mô tả nhỏ gọn cho một bộ (hoặc tập hợp con) của dữ liệu.
+ Mô hình ràng buộc (Dependency modeling): Tìm mô hình cục bộ mô tả các phụ thuộc đáng kể giữa các biến hoặc giữa các giá trị của một tính năng trong tập dữ liệu hoặc trong một phần của tập dữ liệu.
+ Dò tìm biến đổi và độ lệch (Change and Deviation Dectection): Khám phá những thay đổi quan trọng nhất trong bộ dữ liệu.
3. Xác thực kết quả
Bước cuối cùng của việc khám phá kiến ​​thức từ dữ liệu là xác minh rằng các mẫu được tạo ra bởi các thuật toán khai thác dữ liệu có xảy ra trong tập dữ liệu rộng hơn hay không

1 7Yeeorphvhe96Mpfebpg9Q - Data Mining Và Quá Trình Khai Phá Dữ Liệu

Bài viết mới nhất
29/04/2021
Quy trình tổng thể triển khai BSC/KPI
Tải xuống file quy trình Quy trình tổng thể triển khai BSC_KPI (1)
28/04/2021
Báo cái tài chính là gì? Mục đích & Nguyên tắc lập BCTC
Báo cáo tài chính là loại hình văn bản không còn xa lạ gì với mọi người nữa. Đây là...
28/04/2021
Quy Trình Báo cáo kiểm soát dòng tiền hiệu quả (update 2021)
Dòng tiền là yếu tố chính quyết định trực tiếp đến sự tồn tại của doanh nghiệp. Kiểm soát dòng...
27/04/2021
Thinking out of the box, công cụ tuyệt vời để có những giải pháp sáng tạo hiệu quả
Thinking out of box thường được biết đến như tư duy vượt giới hạn. Nó cực kỳ hữu ích bởi...

bài viết liên quan

29/04/2021
Quy trình tổng thể triển khai BSC/KPI
Tải xuống file quy trình Quy trình tổng thể triển khai BSC_KPI (1)
28/04/2021
Báo cái tài chính là gì? Mục đích & Nguyên tắc lập BCTC
Báo cáo tài chính là loại hình văn bản không còn xa lạ gì với mọi người nữa. Đây là...
28/04/2021
Quy Trình Báo cáo kiểm soát dòng tiền hiệu quả (update 2021)
Dòng tiền là yếu tố chính quyết định trực tiếp đến sự tồn tại của doanh nghiệp. Kiểm soát dòng...
27/04/2021
Thinking out of the box, công cụ tuyệt vời để có những giải pháp sáng tạo hiệu quả
Thinking out of box thường được biết đến như tư duy vượt giới hạn. Nó cực kỳ hữu ích bởi...
27/04/2021
Ma trận Eisenhower – Phương pháp quản lý thời gian hiệu quả của vị Tổng thống Mỹ
Eisenhower là Tổng thống thứ 34 của Hoa Kỳ, ông phục vụ hai nhiệm kỳ liên tiếp từ năm 1953 đến...
27/04/2021
Hệ thống quy phạm nội bộ doanh nghiệp
Hệ thống quy phạm nội bộ của một doanh nghiệp bao gồm tổng thể các quy chế, quy trình, quy...
024.7303.2838