25/05/2018, 12:26

Khai phá dữ liệu (data mining)

Khai phá dữ liệu là một bước của quá trình khai phá tri thức (Knowledge Discovery Process), bao gồm: Xác định vấn đề và không gian dữ liệu để giải quyết vấn đề (Problem understanding and data understanding). Chuẩn bị dữ ...

Khai phá dữ liệu là một bước của quá trình khai phá tri thức (Knowledge Discovery Process), bao gồm:

  • Xác định vấn đề và không gian dữ liệu để giải quyết vấn đề (Problem understanding and data understanding).
  • Chuẩn bị dữ liệu (Data preparation), bao gồm các quá trình làm sạch dữ liệu (data cleaning), tích hợp dữ liệu (data integration), chọn dữ liệu (data selection), biến đổi dữ liệu (data transformation).
  • Khai phá dữ liệu (Data mining): xác định nhiệm vụ khai phá dữ liệu và lựa chọn kĩ thuật khai phá dữ liệu. Kết quả cho ta một nguồn tri thức thô.
  • Đánh giá (Evaluation): dựa trên một số tiêu chí tiến hành kiểm tra và lọc nguồn tri thức thu được.
  • Triển khai (Deployment).

Quá trình khai phá tri thức không chỉ là một quá trình tuần tự từ bước đầu tiên đến bước cuối cùng mà là một quá trình lặp và có quay trở lại các bước đã qua.

Phân loại (Classification): Discovery of a predictive learning function that classifies a data item into one of several predefined classes.

  • Hồi qui (Regression): Discovery of a prediction learning function, which maps a data item to a real-value prediction variable.
  • Phân nhóm (Clustering): A common descriptive task in which one seeks to identify a finite set of categories or clusters to describe the data.
  • Tổng hợp (Summarization): An additional descriptive task that involves methods for finding a compact description for a set (or subset) of data.
  • Mô hình ràng buộc (Dependency modeling): Finding a local model that describes significant dependencies between variables or between the values of a feature in a data set or in a part of a data set.
  • Dò tìm biến đổi và độ lệch (Change and Deviation Dectection): Discovering the most significant changes in the data set.

Vẫn có các mối lo ngại về tính riêng tư gắn với việc khai phá dữ liệu. Ví dụ, nếu một ông chủ có quyền truy xuất vào các hồ sơ y tế, họ có thể loại những người có bệnh tiểu đường hay bệnh tim. Việc loại ra những nhân viên như vậy sẽ cắt giảm chi phí bảo hiểm, nhưng tạo ra các vấn đề về tính hợp pháp và đạo đức.

Khai phá dữ liệu các tập dữ liệu thương mại hay chính phủ cho các mục đích áp đặt luật pháp và an ninh quốc gia cũng là những mối lo ngại về tính riêng tư đang tăng cao. 5

Có nhiều cách sử dụng hợp lí với khai phá dữ liệu. Ví dụ, một CSDL các mô tả về thuốc được thực hiện bởi một nhóm người có thể được dùng để tìm kiếm sự kết hợp của các loại thuốc tạo ra các phản ứng (hóa học) khác nhau. Vì việc kết hợp có thể chỉ xảy ra trong 1 phần 1000 người, một trường hợp đơn lẻ là rất khó phát hiện. Một dự án liên quan đến y tế như vậy có thể giúp giảm số lượng phản ứng của thuốc và có khả năng cứu sống con người. Không may mắn là, vẫn có khả năng lạm dụng đối với một CSDL như vậy.

Về cơ bản, khai phá dữ liệu đưa ra các thông tin mà sẽ không có sẵn được. Nó phải được chuyển đổi sang một dạng khác để trở nên có nghĩa. Khi dữ liệu thu thập được liên quan đến các các nhân, thì có nhiều câu hỏi đặt ra liên quan đến tính riêng tư, tính hợp pháp, và đạo đức.

Các lĩnh vực hiện tại có ứng dụng Khai phá dữ liệu bao gồm:

  • Thiên văn học
  • Tin sinh học
  • Bào chế thuốc
  • Thương mại điện tử
  • Phát hiện lừa đảo
  • Quảng cáo
  • Marketing
  • Quản lý quan hệ khách hàng (CMR - Customer Relationship Management)
  • Chăm sóc sức khỏe
  • Viễn thông
  • Thể thao, giải trí
  • Đầu tư
  • Máy tìm kiếm (web)

* Khai phá dữ liệu được xem là phương pháp mà đơn vị Able Danger của Quân đội Mỹ đã dùng để xác định kẻ đứng đầu cuộc tấn công ngày 9/11, Mohamed Atta, và ba kẻ tấn công ngày 9/11 khác là các thành viên bị nghi ngờ thuộc lực lượng al Qaeda hoạt động ở Mỹ hơn một năm trước cuộc tấn công.

0