Quản lý dữ liệu
• Cần phân biệt giữa dữ liệu, thông tin và kiến thức Dữ liệu: những mô tả về sự vật, hiện tượng, giao tác được ghi nhận, được phân loại và được lưu trữ nhưng chưa được tổ chức lại để tập trung các ý nghĩa nhất định. ...
• Cần phân biệt giữa dữ liệu, thông tin và kiến thức
Dữ liệu: những mô tả về sự vật, hiện tượng, giao tác được ghi nhận, được phân loại và được lưu trữ nhưng chưa được tổ chức lại để tập trung các ý nghĩa nhất định.
Thông tin: dữ liệu được tổ chức để có ý nghĩa đối với người nhận.
Một ứng dụng của hệ hỗ trợ quản lý: xử lý các hạng mục dữ liệu để các kết quả có ý nghĩa cho hành động hay cho quyết định dự kiến
Kiến thức: gồm các hạng mục dữ liệu và/hay thông tin được tổ chức và xử lý để nắm bắt/tập trung sự hiểu biết, kinh nghiệm, tri thức học tập và kỹ năng chuyên gia trên một vấn đề nhất định.
Kiến thức có thể là ứng dụng của dữ liệu và thông tin để ra quyết định
Dữ liệu bao gồm
các dạng tài liệu, hình ảnh, bản đồ, âm thanh và hoạt hình;
- có thể bao gồm các dạng khái niệm, suy nghĩa hay ý kiến;
- có thể nằm ở các dạng lưu trữ và tổ chức khác nhau trước và sau khi sử dụng;
- có thể ở dạng thô hay được xử lý
- 3 nguồn dữ liệu chính: trong, ngoài và cá nhân
- Trong:của tổ chức; trữ ở một hay nhiều vị trí khác nhau
- Ngoài:các tổ chức khác cung ứng
- Cánhân:dữ liệu và kiến thức của cá nhân được lưu trữ dành cho hoạt động của cả tổ chức
• Thu thập: thủ công hay qua thiết bị
Phương pháp thu thập phổ biến: bảng câu hỏi, quan sát, nghiên cứu thời gian, phỏng vấn .., cảm biến, máy quét …
• Dù thu thập cách nào, dữ liệu cũng cần được hợp thức và lọc lại bởi vì chất lượng và tính toàn vẹn của dữ liệu có ý nghĩa tới hạn cho các hệ hỗ trợ quản lý/quyết định
Tránh hiện tượng “rác đầu vào, rác đầu ra” (garbage in, garbage out: GIGO)
• Điều quan trọng là dữ liệu thu thập được: cần có khung sơ sở để dò tìm,ngăn ngừa và hiệu chỉnh sai số trong thu thập dữ liệu cho hệ hỗ trợ quyết định (Arinze & Banerjee, 1992)
Vấn đề liên quan đến dữ liệu(Alter, 1980)
Chất lượng dữ liệu
• Đây là vấn đề đặc biệt quan trọng
• Các phạm trù và thứ nguyên (Strong et al, 1997):
- Ngữ cảnh: tính thích đáng, giá trị tăng thêm, tính kịp thời, tính đầy đủ và khối lượng dữ liệu
- Nội tại: tính chính xác, khách quan, tin cậy được và danh tiếng
- Dễ truy cập: truy đạt được và mức an toàn truy cập
- Đại diện: khả năng phân giải, dễ hiểu, thể hiện súc tích và thể hiện nhất quán
• Một vấn đề chính là tính toàn vẹn (data integrity). Ở lĩnh vực nhà kho dữ liệu, có 5 khía cạnh sau (Gray & Watson, 1998):
- Đồng điệu (uniformity)
- Phiên bản (version)
- Tính đầy đủ (completeness)
- Tính phù hợp (conformity)
- Dẫn xuất (genealogy/drill down)
• Tính độc lập dữ liệu(data independence): chương trình ứng dụng bất biến trước các chiến lược tổ chức và lưu trữ dữ liệu - đây là ưu điểm và lý do tổ chức cơ sở dữ liệu (CSDL – data base)
• Hệ quản trị cơ sở dữ liệu(data base management system - DBMS):
Giao tiếp giữa người dùng và CSDL
– cập nhật, thêm, bớt, xóa thông tin trong kho dữ liệu;
– truy xuất dữ liệu;
– hiển thị/sinh báo cáo
Thông thường dữ liệu từ CSDL được trích xuất và đặt vào một mô hình thống kê, toán, hay tài chánh để xử lý hay phân tích thêm nữa
• Mô hình của CSDL:
Quan hệ:dữ liệu và quan hệ tương ứng đều ở dạng bảng 2 chiều
Đây cũng là cách tổ chức của nhiều nhà kho dữ liệu
Phân cấp:các hạng mục dữ liệu nằm trong hình cây/sơ đồ phân cấp
Dùng chủ yếu trong xử lý giao tác có yêu cầu cao về tính hiệu quả
Mạng lưới:cho phép các liên kết phức tạp giữa các hạng mục dữ liệu; tiết kiệm không gian bộ chứa qua việc dùng chung một số hạng mục
Hướng đối tượng:dữ liệu được quan niệm hóa dưới dạng các đối tượng (dữ liệu + chức năng) duy trì các quan hệ tự nhiên giữa chúng
Các đặc tính của nguyên lý hướng đối tượng – nhấn mạnh vào tính dùng lại (reuse):
Đóng bao (encapsulation)
Đa hình (polymorphism)
Thừa kế (inheritance)
Tính dùng lại (reuse)
• Các dạng CSDL đặc thù(không loại trừ):
- đa môi trường (multimedia based): dữ liệu là các đối tượng nhị phân lớn, thường thể hiện các dạng thông tin cho phép tích hợp cả âm thanh nổi, hình ảnh động 3 chiều ..
- tư liệu (document based): các hệ thống quản lý tài liệu điện tử (electronic document management - EDM) thường được dùng cho lưu trữ và phân phối thông tin khối lượng lớn, cho tự động hóa dòng công việc của tổ chức …
- thông minh (intelligent): có năng lực suy diễn (nhờ vào công nghệ trí tuệ nhân tạo (artificial intelligence - AI) như hệ chuyên gia (expert system - ES), mạng thần kinh nhân tạo (artificial neural network - ANN)
• Nguồn dữ liệu ngoài:
- Internet
-các kho/ngân hàng dữ liệu thương mại hóa (dịch vụ cung cấp/bán dữ liệu)
Nhà kho dữ liệu
• Vai trò: cung ứng dữ liệu để hỗ trợ ra quyết định (vai trò chủ yếu) và các ứng dụng thông tin khác (nhờ vào đặc điểm cải tiến và mở rộng phạm vi , độ chính xác và tính dễ truy đạtcủa dữ liệu)
• Người dùng: 2 lớp
- Người dùng trực tiếp:các nhà phân tích thị trường, hoạch định tài chánh .. cần dữ liệu để tiến hành công việc tương ứng
- Người phát triển ứng dụng:xây dựng ứng dụng cho các người dùng trực tiếp; cần hiểu rõ về tổ chức và truy xuất nhà kho
• Kiến trúc: thường là 3 mức (Gray & Watson, 1998)
• Các biến thể của nhà kho dữ liệu:
- Kho dữ liệu vận hành (operational data store - ODS): áp dụng kỹ thuật nhà kho dữ liệu vào các hệ xử lý giao tác
- Siêu thị dữ liệu (data mart): dạng thu nhỏ của nhà kho dữ liệu, hỗ trợ cho một đơn vị kinh doanh/phòng chức năng
- Siêu thị dữ liệu phụ thuộc: phần bổ sung của nhà kho dữ liệu
- Siêu thị dữ liệu độc lập: không cần đến nhà kho dữ liệu
- Nhà kho dữ liệu (quy ước): hỗ trợ toàn bộ tổ chức
• So sánh giữa kho dữ liệu vận hành (ODS) và nhà kho dữ liệu (DW) (Gray & Watson, 1998)
Kho dữ liệu vận hành | Nhà kho dữ liệu |
Dữ liệu theo chủ đề Dữ liệu tích hợp Dữ liệu thay đổi Dữ liệu được cập nhật khi thay đổi Chỉ có dữ liệu hiện tại Chu kỳ làm tươi dữ liệu ngắn Chỉ có dữ liệu chi tiết Dùng cho các quyết định ngắn hạn |
Dữ liệu theo chủ đề Dữ liệu tích hợp Dữ liệu không thay đổi Dữ liệu giữ nguyên Dữ liệu hiện tại và dữ liệu lịch sử Chu kỳ làm tươi dữ liệu dài Dữ liệu chi tiết và dữ liệu tổng kết Dùng cho hoạch định dài hạn |
• Đặc điểm của nhà kho dữ liệu:
Đặc điểm | Mô tả |
Hướng chủ đề | Dữ liệu tổ chức theo cách thức người dùng tham chiếu |
Tích hợp | Dữ liệu “sạch”, loại bỏ tính thiếu nhất quán |
Không thay đổi | Dữ liệu “chỉ đọc”, người dùng không thay đổi được |
Chuỗi thời gian | Dữ liệu là chuỗi thời gian, không phải là trạng thái hiện tại |
Được tổng kết | Dữ liệu vận hành/thao tác khi cần thiết được kết hợp lạithành dạng có thể dùng được cho quyết định |
Kích cỡ lớn hơn | Lưu giữ theo chuỗi thời gian tức là giữ lại nhiều dữ liệu |
Không được chuẩn hóa | Có thể dư thừa dữ liệu |
Siêu dữ liệu | Dữ liệu về dữ liệu cho cả 2 loại người dùng nhà kho dữ liệu |
Nhập lượng | Dữ liệu vận hành (các hệ sẵn có) cùng với các nguồn ngoài |
Xử lý phân tích trực tuyến (online analytic processing - OLAP)
• Ý tưởng cơ bản: người dùng có thể thao tác trên các mô hình dữ liệu mức tổ chức theo nhiều chiều để có thể hiểu được các thay đổi diễn ra trong tổ chức
• Điều kiện triển khai xử lý phân tích trực tuyến:
- Yêu cầu về dữ liệu mang tính phân tích, không phải là giao tác
- Thông tin được phân tích không phải là thông tin vừa nhập vào tổ chức
- Cần đến một số lớn các tính toán và kết hợp các dữ liệu mức giao tác
- Kiểu dữ liệu cơ bản là kiểu số
- Cần đến các cách nhìn liên chức năng về dữ liệu theo nhiều chiều
- Các phần tử nhận diện các điểm dữ liệu tương đối tĩnh tại theo thời gian
• 12 quy tắccủa xử lý phân tích trực tuyến (Codd, 1993):
1. Cách nhìn đa chiều | 7. Xử lý động ma trận thưa |
2. Trong suốt đối với người dùng | 8. Hỗ trợ đa người dùng |
3. Dễ truy đạt | 9. Các vận hành đa chiều |
4. Vấn đề báo cáo nhất quán | 10. Xử lý trực giác dữ liệu |
5. Kiến trúc khách/chủ | 11. Vấn đề báo cáo linh hoạt |
6. Các chiều bình đẳng | 12. Mức độ kết hợp và số chiều không hạn chế |
Khai mỏ dữ liệu (data mining)
• Là chức năng khám phá kiến thức, được dùng khi các quan hệ giữa các biến dữ liệu không có dạng toán học, các mô hình khó xây dựng
• 5 kiểu thông tin có thể thu nhận được từ khai mỏ dữ liệu:
- Phân loại: rút ra các đặc tính định nghĩa của 1 nhóm
- Ghép nhóm: nhận diện nhóm phần tử có chung 1 đặc điểm
- Kết hợp: nhận diện các quan hệ giữa các sự kiện xảy ra ở cùng một thời điểm
- Tuần tự: như kết hợp, ngoại trừ các quan hệ tồn tại trong một khoảng thời gian
- Dự báo: ước lượng các giá trị tương lai trên các khuôn mẫu với các tập dữ liệu lớn.
• Các công cụ khai mỏ dữ liệu chủ yếu:
Theo công nghệ có các dạng công cụ chính sau:
- Suy lý dựa vào các trường hợp(case-based reasoning): với các trường hợp lịch sử, có thể dùng để công nhận các khuôn mẫu
- Tính toán thần kinh(neural computing): dùng các dữ liệu lịch sử để công nhận các khuôn mẫu
- Tác nhân thông minh(intelligent agent): tiếp cận rất có triển vọng để thu thập thông tin từ các CSDL ngoại tại (như Internet)
- Khác:cây quyết định (decision tree), quy nạp luật (rule induction) và trực quan hóa dữ liệu (data visualization)
• Các thí dụ về tình huống nhận diện cơ hội để tạo ra lợi thế cạnh tranh:
- Tiếp thị: tiên đoán khách hàng nào sẽ mua sản phẩm; phân khúc tập hợp khách hàng ..
- Ngân hàng: dự báo các mức tín dụng xấu; loại khách hàng có thể chấp nhận đề nghị cho vay mới ..
- Bán hàng: dự báo khối lượng bán, xác định các mức tồn kho hợp lý ..
- Sản xuất: dự báo thời điểm máy móc trục trặc; xác định yếu tố kiểm soát tối ưu năng lực sản xuất ..
- Giao dịch chứng khoán: tiên đoán thời điểm giá cổn phiếu thay đổi; xác định thời điểm bán chứng khoán ..
Khai mỏ văn bản (text mining)
• Áp dụng kỹ thuật khai mỏ dữ liệu vào các tập tin văn bản ít có tính cấu trúc – các tài liệu có thể có cấu trúc về khuôn dạng chứ không phải về nội dung
• Khai mỏ văn bản (text mining) giúp các tổ chức:
- Tìm ra các nội dung ẩn của tài liệu, gồm cả các quan hệ có ích khác
- Xác định quan hệ giữa các đơn vị trong tổ chức đối với cùng tài liệu
- Ghép nhóm tài liệu theo các chủ đề chung
(i) Dò tìm trong CSDL của các tài liệu theo tổ hợp các từ khóa để rút ra tập các tài liệu cần thiết,
(ii) Chia tập các tài liệu có được theo chủ đề - đặc trưng bởi danh sách các từ khóa rút ra từ văn bản không có khuôn dạng của tài liệu. Chủ đề quan tâm được thể hiện qua các danh sách các từ khóa vừa kể
Trực quan hóa dữ liệu và tính đa chiều
• Xử lý phân tích trực tuyến ngoài thu thập và phân tích còn trình bày và phân giải dữ liệu cho người dùng
• Xu hướng mới: ứng dụng trực quan hóa dữ liệu mức xí nghiệp (OLIVE: online visualization for an enterprise) – lấy biểu đồ làm trung tâm và cung cấp cho tổ chức năng lực thông minh kinh doanh (business intelligence – BI) có tính trực quan
• Dữ liệu tổng hợp có thể được tổ chức theo các cách khác nhau để phân tích và trình bày: thể hiện tính đa chiều (multidimensionality). Như vậy nhà quản lý có thể nhìn dữ liệu theo cách khác với nhà phân tích hệ thống; các trình bày khác nhau về dữ liệu được sinh ra nhanh chóng và dễ dàng
• Tính đa chiều rất thông dụng trong các hệ hỗ trợ quyết định và hệ thông tin lãnh đạo, được thể hiện với các mức độ phức tạp khác nhau
• 3 yếu tố trong tính đa chiều:
- chiều (td: sản phẩm, phân khúc thị trường, kênh phân phối ..),
- thước đo (td: tiền, khối lượng bán, số lượng người ..),
- thời gian (td: hàng ngày, tuần, tháng ..)
• Hạn chế của tính đa chiều (Gartner Group, 1998)
- CSDL đa chiều tốn nhiều chỗ hơn CSDL quan hệ truyền thống
- CSDL đa chiều đắt tiền hơn CSDL quan hệ
- Việc nạp CSDL đa chiều tốn nhiều thời gian và nguồn lực hệ thống máy tính
- Giao diện và bảo trì CSDL đa chiều phức tạp hơn nhiều so với CSDL quan hệ
Hệ thông tin địa lý và hiện thực ảo
• Hệ thông tin địa lý(geographicinformationsystem-GIS)là một hệ thống nắm bắt, lưu trữ, kiểm tra, tích hợp, xử lý và hiển thị dữ liệu bằng cách dùng các bản đồ số hóa
• Đặc trưng hệ thống là mỗi đối tượng số hóa hay mỗi bản ghi đều có một vị trí địa lý tương ứng. Bằng việc tích hợp các bản đồ với các CSDL hướng không gian và các CSDL khác, người dùng có thể sinh ra thông tin về hoạch định, giải quyết vấn đề, ra quyết định, tăng năng suất và chất lượng của quyết định ..
• Ngày nay, hầu hết hệ thông tin địa lý đều hỗ trợ WEB/internet/intranet
• Hiện thực ảo (virtual reality – VR):môi trường đồ hoạ 3 chiều tương tác với người dùng và là các ứng dụng máy tính hóa
• Hiện thực ảo đã bắt đầu thâm nhập vào các ứng dụng kinh doanh