Đặc tính dữ liệu và các kỹ thuật để thu thập dữ liệu
Một ứng dụng thành công là một ứng dụng đáp ứng được đầy đủ các yêu cầu của người sử dụng. Trong quá trình xác định yêu cầu, các dữ liệu thu được của bài toán chứa một số tính chất mà ta gọi là đặc tính dữ liệu như: Tính định hướng ...
Một ứng dụng thành công là một ứng dụng đáp ứng được đầy đủ các yêu cầu của người sử dụng. Trong quá trình xác định yêu cầu, các dữ liệu thu được của bài toán chứa một số tính chất mà ta gọi là đặc tính dữ liệu như:
Tính định hướng thời gian,
Tính cấu trúc,
Tính đầy đủ,
Nhập nhằng,
Ngữ nghĩa,
Độ lớn của dữ liệu,...
Mỗi yếu tố trên đều quan trọng trong việc xác định các đặc tả của ứng dụng bởi vì chúng mang đến các chỉ dẫn cho kỹ sư phần mềm biết số lượng và kiểu thông tin nên được chọn. Cũng vậy, các kiểu dữ liệu khác nhau có liên quan tới các loại ứng dụng khác nhau và đòi hỏi các kỹ thuật khai thác thông tin khác nhau. Không chú ý tới các đặc tính dữ liệu sẽ gây lỗi phân tích và thiết kế.
Hệ xử lý giao dịch bao gồm kiến thức định trước, thông tin đầy đủ, có cấu trúc, hiện thời. Do hệ xử lý giao dịch là các ứng dụng thao tác của công ty nên để điều khiển và bảo trì các bản ghi của thao tác hiện thời, bạn phải có thông tin đầy đủ, hiện thời.
Các ứng dụng hỏi đáp có đặc tính tương tự hệ xử lý giao dịch với đặc điểm khác mà chúng có thể tập trung vào các thông tin lịch sử thêm vào thông tin hiện tại. Truy vấn là các câu hỏi được đặt ra bởi dữ liệu để tìm thấy các vấn đề và giải pháp, để phân tích, tổng kết và báo cáo trên dữ liệu. Để tạo tổng kết và báo cáo với sự tin tưởng, dữ liệu phải có cấu trúc, đầy đủ và được diễn giải không nhầm lẫn và có ngữ nghĩa nhất định.
Hệ hỗ trợ quyết định là các công cụ phân tích thống kê cho phép phát triển các thông tin giúp đỡ việc ra quyết định. Kiểu dữ liệu xác định hệ hỗ trợ quyết định luôn có thể được biểu diễn lại, có thể chưa hoàn chỉnh, nhập nhằng, có ngữ nghĩa thay đổi từ trung bình tới nhiều về độ lớn.
Hệ hỗ trợ quyết định theo nhóm là công cụ hỗ trợ họp nhóm cho nhóm người. Các công cụ hệ hỗ trợ quyết định theo nhóm thao tác có cấu trúc trên đầy đủ và còn các nhập nhằng về ngữ nghĩa. Bản thân các công cụ thì đầy đủ, không nhập nhằng và mạnh nhưng các thông tin họp nhóm mà nó thực hiện thì lại không như vậy.
Hệ thông tin điều hành là các ứng dụng hướng tương lai cho phép duyệt qua môi trường và xác định khuynh hướng, cơ hội kinh doanh, hoặc các hoạt động công nghiệp khác ảnh hưởng tới hoạt động của công ty. Hệ thông tin điều hành giải quyết phần lớn với các dữ liệu “hỗn độn” không có cấu trúc, không đầy đủ, nhập nhằng, và chứa ngữ nghĩa thay đổi.
Hệ chuyên gia quản lý và suy luận thông qua các dữ liệu bán cấu trúc, không đầy đủ, nhập nhằng và ngữ nghĩa thay đổi. Các chuyên gia lấy các thông tin ngẫu nhiên và không cấu trúc sau đó tạo cấu trúc cho nó. Họ suy luận bằng cách làm thế nào diễn đạt dữ liệu để loại trừ mức độ nhập nhằng và cố định ngữ nghĩa. Do đó, mặc dù các dữ liệu đầu vào ứng dụng có các đặc tính mờ, quá trình xử lý dữ liệu phải thực sự được cấu trúc cao.
Tính định hướng thời gian
Tính hướng thời gian của dữ liệu đề cập tới quá khứ, hiện tại hoặc các đòi hỏi tương lai của ứng dụng đã đề ra.
Các dữ liệu quá khứ: có thể mô tả công việc đã được biến đổi thế nào qua thời gian, các quy định ảnh hưởng thế nào tới nhiệm vụ, vị trí của nó trong tổ chức và nhiệm vụ. Các thông tin quá khứ là chính xác, đầy đủ và xác đáng.
Các thông tin hiện tại: là các thông tin về cái gì đang xảy ra. Ví dụ, thông tin ứng dụng hiện tại liên quan tới quá trình hoạt động của công ty, số lượng của các lệnh được thực hiện trong ngày hoặc số lượng các hàng hoá được sản xuất, các chính sách, sản phẩm, đòi hỏi nghiệp vụ, yêu cầu pháp quy hiện tại hoặc các ràng buộc khác cũng rất cần thiết cho phát triển ứng dụng. Các thông tin hiện tại nên được tư liệu hoá theo cách thích hợp với đội ngũ phát triển để tăng trí thức của họ về ứng dụng và phạm vi bài toán.
Các đòi hỏi trong tương lai: liên quan tới các sự thay đổi sẽ xảy ra, chúng không chính xác và rất khó kiểm tra. Ví dụ: các dự đoán kinh tế, khuynh hướng tiếp thị, bán hàng,...
Tính cấu trúc
Cấu trúc của thông tin định hướng về phần mở rộng theo đó thông tin có thể được phân loại theo cách nào đó. Cấu trúc có thể tham chiếu tới các hàm, môi trường hoặc dạng dữ liệu hay dạng xử lý. Các thông tin thay đổi từ phi cấu trúc cho tới cấu trúc mà phần cấu trúc được xác định bởi kỹ sư phần mềm. Cấu trúc là đặc biệt quan trọng bởi vì thiếu nó ta có thể tạo ứng dụng sai.
Tính đầy đủ
Tính đầy đủ thể hiện ở chổ các thông tin cần thiết phải được biểu diễn. Một kiểu ứng dụng đòi hỏi một mức độ đầy đủ khác nhau. Các hệ thống xử lý giao dịch luôn tiếp cận các thông tin đầy đủ và chính xác, trong khi các hệ hỗ trợ quyết định đòi hỏi thông tin ít đầy đủ hơn. Các hệ thông tin điều hành, hệ chuyên gia, hoặc là các ứng dụng trí tuệ nhân tạo có mức độ cao nhất về tính không đầy đủ trong phạm vi của ứng dụng.
Đối với các ứng dụng phải giải quyết các thông tin không đầy đủ, một thách đố đối với nhóm phát triển là phải quyết định thông tin đã đủ để sử dụng hay chưa. Đôi khi quyết định này được tiến hành từ phía người dùng, đôi khi nó được tiến hành bên trong ứng dụng và cần phải có luật để xác định mức độ đầy đủ.
Nhập nhằng
Tính nhập nhằng là một thuộc tính của dữ liệu, thể hiện ở chổ không trong sáng về nghĩa hoặc có nhiều nghĩa một cách hữu ý. Tính này liên quan nhiều đến mức độ ngữ nghĩa. Vấn đề này nảy sinh khi gặp một vấn đề có thể được hiểu theo nhiều cách - ví dụ câu phát biểu: "Ông cụ già đi mau quá!". Để giải quyết tính nhập nhằng cần căn cứ vào ngữ cảnh.
Ngữ nghĩa
Ngữ nghĩa là một tập hợp các định nghĩa được chia sẻ cho biết các thuật ngữ, chính sách hoặc các hành động được hiểu như thế nào cho mọi người trong một tổ chức nào đó.
Ngữ nghĩa rất quan trọng trong phát triển ứng dụng và đối với bản thân ứng dụng. Nếu mọi người dùng chung một thuật ngữ nhưng có quan niệm khác nhau sẽ xuất hiện sự không hiểu và không trao đổi thông tin được. Đối với bản thân ứng dụng nếu dữ liệu bị nhập nhằng về ý nghĩa có thể sẽ không bao giờ được xử lý cho đến khi người sử dụng hiểu được ý nghĩa của dữ liệu. Các ứng dụng sẽ có ngữ nghĩa cố định với các mục dữ liệu được định tính thông qua việc đào tạo và quá trình sử dụng lâu dài. Khi đánh mất ngữ nghĩa của thông tin có thể gây tổn thất rất lớn đối với các bên liên quan.
Độ lớn của dữ liệu
Độ lớn của dữ liệu là số lượng các sự kiện nghiệp vụ hệ thống phải tiến hành trong vài chu kỳ nào đó. Độ lớn của tạo mới hoặc thay đổi khách hàng được tiến hành theo tháng hoặc năm, trong khi độ lớn của giao dịch nghiệp vụ được tiến hành theo ngày hoặc giờ và độ lớn tối đa. Độ lớn tối đa là số lượng các giao dịch hoặc các sự kiện nghiệp vụ được xử lý trong thời kỳ bận nhất. Thời kỳ cao điểm có thể theo năm hoặc cuối vài tháng, ví dụ chuẩn bị cho báo cáo nộp thuế. Độ lớn của dữ liệu là một nguồn thông tin phức tạp bởi vì số lượng thời gian cần thiết xử lý một giao dịch đơn có thể trở thành rất quan trọng đối với lượng lớn dữ liệu cần xử lý.