Bài học cùng chủ đề
Báo cáo học liệu
Mua học liệu
Mua học liệu:
-
Số dư ví của bạn: 0 coin - 0 Xu
-
Nếu mua học liệu này bạn sẽ bị trừ: 2 coin\Xu
Để nhận Coin\Xu, bạn có thể:
Bài 3. Giới thiệu về Khoa học dữ liệu (tiếp) SVIP
1. Các đặc trưng của dữ liệu lớn
Dữ liệu lớn (Big Data) đề cập nguồn dữ liệu có khối lượng lớn, có tính đa dạng và phức tạp khó có thể xử lí bằng các công cụ truyền thống.
Đặc trưng bởi 5 yếu tố (5V):
- Khối lượng (volume) - kích thước của tập dữ liệu.
- Vận tốc (velocity) - tốc độ mà dữ liệu đó được tạo ra và cần phân tích.
- Sự đa dạng (variety) - nhiều loại dữ liệu khác nhau.
- Giá trị (value) - tính hữu ích của dữ liệu.
- Tính xác thực (veracity) - đảm bảo hạn chế nhiễu/sai số hoặc không chính xác.
2. Phân tích dữ liệu, phát hiện tri thức
a) Phân tích dữ liệu
Là quá trình kiểm tra, làm sạch, chuyển đổi và lập mô hình dữ liệu với mục đích tìm ra các thông tin hữu ích từ dữ liệu để đưa ra kết luận hoặc dự đoán.
Có thể chia thành hai loại:
- Phân tích mô tả là tóm tắt dữ liệu quá khứ và trình bày trực quan, giúp người sử dụng dễ dàng nắm bắt được những thông tin quan trọng cần biết.
- Phân tích dự đoán nhằm đưa ra dự đoán (dự báo) hoặc phân loại dữ liệu mới.
Dữ liệu chuỗi thời gian (time series) là chuỗi các điểm dữ liệu được ghi lại theo chu kì thời gian, cho phép dự đoán các điểm dữ liệu trong tương lai.
Phân tích hồi quy là một kĩ thuật cho phép xác định mối quan hệ phụ thuộc của một giá trị muốn biết với các giá trị một số thuộc tính khác và cho phép dự đoán giá trị muốn biết khi có dữ liệu mới.
b) Khai phá dữ liệu, phát hiện tri thức
Khai phá dữ liệu là phát hiện các mẫu, các xu hướng trong tập dữ liệu (thường dùng các phương pháp giao thoa giữa Học máy và Thống kê).
Để trích xuất thông tin hữu ích từ các tập dữ liệu lớn có nhiều kĩ thuật khai phá dữ liệu khác nhau.
3. Vai trò của máy tính và thuật toán ưu việt với Khoa học dữ liệu
a) Máy tính là công cụ quan trọng trong Khoa học dữ liệu
Nhu cầu phân tích dữ liệu, trích xuất các giá trị từ dữ liệu, phát hiện tri thức từ dữ liệu để ra quyết định và lập kế hoạch đã thúc đẩy sự phát triển Khoa học dữ liệu.
Máy tính đóng vai trò quan trọng trong việc xử lí và phân tích dữ liệu để đạt các mục tiêu của Khoa học dữ liệu.
Các giai đoạn của dự án Khoa học dữ liệu như thu thập dữ liệu, chuẩn bị dữ liệu, phân tích dữ liệu đều cần đến máy tính.
Trí tuệ nhân tạo nói chung và Học máy nói riêng nghiên cứu phát triển các công cụ, quy trình, thuật toán để mô hình hoá dữ liệu, tự động phát hiện tri thức trong dữ liệu. Khoa học dữ liệu đang phát triển mạnh mẽ nhờ có Học máy và Trí tuệ nhân tạo.
b) Máy tính và thuật toán ưu việt giúp phân tích dữ liệu hiệu quả
Máy tính và siêu máy tính hiện đại cùng các thuật toán tiên tiến giúp xử lý dữ liệu lớn hiệu quả.
Công nghệ thông tin phát triển các công cụ để giải quyết thách thức này, với lưu trữ đám mây cho phép truy cập dễ dàng.
Các thuật toán sắp xếp và tìm kiếm hỗ trợ lưu trữ linh hoạt, còn máy tính cụm với thuật toán song song tăng tốc tính toán và tiết kiệm chi phí.
Bạn có thể đăng câu hỏi về bài học này ở đây