Bài 3. Giới thiệu về khoa học dữ liệu (Tiếp theo)

Nội dung lý thuyết

1. Các đặc trưng của dữ liệu lớn

Dữ liệu lớn (Big Data) là tập dữ liệu có:

  • Khối lượng rất lớn

  • Tính đa dạng và phức tạp

  • Khó xử lý bằng công cụ truyền thống

5V – Các đặc trưng tiêu biểu:

  1. Khối lượng (Volume): Dữ liệu ở quy mô hàng petabyte, exabyte.

  2. Tốc độ (Velocity): Dữ liệu tạo ra nhanh (real-time) từ nhiều nguồn.

  3. Tính đa dạng (Variety): Nhiều dạng dữ liệu: văn bản, hình ảnh, video, dữ liệu cảm biến…

  4. Tính xác thực (Veracity): Độ tin cậy, tính đúng đắn, kiểm chứng được của dữ liệu.

  5. Giá trị (Value): Khả năng tạo ra thông tin hữu ích, giá trị cho tổ chức, xã hội.

Hình tròn 5V: Khối lượng, tốc độ, tính đa dạng, giá trị, tính xác thực

2. Phân tích dữ liệu, phát hiện tri thức

a) Phân tích dữ liệu

  • Mục tiêu: Trích xuất tri thức hữu ích, hỗ trợ quyết định.

  • Dữ liệu đầu vào: Thường là dữ liệu thô, có thể chưa đầy đủ, không rõ ràng.

  • Quá trình:

    • Tiền xử lý dữ liệu (làm sạch, chuẩn hóa)

    • Phân tích dữ liệu bằng thống kê, trực quan hóa, mô hình hóa

Ví dụ: Dự đoán hành vi khách hàng, đánh giá mức độ hài lòng, phân tích cảm xúc từ dữ liệu mạng xã hội...

b) Khai phá dữ liệu, phát hiện tri thức

  • Là quá trình tìm ra các mẫu ẩn giấu, quy luật từ dữ liệu lớn.

  • Khác với phân tích dữ liệu ở chỗ:

    • Khai phá dữ liệu mang tính tự động/ bán tự động

    • Nhấn mạnh đến việc phát hiện điều chưa biết trước

  • Ứng dụng nhiều kỹ thuật như: học máy, thống kê, trí tuệ nhân tạo.

3. Vai trò của máy tính và thuật toán ước tiếp với Khoa học dữ liệu

a) Máy tính là công cụ quan trọng trong Khoa học dữ liệu

  • Giúp lưu trữ, xử lý, truy xuất và phân tích dữ liệu khổng lồ trong thời gian ngắn

  • Nền tảng cho các hoạt động: thu thập – chuẩn bị – phân tích – khai phá – trực quan hóa

Máy tính mạnh giúp xử lý dữ liệu:

  • Theo thời gian thực

  • Trên nền tảng đám mây (AWS, Azure…)

  • Với hệ thống lưu trữ hiện đại (NoSQL, Hadoop, MongoDB…)

b) Thuật toán ước tiếp và mô hình cụm (Clustering)

  • Thuật toán ước tiếp: Dự đoán, phân loại, ra quyết định, tối ưu.

    • Ví dụ: dự đoán giá cổ phiếu, phân loại email spam, phát hiện bất thường giao dịch...

  • Mô hình cụm (Clustering):

    • Phân nhóm dữ liệu không cần nhãn trước.

    • Ứng dụng: phân khúc thị trường, gợi ý sản phẩm…

Những thuật toán này giúp phát hiện tri thức từ dữ liệu với hiệu quả và chi phí thấp hơn so với phương pháp truyền thống.