Nội dung lý thuyết
Dữ liệu lớn (Big Data) là tập dữ liệu có:
Khối lượng rất lớn
Tính đa dạng và phức tạp
Khó xử lý bằng công cụ truyền thống
5V – Các đặc trưng tiêu biểu:
Khối lượng (Volume): Dữ liệu ở quy mô hàng petabyte, exabyte.
Tốc độ (Velocity): Dữ liệu tạo ra nhanh (real-time) từ nhiều nguồn.
Tính đa dạng (Variety): Nhiều dạng dữ liệu: văn bản, hình ảnh, video, dữ liệu cảm biến…
Tính xác thực (Veracity): Độ tin cậy, tính đúng đắn, kiểm chứng được của dữ liệu.
Giá trị (Value): Khả năng tạo ra thông tin hữu ích, giá trị cho tổ chức, xã hội.

Mục tiêu: Trích xuất tri thức hữu ích, hỗ trợ quyết định.
Dữ liệu đầu vào: Thường là dữ liệu thô, có thể chưa đầy đủ, không rõ ràng.
Quá trình:
Tiền xử lý dữ liệu (làm sạch, chuẩn hóa)
Phân tích dữ liệu bằng thống kê, trực quan hóa, mô hình hóa
Ví dụ: Dự đoán hành vi khách hàng, đánh giá mức độ hài lòng, phân tích cảm xúc từ dữ liệu mạng xã hội...
Là quá trình tìm ra các mẫu ẩn giấu, quy luật từ dữ liệu lớn.
Khác với phân tích dữ liệu ở chỗ:
Khai phá dữ liệu mang tính tự động/ bán tự động
Nhấn mạnh đến việc phát hiện điều chưa biết trước
Ứng dụng nhiều kỹ thuật như: học máy, thống kê, trí tuệ nhân tạo.
Giúp lưu trữ, xử lý, truy xuất và phân tích dữ liệu khổng lồ trong thời gian ngắn
Nền tảng cho các hoạt động: thu thập – chuẩn bị – phân tích – khai phá – trực quan hóa
Máy tính mạnh giúp xử lý dữ liệu:
Theo thời gian thực
Trên nền tảng đám mây (AWS, Azure…)
Với hệ thống lưu trữ hiện đại (NoSQL, Hadoop, MongoDB…)
Thuật toán ước tiếp: Dự đoán, phân loại, ra quyết định, tối ưu.
Ví dụ: dự đoán giá cổ phiếu, phân loại email spam, phát hiện bất thường giao dịch...
Mô hình cụm (Clustering):
Phân nhóm dữ liệu không cần nhãn trước.
Ứng dụng: phân khúc thị trường, gợi ý sản phẩm…
Những thuật toán này giúp phát hiện tri thức từ dữ liệu với hiệu quả và chi phí thấp hơn so với phương pháp truyền thống.