Nội dung lý thuyết
"Khoa học dữ liệu" là bước phát triển tiếp theo của:
Khoa học thống kê
Khai phá dữ liệu
Phát hiện tri thức trong dữ liệu
Là lĩnh vực liên ngành, sử dụng:
Phương pháp khoa học
Quy trình, công cụ của toán học, thống kê, học máy...
Kiến thức chuyên môn trong các lĩnh vực như: kinh doanh, tài chính, ngân hàng, y tế, giáo dục…
Mục tiêu của Khoa học dữ liệu:
Phân tích và trực quan hóa dữ liệu: Xem xét các mẫu, xu hướng trong dữ liệu để hiểu rõ vấn đề cần giải quyết.
Xây dựng mô hình dự đoán, dự báo: Dự đoán sự kiện tương lai (thay đổi doanh số, rủi ro…).
Tối ưu hóa quyết định: Sử dụng thuật toán tối ưu để đưa ra quyết định tối ưu nhất.
Phát hiện tri thức: Tìm ra mối quan hệ, quy luật ẩn trong dữ liệu, xác định nguyên nhân – kết quả

Một dự án liên quan đến vấn đề cụ thể của tổ chức, doanh nghiệp cần giải quyết. Gồm 6 giai đoạn:
Xác định vấn đề: Hiểu rõ vấn đề mà tổ chức, doanh nghiệp cần giải quyết.
Thu thập dữ liệu: Thu thập dữ liệu có liên quan.
Chuẩn bị dữ liệu:
Làm sạch, xử lý dữ liệu thiếu, lỗi, không chính xác.
Biểu diễn dữ liệu phù hợp mô hình phân tích.
Phân tích và khai phá dữ liệu:
Chọn lọc yếu tố quan trọng.
Phân tích và khai phá tri thức, dự báo tương lai.
Đánh giá và giải thích:
Đánh giá chất lượng mô hình.
Giải thích tác động và đánh giá mô hình để triển khai.
Ra quyết định và triển khai: Trình bày kết quả cho nhà quản lý để ra quyết định.

Một ví dụ minh họa
Vấn đề: Lãnh đạo nhận thấy số lần máy bay chậm cất cánh có xu hướng tăng, cần giải quyết vấn đề này.
Các bước triển khai:
Xác định vấn đề: Lý do hành khách đến sân bay trễ do máy bay chậm cất cánh.
Thu thập dữ liệu: Số lượng hành khách, thời điểm chậm cất cánh, nguyên nhân.
Chuẩn bị dữ liệu:
Loại bỏ dữ liệu lỗi, trùng lặp, thiếu.
Biểu diễn lại theo chuỗi thời gian.
Phân tích và khai phá dữ liệu: Dùng chuỗi thời gian để phân tích dự báo lượng hành khách trong các tháng tới.
Đánh giá và giải thích: Mức độ tin cậy mô hình, yêu cầu thực tế → lập kế hoạch phù hợp.
Ra quyết định và triển khai: Dựa trên dự báo để phân bổ nguồn lực, lập kế hoạch ngắn hạn hiệu quả.
Khoa học dữ liệu có ứng dụng rộng trong kinh tế – xã hội:
Tài chính – ngân hàng: Đánh giá rủi ro, phát hiện gian lận, phân tích đầu tư, phân khúc khách hàng.
Chăm sóc sức khỏe: Dự đoán bệnh, nâng cao chất lượng dịch vụ y tế, chế tạo thuốc.
Sản xuất – kinh doanh: Tối ưu hoá quy trình, cá nhân hoá trải nghiệm khách hàng.
Công nghệ thông tin: Tối ưu hoá hệ thống thông tin, bảo mật.
Trí tuệ nhân tạo: Dữ liệu là nền tảng cho việc huấn luyện các mô hình AI.
Dự án HGP (Human Genome Project) kéo dài 13 năm (1990–2003), tiêu tốn 3 tỷ USD để:
Xác định trình tự gen người
Giải mã mối quan hệ gen – đặc điểm sinh học
Kết quả:
Tạo ra bản đồ gen người
Cung cấp cơ sở dữ liệu lớn (terabyte đến petabyte)
Giúp hiểu rõ hơn về hoạt động gen, bệnh học, sinh lý học
Covid-19: Giải trình tự gen virus SARS-CoV-2 từ sớm giúp ngăn ngừa và điều trị hiệu quả.
Ví dụ: Kính thiên văn Kepler tạo ra khoảng 678 GB dữ liệu trong 9 năm.
Các vệ tinh như TESS, K2, Plato thu thập 100 GB dữ liệu/ngày.
Dữ liệu được dùng để:
Phân loại hành tinh
Dự đoán sự sống
Giám sát thay đổi quỹ đạo
Đã phát hiện: khoảng 3.200 hành tinh quay quanh các ngôi sao → 63 hành tinh có tiềm năng nuôi dưỡng sự sống.
Global Fishing Watch (Google) sử dụng dữ liệu vệ tinh để:
Giám sát hoạt động tàu cá trên toàn cầu
Xác định hành vi đánh bắt bất hợp pháp
Mỗi ngày:
Theo dõi hàng triệu vị trí tàu cá
Phân tích di chuyển để cảnh báo đánh bắt trái phép

LLM (Large Language Models) là mô hình AI xử lý ngôn ngữ tự nhiên.
Ví dụ: GPT-3 có 175 tỷ tham số, giúp hiểu và xử lý ngôn ngữ tốt hơn.
GPT có khả năng:
Giao tiếp, viết, hiểu ngôn ngữ như con người
Trí tuệ nhân tạo mạnh mẽ, xử lý được nhiệm vụ phức tạp
Năm 2014: Bắt đầu áp dụng mô hình học máy để phát hiện gian lận thẻ tín dụng.
Năm 2017: Phát triển hệ thống xác thực nâng cao dựa trên sinh trắc học.
Kết quả:
Giảm 60% giao dịch gian lận
Duy trì tỷ lệ gian lận thấp nhất nước Mỹ 14 năm liên tiếp (tính đến năm 2021)