Bài F15. Khoa học dữ liệu

Nội dung lý thuyết

1. Giới thiệu và mục tiêu của Khoa học dữ liệu

Ngày nay, dữ liệu được thu thập và phát sinh trong nhiều lĩnh vực như mạng xã hội, tìm kiếm, thương mại điện tử,… dẫn tới vai trò ngày càng quan trọng của Khoa học dữ liệu (data science) – lĩnh vực tập trung vào thu thập, xử lý, phân tích và trực quan hóa dữ liệu. Khoa học dữ liệu tích hợp nhiều lĩnh vực: Toán học, Khoa học máy tính, Thống kê, Trí tuệ nhân tạo, Học máy… với các mục tiêu cụ thể:

  • Khám phá tri thức: Hiểu rõ bản chất, cấu trúc, xu hướng, mối quan hệ giữa các thành phần dữ liệu thông qua luật kết hợp, gom nhóm, giảm chiều dữ liệu, mô hình hóa dữ liệu,…

  • Phân tích dữ liệu: Trích xuất thông tin giúp đưa ra quyết định phù hợp, xác định đặc điểm, thuộc tính, mối liên hệ giữa các thành phần dữ liệu.

  • Tối ưu hóa quyết định: Tăng hiệu quả và tính chính xác trong các quyết định cụ thể, kết hợp mô hình học máy và toán tối ưu.

  • Trực quan hóa dữ liệu: Biểu diễn dữ liệu thông qua đồ họa, biểu đồ, giúp dễ hiểu hơn, hỗ trợ phân tích và đánh giá hiệu quả.

Mối quan hệ giữa khoa học dữ liệu và các lĩnh vực liên quan

2. Một số thành tựu của Khoa học dữ liệu

Dữ liệu hiện nay rất đa dạng (văn bản, hình ảnh, âm thanh, video,...) và có khối lượng rất lớn. Do đó, vai trò của Khoa học dữ liệu trở nên quan trọng trong việc phân tích, phát hiện tri thức, hỗ trợ ra quyết định, dự đoán và trực quan hóa. Một số thành tựu tiêu biểu của Khoa học dữ liệu gồm:

a) Khám phá tri thức và nâng cao năng lực ra quyết định

  • Khoa học dữ liệu giúp phát hiện các mẫu và tri thức ẩn trong dữ liệu, phát hiện mối liên hệ chưa từng được biết đến. Nhờ đó, quá trình ra quyết định dựa trên dữ liệu trở nên chính xác và hiệu quả hơn.
  • Ví dụ: Trong ngành tài chính, các công cụ như SAS, SPSS Modeler, IBM được dùng để dự báo rủi ro, xác định xu hướng tiêu dùng, phát hiện gian lận,...

b) Tự động hóa

  • Khoa học dữ liệu kết hợp với học máy giúp tự động hóa các tác vụ lặp đi lặp lại. Các mô hình học máy có thể xử lý dữ liệu từ cảm biến, camera,... để tự động thực hiện nhiệm vụ.
  • Ví dụ: Hệ thống robot Amazon RDU dùng dữ liệu để di chuyển, phân loại hàng; hệ thống kiểm soát môi trường nông nghiệp điều khiển độ ẩm, ánh sáng nhằm tối ưu cây trồng, vật nuôi.

c) Cá nhân hóa dịch vụ

  • Dữ liệu người dùng được khai thác để cung cấp trải nghiệm phù hợp với từng cá nhân.
  • Ví dụ: Netflix, YouTube đề xuất nội dung theo sở thích; các sàn thương mại điện tử như Amazon, Ebay hiển thị sản phẩm phù hợp với hành vi mua sắm của từng người.

d) Dự đoán

  • Khoa học dữ liệu giúp xây dựng các mô hình dự đoán trong nhiều lĩnh vực như y tế, tài chính, thương mại,... Dự đoán giúp hỗ trợ ra quyết định kịp thời và hiệu quả.
  • Ví dụ: Phần mềm IBM Watson for Oncology được dùng để hỗ trợ bác sĩ điều trị ung thư chính xác hơn tại nhiều quốc gia, trong đó có Việt Nam.