Bài 26. Làm quen với Khoa học dữ liệu

Nội dung lý thuyết

1. Khái niệm và mục tiêu của Khoa học dữ liệu

a) Khái niệm về Khoa học dữ liệu

  • Khoa học dữ liệu là một lĩnh vực liên ngành, sử dụng các phương pháp khoa học, quy trình, thuật toán và hệ thống để khai phá tri thức từ dữ liệu.

  • Đây là sự kết hợp của:

    • Toán học và Thống kê

    • Xử lý dữ liệu

    • Tri thức chuyên ngành

 

Khoa học dữ liệu và các lĩnh vực liên quan

  • Khoa học dữ liệu giúp tổ chức, doanh nghiệp:

    • Phân tích dữ liệu lớn, phức tạp.

    • Tìm ra các quy luật, mô hình, mối quan hệ trong dữ liệu.

    • Hỗ trợ ra quyết định hiệu quả, dựa trên dữ liệu thực tế thay vì cảm tính.

  • Phân biệt với phân tích dữ liệu truyền thống:

    • Không chỉ phân tích mà còn khai phá tri thức mới.

    • Sử dụng các kỹ thuật tiên tiến như trí tuệ nhân tạo, học máy.

    • Làm việc với dữ liệu lớn, phi cấu trúc.

b) Mục tiêu của Khoa học dữ liệu

Mục tiêu chính là khai thác, phân tích và hiểu rõ dữ liệu để đưa ra các quyết định chính xác, kịp thời, hiệu quả hơn. Một số mục tiêu cụ thể:

  • Phân tích dữ liệu:

    • Nhận biết các mô hình, xu hướng, mối liên hệ trong dữ liệu.

    • Tạo ra tri thức có giá trị hỗ trợ cho ra quyết định.

  • Trực quan hóa dữ liệu:

    • Biến dữ liệu phức tạp thành biểu đồ, đồ thị dễ hiểu, trực quan.

    • Hỗ trợ nhận định chính xác hơn từ góc nhìn tổng quan.

Nhiệt độ và lượng mưa trung bình tại huyện đảo Trường Sa – ví dụ về trực quan hóa dữ liệu

  • Tối ưu hóa quyết định:

    • Hỗ trợ doanh nghiệp cải thiện chất lượng quyết định dựa vào dữ liệu.

    • Nâng cao hiệu quả hoạt động, tối ưu vận hành, tiết kiệm chi phí.

  • Khám phá tri thức mới:

    • Khai phá các mô hình, xu hướng tiềm ẩn mà con người khó nhận ra bằng cách truyền thống.

    • Dự đoán hành vi, kết quả trong tương lai từ dữ liệu hiện tại.

2. Một số thành tựu của Khoa học dữ liệu

Ứng dụng và đóng góp nổi bật:

  • Khoa học dữ liệu phát triển mạnh nhờ sự kết hợp với:

    • AI (trí tuệ nhân tạo)

    • Học máy

    • Các công nghệ xử lý dữ liệu lớn

 

Mối quan hệ giữa AI, Học máy và Khoa học dữ liệu

  • Đặc điểm của dữ liệu hiện đại – 5V:

    1. Volume – Khối lượng lớn

    2. Velocity – Tốc độ sinh dữ liệu nhanh

    3. Variety – Đa dạng loại dữ liệu (văn bản, hình ảnh, âm thanh,…)

    4. Veracity – Độ chính xác, độ tin cậy

    5. Value – Giá trị có thể khai thác

Một số thành tựu tiêu biểu:

  • Tăng hiệu quả sản xuất và kinh doanh:

    • Hỗ trợ ra quyết định nhanh và chính xác.

    • Phát hiện gian lận, rủi ro, tối ưu tài chính, quản trị kho, chuỗi cung ứng,…

  • Tự động hóa quy trình, đổi mới sáng tạo:

    • Giúp tự động hóa các công việc lặp đi lặp lại.

    • Ứng dụng trong logistics, y tế, giáo dục, tài chính, giao thông…

  • Cá nhân hóa dịch vụ, tăng trải nghiệm khách hàng:

    • Gợi ý sản phẩm phù hợp với từng người dùng (như trên Netflix, Tiki, Shopee…)

    • Phân tích hành vi khách hàng, từ đó đề xuất nội dung phù hợp.

  • Dự đoán xu hướng, phân tích tương lai:

    • Dự báo nhu cầu thị trường, dịch bệnh, thiên tai, tài chính, thời tiết,…