Bài 25. Làm quen với Học máy

Nội dung lý thuyết

1. Tìm hiểu sơ lược về học máy

Khái niệm học máy:

  • Học máy (Machine Learning) là một nhánh của trí tuệ nhân tạo (AI), cho phép máy tính học từ dữ liệu để cải thiện hiệu suất công việc mà không cần lập trình rõ ràng từng bước.

  • Máy học cách tự đưa ra quyết định, dự đoán hoặc phân loại dựa trên các mẫu (pattern) trong dữ liệu đầu vào.

  • Học máy ngày càng phổ biến vì dữ liệu ngày càng nhiều, yêu cầu tự động hóa cũng ngày càng cao trong nhiều lĩnh vực.

Khi nào cần dùng học máy?

  • Khi khó lập trình cụ thể các quy tắc, ví dụ:

    • Nhận diện hình ảnh (mèo, chó, xe,...)

    • Dự đoán giá nhà dựa trên nhiều yếu tố (diện tích, vị trí, tiện nghi,...)

  • Khi có sẵn dữ liệu lớn và muốn khai thác tri thức từ dữ liệu đó.

  • Khi cần tự động hóa các quyết định thay vì xử lý thủ công.

Học máy hoạt động theo một quy trình gồm 5 bước cơ bản:

Quy trình học máy gồm 5 bước từ thu thập dữ liệu đến sử dụng mô hình

  1. Thu thập dữ liệu:

    • Dữ liệu đầu vào có thể là văn bản, hình ảnh, số liệu, giọng nói,...

    • Dữ liệu càng đầy đủ và chất lượng, mô hình học máy càng hiệu quả.

  2. Chuẩn bị dữ liệu:

    • Làm sạch, chuyển đổi định dạng, xử lý dữ liệu bị thiếu, chuẩn hóa,...

    • Tách dữ liệu thành 2 tập:

      • Dữ liệu huấn luyện (training set): dùng để huấn luyện mô hình.

      • Dữ liệu kiểm thử (testing set): dùng để đánh giá mô hình.

  3. Huấn luyện mô hình:

    • Sử dụng thuật toán học máy để tìm ra mối quan hệ trong dữ liệu.

    • Mô hình sẽ học từ tập dữ liệu huấn luyện để tối ưu hóa đầu ra (dự đoán/phân loại).

  4. Đánh giá mô hình:

    • Đưa mô hình áp dụng lên dữ liệu kiểm thử để đo độ chính xác, sai số,...

    • Điều chỉnh mô hình nếu kết quả chưa tốt.

  5. Sử dụng mô hình:

    • Áp dụng mô hình vào dữ liệu thực tế để dự đoán, tự động hóa,...

    • Có thể tiếp tục cập nhật mô hình nếu có thêm dữ liệu mới (learning cycle).

Ví dụ minh họa: Giả sử muốn dạy máy phân biệt hình ảnh có phải là con ngựa hay không:

  • Dữ liệu huấn luyện gồm hình ảnh con ngựa (có nhãn "ngựa") và không phải ngựa (có nhãn "không phải ngựa").

  • Mô hình sẽ học từ dữ liệu đã gắn nhãn này.

  • Khi gặp hình ảnh mới, mô hình đưa ra dự đoán: ngựa hoặc không.

2. Phân loại và vai trò của học máy trong thực tế

a) Phân loại học máy

Học máy được chia thành hai loại chính dựa vào cách xử lý dữ liệu:

Học có giám sát (Supervised Learning)

  • Dữ liệu huấn luyện đã được gán nhãn rõ ràng (ví dụ: hình ảnh được gán là “con ngựa”, “không phải con ngựa”).

  • Mục tiêu: Huấn luyện mô hình dựa trên dữ liệu có nhãn để dự đoán hoặc phân loại dữ liệu mới.

  • Ứng dụng: phân loại email rác, dự đoán giá, nhận diện chữ viết tay, v.v.

minh họa học có giám sát: mô hình học từ hình ảnh đã gán nhãn để xác định hình mới có phải là con ngựa không

Học không giám sát (Unsupervised Learning)

  • Dữ liệu đầu vào không có nhãn.

  • Mục tiêu: Tự động tìm ra mẫu, nhóm, mối quan hệ ẩn trong dữ liệu.

  • Ứng dụng: phân nhóm khách hàng, phát hiện gian lận, nén dữ liệu, gợi ý sản phẩm.

Mô hình học không giám sát (phân cụm dữ liệu)

b) Vai trò của học máy trong thực tế

Học máy có vai trò quan trọng trong nhiều lĩnh vực, đặc biệt khi cần xử lý khối lượng lớn dữ liệu phức tạp mà con người khó làm hiệu quả. Dưới đây là một số vai trò tiêu biểu:

  • Tìm kiếm thông tin:
    • Giúp máy hiểu nội dung của văn bản, hình ảnh, âm thanh để hỗ trợ tìm kiếm thông minh.

    • Ứng dụng: công cụ tìm kiếm Google, đề xuất video trên YouTube,...

  • Chẩn đoán bệnh:
    • Học máy giúp phát hiện bệnh qua ảnh y khoa (chụp X-quang, MRI,...), dự đoán nguy cơ bệnh dựa trên dữ liệu sức khỏe.

    • Ứng dụng trong chẩn đoán ung thư, tiểu đường, bệnh tim mạch.

  • Phân tích thị trường:
    • Dự đoán xu hướng tiêu dùng, biến động giá, đánh giá rủi ro tài chính.

    • Hỗ trợ ra quyết định đầu tư, quản lý chuỗi cung ứng.

  • An ninh – bảo mật:
    • Phát hiện hành vi gian lận trong giao dịch, nhận diện khuôn mặt, giọng nói,...

    • Ứng dụng trong giám sát, phòng chống tội phạm công nghệ cao.

  • Nhận dạng đối tượng:
    • Nhận diện chữ viết tay, biển số xe, khuôn mặt,...

    • Ứng dụng trong kiểm soát ra vào, thanh toán điện tử, hệ thống giao thông thông minh.

  • Dịch thuật và trợ lý ảo:
    • Dịch tự động giữa các ngôn ngữ, chuyển văn bản thành giọng nói,...

    • Ứng dụng trong Google Translate, Siri, Alexa,...