Bài 1. Giới thiệu về học máy

Nội dung lý thuyết

1. Khái niệm Học máy

  • Học máy là nhánh nghiên cứu trong trí tuệ nhân tạo (AI) giúp máy tính học từ dữ liệu. Học máy cho phép máy tính tự động phát hiện và khai thác các mô hình trong dữ liệu mà không cần lập trình rõ ràng cho từng tác vụ. Hai bài toán chính là: phân loại và phân cụm.
  • Việc huấn luyện máy tính từ dữ liệu cần có một tập dữ liệu huấn luyện để máy học thực hiện được các nhiệm vụ tương tự với dữ liệu mới.

a) Mô hình học máy

  • Thuật toán học máy: Từ dữ liệu đầu vào, rút ra các thông tin liên quan (các đặc điểm chung). Qua đó, máy học được cách phân biệt các mẫu dữ liệu.
  • Mô hình học máy được tạo ra từ quá trình học. Sau huấn luyện, mô hình được đánh giá bằng dữ liệu kiểm tra để xem có đáp ứng yêu cầu thực tế hay không.

Mô hình hoá mô hình học máy

b) Quy trình học máy

  1. Thu thập dữ liệu: Chọn dữ liệu phù hợp, từ nhiều nguồn, có thể là dữ liệu cấu trúc hoặc phi cấu trúc.

  2. Chuẩn bị dữ liệu: Làm sạch, loại bỏ nhiễu, chuyển đổi dữ liệu sang dạng phù hợp. Chia dữ liệu thành huấn luyện và kiểm tra.

  3. Xây dựng mô hình:

    • Chọn thuật toán phù hợp.

    • Huấn luyện mô hình từ dữ liệu huấn luyện.

  4. Đánh giá mô hình: Dùng dữ liệu kiểm tra đánh giá độ chính xác. Nếu chưa tốt thì điều chỉnh để cải thiện.

  5. Triển khai ứng dụng mô hình: Ứng dụng mô hình vào thực tế.

2. Học có giám sát

  • Học máy có giám sát là loại học máy mà tập dữ liệu huấn luyện có gắn nhãn (nhãn là đầu ra tương ứng của mỗi mẫu dữ liệu). Mục tiêu là dự đoán nhãn cho dữ liệu mới.
  • Học có giám sát dùng để giải quyết các bài toán như phân loại và hồi quy.

a) Bài toán phân loại

  • Phân loại là gán nhãn cho đối tượng theo các đặc trưng. Ví dụ: phân loại email thành “spam” và “no spam”.
  • Học máy học từ dữ liệu đã gắn nhãn để nhận biết mẫu mới có thuộc nhóm nào.

Hệ thống thư điện tử phân loại thư rác

b) Dữ liệu huấn luyện

  • Mỗi đối tượng cần phân loại được mô tả bởi một số thông tin là các thuộc tính đặc trưng của nó. Ví dụ, việc phân loại email là "spam" hay "no spam" dựa vào một số thông tin như: địa chỉ người gửi, địa chỉ người nhận, dòng tiêu đề, sự có mặt của những từ đặc trưng cho thư rác, ...
  • Dữ liệu huấn luyện là các mẫu dữ liệu có nhãn sẵn, ví dụ như các email đã biết là thư rác hoặc không

c) Huấn luyện và đánh giá mô hình

  • Dữ liệu huấn luyện dùng để mô hình học được các đặc điểm đặc trưng. Dữ liệu kiểm tra dùng để đánh giá khả năng dự đoán của mô hình với dữ liệu mới. Việc so sánh giữa nhãn dự đoán và nhãn thật giúp biết mô hình chính xác bao nhiêu.
  • Nếu sai lệch nhiều thì cần cải thiện bằng điều chỉnh mô hình hoặc dữ liệu huấn luyện.

3. Học không giám sát

Học không giám sát là quá trình huấn luyện máy tính với tập dữ liệu không có nhãn. Máy học tìm cách phân nhóm, phân cụm hay phát hiện cấu trúc tiềm ẩn trong dữ liệu.

a) Bài toán phân cụm

Phân cụm là chia tập đối tượng thành nhiều cụm dựa trên sự tương tự. Các đối tượng trong cùng một cụm có điểm chung, còn các cụm khác thì khác biệt rõ.

Học máy không giám sát giúp xây dựng mô hình phân cụm. Ví dụ: phân cụm các loại quả theo hình dáng/màu sắc.

Ứng dụng học máy phân cụm các quả

b) Dữ liệu huấn luyện

Tập dữ liệu không có nhãn. Máy học tự tìm các đặc trưng trong dữ liệu để phân cụm. Ví dụ: phân nhóm sinh viên theo sở thích học tập, hoặc khách hàng theo hành vi mua sắm…

c) Huấn luyện và đánh giá mô hình

Mô hình học từ dữ liệu dựa trên mức độ tương tự giữa các mẫu. Một số phương pháp phân cụm phổ biến:

  • Dựa trên mật độ

  • Dựa trên khoảng cách

  • Dựa trên phân phối

Không giống học có giám sát, học không giám sát không có cách đánh giá chính xác như "đúng/sai", nên phải dựa vào chất lượng phân cụm và yêu cầu bài toán cụ thể.

4. Một số ứng dụng của Học máy

Học máy được ứng dụng rộng rãi trong đời sống: lọc thư rác, phân loại khách vay tín dụng, nhận diện tiếng nói/chữ viết, dịch máy, chẩn đoán bệnh, phân tích thị trường...

a) Nhận dạng tiếng nói

Máy học có thể giúp máy tính nhận dạng tiếng nói và chuyển thành văn bản. Ứng dụng: trợ lí ảo, tìm kiếm bằng giọng nói, điều khiển thiết bị…

 Nhận dạng tiếng nói trong ứng dụng Google Dịch

b) Nhận dạng chữ viết

Máy học nhận dạng chữ viết tay hoặc ký tự từ hình ảnh, sau đó chuyển thành văn bản. Có hai chế độ:

  • Tĩnh: Nhận dạng từ hình chụp hoặc chữ viết không chuyển động.

  • Động: Nhận dạng từ thao tác viết trực tiếp trên thiết bị cảm ứng.

Nhận dạng chữ viết tay trên ứng dụng ghi chú của điện thoại

c) Dịch máy

  • Máy học dùng để dịch văn bản hoặc câu nói từ ngôn ngữ nguồn sang ngôn ngữ đích. Dịch máy hiện nay còn có thể phân tích ngữ cảnh và tự học để cải thiện kết quả.
  • Google Dịch là ví dụ tiêu biểu, kết hợp nhiều công nghệ: nhận dạng chữ viết, nhận dạng tiếng nói, phân tích ngữ nghĩa…

d) Chẩn đoán bệnh

Dữ liệu bệnh nhân (triệu chứng, xét nghiệm) được dùng để huấn luyện mô hình dự đoán bệnh. Máy học hỗ trợ bác sĩ chẩn đoán nhanh hơn, chính xác hơn.

e) Phân tích thị trường

Học không giám sát phân nhóm khách hàng theo hành vi, độ tuổi, thu nhập... giúp doanh nghiệp đưa ra chiến lược kinh doanh hiệu quả hơn.