Bài F14. Học máy

Nội dung lý thuyết

1. Sơ lược về học máy

Phần giới thiệu & lịch sử:

  • Nền tảng từ bài báo “Computing Machinery and Intelligence” (A. Turing) → phép thử Turing đặt nền móng cho AI.

  • Học máy (Machine Learning – ML) là một lĩnh vực của Trí tuệ nhân tạo (AI) [Hình 1 – Quan hệ AI‑ML‑DL].

  • ML cho phép máy tính học từ dữ liệu để dự đoán, phân loại & khai thác tri thức: gợi ý tìm kiếm, chatbot, dịch thuật, hỗ trợ bác sĩ, phân tích hồ sơ bệnh án…

Quy trình “học” của mô hình ML (giải quyết một bài toán cụ thể)
Thu thập & chuẩn bị dữ liệu: đủ lớn, chia train/test; gắn nhãn nếu cần.
Trích xuất đặc trưng: biến dữ liệu gốc thành đặc trưng phù hợp (từ khoá, chủ đề, pixel…).
Huấn luyện mô hình: học các tri thức/pattern phục vụ dự báo, phân cụm…
Đánh giá: dùng tập kiểm tra để đo độ chính xác, điều chỉnh.
Triển khai: áp dụng mô hình lên dữ liệu mới, sinh kết quả.
Cập nhật/bổ sung: mô hình tiếp tục học từ dữ liệu mới để cải thiện.

Hai phương pháp ML cơ bản:

  • Học có giám sát: dùng dữ liệu có nhãn → xây mô hình phân loại/dự đoán; ví dụ lọc thư rác, nhận diện ảnh y khoa [Hình 2a, 2b].

Hình minh họa có giám sát

  • Học không giám sát: dùng dữ liệu không nhãn → khám phá cấu trúc ẩn, gom cụm, giảm chiều dữ liệu [Hình 3].

Minh họa mô hình học không giám sát

Xu hướng & tầm quan trọng:
ML hiện diện trong trợ lý ảo (Siri, Google Assistant), hệ thống gợi ý (Amazon), chẩn đoán hình ảnh, v.v.

2. Vai trò của học máy trong một số ứng dụng

Học máy hiện đang được ứng dụng rộng rãi trong nhiều lĩnh vực đời sống, giúp tăng hiệu quả xử lý dữ liệu, tự động hóa và hỗ trợ ra quyết định thông minh. Một số ứng dụng nổi bật gồm:

a) Lọc thư rác

  • Mô hình học máy giúp phân biệt thư rác và thư hợp lệ (spam/ham) dựa trên phân tích nội dung văn bản, tiêu đề, địa chỉ email, liên kết…

  • Học từ tập dữ liệu các email được gắn nhãn → mô hình phát hiện thư rác có nội dung tương tự.

  • Các nhà cung cấp dịch vụ email như Gmail, Outlook, Microsoft... đã tích hợp bộ lọc học máy để bảo vệ người dùng khỏi các cuộc tấn công lừa đảo, quảng cáo độc hại.

b) Chẩn đoán bệnh

  • Ứng dụng học máy trong phân tích dữ liệu y học như ảnh X-quang, MRI, CT hoặc hồ sơ bệnh án điện tử.

  • Mô hình có thể học từ dữ liệu lịch sử bệnh nhân → phát hiện dấu hiệu bất thường: ung thư, đột quỵ, tiểu đường, bệnh võng mạc...

  • Giúp bác sĩ chẩn đoán nhanh hơn, chính xác hơn, giảm chi phí và nâng cao khả năng điều trị.

  • Ở Việt Nam, học máy đã được sử dụng trong phân tích ảnh nội soi và hỗ trợ phát hiện tổn thương sớm.

c) Nhận dạng giọng nói

  • Giúp máy tính "hiểu" được lời nói của con người, chuyển âm thanh thành văn bản.

  • Được sử dụng phổ biến trong các trợ lý ảo như Google Assistant, Siri, YouTube, ứng dụng điều khiển bằng giọng nói…

  • Mô hình học từ kho dữ liệu âm thanh và phiên bản văn bản tương ứng, kết hợp với ngữ cảnh và ngữ nghĩa để cải thiện độ chính xác.

  • Đây là nền tảng quan trọng trong giao tiếp người - máy.

d) Dịch tự động

  • Ứng dụng như Google Translate, Microsoft Translator sử dụng mô hình học máy để dịch ngôn ngữ theo thời gian thực.

  • Mô hình học từ tập dữ liệu song ngữ lớn (văn bản gốc và bản dịch) → tạo ra các bản dịch gần với ngôn ngữ tự nhiên nhất.

  • Cho phép người dùng dịch văn bản, hội thoại, hình ảnh chứa văn bản, cải thiện khả năng học tập và giao tiếp quốc tế.

  • [Hình 4] minh họa giao diện Google Translate áp dụng học máy.

Hình 4: giao diện Google Translate có tích hợp học máy trong dịch ngôn ngữ

e) Phân tích thị trường

  • Phân tích hành vi tiêu dùng, xu hướng mua sắm, phản hồi sản phẩm và dự báo nhu cầu.

  • Doanh nghiệp có thể sử dụng các mô hình học máy để:

    • Phân khúc khách hàng dựa trên đặc điểm và hành vi

    • Đánh giá hiệu quả chiến dịch quảng cáo

    • Dự đoán doanh thu, quản lý tồn kho

  • Kết quả từ học máy giúp doanh nghiệp đưa ra quyết định kịp thời, tối ưu hoá lợi nhuận và giảm thiểu rủi ro.

  • Ví dụ: các nền tảng như Google Trends, Power BI, các hệ thống CRM có tích hợp thuật toán học máy để phân tích dữ liệu khách hàng và thị trường.