Nội dung lý thuyết

Thu thập dữ liệu: Chọn dữ liệu phù hợp, từ nhiều nguồn, có thể là dữ liệu cấu trúc hoặc phi cấu trúc.
Chuẩn bị dữ liệu: Làm sạch, loại bỏ nhiễu, chuyển đổi dữ liệu sang dạng phù hợp. Chia dữ liệu thành huấn luyện và kiểm tra.
Xây dựng mô hình:
Chọn thuật toán phù hợp.
Huấn luyện mô hình từ dữ liệu huấn luyện.
Đánh giá mô hình: Dùng dữ liệu kiểm tra đánh giá độ chính xác. Nếu chưa tốt thì điều chỉnh để cải thiện.
Triển khai ứng dụng mô hình: Ứng dụng mô hình vào thực tế.

Học không giám sát là quá trình huấn luyện máy tính với tập dữ liệu không có nhãn. Máy học tìm cách phân nhóm, phân cụm hay phát hiện cấu trúc tiềm ẩn trong dữ liệu.
Phân cụm là chia tập đối tượng thành nhiều cụm dựa trên sự tương tự. Các đối tượng trong cùng một cụm có điểm chung, còn các cụm khác thì khác biệt rõ.
Học máy không giám sát giúp xây dựng mô hình phân cụm. Ví dụ: phân cụm các loại quả theo hình dáng/màu sắc.

Tập dữ liệu không có nhãn. Máy học tự tìm các đặc trưng trong dữ liệu để phân cụm. Ví dụ: phân nhóm sinh viên theo sở thích học tập, hoặc khách hàng theo hành vi mua sắm…
Mô hình học từ dữ liệu dựa trên mức độ tương tự giữa các mẫu. Một số phương pháp phân cụm phổ biến:
Dựa trên mật độ
Dựa trên khoảng cách
Dựa trên phân phối
Không giống học có giám sát, học không giám sát không có cách đánh giá chính xác như "đúng/sai", nên phải dựa vào chất lượng phân cụm và yêu cầu bài toán cụ thể.
Học máy được ứng dụng rộng rãi trong đời sống: lọc thư rác, phân loại khách vay tín dụng, nhận diện tiếng nói/chữ viết, dịch máy, chẩn đoán bệnh, phân tích thị trường...
Máy học có thể giúp máy tính nhận dạng tiếng nói và chuyển thành văn bản. Ứng dụng: trợ lí ảo, tìm kiếm bằng giọng nói, điều khiển thiết bị…

Máy học nhận dạng chữ viết tay hoặc ký tự từ hình ảnh, sau đó chuyển thành văn bản. Có hai chế độ:
Tĩnh: Nhận dạng từ hình chụp hoặc chữ viết không chuyển động.
Động: Nhận dạng từ thao tác viết trực tiếp trên thiết bị cảm ứng.

Dữ liệu bệnh nhân (triệu chứng, xét nghiệm) được dùng để huấn luyện mô hình dự đoán bệnh. Máy học hỗ trợ bác sĩ chẩn đoán nhanh hơn, chính xác hơn.
Học không giám sát phân nhóm khách hàng theo hành vi, độ tuổi, thu nhập... giúp doanh nghiệp đưa ra chiến lược kinh doanh hiệu quả hơn.