Mô hình hay dữ liệu?

Translator and Editor: @Anh-Vu Mai-Nguyen

Advisor: @Nam Sy Vo @Thanh Nguyen

Trong thời điểm hiện tại, học máy (machine learning) là một lĩnh vực thu hút rất nhiều sự quan tâm trong cộng đồng khoa học và các ngành công nghiệp. Có một sự cạnh tranh khốc liệt giữa các nhóm nghiên cứu, các nhóm phát triển trong việc tăng độ chính xác của các mô hình học máy, mô hình học sâu bằng cách tập trung hiệu chỉnh thuật toán, tối ưu đoạn mã. Điều này thúc đẩy sự tiến bộ nhanh chóng của học máy.

Tuy nhiên, việc dành quá nhiều thời gian để tăng sức mạnh của mô hình học máy đem đến sự quan ngại nhất định trong chiến lược phát triển chung. Bởi vì không như các phần mềm truyền thống phụ thuộc hoàn toàn vào sức mạnh của đoạn mã tạo thành, hệ thống thông minh nhân tạo được xây dựng dựa trên một hạt nhân gồm mô hình và dữ liệu. Nếu chỉ tập trung thay đổi mô hình, nó có thể gây sự lãng phí nguồn lực và tài nguyên vì không bao quát các yếu tố ảnh hưởng đến độ chính xác của mô hình. “Theo thói quen, khi một hệ thống thông minh nhân tạo hoạt động không tốt, xu hướng chung sẽ cải tiến mã, thuật toán. Nhưng với nhiều ứng dụng thực tế, cải thiện chất lượng dữ liệu sẽ mang lại hiệu quả cao hơn”, Andrew Ng, một nhà khoa học hàng đầu trong lĩnh vực học máy, cho hay. Andrew dẫn chứng một ví dụ cho thấy hiệu quả của hai phương thức tiếp cận: Tập trung vào mô hình (model-centric) và tập trung vào dữ liệu (data-centric).

Bảng so sánh hiệu quả giữa hai phương thức. Nguồn: Deeplearning.AI

Thông thường, 80% công việc của một nhà học máy là làm sạch dữ liệu vì “đầu vào là rác, đầu ra là rác” (GIGO – Garbage In, Garbage Out). Andrew Ng băn khoăn nếu 80% công việc của chúng ta là chuẩn bị dữ liệu thì tại sao chúng ta không quan tâm tới việc đảm bảo chất lượng dữ liệu – một điều quan trọng hàng đầu đối với học máy. Điển hình cho sự thờ ơ đó là đa số thường nhìn nhanh vào arxiv để lấy ý tưởng về hướng nghiên cứu học máy đang diễn ra, và dành nhiều nỗ lực hiệu chỉnh mô hình với mong muốn xô đổ các cột mốc về độ chính xác của các mô hình nổi tiếng ví dụ như BERT của Google, GPT-3 của OpenAI. Tuy nhiên, những mô hình hoành tráng này chỉ chiếm 20% trong một bài toán kinh doanh. Điều khác biệt giữa một triển khai tốt và một triển khai tồi là chất lượng của dữ liệu.

Nguồn: bởi Paleyes và cộng sự.

Những điều trên cho thấy chiến lược lấy mô hình làm trung tâm không giúp chúng ta cải thiện hệ thống thông minh nhân tạo một cách hiệu quả. Hơn nữa, chúng ta có thể dễ dàng dùng những mô hình được đào tạo trước (pre-trained), được cung cấp mã nguồn, hoặc thông qua API được cấp phép. Mặt khác, lợi ích khi tập trung hơn vào việc xử lý dữ liệu không thể bàn cãi nhưng cách tiếp cận này lại không dễ dàng vì quy trình thu thập dữ liệu và xử lý dữ liệu để cho ra được một cơ sở dữ liệu đủ chất lượng phục vụ cho việc huấn luyên mô hình ẩn chứa nhiều thách thức. Theo một nghiên cứu được thực hiện bởi các nhà khoa học Cambridge, vấn đề quan trọng nhất nhưng thường bị bỏ qua là sự phân tán dữ liệu. Vấn đề nảy sinh khi dữ liệu được truyền trực tuyến từ các nguồn khác nhau, có thể có các lược đồ, các quy ước, cách lưu trữ và truy cập dữ liệu của chúng khác nhau. Đây là một quá trình gây ra sự nhàm chán cho các kỹ sư máy học để kết hợp thông tin thành một tập dữ liệu duy nhất phù hợp cho việc học máy, nên đa số các kỹ sư không hào hứng và nhiệt huyết khi tham gia vào xây dựng quy trình này. Bên cạnh đó, có một thách thức khác gây ra bởi kích thước của bộ dữ liệu. Trong khi các bộ dữ liệu nhỏ thường gặp rắc rối với dữ liệu nhiễu, bộ dữ liệu lớn hơn có thể gây khó khăn cho việc gắn nhãn. Một phần khác quan trọng trong quy trình thu thập dữ liệu là gán nhãn của từng mẫu. Công việc này cũng có thể gặp khó khăn khi thu thập dữ liệu ở những lĩnh vực đòi hỏi kiến thức chuyên môn vì việc tiếp cận với các chuyên gia điển hình như bác sĩ có thể bị hạn chế do thiếu kinh phí. Ngoài ra, theo các nhà khoa học dữ liệu, thiếu quyền truy cập vào dữ liệu có phương sai cao là một trong những thách thức chính khi triển khai các giải pháp học máy từ môi trường phòng thí nghiệm ra thế giới thực.

Nguồn: Deeplearning.AI

Trong thực tế, có nhiều trường hợp khác nhau có thể thúc đẩy hoặc cản trở quá trình triển khai hệ thống trí tuệ nhân tạo. Ví dụ, một công ty mạng có một phần mềm thu thập dữ liệu của nhiều người dùng tạo ra một bộ dữ liệu gồm nhiều mẫu để huấn luyện. Đó là điều kiện thuận lợi ban đầu để phát triển mô hình học máy. Tuy nhiên, trong một môi trường khác chẳng hạn như nông nghiệp hoặc chăm sóc sức khỏe, nơi không có đủ mẫu dữ liệu, chúng ta không thể mong đợi có một triệu máy kéo hoặc một triệu bệnh nhân để giúp tăng lượng dữ liệu thu thập! Vì thế, Andrew Ng hướng sự chú ý của cộng đồng tới MLOps – một lĩnh vực tập trung xây dựng và triển khai các mô hình học máy theo một quy trình được chuẩn hóa. Một vài quy tắc cơ bản mà Andrew Ng đã đề xuất để giúp triển khai học máy một cách hiệu quả:

Nhiệm vụ quan trọng nhất của MLOps là cung cấp dữ liệu chất lượng cao.
Tính nhất quán của nhãn mẫu dữ liệu là yếu tố then chốt. Ví dụ: kiểm tra cách người gắn nhãn sử dụng các hộp giới hạn (bounding box). Có thể có nhiều cách ghi nhãn, và ngay cả khi chúng tốt theo cách riêng của chúng, nhưng việc thiếu nhất quán có thể làm xấu kết quả.
Cải thiện chất lượng dữ liệu có hệ thống trên mô hình cơ bản tốt hơn là chạy theo mô hình hiện đại với dữ liệu chất lượng thấp.
Trong trường hợp có lỗi trong quá trình huấn luyện, hãy áp dụng cách tiếp cận lấy dữ liệu làm trung tâm.
Với việc tập trung vào dữ liệu, có thể cải thiện đáng kể các vấn đề với tập dữ liệu nhỏ hơn (ít hơn 10000 mẫu).
Khi làm việc với các bộ dữ liệu nhỏ hơn, các công cụ và dịch vụ để nâng cao chất lượng dữ liệu là rất quan trọng.

Andrew nói “Nếu 80% công việc của chúng ta là chuẩn bị dữ liệu, thì đảm bảo chất lượng dữ liệu là phần việc quan trọng bậc nhất của nhóm phát triển học máy”. Một dữ liệu tốt phải có tính nhất quán, bao gồm toàn bộ các trường hợp đặc biệt, có phản hồi kịp thời từ khâu sản xuất dữ liệu và xác định kích thước phù hợp. Ông khuyên không nên chỉ dựa vào các kỹ sư để có cơ hội tìm ra cách tốt nhất để cải thiện tập dữ liệu. Thay vào đó, ông hy vọng cộng đồng học máy sẽ phát triển các công cụ MLOps giúp tạo ra các bộ dữ liệu và hệ thống thông minh nhân tạo chất lượng cao, có thể lặp lại và có hệ thống. Ông cũng cho biết MLOps là một lĩnh vực mới; trong tương lai, mục tiêu quan trọng nhất của các nhóm phát triển MLOps phải là đảm bảo luồng dữ liệu chất lượng cao và nhất quán trong tất cả các giai đoạn của dự án.

Nguồn:

Big Data To Good Data: Andrew Ng Urges ML Community To Be More Data-Centric And Less Model-Centric

Mô hình hay dữ liệu?

Leave a Reply Cancel reply