Những người thợ làm bánh đầy tham vọng thường được kêu gọi điều chỉnh các công thức nấu ăn từng đoạt giải thưởng dựa trên các thiết lập nhà bếp khác nhau. Chẳng hạn, ai đó có thể sử dụng máy đánh trứng thay vì máy trộn đứng để làm bánh quy sô cô la chip từng đoạt giải thưởng.
Khả năng sao chép một công thức trong các tình huống khác nhau và với các thiết lập khác nhau là rất quan trọng đối với cả các đầu bếp tài năng và các nhà khoa học máy tính, những người sau này phải đối mặt với một vấn đề tương tự là điều chỉnh và sao chép “công thức” của riêng họ khi cố gắng xác thực và làm việc với các mô hình AI mới. Những mô hình này có ứng dụng trong các lĩnh vực khoa học, từ phân tích khí hậu đến nghiên cứu não bộ.
>> Tham khảo: Trao quyền cho người dùng để đánh giá nội dung giúp chống lại thông tin sai lệch.
Eliu Huerta, nhà khoa học và trưởng bộ phận AI Dịch thuật tại Phòng thí nghiệm Quốc gia Argonne của Bộ Năng lượng Hoa Kỳ (DOE) cho biết: “Khi chúng ta nói về dữ liệu, chúng ta có hiểu biết thực tế về các tài sản kỹ thuật số mà chúng ta xử lý. ”Với mô hình AI, mọi thứ sẽ kém rõ ràng hơn một chút; chúng ta đang nói về dữ liệu được cấu trúc theo cách thông minh hay là máy tính, phần mềm hay sự kết hợp?”
Trong một nghiên cứu mới, Huerta và các đồng nghiệp của ông đã đưa ra một bộ tiêu chuẩn mới để quản lý các mô hình AI. Dựa trên nghiên cứu gần đây về quản lý dữ liệu tự động, các tiêu chuẩn này được gọi là FAIR, nghĩa là có thể tìm thấy, có thể truy cập, có thể tương tác và có thể tái sử dụng.
Nhà khoa học máy tính Ben Blaiszik của Argonne cho biết: “Bằng cách tạo ra các mô hình AI FAIR, chúng tôi không còn phải xây dựng từng hệ thống từ đầu mỗi lần. ”Việc sử dụng lại các khái niệm từ các nhóm khác nhau trở nên dễ dàng hơn, giúp tạo ra sự thụ phấn chéo giữa các nhóm.”
>> Tham khảo: Sự phát triển của vật liệu tinh thể bao gồm các cụm vàng kích thước nanomet.
Theo Huerta, việc nhiều mô hình AI hiện không CÔNG BẰNG đặt ra thách thức đối với khám phá khoa học. Ông nói: “Đối với nhiều nghiên cứu đã được thực hiện cho đến nay, rất khó để tiếp cận và tái tạo các mô hình AI được tham chiếu trong tài liệu.
“Bằng cách tạo và chia sẻ các mô hình FAIR AI, chúng tôi có thể giảm bớt số lượng nỗ lực trùng lặp và chia sẻ các phương pháp hay nhất về cách sử dụng các mô hình này để tạo ra khoa học vĩ đại.”
Để đáp ứng nhu cầu của cộng đồng người dùng đa dạng, Huerta và các đồng nghiệp của ông đã kết hợp một bộ quản lý dữ liệu độc đáo và nền tảng điện toán hiệu suất cao để thiết lập giao thức FAIR và định lượng “Tính công bằng” của các mô hình AI.
Các nhà nghiên cứu đã ghép nối dữ liệu FAIR được xuất bản tại một kho lưu trữ trực tuyến có tên là Cơ sở Dữ liệu Vật liệu, với các mô hình FAIR AI được xuất bản tại một kho lưu trữ trực tuyến khác có tên là Trung tâm Dữ liệu và Học tập cho Khoa học, cũng như với các tài nguyên AI và siêu máy tính tại Cơ sở Điện toán Lãnh đạo Argonne (ALCF ).
Bằng cách này, các nhà nghiên cứu đã có thể tạo ra một khung tính toán có thể giúp kết nối nhiều phần cứng và phần mềm khác nhau, tạo ra các mô hình AI có thể chạy tương tự trên các nền tảng và mang lại kết quả có thể lặp lại. ALCF là cơ sở người dùng của Văn phòng Khoa học DOE.
Hai chìa khóa để tạo ra khung này là các nền tảng có tên funcX và Globus, cho phép các nhà nghiên cứu truy cập các tài nguyên điện toán hiệu năng cao ngay từ máy tính xách tay của họ. Đồng tác giả Ian Foster, giám đốc bộ phận Học tập và Khoa học Dữ liệu của Argonne cho biết: “FuncX và Globus có thể giúp vượt qua sự khác biệt trong kiến trúc phần cứng.
>> Tham khảo: Cách tăng cường can thiệp sớm đối với các rủi ro sức khỏe liên quan đến khí hậu.
”Nếu ai đó đang sử dụng một kiến trúc điện toán và một người khác đang sử dụng kiến trúc khác, thì giờ đây chúng ta có cách nói một ngôn ngữ AI chung. Đó là một phần quan trọng trong việc làm cho AI có khả năng tương tác cao hơn.”
Trong nghiên cứu, các nhà nghiên cứu đã sử dụng một tập dữ liệu mẫu của mô hình AI sử dụng dữ liệu nhiễu xạ từ Nguồn Photon Nâng cao của Argonne, cũng là cơ sở người dùng của Văn phòng Khoa học DOE. Để thực hiện tính toán, nhóm đã sử dụng hệ thống SambaNova của ALCF AI Testbed và GPU NVIDIA của siêu máy tính Theta (đơn vị xử lý đồ họa).
Marc Hamilton, phó chủ tịch phụ trách Kiến trúc và Kỹ thuật Giải pháp của NVIDIA cho biết: “Chúng tôi rất vui khi thấy các lợi ích về năng suất của FAIR từ mô hình và chia sẻ dữ liệu để cung cấp cho nhiều nhà nghiên cứu hơn quyền truy cập vào các tài nguyên máy tính hiệu năng cao. ”Cùng nhau, chúng tôi đang hỗ trợ vũ trụ điện toán hiệu năng cao đang mở rộng kết hợp dữ liệu thử nghiệm và hoạt động của thiết bị ở rìa với AI để tăng tốc độ khám phá khoa học.”
“SambaNova rất vui mừng được hợp tác với các nhà nghiên cứu tại Phòng thí nghiệm quốc gia Argonne để theo đuổi sự đổi mới trong giao diện của AI và kiến trúc phần cứng mới nổi”, Jennifer Glore, phó chủ tịch Kỹ thuật khách hàng tại SambaNova Systems cho biết thêm. ”AI sẽ có một vai trò quan trọng trong tương lai của điện toán khoa học và việc phát triển các nguyên tắc FAIR cho các mô hình AI cùng với các công cụ mới sẽ trao quyền cho các nhà nghiên cứu để cho phép khám phá tự trị trên quy mô lớn. Chúng tôi mong muốn được tiếp tục hợp tác và phát triển tại ALCF AI thử nghiệm.”
>> Tham khảo: Việc xóa gen Wt1 tạo ra những thay đổi trong cơ quan sinh sản của chuột.
Một bài báo dựa trên nghiên cứu, “Các nguyên tắc FAIR cho các mô hình AI, với ứng dụng thực tế cho kính hiển vi nhiễu xạ năng lượng cao được gia tốc,” đã xuất hiện trên Nature Scientific Data vào ngày 10 tháng 11 năm 2022.
Ngoài Huerta, các tác giả khác của nghiên cứu bao gồm Nikil Ravi của Argonne, Pranshu Chaturvedi, Zhengchun Liu, Ryan Chard, Aristana Scourtas, K.J. Schmidt, Kyle Chard, Ben Blaiszik và Ian Foster.
Nghiên cứu được tài trợ bởi Văn phòng Nghiên cứu Máy tính Khoa học Tiên tiến của DOE, Viện Tiêu chuẩn và Công nghệ Quốc gia, Quỹ Khoa học Quốc gia và các khoản tài trợ Nghiên cứu và Phát triển do Phòng thí nghiệm Chỉ đạo.