Toán học 2.0: Tầm quan trọng cơ bản của Học máy

Học máy không chỉ là một cách khác để lập trình máy tính; nó đại diện cho một sự thay đổi cơ bản trong cách chúng ta hiểu thế giới. Đó là Toán 2.0.

Bình luận

By Tiến sĩ Claus Horn, Nhà nghiên cứu và Giảng viên về AI

$Hình ảnh$

Một số người, đặc biệt là trong thời kỳ khoa học dữ liệu cường điệu hiện nay, coi học máy chỉ là một thuật toán khác. Nó là một phần của quá trình số hóa và giúp chúng tôi tự động hóa mọi thứ, chỉ vậy thôi. Thật không may, cách giải thích này hoàn toàn bỏ lỡ điểm chính. Học máy không chỉ là một cách khác để lập trình máy tính; nó đại diện cho một sự thay đổi cơ bản trong cách chúng ta hiểu thế giới. Đó là Toán 2.0.

Các lý thuyết khoa học giúp chúng ta hiểu thế giới bằng cách xây dựng các mô hình của nó. Tính hữu ích của chúng bắt nguồn từ thực tế là chúng cho phép chúng ta đưa ra dự đoán về tương lai. Cho đến thời điểm này trong lịch sử, các mô hình phức tạp nhất trên thế giới của chúng ta được viết bằng ngôn ngữ toán học (Math 1.0). Điều này đang thay đổi ngay bây giờ. Thế hệ mô hình khoa học sắp tới sẽ là mô hình học máy (có thể là mạng lưới thần kinh): Math 2.0.

Lý do là các mô hình học máy cho phép chúng ta mô tả các hiện tượng ở mức độ phức tạp cao hơn. Các mối quan hệ chức năng mà chúng ta có thể mô tả trong một lý thuyết toán học là rất hạn chế, chẳng hạn so với chức năng ánh xạ mười nghìn giá trị pixel cho khái niệm về một con chó hoặc một con mèo, đó là điều mà học sâu hiện đại thực hiện rất tốt.

Trở lại năm 2003, trong thời gian làm bằng tiến sĩ của tôi. trong vật lý, chúng tôi đang tìm kiếm dấu hiệu của các loại hạt cơ bản mới quét qua một vài petabyte dữ liệu được ghi lại tại DESY, trung tâm vật lý năng lượng cao của Đức (vào thời điểm đó, Google là một trong những bộ dữ liệu lớn nhất trên thế giới). được thành lập chỉ năm năm trước đó).

Chúng tôi nhận thấy quy trình thông thường áp dụng các lựa chọn độc lập trên các biến quan sát của mình hơi tẻ nhạt vì sau khi thay đổi điểm cắt trên một biến, chúng tôi phải xem lại tất cả các biến khác. Vì vậy, chúng tôi nghĩ: Chúng ta có thể tự động hóa việc này không? Và thực sự, một thuật toán đơn giản mà chúng tôi nghĩ ra đã cho phép chúng tôi tự động tối ưu hóa lựa chọn của mình. Sau đó, chúng tôi phát hiện ra rằng các nhà khoa học máy tính có một thuật ngữ cho những gì chúng tôi đang làm: Họ gọi đó là máy học.

Khá nhanh chóng, rõ ràng là phương pháp mới này có nghĩa là chúng tôi cần điều chỉnh quy trình làm việc khoa học của mình. Thay vì sử dụng tất cả kiến thức vật lý của chúng tôi để tăng tỷ lệ tín hiệu trên nền, tốt hơn hết là chỉ thực hiện các thao tác cắt giảm dọn dẹp tối thiểu và để thuật toán thực hiện công việc. Sau đó, với sự ra đời của học sâu, các nhà nghiên cứu tại CERN nhận ra rằng ngay cả việc tái tạo lại các đại lượng vật lý cũng phản tác dụng. Chỉ cần đưa ra các phép đo thô, học sâu có thể vượt trội hơn bất kỳ nhà vật lý nào thực hiện các lựa chọn bằng tay (xem hình bên dưới). Vì vậy, Math 2.0 cho phép chúng tôi nhìn thấy các hạt mà các mô hình dựa trên Math 1.0 không thể nhìn thấy.

$Hình 1$
Hình 1: So sánh hiệu suất của các thuật toán học sâu chỉ dựa trên các tính năng cấp thấp (màu đen) và các tính năng cấp cao thường được các nhà vật lý sử dụng (màu đỏ). (Hình lấy từ bài báo tham khảo Nature năm 2014 1.)

Mọi người đã tự hỏi tại sao hầu hết các mô hình vật lý đều rất đơn giản, phần lớn chỉ bao gồm các đa thức bậc ba hoặc thấp hơn. Có lẽ lý do là chúng ta chỉ nhìn thấy những gì chúng ta có thể nói về.

Điều đã xảy ra trước đây trong vật lý giờ đang xảy ra trong các lĩnh vực khác: Một chuỗi axit amin nhất định luôn gấp nếp theo cùng một cách. Có rất nhiều sự đều đặn ở đó! Trên thực tế, chính cấu trúc của protein xác định chức năng của nó. Tuy nhiên, chúng ta không thể tạo ra một hàm toán học để mô tả mối quan hệ này. Nhưng chúng ta có thể xây dựng một mô hình học máy. Xây dựng một mô hình như vậy là một cột mốc quan trọng đến mức có suy đoán về việc liệu AlphaFold, cách gọi mô hình cụ thể này, có thể xứng đáng với giải thưởng Nobel hay không.

Bởi vì Math 2.0 cho phép chúng ta mô tả các mối quan hệ phức tạp hơn nhiều so với Math 1.0, thập kỷ tới có thể sẽ chứng kiến sự chuyển đổi của sinh học. Sinh học kỹ thuật số sẽ được viết bằng ngôn ngữ Toán học 2.0. Và sẽ có vô số cơ hội trong các lĩnh vực khoa học khác có mối quan hệ phức tạp hơn, như khoa học xã hội.

Vì vậy, nói ngôn ngữ của Toán học 2.0 phải là một thành phần cốt lõi của mọi chương trình học thuật và là năng lực cơ bản của mọi học sinh, đặc biệt là trong các môn khoa học.

Tất nhiên, có nhiều lý thuyết khoa học hơn là chỉ toán học. Khó khăn chính là tìm ra các khái niệm và đại lượng phù hợp để mô tả một loạt các hiện tượng nhất định. Và điều đó sẽ không thay đổi. Nhưng toán học làm được nhiều hơn cho chúng ta ngoài việc xây dựng các mô hình và rút ra các dự đoán. Nó cũng cho phép chúng ta tính toán và rút ra những hiểu biết đơn giản mới (thông qua đại số) và trả lời các câu hỏi về động lực học của một hệ thống (thông qua giải tích).

Chúng ta vẫn đang ở giai đoạn đầu của cuộc cách mạng Toán học 2.0, nhưng tôi dự đoán rằng, tương tự như sự phát triển của toán học, chúng ta sẽ chứng kiến sự xuất hiện của một lĩnh vực mới sẽ nghiên cứu hệ thống mô hình học máy và cách chúng có thể được xây dựng, tự động tối ưu hóa bản thân và được sử dụng để rút ra những hiểu biết mới cho phép chúng ta nhìn thế giới theo một cách mới.

Những phát triển này sẽ dẫn đến cấp độ tiếp theo của máy tính khoa học và cho chúng ta một cách làm khoa học mới, nhờ Math 2.0.

Tài liệu tham khảo:

Baldi, P., Sadowski, P. & Whiteson, D. Tìm kiếm các hạt kỳ lạ trong vật lý năng lượng cao bằng học sâu. Cộng đồng5, 4308 (2014). https://doi.org/10.1038/ncomms5308

Tiểu sử: Tiến sĩ Claus Horn là Nhà nghiên cứu và Giảng viên về AI, tin chắc rằng tiềm năng cao nhất để cải thiện tình trạng của con người trong thế kỷ 21 nằm ở sự giao thoa giữa trí tuệ nhân tạo và khoa học đời sống.

Nguyên. Đăng lại với sự cho phép.

Liên quan:

= Trước bài

Bài tiếp theo =>

Câu chuyện hàng đầu trong 30 ngày qua

Phổ biến nhất
Tự động hóa Microsoft Excel và Word bằng Python Bạn có đọc tệp Excel bằng Python không? Có một cách nhanh hơn 1000 lần Sự khác biệt giữa các nhà khoa học dữ liệu và kỹ sư ML Câu hỏi và câu trả lời phỏng vấn khoa học dữ liệu phổ biến nhất 9 ứng dụng phổ biến nhất của Django

Được chia sẻ nhiều nhất
Sự khác biệt giữa các nhà khoa học dữ liệu và kỹ sư ML Cách truy vấn khung dữ liệu gấu trúc của bạn Prefect: Cách viết và lập lịch trình đường ống ETL đầu tiên của bạn với Python Kiểm tra giả thuyết được giải thích Bảng tóm tắt khoa học dữ liệu 2.0