Các nhà khoa học dữ liệu quay lại việc sử dụng mã nguồn mở do lo lắng về bảo mật

Nút nguồn: 1687208

Các lỗ hổng trong các thành phần nguồn mở - chẳng hạn như các lỗ hổng phổ biến được tiết lộ 10 tháng trước trong Log4j 2.0 - đã buộc các nhà khoa học dữ liệu phải đánh giá lại mã nguồn mở thường được sử dụng trong phân tích và tạo ra các mô hình học máy.

Theo báo cáo của Anaconda, một công ty nền tảng khoa học dữ liệu, trong năm qua, 40% các nhà khoa học dữ liệu, nhà phân tích kinh doanh và sinh viên được khảo sát đã giảm quy mô sử dụng các thành phần nguồn mở, trong khi 7/18 vẫn ổn định và chỉ 47 % đã kết hợp nhiều mã nguồn mở hơn vào các dự án của họ. Phần lớn những người được khảo sát không báo cáo cho bộ phận công nghệ thông tin (XNUMX%), mà làm việc trong nhóm khoa học dữ liệu hoặc nhóm nghiên cứu và phát triển của riêng họ (XNUMX%), theo Anaconda's “Tình trạng khoa học dữ liệu năm 2022” báo cáo được công bố vào tuần trước.

Peter Wang, đồng sáng lập và CEO của Anaconda cho biết, trong khi các nhà phát triển phần mềm và CNTT đã bắt đầu kiểm tra mã bảo mật, thì những lo ngại về bảo mật trong phần mềm nguồn mở là một xu hướng tương đối mới đối với thế giới khoa học dữ liệu.

Ông nói: “Chúng tôi thấy một phần rất lớn những người làm việc tại các tổ chức nơi bộ phận CNTT đã tạo ra quan điểm rất nghiêm ngặt về nguồn mở và Python”. “Đây không phải là những nhà phát triển chuyên nghiệp. … Họ là những nhà khoa học dữ liệu và những người học máy, những người có thể không phải là nhà phát triển dày dạn kinh nghiệm, sử dụng bất cứ thứ gì họ có thể tải xuống để thực hiện phân tích và sau đó họ chuyển việc đó cho bộ phận CNTT.”

Tính bảo mật của các thành phần nguồn mở - và chuỗi cung ứng phần mềm nói chung - đã trở thành mối quan tâm hàng đầu của các nhà phát triển phần mềm, doanh nghiệp và chính phủ quốc gia trong hai năm qua. Ví dụ, vào tháng 5, Viện Tiêu chuẩn và Công nghệ Quốc gia Hoa Kỳ (NIST) ban hành hướng dẫn giải quyết các rủi ro trong chuỗi cung ứng phần mềm. Ngoài ra, ngày càng có nhiều nhà cung cấp phần mềm đã tham gia với Tổ chức bảo mật phần mềm mở (OpenSSF) của Quỹ Linux.

Trong khi nhiều nhóm khoa học dữ liệu quét các thành phần nguồn mở để tìm lỗ hổng, thay vào đó, nhiều nhóm lại tạo phần mềm của riêng họ. Nguồn: Báo cáo “Trạng thái khoa học dữ liệu năm 2022” của Anaconda.

Nhìn chung, mức độ trưởng thành của các nỗ lực bảo mật của các tổ chức đã được cải thiện. Khoảng một nửa số công ty có sẵn chính sách bảo mật nguồn mở, điều này dẫn đến hiệu suất tốt hơn trong các biện pháp sẵn sàng bảo mật, theo khảo sát tháng 6. Ngoài ra, những nỗ lực kiểm soát rủi ro nguồn mở đã tăng 51% trong 12 tháng qua, một nghiên cứu về sự trưởng thành của chứng khoán đã nêu vào ngày 21 tháng 9.

Jason Schmitt, tổng giám đốc của Synopsys Software Integrity Group, cho biết trong một tuyên bố công bố nghiên cứu: “[W]với sự chú ý đến chuỗi cung ứng phần mềm, hầu hết các tổ chức doanh nghiệp đang áp dụng cách tiếp cận dựa trên rủi ro để bảo mật ứng dụng. “Cách tiếp cận như vậy thừa nhận rằng bảo mật không bị giới hạn ở cơ sở mã; nó bao gồm quá trình phát triển phần mềm trong đó các đánh giá và thử nghiệm bảo mật 'thay đổi khắp nơi' để liên tục cải thiện kết quả bảo mật.”

Nhà phát triển mở rộng việc sử dụng nguồn mở 

Theo các dữ liệu khác, các công ty phần mềm không nhận thấy bất kỳ sự sụt giảm nào trong việc sử dụng nguồn mở. Thay vào đó, các tổ chức phát triển đang tập trung vào việc cải thiện tính bảo mật của phần mềm nguồn mở và sử dụng bảo mật làm hướng dẫn chính trong việc lựa chọn các thành phần.

Bên trong "Tình hình chuỗi cung ứng phần mềm năm 2021” báo cáo, chẳng hạn, Sonatype đã phát hiện ra rằng bốn hệ sinh thái nguồn mở hàng đầu — Kho lưu trữ trung tâm Maven (Java), Node.js (JavaScript), Chỉ mục gói Python (Python) và thư viện NuGet (.NET) — chứa 37 triệu các dự án và thành phần nguồn mở, tăng 20% ​​so với năm trước. Nhu cầu về các thành phần đó cũng ngày càng tăng: Hơn 2.2 nghìn tỷ thành phần đã được tải xuống, tăng 73% hàng năm.

Tracy Miranda, người đứng đầu nguồn mở tại Chainguard, cho biết việc cộng đồng khoa học dữ liệu tự báo cáo việc rời xa các gói nguồn mở có thể cho thấy nhận thức rõ hơn về các vấn đề bảo mật và ít loại bỏ các thành phần nguồn mở trong quá trình phát triển.

Mặc dù các nhóm khoa học dữ liệu và nhóm phát triển có thể phản ứng khác nhau trước các vấn đề bảo mật lớn — chẳng hạn như Log4j 2.0 — các công ty có ít khả năng trông cậy khi rời xa một gói nguồn mở hơn là áp dụng một gói khác mà những người bảo trì đã chú trọng nhiều hơn đến bảo mật, cô nói.

“Các công ty tận dụng nguồn mở như một cách để tăng tốc độ của mình, vì vậy nếu họ thu nhỏ lại, họ sẽ thu nhỏ lại để làm gì? Viết mã trong nhà? Sử dụng phiên bản của bên thứ ba được đóng gói?” Miranda nói, thay vào đó nói thêm rằng: “Tôi thực sự nghĩ rằng chúng ta có thể mong đợi thấy các công ty sáng suốt hơn về chất lượng của nguồn mở mà họ sử dụng, đặc biệt liên quan đến các tính năng bảo mật”.

Các nhà khoa học dữ liệu đang chơi trò đuổi bắt

Sự mất kết nối giữa hai bên có thể là do đối tượng khán giả khác nhau trong các cuộc khảo sát khác nhau. Cuộc khảo sát của Anaconda tập trung vào các chuyên gia khoa học dữ liệu, có thể thấy từ sự lựa chọn ngôn ngữ lập trình của người trả lời - 58% sử dụng Python và 42% sử dụng SQL, trong khi chỉ 26% sử dụng JavaScript. 

Một thước đo tốt hơn về cảm nhận của nhà phát triển phần mềm là “ của StackOverflowKhảo sát nhà phát triển năm 2022,” cho thấy rằng trong khi 58% 'người học viết mã' sử dụng Python thì chỉ có 44% nhà phát triển chuyên nghiệp viết mã bằng ngôn ngữ đó. Mặt khác, 68% nhà phát triển chuyên nghiệp sử dụng JavaScript, theo khảo sát của StackOverflow.

Ngoài ra, trong khi chuyên gia khoa học dữ liệu làm việc tại các công ty mà phần lớn (87%) cho phép phần mềm nguồn mở, thì khoảng một phần tư (26%) được bộ phận CNTT giám sát tối thiểu đối với các lựa chọn nguồn mở của họ, báo cáo của Anaconda cho biết. Ở 18% công ty khác, bộ phận CNTT chỉ xác định khoảng một nửa số thành phần nguồn mở có sẵn.

Những người duy trì các dự án quan trọng nhất — trong đó có hàng trăm, nếu không phải hàng nghìn — cần sử dụng các phần phụ thuộc an toàn, kiểm tra mã của riêng họ và xác thực độ tin cậy của những người đóng góp. Người bảo trì cũng nên xuất bản thẻ điểm bảo mật - một sáng kiến ​​do Google tạo ra hiện do Tổ chức bảo mật nguồn mở (OpenSSF) quản lý, đưa ra mức độ bảo mật cho một dự án dựa trên gần 20 tiêu chí khác nhau.

Miranda cho biết mặc dù nhận thức có thể tăng lên nhưng không có giải pháp nhanh chóng.

Cô nói: “Thực tế là trước đây chưa từng có những lựa chọn an toàn hơn. “Việc cắt bớt các phần phụ thuộc không cần thiết để giảm bề mặt tấn công là điều hợp lý, nhưng thật khó thực hiện khi cây phụ thuộc đã phát triển lớn.”

Dấu thời gian:

Thêm từ Đọc tối