Điều hướng các thách thức về bảo mật và quyền riêng tư của các mô hình ngôn ngữ lớn

Điều hướng các thách thức về bảo mật và quyền riêng tư của các mô hình ngôn ngữ lớn

Nút nguồn: 2370816

An ninh kinh doanh

Các tổ chức có ý định khai thác tiềm năng của LLM cũng phải có khả năng quản lý những rủi ro có thể làm xói mòn giá trị kinh doanh của công nghệ.

Điều hướng các thách thức về bảo mật và quyền riêng tư của các mô hình ngôn ngữ lớn

Mọi người đang nói về ChatGPT, Bard và AI tổng quát. Nhưng sau sự cường điệu chắc chắn sẽ đến việc kiểm tra thực tế. Trong khi các nhà lãnh đạo doanh nghiệp và CNTT đều rất ngạc nhiên với tiềm năng đột phá của công nghệ trong các lĩnh vực như dịch vụ khách hàng và phát triển phần mềm, họ cũng ngày càng nhận thức được một số nhược điểm và rủi ro tiềm ẩn cần đề phòng.

Nói tóm lại, để các tổ chức khai thác được tiềm năng của các mô hình ngôn ngữ lớn (LLM), họ cũng phải có khả năng quản lý những rủi ro tiềm ẩn có thể làm xói mòn giá trị kinh doanh của công nghệ.

Thỏa thuận với LLM là gì?

ChatGPT và các công cụ AI tổng hợp khác được cung cấp bởi LLM. Chúng hoạt động bằng cách sử dụng mạng lưới thần kinh nhân tạo để xử lý lượng dữ liệu văn bản khổng lồ. Sau khi tìm hiểu các mẫu giữa các từ và cách chúng được sử dụng trong ngữ cảnh, mô hình có thể tương tác bằng ngôn ngữ tự nhiên với người dùng. Trên thực tế, một trong những lý do chính dẫn đến thành công nổi bật của ChatGPT là khả năng kể chuyện cười, sáng tác thơ và nói chung là giao tiếp theo cách khó có thể phân biệt được với con người thật.

ĐỌC LIÊN QUAN: Viết như một ông chủ với ChatGPT: Cách phát hiện tốt hơn các trò lừa đảo lừa đảo

Các mô hình AI tổng hợp được hỗ trợ bởi LLM, như được sử dụng trong các chatbot như ChatGPT, hoạt động giống như các công cụ tìm kiếm siêu tích điện, sử dụng dữ liệu mà chúng đã được đào tạo để trả lời các câu hỏi và hoàn thành nhiệm vụ bằng ngôn ngữ giống con người. Cho dù chúng là mô hình có sẵn công khai hay mô hình độc quyền được sử dụng nội bộ trong một tổ chức, AI tổng quát dựa trên LLM có thể khiến các công ty gặp phải những rủi ro nhất định về bảo mật và quyền riêng tư.

5 rủi ro LLM chính

1. Chia sẻ quá mức dữ liệu nhạy cảm

Các chatbot dựa trên LLM không giỏi giữ bí mật – hoặc quên chúng. Điều đó có nghĩa là bất kỳ dữ liệu nào bạn nhập vào đều có thể được mô hình tiếp thu và cung cấp cho người khác hoặc ít nhất được sử dụng để đào tạo các mô hình LLM trong tương lai. Công nhân Samsung Họ phát hiện ra điều này khi họ chia sẻ thông tin bí mật với ChatGPT trong khi sử dụng thông tin đó cho các nhiệm vụ liên quan đến công việc. Về mặt lý thuyết, mã và bản ghi cuộc họp mà họ nhập vào công cụ có thể thuộc phạm vi công cộng (hoặc ít nhất được lưu trữ để sử dụng trong tương lai, như được chỉ ra bởi Trung tâm An ninh mạng Quốc gia Vương quốc Anh gần đây). Đầu năm nay, chúng tôi đã xem xét kỹ hơn cách các tổ chức có thể tránh khiến dữ liệu của họ gặp rủi ro khi sử dụng LLM.

2. Thách thức về bản quyền  

LLM được đào tạo về số lượng lớn dữ liệu. Nhưng thông tin đó thường được lấy từ web mà không có sự cho phép rõ ràng của chủ sở hữu nội dung. Điều đó có thể tạo ra các vấn đề bản quyền tiềm ẩn nếu bạn tiếp tục sử dụng nó. Tuy nhiên, có thể khó tìm được nguồn dữ liệu đào tạo cụ thể ban đầu, khiến việc giảm thiểu những vấn đề này trở nên khó khăn.

3. Mã không an toàn

Các nhà phát triển đang ngày càng chuyển sang sử dụng ChatGPT và các công cụ tương tự để giúp họ đẩy nhanh thời gian đưa sản phẩm ra thị trường. Về lý thuyết, nó có thể trợ giúp bằng cách tạo các đoạn mã và thậm chí toàn bộ chương trình phần mềm một cách nhanh chóng và hiệu quả. Tuy nhiên, các chuyên gia bảo mật cảnh báo rằng nó cũng có thể tạo ra lỗ hổng. Đây là mối lo ngại đặc biệt nếu nhà phát triển không có đủ kiến ​​thức về miền để biết cần tìm lỗi nào. Nếu mã lỗi sau đó được đưa vào sản xuất, nó có thể gây ảnh hưởng nghiêm trọng đến danh tiếng và cần thời gian và tiền bạc để khắc phục.

4. Hack chính LLM

Việc truy cập trái phép và giả mạo LLM có thể cung cấp cho tin tặc nhiều tùy chọn để thực hiện các hoạt động độc hại, chẳng hạn như khiến mô hình tiết lộ thông tin nhạy cảm thông qua các cuộc tấn công tiêm nhiễm kịp thời hoặc thực hiện các hành động khác đáng lẽ phải bị chặn. Các cuộc tấn công khác có thể liên quan đến việc khai thác lỗ hổng giả mạo yêu cầu phía máy chủ (SSRF) trong máy chủ LLM, cho phép kẻ tấn công trích xuất tài nguyên nội bộ. Các tác nhân đe dọa thậm chí có thể tìm cách tương tác với các hệ thống và tài nguyên bí mật chỉ bằng cách gửi các lệnh độc hại thông qua lời nhắc bằng ngôn ngữ tự nhiên.

ĐỌC LIÊN QUAN: Mũ đen 2023: AI nhận được tiền thưởng hậu vệ lớn

Ví dụ: ChatGPT phải được đưa ngoại tuyến vào tháng XNUMX sau khi phát hiện ra lỗ hổng làm lộ tiêu đề trong lịch sử trò chuyện của một số người dùng với những người dùng khác. Để nâng cao nhận thức về các lỗ hổng trong ứng dụng LLM, Quỹ OWASP gần đây đã đưa ra danh sách 10 lỗ hổng bảo mật nghiêm trọng thường thấy trong các ứng dụng này.

5. Vi phạm dữ liệu tại nhà cung cấp AI

Luôn có khả năng một công ty phát triển mô hình AI có thể bị vi phạm, chẳng hạn như cho phép tin tặc đánh cắp dữ liệu đào tạo có thể bao gồm thông tin độc quyền nhạy cảm. Điều này cũng đúng với trường hợp rò rỉ dữ liệu – chẳng hạn như khi Google vô tình rò rỉ cuộc trò chuyện riêng tư của Bard vào kết quả tìm kiếm của nó.

Phải làm gì tiếp theo

Nếu tổ chức của bạn muốn bắt đầu khai thác tiềm năng của AI tạo lợi thế cạnh tranh, thì có một số điều tổ chức đó nên làm trước tiên để giảm thiểu một số rủi ro sau:

  • Mã hóa và ẩn danh dữ liệu: Mã hóa dữ liệu trước khi chia sẻ với LLM để giữ an toàn cho dữ liệu khỏi những con mắt tò mò và/hoặc xem xét các kỹ thuật ẩn danh để bảo vệ quyền riêng tư của những cá nhân có thể được nhận dạng trong bộ dữ liệu. Việc dọn dẹp dữ liệu có thể đạt được mục đích tương tự bằng cách loại bỏ các chi tiết nhạy cảm khỏi dữ liệu huấn luyện trước khi dữ liệu được đưa vào mô hình.
  • Kiểm soát truy cập nâng cao: Mật khẩu mạnh, xác thực đa yếu tố (MFA) và các chính sách đặc quyền tối thiểu sẽ giúp đảm bảo chỉ những cá nhân được ủy quyền mới có quyền truy cập vào mô hình AI tổng quát và các hệ thống phụ trợ.
  • Kiểm tra an ninh thường xuyên: Điều này có thể giúp phát hiện các lỗ hổng trong hệ thống CNTT của bạn. Lỗ hổng này có thể ảnh hưởng đến LLM và các mô hình AI tổng quát mà nó được xây dựng trên đó.
  • Thực hành kế hoạch ứng phó sự cố: Một kế hoạch IR vững chắc và được chuẩn bị kỹ lưỡng sẽ giúp tổ chức của bạn phản ứng nhanh chóng để ngăn chặn, khắc phục và phục hồi sau mọi vi phạm.
  • Các nhà cung cấp Vet LLM kỹ lưỡng: Đối với bất kỳ nhà cung cấp nào, điều quan trọng là phải đảm bảo công ty cung cấp LLM tuân theo các phương pháp hay nhất trong ngành về bảo mật và quyền riêng tư dữ liệu. Đảm bảo có thông tin công bố rõ ràng về nơi dữ liệu người dùng được xử lý và lưu trữ cũng như liệu dữ liệu đó có được sử dụng để huấn luyện mô hình hay không. Nó được giữ trong bao lâu? Nó có được chia sẻ với bên thứ ba không? Bạn có thể chọn tham gia/không cho phép dữ liệu của mình được sử dụng cho mục đích đào tạo không?
  • Đảm bảo nhà phát triển tuân theo các nguyên tắc bảo mật nghiêm ngặt: Nếu nhà phát triển của bạn đang sử dụng LLM để tạo mã, hãy đảm bảo họ tuân thủ chính sách, chẳng hạn như kiểm tra bảo mật và đánh giá ngang hàng, để giảm thiểu nguy cơ lỗi xâm nhập vào quá trình sản xuất.

Tin tốt là không cần phải phát minh lại bánh xe. Hầu hết những điều trên là các mẹo bảo mật thực tiễn tốt nhất đã được thử và kiểm tra. Họ có thể cần cập nhật/tinh chỉnh cho thế giới AI, nhưng hầu hết các nhóm bảo mật đều quen thuộc với logic cơ bản.

ĐỌC THÊM: A Bard's Tale – cách các bot AI giả cố gắng cài đặt phần mềm độc hại

Dấu thời gian:

Thêm từ Chúng tôi sống An ninh