Trong tạp chí phần đầu tiên Trong loạt bài gồm ba phần này, chúng tôi đã trình bày một giải pháp minh họa cách bạn có thể tự động phát hiện hành vi giả mạo và gian lận tài liệu trên quy mô lớn bằng cách sử dụng dịch vụ AWS AI và machine learning (ML) cho trường hợp sử dụng bảo lãnh thế chấp.
Trong bài đăng này, chúng tôi trình bày một cách tiếp cận để phát triển mô hình thị giác máy tính dựa trên deep learning nhằm phát hiện và làm nổi bật các hình ảnh giả mạo trong bảo lãnh thế chấp. Chúng tôi cung cấp hướng dẫn về xây dựng, đào tạo và triển khai mạng lưới học tập sâu trên Amazon SageMaker.
Trong Phần 3, chúng tôi trình bày cách triển khai giải pháp trên Phát hiện gian lận Amazon.
Tổng quan về giải pháp
Để đáp ứng mục tiêu phát hiện hành vi giả mạo tài liệu trong bảo lãnh thế chấp, chúng tôi sử dụng mô hình thị giác máy tính được lưu trữ trên SageMaker cho giải pháp phát hiện giả mạo hình ảnh của mình. Mô hình này nhận hình ảnh thử nghiệm làm đầu vào và đưa ra dự đoán về khả năng giả mạo làm đầu ra của nó. Kiến trúc mạng được mô tả trong sơ đồ sau.
Giả mạo hình ảnh chủ yếu bao gồm bốn kỹ thuật: nối, sao chép-di chuyển, loại bỏ và nâng cao. Tùy theo đặc điểm của hành vi giả mạo, có thể sử dụng các manh mối khác nhau làm cơ sở để phát hiện và khoanh vùng. Những manh mối này bao gồm các tạo phẩm nén JPEG, sự không nhất quán ở cạnh, kiểu nhiễu, tính nhất quán của màu sắc, độ tương tự về hình ảnh, tính nhất quán của EXIF và kiểu máy ảnh.
Với phạm vi phát hiện giả mạo hình ảnh ngày càng mở rộng, chúng tôi sử dụng thuật toán Phân tích mức độ lỗi (ELA) làm phương pháp minh họa để phát hiện hàng giả. Chúng tôi chọn kỹ thuật ELA cho bài đăng này vì những lý do sau:
- Nó thực hiện nhanh hơn và có thể dễ dàng phát hiện việc giả mạo hình ảnh.
- Nó hoạt động bằng cách phân tích mức độ nén của các phần khác nhau của hình ảnh. Điều này cho phép nó phát hiện những điểm không nhất quán có thể cho thấy sự giả mạo—ví dụ: nếu một vùng được sao chép và dán từ một hình ảnh khác đã được lưu ở mức nén khác.
- Nó có khả năng phát hiện tốt những hành vi giả mạo tinh vi hoặc liền mạch hơn mà khó có thể phát hiện bằng mắt thường. Ngay cả những thay đổi nhỏ đối với hình ảnh cũng có thể gây ra hiện tượng nén bất thường có thể phát hiện được.
- Nó không dựa vào việc có hình ảnh gốc chưa được sửa đổi để so sánh. ELA có thể xác định các dấu hiệu giả mạo chỉ trong chính hình ảnh được hỏi. Các kỹ thuật khác thường yêu cầu bản gốc chưa sửa đổi để so sánh.
- Đây là một kỹ thuật nhẹ chỉ dựa vào việc phân tích các thành phần nén trong dữ liệu hình ảnh kỹ thuật số. Nó không phụ thuộc vào phần cứng chuyên dụng hoặc chuyên môn pháp y. Điều này làm cho ELA có thể truy cập được như một công cụ phân tích lần đầu.
- Hình ảnh ELA đầu ra có thể làm nổi bật rõ ràng sự khác biệt về mức độ nén, làm cho các khu vực bị giả mạo trở nên rõ ràng. Điều này cho phép ngay cả những người không phải là chuyên gia cũng có thể nhận ra các dấu hiệu có thể bị thao túng.
- Nó hoạt động trên nhiều loại hình ảnh (chẳng hạn như JPEG, PNG và GIF) và chỉ yêu cầu chính hình ảnh đó để phân tích. Các kỹ thuật điều tra khác có thể bị hạn chế hơn về định dạng hoặc yêu cầu về hình ảnh gốc.
Tuy nhiên, trong các tình huống thực tế nơi bạn có thể có sự kết hợp của các tài liệu đầu vào (JPEG, PNG, GIF, TIFF, PDF), chúng tôi khuyên bạn nên sử dụng ELA kết hợp với nhiều phương pháp khác, chẳng hạn như phát hiện sự không nhất quán ở các cạnh, mô hình tiếng ồn, độ đồng đều màu sắc, Tính nhất quán của dữ liệu EXIF, nhận dạng mẫu máy ảnhvà tính đồng nhất của phông chữ. Chúng tôi mong muốn cập nhật mã cho bài đăng này bằng các kỹ thuật phát hiện giả mạo bổ sung.
Tiền đề cơ bản của ELA giả định rằng hình ảnh đầu vào có định dạng JPEG, được biết đến với khả năng nén bị mất dữ liệu. Tuy nhiên, phương pháp này vẫn có thể hiệu quả ngay cả khi hình ảnh đầu vào ban đầu ở định dạng lossless (chẳng hạn như PNG, GIF hoặc BMP) và sau đó được chuyển đổi sang JPEG trong quá trình giả mạo. Khi ELA được áp dụng cho các định dạng lossless ban đầu, nó thường cho thấy chất lượng hình ảnh nhất quán mà không có bất kỳ sự suy giảm nào, khiến việc xác định các khu vực bị thay đổi trở nên khó khăn. Trong ảnh JPEG, tiêu chuẩn dự kiến là toàn bộ ảnh sẽ có mức nén tương tự. Tuy nhiên, nếu một phần cụ thể trong hình ảnh hiển thị mức lỗi khác rõ rệt thì điều đó thường cho thấy đã có sự thay đổi kỹ thuật số đã được thực hiện.
ELA nêu bật sự khác biệt về tốc độ nén JPEG. Các vùng có màu đồng nhất có thể sẽ có kết quả ELA thấp hơn (ví dụ: màu tối hơn so với các cạnh có độ tương phản cao). Những điều cần tìm để xác định hành vi giả mạo hoặc sửa đổi bao gồm:
- Các cạnh tương tự phải có độ sáng tương tự trong kết quả ELA. Tất cả các cạnh có độ tương phản cao sẽ trông giống nhau và tất cả các cạnh có độ tương phản thấp sẽ trông giống nhau. Với ảnh gốc, các cạnh có độ tương phản thấp phải sáng gần bằng các cạnh có độ tương phản cao.
- Họa tiết tương tự phải có màu tương tự theo ELA. Các khu vực có nhiều chi tiết bề mặt hơn, chẳng hạn như cận cảnh một quả bóng rổ, có thể sẽ có kết quả ELA cao hơn bề mặt nhẵn.
- Bất kể màu sắc thực tế của bề mặt là gì, tất cả các bề mặt phẳng phải có cùng màu theo ELA.
Hình ảnh JPEG sử dụng hệ thống nén có tổn thất. Mỗi lần mã hóa lại (lưu lại) hình ảnh sẽ làm tăng thêm chất lượng của hình ảnh. Cụ thể, thuật toán JPEG hoạt động trên lưới 8×8 pixel. Mỗi ô vuông 8×8 được nén độc lập. Nếu hình ảnh hoàn toàn chưa được sửa đổi thì tất cả các ô vuông 8×8 sẽ có khả năng xảy ra lỗi tương tự. Nếu hình ảnh chưa được sửa đổi và được lưu lại thì mọi hình vuông sẽ xuống cấp với tốc độ gần như nhau.
ELA lưu hình ảnh ở mức chất lượng JPEG được chỉ định. Việc lưu lại này gây ra một số lỗi đã biết trên toàn bộ hình ảnh. Sau đó, hình ảnh được lưu lại sẽ được so sánh với hình ảnh gốc. Nếu một hình ảnh được sửa đổi thì mỗi ô vuông 8×8 được sửa đổi sẽ có khả năng xảy ra lỗi cao hơn phần còn lại của hình ảnh.
Kết quả từ ELA phụ thuộc trực tiếp vào chất lượng hình ảnh. Bạn có thể muốn biết liệu nội dung nào đó đã được thêm vào hay chưa, nhưng nếu ảnh được sao chép nhiều lần thì ELA có thể chỉ cho phép phát hiện các bản lưu lại. Cố gắng tìm phiên bản chất lượng tốt nhất của hình ảnh.
Thông qua đào tạo và thực hành, ELA cũng có thể học cách xác định tỷ lệ, chất lượng, cắt xén và lưu lại các phép biến đổi. Ví dụ: nếu hình ảnh không phải JPEG chứa các đường lưới hiển thị (rộng 1 pixel trong hình vuông 8×8), thì điều đó có nghĩa là ảnh bắt đầu dưới dạng JPEG và được chuyển đổi sang định dạng không phải JPEG (chẳng hạn như PNG). Nếu một số khu vực của hình ảnh thiếu các đường lưới hoặc các đường lưới dịch chuyển thì điều đó biểu thị một phần bị ghép hoặc bị vẽ trong hình ảnh không phải JPEG.
Trong các phần sau, chúng tôi trình bày các bước để định cấu hình, huấn luyện và triển khai mô hình thị giác máy tính.
Điều kiện tiên quyết
Để theo dõi bài đăng này, hãy hoàn thành các điều kiện tiên quyết sau:
- Có tài khoản AWS.
- Thiết lập Xưởng sản xuất Amazon SageMaker. Bạn có thể nhanh chóng khởi chạy SageMaker Studio bằng cách sử dụng các cài đặt trước mặc định, tạo điều kiện khởi chạy nhanh chóng. Để biết thêm thông tin, hãy tham khảo Amazon SageMaker đơn giản hóa việc thiết lập Amazon SageMaker Studio cho người dùng cá nhân.
- Mở SageMaker Studio và khởi chạy thiết bị đầu cuối hệ thống.
- Chạy lệnh sau trong terminal:
git clone https://github.com/aws-samples/document-tampering-detection.git
- Tổng chi phí chạy SageMaker Studio cho một người dùng và cấu hình của môi trường máy tính xách tay là 7.314 USD mỗi giờ.
Thiết lập sổ tay đào tạo mẫu
Hoàn thành các bước sau để thiết lập sổ ghi chép đào tạo của bạn:
- Mở
tampering_detection_training.ipynb
tập tin từ thư mục phát hiện giả mạo tài liệu. - Thiết lập môi trường máy tính xách tay với hình ảnh TensorFlow 2.6 Python 3.8 CPU hoặc GPU Optimized.
Bạn có thể gặp phải vấn đề không đủ khả năng hoặc đạt đến giới hạn hạn ngạch cho các phiên bản GPU trong tài khoản AWS của mình khi chọn các phiên bản được tối ưu hóa GPU. Để tăng hạn ngạch, hãy truy cập bảng điều khiển Định mức dịch vụ và tăng giới hạn dịch vụ cho loại phiên bản cụ thể mà bạn cần. Bạn cũng có thể sử dụng môi trường máy tính xách tay được tối ưu hóa CPU trong những trường hợp như vậy. - Trong Hạt nhân, chọn Con trăn3.
- Trong Loại phiên bản, chọn ml.m5d.24xlarge hoặc bất kỳ trường hợp lớn nào khác.
Chúng tôi đã chọn loại phiên bản lớn hơn để giảm thời gian đào tạo của mô hình. Với môi trường máy tính xách tay ml.m5d.24xlarge, chi phí mỗi giờ là 7.258 USD mỗi giờ.
Chạy sổ ghi chép đào tạo
Chạy từng ô trong sổ ghi chép tampering_detection_training.ipynb
theo thứ tự. Chúng ta sẽ thảo luận chi tiết hơn về một số ô trong các phần sau.
Chuẩn bị tập dữ liệu với danh sách các hình ảnh gốc và giả mạo
Trước khi bạn chạy ô sau trong sổ ghi chép, hãy chuẩn bị tập dữ liệu gồm các tài liệu gốc và tài liệu giả mạo dựa trên yêu cầu kinh doanh cụ thể của bạn. Đối với bài đăng này, chúng tôi sử dụng tập dữ liệu mẫu gồm các phiếu lương giả mạo và bảng sao kê ngân hàng. Tập dữ liệu có sẵn trong thư mục hình ảnh của Kho GitHub.
Máy tính xách tay đọc các hình ảnh gốc và giả mạo từ images/training
thư mục.
Tập dữ liệu đào tạo được tạo bằng tệp CSV có hai cột: đường dẫn đến tệp hình ảnh và nhãn cho hình ảnh (0 cho hình ảnh gốc và 1 cho hình ảnh giả mạo).
Xử lý tập dữ liệu bằng cách tạo kết quả ELA của từng hình ảnh đào tạo
Trong bước này, chúng tôi tạo ra kết quả ELA (với chất lượng 90%) của hình ảnh đào tạo đầu vào. Chức năng convert_to_ela_image
lấy hai tham số: đường dẫn, là đường dẫn đến tệp hình ảnh và chất lượng, biểu thị tham số chất lượng để nén JPEG. Hàm thực hiện các bước sau:
- Chuyển đổi hình ảnh sang định dạng RGB và lưu lại hình ảnh dưới dạng tệp JPEG với chất lượng được chỉ định dưới tên tempresaved.jpg.
- Tính toán sự khác biệt giữa ảnh gốc và ảnh JPEG đã lưu lại (ELA) để xác định chênh lệch tối đa về giá trị pixel giữa ảnh gốc và ảnh được lưu lại.
- Tính hệ số tỷ lệ dựa trên độ chênh lệch tối đa để điều chỉnh độ sáng của hình ảnh ELA.
- Tăng cường độ sáng của hình ảnh ELA bằng hệ số tỷ lệ được tính toán.
- Thay đổi kích thước kết quả ELA thành 128x128x3, trong đó 3 biểu thị số kênh cần giảm kích thước đầu vào cho quá trình đào tạo.
- Trả lại hình ảnh ELA.
Ở các định dạng hình ảnh bị mất chất lượng như JPEG, quá trình lưu ban đầu dẫn đến mất màu đáng kể. Tuy nhiên, khi hình ảnh được tải và sau đó được mã hóa lại ở cùng định dạng bị mất, nhìn chung độ suy giảm màu sắc sẽ ít hơn. Kết quả ELA nhấn mạnh các vùng hình ảnh dễ bị suy giảm màu sắc nhất khi lưu lại. Nói chung, những thay đổi xuất hiện nổi bật ở những vùng có khả năng suy giảm chất lượng cao hơn so với phần còn lại của hình ảnh.
Tiếp theo, hình ảnh được xử lý thành mảng NumPy để huấn luyện. Sau đó, chúng tôi chia ngẫu nhiên tập dữ liệu đầu vào thành dữ liệu huấn luyện và kiểm tra hoặc xác thực (80/20). Bạn có thể bỏ qua mọi cảnh báo khi chạy các ô này.
Tùy thuộc vào kích thước của tập dữ liệu, việc chạy các ô này có thể mất thời gian để hoàn thành. Đối với tập dữ liệu mẫu mà chúng tôi cung cấp trong kho lưu trữ này, có thể mất 5–10 phút.
Định cấu hình mô hình CNN
Trong bước này, chúng tôi xây dựng một phiên bản tối thiểu của mạng VGG với các bộ lọc tích chập nhỏ. VGG-16 bao gồm 13 lớp chập và ba lớp được kết nối đầy đủ. Ảnh chụp màn hình sau đây minh họa kiến trúc của mô hình Mạng thần kinh chuyển đổi (CNN) của chúng tôi.
Lưu ý các cấu hình sau:
- Đầu vào – Mô hình có kích thước hình ảnh đầu vào là 128x128x3.
- lớp tích chập – Các lớp chập sử dụng trường tiếp nhận tối thiểu (3×3), kích thước nhỏ nhất có thể mà vẫn ghi được lên/xuống và trái/phải. Tiếp theo là chức năng kích hoạt đơn vị tuyến tính được chỉnh lưu (ReLU) giúp giảm thời gian đào tạo. Đây là hàm tuyến tính sẽ xuất đầu vào nếu dương; mặt khác, đầu ra bằng không. Bước tiến tích chập được cố định ở mặc định (1 pixel) để giữ nguyên độ phân giải không gian sau khi tích chập (sải bước là số lần dịch chuyển pixel trên ma trận đầu vào).
- Các lớp được kết nối đầy đủ – Mạng có hai lớp được kết nối đầy đủ. Lớp dày đặc đầu tiên sử dụng kích hoạt ReLU và lớp thứ hai sử dụng softmax để phân loại hình ảnh là nguyên bản hoặc giả mạo.
Bạn có thể bỏ qua mọi cảnh báo khi chạy các ô này.
Lưu các tạo phẩm mô hình
Lưu mô hình đã đào tạo bằng một tên tệp duy nhất—ví dụ: dựa trên ngày và giờ hiện tại—vào một thư mục có tên model.
Mô hình được lưu ở định dạng Keras với phần mở rộng .keras
. Chúng tôi cũng lưu các tạo phẩm mô hình dưới dạng thư mục có tên 1 chứa các chữ ký được tuần tự hóa và trạng thái cần thiết để chạy chúng, bao gồm các giá trị biến và từ vựng để triển khai vào thời gian chạy SageMaker (mà chúng ta sẽ thảo luận sau trong bài đăng này).
Đo lường hiệu suất mô hình
Đường cong tổn thất sau đây cho thấy sự tiến triển của tổn thất của mô hình qua các giai đoạn huấn luyện (lặp lại).
Hàm mất mát đo lường mức độ dự đoán của mô hình phù hợp với mục tiêu thực tế. Giá trị thấp hơn cho thấy sự liên kết tốt hơn giữa dự đoán và giá trị thực. Giảm tổn thất qua các thời kỳ có nghĩa là mô hình đang được cải thiện. Đường cong độ chính xác minh họa độ chính xác của mô hình qua các giai đoạn huấn luyện. Độ chính xác là tỷ lệ dự đoán đúng trên tổng số dự đoán. Độ chính xác cao hơn cho thấy mô hình hoạt động tốt hơn. Thông thường, độ chính xác tăng lên trong quá trình đào tạo khi mô hình học các mẫu và cải thiện khả năng dự đoán của nó. Những điều này sẽ giúp bạn xác định xem mô hình có bị trang bị quá mức (hoạt động tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu không nhìn thấy) hay trang bị thiếu (không học đủ từ dữ liệu huấn luyện).
Ma trận nhầm lẫn sau đây thể hiện một cách trực quan mức độ mô hình phân biệt chính xác giữa các lớp dương tính (hình ảnh giả mạo, được biểu thị dưới dạng giá trị 1) và âm bản (hình ảnh không bị giả mạo, được biểu thị dưới dạng giá trị 0).
Sau đào tạo mô hình, bước tiếp theo của chúng tôi liên quan đến việc triển khai mô hình thị giác máy tính dưới dạng API. API này sẽ được tích hợp vào các ứng dụng kinh doanh như một thành phần của quy trình bảo lãnh phát hành. Để đạt được điều này, chúng tôi sử dụng Amazon SageMaker Inference, một dịch vụ được quản lý hoàn toàn. Dịch vụ này tích hợp liền mạch với các công cụ MLOps, cho phép triển khai mô hình có thể mở rộng, suy luận hiệu quả về chi phí, quản lý mô hình nâng cao trong sản xuất và giảm độ phức tạp trong vận hành. Trong bài đăng này, chúng tôi triển khai mô hình này như một điểm cuối suy luận theo thời gian thực. Tuy nhiên, điều quan trọng cần lưu ý là, tùy thuộc vào quy trình làm việc của các ứng dụng kinh doanh của bạn, việc triển khai mô hình cũng có thể được điều chỉnh dưới dạng xử lý hàng loạt, xử lý không đồng bộ hoặc thông qua kiến trúc triển khai không có máy chủ.
Thiết lập sổ ghi chép triển khai mô hình
Hoàn thành các bước sau để thiết lập sổ ghi chép triển khai mô hình của bạn:
- Mở
tampering_detection_model_deploy.ipynb
tập tin từ thư mục phát hiện giả mạo tài liệu. - Thiết lập môi trường notebook với hình ảnh Data Science 3.0.
- Trong Hạt nhân, chọn Con trăn3.
- Trong Loại phiên bản, chọn ml.t3.medium.
Với môi trường máy tính xách tay ml.t3.medium, chi phí mỗi giờ là 0.056 USD.
Tạo chính sách nội tuyến tùy chỉnh cho vai trò SageMaker để cho phép tất cả hành động của Amazon S3
Sản phẩm Quản lý truy cập và nhận dạng AWS (IAM) cho SageMaker sẽ ở định dạng AmazonSageMaker- ExecutionRole-<random numbers>
. Hãy đảm bảo bạn đang sử dụng đúng vai trò. Bạn có thể tìm thấy tên vai trò trong phần chi tiết người dùng trong cấu hình miền SageMaker.
Cập nhật vai trò IAM để bao gồm chính sách nội tuyến nhằm cho phép tất cả Dịch vụ lưu trữ đơn giản của Amazon hành động (Amazon S3). Điều này sẽ được yêu cầu để tự động hóa việc tạo và xóa các nhóm S3 sẽ lưu trữ các thành phần lạ của mô hình. Bạn có thể giới hạn quyền truy cập vào các nhóm S3 cụ thể. Lưu ý rằng chúng tôi đã sử dụng ký tự đại diện cho tên nhóm S3 trong chính sách IAM (tamperingdetection*
).
Chạy sổ ghi chép triển khai
Chạy từng ô trong sổ ghi chép tampering_detection_model_deploy.ipynb
theo thứ tự. Chúng ta sẽ thảo luận chi tiết hơn về một số ô trong các phần sau.
Tạo một thùng S3
Chạy ô để tạo vùng lưu trữ S3. Xô sẽ được đặt tên tamperingdetection<current date time>
và trong cùng Khu vực AWS với môi trường SageMaker Studio của bạn.
Tạo kho lưu trữ tạo phẩm mô hình và tải lên Amazon S3
Tạo tệp tar.gz từ các tạo phẩm mô hình. Chúng tôi đã lưu các tạo phẩm mô hình dưới dạng thư mục có tên 1, chứa các chữ ký được tuần tự hóa và trạng thái cần thiết để chạy chúng, bao gồm các giá trị biến và từ vựng để triển khai vào thời gian chạy SageMaker. Bạn cũng có thể bao gồm một tệp suy luận tùy chỉnh có tên inference.py
trong thư mục mã trong tạo phẩm mô hình. Suy luận tùy chỉnh có thể được sử dụng để xử lý trước và xử lý hậu kỳ hình ảnh đầu vào.
Tạo điểm cuối suy luận SageMaker
Ô để tạo điểm cuối suy luận SageMaker có thể mất vài phút để hoàn thành.
Kiểm tra điểm cuối suy luận
Các chức năng check_image
xử lý trước hình ảnh dưới dạng hình ảnh ELA, gửi hình ảnh đó đến điểm cuối SageMaker để suy luận, truy xuất và xử lý các dự đoán của mô hình cũng như in kết quả. Mô hình lấy mảng NumPy của hình ảnh đầu vào làm hình ảnh ELA để đưa ra dự đoán. Các dự đoán được đưa ra là 0, đại diện cho hình ảnh không bị giả mạo và 1, đại diện cho hình ảnh giả mạo.
Hãy gọi mô hình có hình ảnh chưa được chỉnh sửa của cuống phiếu lương và kiểm tra kết quả.
Mô hình đưa ra phân loại là 0, biểu thị hình ảnh không bị giả mạo.
Bây giờ, hãy gọi mô hình có hình ảnh giả mạo của phiếu lương và kiểm tra kết quả.
Mô hình đưa ra phân loại là 1, đại diện cho một hình ảnh giả mạo.
Hạn chế
Mặc dù ELA là một công cụ tuyệt vời để giúp phát hiện các sửa đổi nhưng vẫn có một số hạn chế, chẳng hạn như sau:
- Một thay đổi pixel hoặc điều chỉnh màu nhỏ có thể không tạo ra thay đổi đáng chú ý trong ELA vì JPEG hoạt động trên lưới.
- ELA chỉ xác định vùng nào có mức nén khác nhau. Nếu một hình ảnh có chất lượng thấp hơn được ghép thành một hình ảnh có chất lượng cao hơn thì hình ảnh có chất lượng thấp hơn có thể xuất hiện dưới dạng vùng tối hơn.
- Việc chia tỷ lệ, đổi màu hoặc thêm nhiễu vào hình ảnh sẽ sửa đổi toàn bộ hình ảnh, tạo ra mức độ lỗi cao hơn.
- Nếu một hình ảnh được lưu lại nhiều lần thì nó có thể hoàn toàn ở mức lỗi tối thiểu, trong đó nhiều lần lưu lại không làm thay đổi hình ảnh. Trong trường hợp này, ELA sẽ trả về hình ảnh màu đen và không thể xác định được sửa đổi nào bằng thuật toán này.
- Với Photoshop, hành động lưu ảnh đơn giản có thể tự động làm sắc nét các kết cấu và cạnh, tạo ra mức độ lỗi cao hơn. Tạo tác này không xác định hành vi sửa đổi có chủ ý; nó xác định rằng một sản phẩm Adobe đã được sử dụng. Về mặt kỹ thuật, ELA xuất hiện dưới dạng sửa đổi vì Adobe tự động thực hiện sửa đổi nhưng việc sửa đổi đó không nhất thiết phải do người dùng cố ý.
Chúng tôi khuyên bạn nên sử dụng ELA cùng với các kỹ thuật khác đã được thảo luận trước đây trong blog để phát hiện nhiều trường hợp xử lý hình ảnh hơn. ELA cũng có thể phục vụ như một công cụ độc lập để kiểm tra trực quan sự khác biệt của hình ảnh, đặc biệt khi việc đào tạo mô hình dựa trên CNN trở nên khó khăn.
Làm sạch
Để xóa tài nguyên bạn đã tạo như một phần của giải pháp này, hãy hoàn thành các bước sau:
- Chạy các ô sổ ghi chép bên dưới Dọn dẹp phần. Điều này sẽ xóa những điều sau đây:
- Điểm cuối suy luận SageMaker – Tên điểm cuối suy luận sẽ là
tamperingdetection-<datetime>
. - Các đối tượng trong nhóm S3 và chính nhóm S3 – Tên nhóm sẽ là
tamperingdetection<datetime>
.
- Điểm cuối suy luận SageMaker – Tên điểm cuối suy luận sẽ là
- Đóng cửa tài nguyên sổ ghi chép SageMaker Studio.
Kết luận
Trong bài đăng này, chúng tôi đã trình bày một giải pháp toàn diện để phát hiện hành vi giả mạo và gian lận tài liệu bằng cách sử dụng deep learning và SageMaker. Chúng tôi đã sử dụng ELA để xử lý trước hình ảnh và xác định sự khác biệt về mức độ nén có thể cho thấy sự thao túng. Sau đó, chúng tôi đã huấn luyện mô hình CNN trên tập dữ liệu đã xử lý này để phân loại hình ảnh là ảnh gốc hoặc hình ảnh giả mạo.
Mô hình có thể đạt được hiệu suất mạnh mẽ, với độ chính xác trên 95% với tập dữ liệu (giả mạo và nguyên bản) phù hợp với yêu cầu kinh doanh của bạn. Điều này cho thấy rằng nó có thể phát hiện các tài liệu giả mạo như phiếu lương và bảng sao kê ngân hàng một cách đáng tin cậy. Mô hình đã đào tạo được triển khai tới điểm cuối SageMaker để cho phép suy luận có độ trễ thấp trên quy mô lớn. Bằng cách tích hợp giải pháp này vào quy trình thế chấp, các tổ chức có thể tự động gắn cờ các tài liệu đáng ngờ để điều tra gian lận thêm.
Mặc dù mạnh mẽ nhưng ELA có một số hạn chế trong việc xác định một số loại thao tác tinh vi hơn. Ở các bước tiếp theo, mô hình có thể được nâng cao bằng cách kết hợp các kỹ thuật điều tra bổ sung vào quá trình đào tạo và sử dụng các bộ dữ liệu lớn hơn, đa dạng hơn. Nhìn chung, giải pháp này thể hiện cách bạn có thể sử dụng dịch vụ deep learning và AWS để xây dựng các giải pháp có tác động mạnh mẽ giúp tăng hiệu quả, giảm thiểu rủi ro và ngăn chặn gian lận.
Trong Phần 3, chúng tôi trình bày cách triển khai giải pháp trên Amazon Fraud Detector.
Giới thiệu về tác giả
Anup Ravindranath là Kiến trúc sư giải pháp cấp cao tại Amazon Web Services (AWS) có trụ sở tại Toronto, Canada làm việc với các tổ chức Dịch vụ tài chính. Anh ấy giúp khách hàng chuyển đổi doanh nghiệp của họ và đổi mới trên đám mây.
Vinnie Saini là Kiến trúc sư giải pháp cấp cao tại Amazon Web Services (AWS) có trụ sở tại Toronto, Canada. Cô ấy đã và đang giúp các khách hàng của Dịch vụ tài chính chuyển đổi trên đám mây, với các giải pháp dựa trên AI và ML được đặt trên các trụ cột nền tảng vững chắc của Kiến trúc xuất sắc.
- Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
- PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
- PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
- Trung tâmESG. Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
- PlatoSức khỏe. Tình báo thử nghiệm lâm sàng và công nghệ sinh học. Truy cập Tại đây.
- nguồn: https://aws.amazon.com/blogs/machine-learning/train-and-host-a-computer-vision-model-for-tampering-detection-on-amazon-sagemaker-part-2/
- : có
- :là
- :không phải
- :Ở đâu
- $ LÊN
- 056
- 1
- 100
- 13
- 195
- 408
- 75
- 8
- 95%
- a
- có khả năng
- Giới thiệu
- truy cập
- có thể truy cập
- Tài khoản
- chính xác
- chính xác
- Đạt được
- ngang qua
- Hành động
- hành động
- kích hoạt
- thực tế
- thêm
- thêm
- thêm vào
- Thêm
- điều chỉnh
- Điều chỉnh
- Adobe
- Sau
- chống lại
- AI
- nhằm mục đích
- thuật toán
- liên kết
- Tất cả
- cho phép
- cho phép
- gần như
- dọc theo
- bên cạnh
- Ngoài ra
- thay đổi
- thay đổi
- đàn bà gan dạ
- Phát hiện gian lận Amazon
- Amazon SageMaker
- Xưởng sản xuất Amazon SageMaker
- Amazon Web Services
- Amazon Web Services (AWS)
- số lượng
- an
- phân tích
- phân tích
- phân tích
- và
- Một
- bất kì
- api
- xuất hiện
- xuất hiện
- các ứng dụng
- áp dụng
- phương pháp tiếp cận
- khoảng
- kiến trúc
- kiến trúc
- lưu trữ
- LÀ
- KHU VỰC
- khu vực
- Mảng
- AS
- giả định
- At
- tự động hóa
- tự động
- sẵn có
- có sẵn
- AWS
- Ngân hàng
- dựa
- Bóng rổ
- BE
- bởi vì
- trở thành
- được
- BEST
- Hơn
- giữa
- Đen
- Blog
- tăng
- Tươi
- xây dựng
- Xây dựng
- kinh doanh
- Ứng dụng kinh doanh
- các doanh nghiệp
- nhưng
- by
- tính
- gọi là
- máy ảnh
- CAN
- Canada
- chụp
- trường hợp
- trường hợp
- Catch
- pin
- Tế bào
- nhất định
- thách thức
- thay đổi
- Những thay đổi
- kênh
- đặc điểm
- kiểm tra
- Chọn
- các lớp học
- phân loại
- Phân loại
- Rõ ràng
- đám mây
- CNN
- mã
- màu sắc
- Cột
- kết hợp
- so sánh
- so
- sự so sánh
- hoàn thành
- hoàn toàn
- phức tạp
- thành phần
- máy tính
- Tầm nhìn máy tính
- cấu hình
- cấu hình
- nhầm lẫn
- kết hợp
- kết nối
- đáng kể
- thích hợp
- bao gồm
- An ủi
- xây dựng
- chứa
- chuyển đổi
- chuyển đổi
- mạng lưới thần kinh tích chập
- sửa chữa
- Phí Tổn
- có thể
- CPU
- tạo
- tạo ra
- Tạo
- tạo
- Current
- đường cong
- khách hàng
- khách hàng
- tối hơn
- dữ liệu
- khoa học dữ liệu
- bộ dữ liệu
- Ngày
- giảm
- sâu
- học kĩ càng
- Mặc định
- chứng minh
- chứng minh
- biểu thị
- ngu si
- phụ thuộc
- phụ thuộc
- Tùy
- miêu tả
- triển khai
- triển khai
- triển khai
- triển khai
- chi tiết
- chi tiết
- phát hiện
- phát hiện
- Phát hiện
- Xác định
- phát triển
- sơ đồ
- sự khác biệt
- sự khác biệt
- khác nhau
- kỹ thuật số
- trực tiếp
- thảo luận
- thảo luận
- màn hình
- phân biệt
- khác nhau
- do
- tài liệu
- tài liệu
- Không
- miền
- rút ra
- điều khiển
- suốt trong
- mỗi
- dễ dàng
- Cạnh
- cạnh
- Hiệu quả
- hiệu quả
- nhấn mạnh
- thuê mướn
- cho phép
- cho phép
- Cuối cùng đến cuối
- Điểm cuối
- nâng cao
- tăng cường
- đủ
- Toàn bộ
- hoàn toàn
- Môi trường
- kỷ nguyên
- lôi
- lỗi
- đặc biệt
- Ether (ETH)
- Ngay cả
- Mỗi
- Kiểm tra
- ví dụ
- Xuất sắc
- tuyệt vời
- triển lãm
- Trưng bày
- mở rộng
- dự kiến
- chuyên môn
- mở rộng
- mắt
- tạo điều kiện
- yếu tố
- vài
- lĩnh vực
- Tập tin
- bộ lọc
- tài chính
- dịch vụ tài chính
- Tìm kiếm
- Tên
- cố định
- bằng phẳng
- theo
- sau
- tiếp theo
- Trong
- Pháp y
- pháp y
- giả mạo
- sự giả mạo
- định dạng
- định dạng
- tìm thấy
- Nền tảng
- nền tảng
- 4
- gian lận
- từ
- đầy đủ
- chức năng
- xa hơn
- nói chung
- tạo ra
- tạo
- tạo ra
- gif
- đi
- tốt
- GPU
- lớn hơn
- lưới
- hướng dẫn
- có
- Xử lý
- Cứng
- phần cứng
- Có
- có
- he
- giúp đỡ
- giúp đỡ
- giúp
- cao hơn
- Đánh dấu
- nổi bật
- Đánh
- chủ nhà
- tổ chức
- giờ
- Độ đáng tin của
- Hướng dẫn
- Tuy nhiên
- HTML
- http
- HTTPS
- IAM
- xác định
- xác định
- xác định
- xác định
- Bản sắc
- IEEE
- if
- bỏ qua
- minh họa
- hình ảnh
- hình ảnh
- ảnh hưởng lớn
- thực hiện
- quan trọng
- cải thiện
- cải thiện
- in
- bao gồm
- Bao gồm
- mâu thuẫn
- kết hợp
- Tăng lên
- Tăng
- độc lập
- độc lập
- chỉ
- chỉ
- hệ thống riêng biệt,
- thông tin
- ban đầu
- bắt đầu
- đổi mới
- đầu vào
- ví dụ
- trường hợp
- tổ chức
- không đầy đủ
- tích hợp
- Tích hợp
- Tích hợp
- Cố ý
- trong
- giới thiệu
- Giới thiệu
- điều tra
- liên quan đến
- vấn đề
- IT
- sự lặp lại
- ITS
- chính nó
- jpg
- Giữ
- máy ảnh
- Biết
- nổi tiếng
- nhãn
- Thiếu sót
- đặt
- lớn
- lớn hơn
- một lát sau
- phóng
- lớp
- lớp
- Dẫn
- LEARN
- học tập
- học
- ít
- Cấp
- niveaux
- trọng lượng nhẹ
- Lượt thích
- khả năng
- Có khả năng
- LIMIT
- hạn chế
- tuyến tính
- dòng
- Danh sách
- Nội địa hóa
- Xem
- sự mất
- thấp hơn
- máy
- học máy
- thực hiện
- phần lớn
- làm cho
- LÀM CHO
- Làm
- quản lý
- quản lý
- Thao tác
- nhiều
- Trận đấu
- Matrix
- tối đa
- Có thể..
- có nghĩa
- các biện pháp
- trung bình
- Gặp gỡ
- phương pháp
- phương pháp
- tối thiểu
- tối thiểu
- nhỏ
- phút
- ML
- MLOps
- kiểu mẫu
- Sửa đổi
- sửa đổi
- sửa đổi
- chi tiết
- Thế chấp
- hầu hết
- nhiều
- tên
- Được đặt theo tên
- nhất thiết
- Cần
- cần thiết
- tiêu cực
- mạng
- mạng
- Thần kinh
- mạng lưới thần kinh
- Tuy nhiên
- tiếp theo
- Không
- Tiếng ồn
- ghi
- máy tính xách tay
- đáng chú ý
- con số
- cục mịch
- Mục tiêu
- Rõ ràng
- of
- thường
- on
- ONE
- có thể
- hoạt động
- hoạt động
- tối ưu hóa
- or
- gọi món
- tổ chức
- nguyên
- ban đầu
- Nền tảng khác
- nếu không thì
- vfoXNUMXfipXNUMXhfpiXNUMXufhpiXNUMXuf
- kết quả
- đầu ra
- kết quả đầu ra
- kết thúc
- tổng thể
- tham số
- thông số
- một phần
- riêng
- các bộ phận
- con đường
- mô hình
- mỗi
- hiệu suất
- thực hiện
- biểu diễn
- thực hiện
- hình chụp
- photoshop
- hình ảnh
- trụ cột
- điểm ảnh
- plato
- Thông tin dữ liệu Plato
- PlatoDữ liệu
- âm mưu
- điều luật
- phần
- tích cực
- có thể
- Bài đăng
- tiềm năng
- tiềm năng
- mạnh mẽ
- thực hành
- dự đoán
- Dự đoán
- dự đoán
- Chuẩn bị
- điều kiện tiên quyết
- trình bày
- trình bày
- bảo quản
- ngăn chặn
- trước đây
- in
- quá trình
- xử lý
- Quy trình
- xử lý
- Sản phẩm
- Sản lượng
- tiến triển
- cho
- cung cấp
- Python
- chất lượng
- Đặt câu hỏi
- nhanh hơn
- ngẫu nhiên
- phạm vi
- nhanh
- Tỷ lệ
- tỉ lệ
- thế giới thực
- thời gian thực
- vương quốc
- lý do
- nhận
- công nhận
- giới thiệu
- cải chính
- giảm
- Giảm
- làm giảm
- xem
- khu
- vùng
- sự trở lại
- dựa
- loại bỏ
- tẩy
- vẽ
- kho
- đại diện
- đại diện
- đại diện cho
- yêu cầu
- cần phải
- Yêu cầu
- đòi hỏi
- Độ phân giải
- Thông tin
- REST của
- hạn chế
- kết quả
- Kết quả
- trở lại
- RGB
- Nguy cơ
- Vai trò
- chạy
- chạy
- thời gian chạy
- nhà làm hiền triết
- Suy luận của SageMaker
- tương tự
- Tập dữ liệu mẫu
- Lưu
- lưu
- tiết kiệm
- khả năng mở rộng
- Quy mô
- mở rộng quy mô
- kịch bản
- Khoa học
- liền mạch
- liền mạch
- Thứ hai
- Phần
- phần
- chọn
- lựa chọn
- gửi
- cao cấp
- Loạt Sách
- phục vụ
- Không có máy chủ
- dịch vụ
- DỊCH VỤ
- định
- thiết lập
- chị ấy
- thay đổi
- Thay đổi
- nên
- Chương trình
- Chữ ký
- biểu thị
- Dấu hiệu
- tương tự
- Đơn giản
- đơn giản hóa
- duy nhất
- Kích thước máy
- nhỏ
- nhỏ nhất
- trơn tru
- giải pháp
- Giải pháp
- một số
- một cái gì đó
- không gian
- chuyên nghành
- riêng
- đặc biệt
- quy định
- chia
- Spot
- vuông
- hình vuông
- bắt đầu
- Tiểu bang
- báo cáo
- Bước
- Các bước
- Vẫn còn
- là gắn
- hàng
- stride
- mạnh mẽ
- phòng thu
- Sau đó
- như vậy
- Gợi ý
- chắc chắn
- Bề mặt
- apt
- đáng ngờ
- nhanh chóng
- hệ thống
- phù hợp
- Hãy
- mất
- mục tiêu
- về mặt kỹ thuật
- kỹ thuật
- kỹ thuật
- tensorflow
- Thiết bị đầu cuối
- thử nghiệm
- Kiểm tra
- hơn
- việc này
- Sản phẩm
- Nhà nước
- cung cấp their dịch
- Them
- sau đó
- Đó
- Kia là
- điều
- điều này
- số ba
- Thông qua
- thời gian
- thời gian
- đến
- công cụ
- công cụ
- toronto
- Tổng số:
- xúc động
- Train
- đào tạo
- Hội thảo
- Chuyển đổi
- biến đổi
- đúng
- thử
- hai
- kiểu
- loại
- thường
- Dưới
- cơ bản
- bảo lãnh phát hành
- độc đáo
- đơn vị
- Cập nhật
- trên
- Đô la Mỹ
- sử dụng
- ca sử dụng
- đã sử dụng
- người sử dang
- sử dụng
- sử dụng
- xác nhận
- giá trị
- Các giá trị
- biến
- khác nhau
- phiên bản
- có thể nhìn thấy
- tầm nhìn
- Truy cập
- trực quan
- trực quan
- muốn
- là
- we
- web
- các dịch vụ web
- TỐT
- là
- Điều gì
- khi nào
- cái nào
- rộng
- sẽ
- với
- ở trong
- không có
- quy trình làm việc
- Luồng công việc
- đang làm việc
- công trinh
- bạn
- trên màn hình
- zephyrnet
- không