AAAI 2021: Các bài báo nghiên cứu hàng đầu với ứng dụng kinh doanh

Được xuất bản lại bởi Plato

Người theo dõi: 0

ErnIe-ViL AAAI 2021

Với một mức cao kỷ lục trong số 9034 bài báo nghiên cứu nộp cho AAAI 2021 và tỷ lệ chấp nhận là 21%, tổng số 1692 bài báo đã được trình bày tại hội nghị. Như thường lệ, Giải thưởng Giấy tờ Xuất sắc và Xuất sắc đã được trao cho các bài báo thể hiện các tiêu chuẩn cao nhất về đóng góp kỹ thuật và trình bày. Tất nhiên, có rất nhiều tham luận được trình bày tại hội nghị đáng để bạn quan tâm.

Để giúp bạn nắm rõ những đột phá nổi bật trong nghiên cứu AI, chúng tôi đã tóm tắt một số tài liệu nghiên cứu thú vị nhất của AAAI 2021 do Google, Alibaba, Baidu và các nhóm nghiên cứu hàng đầu khác giới thiệu.

Nếu bạn muốn bỏ qua, đây là những bài báo chúng tôi giới thiệu:

Nếu nội dung giáo dục chuyên sâu này hữu ích cho bạn, đăng ký vào danh sách gửi thư nghiên cứu AI của chúng tôi để được cảnh báo khi chúng tôi phát hành tài liệu mới.

Các bài báo nghiên cứu hàng đầu của AAAI 2021

1. Người cung cấp thông tin: Ngoài Máy biến áp Hiệu quả để Dự báo Chuỗi thời gian Chuỗi dài, bởi Haoyi Zhou, Shanghang Zhang, Jieqi Peng, Shuai Zhang, Jianxin Li, Hui Xiong, Wancai Zhang

Tóm tắt gốc

Nhiều ứng dụng trong thế giới thực yêu cầu dự đoán chuỗi thời gian dài, chẳng hạn như lập kế hoạch tiêu thụ điện. Dự báo chuỗi thời gian chuỗi dài (LSTF) đòi hỏi khả năng dự đoán cao của mô hình, đó là khả năng nắm bắt khớp nối phụ thuộc phạm vi dài chính xác giữa đầu ra và đầu vào một cách hiệu quả. Các nghiên cứu gần đây đã cho thấy tiềm năng của Máy biến áp để tăng khả năng dự đoán. Tuy nhiên, có một số vấn đề nghiêm trọng với Transformer khiến nó không thể áp dụng trực tiếp cho LSTF, chẳng hạn như độ phức tạp thời gian bậc hai, mức sử dụng bộ nhớ cao và hạn chế cố hữu của kiến trúc bộ mã hóa-giải mã. Để giải quyết những vấn đề này, chúng tôi thiết kế một mô hình dựa trên máy biến áp hiệu quả cho LSTF, được đặt tên là Informer, với ba đặc điểm riêng biệt: (i) a ProbSpase Cơ chế tự chú ý, đạt được O (L đăng nhập L) về độ phức tạp về thời gian và sử dụng bộ nhớ, đồng thời có hiệu suất tương đương về sự liên kết phụ thuộc của trình tự. (ii) các điểm nổi bật của việc chắt lọc sự chú ý của bản thân chi phối sự chú ý bằng cách giảm một nửa đầu vào lớp xếp tầng và xử lý hiệu quả các chuỗi đầu vào cực dài. (iii) bộ giải mã kiểu tổng quát, trong khi đơn giản về mặt khái niệm, dự đoán các chuỗi thời gian dài tại một hoạt động chuyển tiếp thay vì theo cách từng bước, giúp cải thiện đáng kể tốc độ suy luận của các dự đoán chuỗi dài. Các thí nghiệm mở rộng trên bốn bộ dữ liệu quy mô lớn chứng minh rằng Informer làm tốt hơn đáng kể các phương pháp hiện có và cung cấp một giải pháp mới cho vấn đề LSTF.

Tóm tắt của chúng tôi

Các kiến trúc Máy biến áp hiện tại không hiệu quả đối với dự báo chuỗi thời gian trình tự dài (LSTF), trong đó mô hình cần tìm hiểu các phụ thuộc đầu vào đầu ra phạm vi dài và cũng để cung cấp tốc độ suy luận khả thi để dự đoán nhiều bước hơn trong tương lai (ví dụ: ghi nhiệt độ hàng giờ trong hơn 480 ngày). Để làm cho kiến trúc khả thi cho các đầu vào tuần tự dài, các tác giả đã đề xuất ProbSparse Tự chú ý cơ chế với O (L đăng nhập L) phức tạp hơn là O (L2) phức tạp, ở đâu L là độ dài của dãy. Một phương pháp tự chưng cất được đề xuất để mở rộng mạng lưới hiệu quả để có độ chính xác tốt hơn, với O ((2 - ε) L đăng nhập L) sự phức tạp thay cho O (J · L2) độ phức tạp của một Máy biến áp thông thường, trong đó J là số lớp máy biến áp. Bộ giải mã kiểu generative được điều chỉnh để tăng tốc độ suy luận so với dự đoán từng bước của mọi điểm trong đầu ra. Phương pháp đề xuất được chứng minh là hoạt động tốt hơn các phương pháp hiện có trong năm bộ dữ liệu thế giới thực cho các tác vụ bao gồm dự đoán ETT (Nhiệt độ máy biến áp điện), ECL (Tải tiêu thụ điện) và Thời tiết.

Người cung cấp thông tin AAAI 2021 — *Tổng quan về Mô hình Người cung cấp Thông tin*

Ý tưởng cốt lõi của bài báo này là gì?

ProbSparse Tự chú ý được đề xuất để tận dụng sự phân bố thưa thớt hoặc dài hạn của các xác suất tự chú ý trong đó chỉ một số trọng số chú ý của truy vấn chính thúc đẩy phần lớn tính toán. ProbSparse đạt được O (L đăng nhập L) phức tạp, cải thiện trên O (L2).
Để chia tỷ lệ mô hình bằng cách xếp chồng các lớp biến áp, các tác giả đã đề xuất một kỹ thuật tự chưng cất bằng cách sử dụng các phép toán tích chập và tối đa để kích thước đầu ra của lớp hiện tại, tức là kích thước đầu vào của lớp tiếp theo, nhỏ hơn kích thước đầu vào của lớp hiện tại. Điều này đạt được O ((2 - ε) L đăng nhập L) phức tạp, so với O (J · L2) cho một Máy biến áp nói chung.
Cuối cùng, để làm cho tốc độ suy luận có thể mở rộng, một bộ giải mã kiểu gen được đề xuất để dự đoán nhiều điểm trong tương lai trong một lần chuyển tiếp.

Thành tựu quan trọng là gì?

Phương pháp được đề xuất đạt được hiệu suất vượt trội trên năm bộ dữ liệu trong thế giới thực cho cả dự báo chuỗi thời gian dài chuỗi đơn biến và đa biến cho các tác vụ như dự đoán ETT (Nhiệt độ máy biến áp), ECL (Tải tiêu thụ điện) và Thời tiết.

Cộng đồng AI nghĩ gì?

Bài báo đã nhận được Giải thưởng Giấy xuất sắc tại AAAI 2021.

Ứng dụng kinh doanh có thể là gì?

Cách tiếp cận được đề xuất có thể được sử dụng để dự đoán các chuỗi dài, bao gồm tiêu thụ năng lượng, chỉ báo thời tiết, giá cổ phiếu, v.v.

Bạn có thể lấy mã thực hiện ở đâu?

Việc triển khai PyTorch ban đầu của bài báo này có sẵn trên GitHub.

2. TabNet: Học theo bảng có thể diễn giải được chú ý, bởi Sercan O. Arik và Tomas Pfister

Tóm tắt gốc

Chúng tôi đề xuất một kiến trúc học tập dữ liệu dạng bảng sâu chính tắc có hiệu suất cao và có thể diễn giải mới, TabNet. TabNet sử dụng sự chú ý tuần tự để chọn các tính năng cần lập luận ở mỗi bước quyết định, cho phép khả năng diễn giải và học tập hiệu quả hơn vì năng lực học tập được sử dụng cho các tính năng nổi bật nhất. Chúng tôi chứng minh rằng TabNet hoạt động tốt hơn các biến thể mạng nơ-ron và cây quyết định khác trên một loạt các tập dữ liệu dạng bảng không bão hòa về hiệu suất và mang lại các phân bổ tính năng có thể diễn giải cùng với thông tin chi tiết về hành vi của mô hình toàn cầu. Cuối cùng, lần đầu tiên theo hiểu biết của chúng tôi, chúng tôi chứng minh khả năng học tập tự giám sát đối với dữ liệu dạng bảng, cải thiện đáng kể hiệu suất với tính năng học đại diện không giám sát khi dữ liệu không được gắn nhãn dồi dào.

Tóm tắt của chúng tôi

Nhóm AI của Google Cloud giải quyết vấn đề áp dụng mạng thần kinh sâu cho dữ liệu dạng bảng. Trong khi mạng nơ ron sâu tỏa sáng ở khả năng trích xuất tự động các tính năng và học từ đầu đến cuối, việc thiếu thiên vị quy nạp để mô hình hóa các ranh giới quyết định đầu ra phổ biến trong dữ liệu dạng bảng và việc thiếu khả năng diễn giải đã hạn chế việc áp dụng rộng rãi mạng thần kinh sâu cho dạng bảng dữ liệu. Các tác giả đưa ra một cơ chế chú ý tuần tự để chọn một tập hợp con các đặc điểm để xử lý ở mỗi bước. Điều này cải thiện hiệu quả học tập và khả năng diễn giải bằng cách chứng minh lý luận ở mỗi bước, tương tự như cây quyết định. Việc lựa chọn tính năng được thực hiện cho từng trường hợp để tăng hiệu suất mô hình với nhiều dữ liệu hơn. Đào tạo trước không giám sát cũng được sử dụng để tăng hiệu suất với nhiệm vụ dự đoán các giá trị bị che ở các hàng khác nhau của các cột khác nhau. Mô hình TabNet được đề xuất hoạt động tốt hơn hoặc ngang bằng với các phương pháp tiêu chuẩn cho dữ liệu dạng bảng trong khi loại bỏ các bước lựa chọn tính năng và kỹ thuật tính năng.

Ý tưởng cốt lõi của bài báo này là gì?

Phát triển một cơ chế chú ý tuần tự chỉ tập trung vào một tập hợp con các tính năng trong khi che dấu các tính năng khác ở mỗi bước trước khi xử lý. Điều này giúp ích cho việc học tập hiệu quả, vì mô hình chỉ xử lý các tính năng nổi bật và cũng như khả năng diễn giải, vì các bước lập luận có thể được phân tích dựa trên các tính năng đã chọn.
Đào tạo trước không giám sát được chứng minh là hữu ích trong việc tăng hiệu suất của mô hình bằng cách dự đoán các giá trị bị che. Hiệu suất gia tăng này nằm ngoài khả năng của các mô hình ML truyền thống vì chúng không thể được đào tạo trước một cách thiếu giám sát.

Thành tựu quan trọng là gì?

Các thử nghiệm cho thấy rằng phương pháp được đề xuất, TabNet, hoạt động tốt bằng hoặc tốt hơn các mô hình dữ liệu dạng bảng đã thiết lập trên năm bộ dữ liệu trong thế giới thực trong khi giải quyết các mối quan tâm về khả năng diễn giải.

Ứng dụng kinh doanh có thể là gì?

Phương pháp này có thể hữu ích cho bất kỳ ứng dụng nào làm việc với dữ liệu dạng bảng, đây có thể là kiểu dữ liệu phổ biến nhất trong các ứng dụng học máy trong thế giới thực.

Bạn có thể lấy mã thực hiện ở đâu?

Việc triển khai PyTorch của bài báo này có sẵn trên GitHub.

3. Đào tạo một bộ phân loại trường hợp một triệu chiều để học cách trình bày bằng hình ảnh không được giám sát, bởi Yu Liu, Lianghua Huang, Pan Pan, Bin Wang, Yinghui Xu, Rong Jin

Tóm tắt gốc

Bài báo này trình bày một phương pháp học biểu diễn trực quan đơn giản không giám sát với nhiệm vụ giả định là phân biệt tất cả các hình ảnh trong tập dữ liệu bằng cách sử dụng bộ phân loại cấp cá thể, tham số. Khung tổng thể là một bản sao của mô hình phân loại có giám sát, trong đó các lớp ngữ nghĩa (ví dụ: chó, chim và tàu) được thay thế bằng các ID phiên bản. Tuy nhiên, việc mở rộng nhiệm vụ phân loại từ hàng nghìn nhãn ngữ nghĩa đến hàng triệu nhãn cá thể mang lại những thách thức cụ thể bao gồm 1) tính toán softmax quy mô lớn; 2) sự hội tụ chậm do việc thăm các mẫu cá thể không thường xuyên; và 3) số lượng lớn các lớp tiêu cực có thể gây ồn ào. Công việc này trình bày một số kỹ thuật mới để xử lý những khó khăn này. Đầu tiên, chúng tôi giới thiệu một khung đào tạo song song kết hợp để làm cho việc đào tạo quy mô lớn trở nên khả thi. Thứ hai, chúng tôi trình bày một cơ chế khởi tạo tính năng thô cho các trọng số phân loại, cơ chế mà chúng tôi cho rằng cung cấp một sự phân biệt đối lập trước đó cho ví dụ và rõ ràng có thể tăng tốc độ hội tụ trong các thử nghiệm của chúng tôi. Cuối cùng, chúng tôi đề xuất làm mịn các nhãn của một số lớp khó nhất để tránh tối ưu hóa trên các cặp phủ định rất giống nhau. Mặc dù đơn giản về mặt khái niệm, nhưng khuôn khổ của chúng tôi đạt được hiệu suất cạnh tranh hoặc vượt trội so với các phương pháp tiếp cận không được giám sát hiện đại, tức là SimCLR, MoCoV2 và PIC theo giao thức đánh giá tuyến tính ImageNet và trên một số tác vụ trực quan hạ nguồn, xác minh rằng phân loại phiên bản đầy đủ là một kỹ thuật tiền đào tạo mạnh mẽ cho nhiều nhiệm vụ trực quan ngữ nghĩa.

Tóm tắt của chúng tôi

Học biểu diễn không giám sát đã tỏ ra có lợi khi chúng ta có nhiều dữ liệu nhưng ít nhãn hoặc khi nhiệm vụ chưa được xác định đầy đủ. Nhóm nghiên cứu của Alibaba giải quyết vấn đề của việc học biểu diễn không giám sát liền mạch mà không cần tạo ra các cặp phủ định hoặc các hàm mục tiêu mới. Phương pháp được đề xuất coi việc học biểu diễn không được giám sát như một nhiệm vụ phân loại có giám sát ở cấp cá thể, ngụ ý rằng tất cả các hình ảnh đều được gán một lớp duy nhất và một n-mô hình phân loại đường được đào tạo, ở đâu n là tổng số hình ảnh trong tập dữ liệu. Các tác giả cũng đề xuất các kỹ thuật mới để đối phó với nhiệm vụ phân loại quy mô lớn này, bao gồm kỹ thuật song song mô hình cho tính toán softmax, kỹ thuật tạo ra sự tương phản trước đó và kỹ thuật làm phẳng sự thật nền tảng của các lớp phủ định rất giống nhau. Phương pháp này vượt trội hơn so với các mô hình hiện đại trước đây cho việc học biểu diễn không giám sát như SimCLR và PIC.

Ý tưởng cốt lõi của bài báo này là gì?

Xử lý việc học biểu diễn không được giám sát như một nhiệm vụ phân loại cấp cá thể quy mô lớn.
Đề xuất các kỹ thuật mới để xử lý các nhiệm vụ phân loại quy mô lớn:
- giới thiệu một khung đào tạo song song kết hợp để tính toán hoạt động softmax trên các thiết bị khác nhau;
- tạo ra sự tương phản trước đó bằng cách trình bày cơ chế khởi tạo tính năng thô cho các trọng số phân loại (nghĩa là, các trọng số được khởi tạo với các tính năng cá thể đã được trích xuất bằng cách chạy một kỷ nguyên suy luận, trong đó mô hình là một mạng nơ-ron ngẫu nhiên cố định chỉ có các lớp chuẩn hóa hàng loạt đang được đào tạo);
- làm mịn sự thật nền tảng của các lớp phủ định rất giống nhau.

Thành tựu quan trọng là gì?

Công trình này đã phát minh ra một phương pháp mới, đơn giản và hiệu quả để học biểu diễn không giám sát mà không sử dụng các cặp phủ định trong học đối chiếu cấp lớp hoặc kích thước lô lớn để giảm thiểu rò rỉ dữ liệu trong học đối chiếu cấp thể hiện.

Ứng dụng kinh doanh có thể là gì?

Phương pháp này có thể được sử dụng để phân cụm các hình ảnh không được gắn nhãn, do đó tạo điều kiện thuận lợi cho việc tìm kiếm hình ảnh tương tự và gắn thẻ hình ảnh cho các hệ thống lưu trữ hình ảnh.

4. ERNIE-ViL: Biểu diễn ngôn ngữ-thị giác nâng cao kiến thức thông qua đồ thị cảnh, bởi Fei Yu, Jiji Tang, Weichong Yin, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang

Tóm tắt gốc

Chúng tôi đề xuất phương pháp tiếp cận nâng cao kiến thức, ERNIE-ViL, kết hợp kiến thức có cấu trúc thu được từ biểu đồ cảnh để tìm hiểu các đại diện chung của ngôn ngữ hình ảnh. ERNIE-ViL cố gắng xây dựng các kết nối ngữ nghĩa chi tiết (đối tượng, thuộc tính của đối tượng và mối quan hệ giữa các đối tượng) giữa thị giác và ngôn ngữ, điều này cần thiết cho các nhiệm vụ đa phương thức ngôn ngữ-thị giác. Sử dụng đồ thị cảnh của các cảnh trực quan, ERNIE-ViL xây dựng các nhiệm vụ Dự đoán Đồ thị Cảnh, tức là các nhiệm vụ Dự đoán đối tượng, Dự đoán thuộc tính và Dự đoán mối quan hệ trong giai đoạn trước khi đào tạo. Cụ thể, các tác vụ dự đoán này được thực hiện bằng cách dự đoán các nút thuộc các loại khác nhau trong biểu đồ cảnh được phân tích cú pháp từ câu. Do đó, ERNIE-ViL có thể tìm hiểu các đại diện chung mô tả sự liên kết của ngữ nghĩa chi tiết trên tầm nhìn và ngôn ngữ. Sau khi đào tạo trước về bộ dữ liệu được căn chỉnh bằng hình ảnh-văn bản quy mô lớn, chúng tôi xác nhận tính hiệu quả của ERNIE-ViL trên 5 tác vụ hạ nguồn đa phương thức. ERNIE-ViL đạt được hiệu suất hiện đại trong tất cả các nhiệm vụ này và đứng ở vị trí đầu tiên trên bảng xếp hạng VCR với mức cải thiện tuyệt đối là 3.7%.

Tóm tắt của chúng tôi

Trong công việc này, nhóm nghiên cứu Baidu đã cố gắng giải quyết sự liên kết của các khái niệm ngữ nghĩa trong không gian trực quan và ngôn ngữ để các mô hình thực hiện tốt hơn các nhiệm vụ đa phương thức đòi hỏi lý luận vật lý thông thường (ví dụ: lý luận thông thường trực quan và trả lời câu hỏi trực quan). Các tác giả nhằm cung cấp cho các mô hình kiến thức có cấu trúc hơn về các cảnh bằng cách đào tạo trước các mô hình để dự đoán rõ ràng các đối tượng, các thuộc tính của chúng và các mối quan hệ đối tượng-đối tượng. Với một hình ảnh và một văn bản tương ứng, thay vì che dấu và dự đoán các mã thông báo ngẫu nhiên trong văn bản, các tác giả đã sử dụng phân tích cú pháp biểu đồ cảnh và mã thông báo có mặt nạ đại diện cụ thể cho các đối tượng, thuộc tính của chúng và quan hệ đối tượng-đối tượng. Mô hình đã được đào tạo trước để dự đoán các mã thông báo có mặt nạ trong văn bản được đưa ra một hình ảnh. Cách tiếp cận được giới thiệu đã đạt được kết quả hiện đại trong bộ dữ liệu đa phương thức để truy xuất văn bản và truy xuất hình ảnh, đồng thời cũng xếp hạng đầu tiên trên bảng xếp hạng nhiệm vụ VCR với mức cải thiện 3.7% so với giải pháp tốt nhất tiếp theo.

Ý tưởng cốt lõi của bài báo này là gì?

Tương tự như mô hình ngôn ngữ có mặt nạ giống như BERT, các mô hình phụ đề hình ảnh được đào tạo để dự đoán mã thông báo có mặt nạ trong chú thích hình ảnh cho hình ảnh và các mã thông báo khác. Ý tưởng cốt lõi của bài báo này là che giấu các mã thông báo một cách có chọn lọc thay vì che chúng một cách ngẫu nhiên.
Trong cách tiếp cận này, chỉ các mã thông báo đại diện cho các thực thể phong phú về mặt ngữ nghĩa như đối tượng, thuộc tính của đối tượng và quan hệ đối tượng-đối tượng mới được che dấu. Điều này đạt được sự liên kết ngữ nghĩa tốt hơn giữa văn bản và hình ảnh vì tất cả việc học tập trung vào các mã thông báo phong phú về mặt ngữ nghĩa trong chú thích hình ảnh.

Thành tựu quan trọng là gì?

Có được nền tảng tốt hơn của các thực thể văn bản ngữ nghĩa trong không gian trực quan.
Đạt được kết quả hiện đại nhất trong việc truy xuất hình ảnh / văn bản và các tác vụ suy luận thông thường bằng hình ảnh.

Lĩnh vực nghiên cứu trong tương lai là gì?

Kết hợp đồ thị cảnh được trích xuất từ hình ảnh vào đào tạo trước đa phương thức.
Sử dụng mạng nơron biểu đồ để biểu diễn hình ảnh và văn bản

Ứng dụng kinh doanh có thể là gì?

Việc liên kết tốt hơn các khái niệm ngữ nghĩa sẽ mang lại kết quả tốt hơn cho việc truy xuất hình ảnh với văn bản, chú thích hình ảnh, trả lời câu hỏi trực quan và dự báo các hành động trong tương lai.

5. Học trình bày biểu đồ bắt chước được củng cố cho việc lập hồ sơ người dùng trên thiết bị di động: Quan điểm đào tạo đối thủ, bởi Dongjie Wang, Pengyang Wang, Kunpeng Liu, Yuanchun Zhou, Charles Hughes, Yanjie Fu

Tóm tắt gốc

Trong bài báo này, chúng tôi nghiên cứu vấn đề lập hồ sơ người dùng di động, đây là một thành phần quan trọng để định lượng đặc điểm của người dùng trong quy trình lập mô hình di động của con người. Khả năng di chuyển của con người là một quá trình ra quyết định tuần tự phụ thuộc vào sở thích năng động của người dùng. Với hồ sơ người dùng chính xác, mô hình dự đoán có thể tái tạo hoàn hảo quỹ đạo di chuyển của người dùng. Theo hướng ngược lại, một khi mô hình dự đoán có thể bắt chước mô hình di chuyển của người dùng, thì các cấu hình người dùng đã học cũng tối ưu. Trực giác như vậy thúc đẩy chúng tôi đề xuất một khung lập hồ sơ người dùng di động dựa trên bắt chước bằng cách khai thác phương pháp học tăng cường, trong đó tác nhân được đào tạo để bắt chước chính xác các kiểu di chuyển của người dùng cho hồ sơ người dùng tối ưu. Cụ thể, khung đề xuất bao gồm hai mô-đun: (1) mô-đun đại diện, tạo ra trạng thái kết hợp hồ sơ người dùng và bối cảnh không gian-thời gian trong thời gian thực; (2) mô-đun bắt chước, trong đó Deep Q-network (DQN) bắt chước hành vi của người dùng (hành động) dựa trên trạng thái được tạo ra bởi mô-đun đại diện. Tuy nhiên, có hai thách thức trong việc vận hành hiệu quả khuôn khổ. Đầu tiên, chiến lược tham lam epsilon trong DQN sử dụng sự đánh đổi thăm dò-khai thác bằng cách chọn ngẫu nhiên các hành động với xác suất epsilon. Sự ngẫu nhiên như vậy sẽ quay trở lại mô-đun đại diện, gây ra sự không ổn định của hồ sơ người dùng đã học. Để giải quyết vấn đề này, chúng tôi đề xuất một chiến lược đào tạo đối thủ để đảm bảo tính mạnh mẽ của mô-đun đại diện. Thứ hai, mô-đun đại diện cập nhật hồ sơ của người dùng theo cách tăng dần, yêu cầu tích hợp các tác động tạm thời của hồ sơ người dùng. Lấy cảm hứng từ Bộ nhớ dài hạn (LSTM), chúng tôi giới thiệu một cơ chế kiểm soát để kết hợp các đặc điểm của người dùng mới và cũ vào hồ sơ người dùng.

Tóm tắt của chúng tôi

Việc lập hồ sơ người dùng di động tốt hơn có thể dự đoán chính xác nơi người dùng đi tiếp theo sẽ giúp cá nhân hóa tốt hơn các tính năng của trợ lý ảo và quảng cáo cho các dịch vụ liên quan, trong số các trường hợp sử dụng khác. Mô hình hóa hành vi của người dùng từ dữ liệu trong quá khứ và đạt được hồ sơ người dùng di động đặt ra rất nhiều thách thức, bao gồm sở thích năng động của người dùng thay đổi theo thời gian và khó khăn trong việc mô hình hóa bối cảnh không gian-thời gian của tính di động trong thời gian thực. Công việc này giải quyết vấn đề lập hồ sơ người dùng trên thiết bị di động bằng cách xây dựng tác nhân hỗ trợ học tập củng cố (RL) có thể bắt chước các quyết định của người dùng, tức là dự đoán chính xác các bước tiếp theo của họ. Các tác giả đã đạt được hồ sơ người dùng di động chính xác bằng cách dự đoán chính xác hành vi của người dùng bởi vì, khi hồ sơ người dùng chính xác dự đoán hành vi tương lai của người dùng, dự đoán chính xác về hành vi trong tương lai của người dùng cũng đạt được hồ sơ di động chính xác. Phương pháp đề xuất đạt được kết quả vượt trội so với các phương pháp hiện có trên hai bộ dữ liệu thế giới thực quy mô lớn được thu thập từ New York và Bắc Kinh.

Ý tưởng cốt lõi của bài báo này là gì?

Để dự đoán hành vi của người dùng trong tương lai, các tác giả giới thiệu một phương pháp học bắt chước dựa trên RL được gọi là Tăng cường học đại diện mô phỏng (RIRL). Học bắt chước được thực hiện bằng cách sử dụng đào tạo đối nghịch trong đó người tạo, tác nhân bắt chước, dự đoán hành vi của người dùng và người phân biệt cố gắng học cách phân biệt hành vi nào được dự đoán bởi trình tạo và hành vi nào từ dữ liệu trong thế giới thực. Tác nhân bắt chước dự đoán chính xác hành vi của người dùng trong tương lai sau khi trình tạo và phân biệt được đào tạo.
Mạng thần kinh biểu đồ được sử dụng để thể hiện bản chất không gian-thời gian của hành vi người dùng di động, tốt hơn là mã hóa nó thành một chuỗi hoặc chỉ một danh sách các địa điểm đã ghé thăm.
Biến thể RNN có cảm hứng về bộ nhớ dài hạn (LSTM) được phát minh và sử dụng để mô hình hóa bản chất năng động của sở thích người dùng với cơ chế kiểm soát để chỉ giữ lại thông tin có liên quan từ quá khứ. Vectơ trạng thái cho tác nhân bắt chước RL được tạo bằng các biểu diễn từ biến thể RNN này và đồ thị mạng nơ-ron.

Giấy RIRL AAAI 2021 — *Một ví dụ cho khung RIRL*

Thành tựu quan trọng là gì?

Lập hồ sơ người dùng di động tốt hơn bằng cách dự đoán hành vi của người dùng trong tương lai bằng cách sử dụng tác nhân bắt chước do RL cung cấp được đào tạo đối thủ.
Kết quả tốt hơn các phương pháp hiện có trên nhiều bộ dữ liệu trong thế giới thực.

Ứng dụng kinh doanh có thể là gì?

Việc dự đoán chính xác nơi một người sẽ đến tiếp theo sẽ mở ra một bộ ứng dụng kinh doanh thú vị như:
- đề xuất các ưu đãi, nhà hàng hoặc dịch vụ dựa trên vị trí;
- các tính năng trợ lý ảo được cá nhân hóa tốt hơn;
- tự động hóa các tác vụ hữu ích thông qua các thiết bị IoT tại nhà ngay trước khi người dùng về nhà.

Chúng tôi sẽ cho bạn biết khi chúng tôi phát hành thêm các bài viết tóm tắt như thế này.