Sơ lược về lịch sử ngữ nghĩa

Sơ lược về lịch sử ngữ nghĩa

Nút nguồn: 1972497
ngữ nghĩangữ nghĩa

Như một từ, “ngữ nghĩa” lần đầu tiên được sử dụng bởi Michel Breal, một nhà ngữ văn người Pháp (một nhà sử học ngôn ngữ), vào năm 1883. Ông đã nghiên cứu cách tổ chức ngôn ngữ, cách ngôn ngữ thay đổi theo thời gian và mối liên hệ trong các ngôn ngữ. Nói chung, ngữ nghĩa học là nghiên cứu về ngôn ngữ và ý nghĩa của nó. 

Cụ thể hơn, ngữ nghĩa có thể được sử dụng để mô tả cách các từ có thể có ý nghĩa khác nhau đối với những người khác nhau do nền tảng kinh nghiệm và cảm xúc của họ. Ngôn ngữ có thể là ngôn ngữ tự nhiên, chẳng hạn như tiếng Pháp, tiếng Hà Lan hoặc tiếng Hindi hoặc có thể là ngôn ngữ nhân tạo, chẳng hạn như ngôn ngữ lập trình cho máy tính.

Các nhà khoa học máy tính lý thuyết nghiên cứu và phát triển ngôn ngữ nhân tạo, trong khi các nhà ngôn ngữ học nghiên cứu ngôn ngữ tự nhiên.

Trong 1967, Robert W. Floyd đã viết một bài báo mô tả việc sử dụng ngữ nghĩa ngôn ngữ trong máy tính và được công nhận vì đã bắt đầu lĩnh vực ngữ nghĩa ngôn ngữ lập trình. Floyd mô tả ngôn ngữ lập trình có hai phần: ngữ nghĩa (ý nghĩa) và cú pháp (hình thức). Để đọc được, thuật toán máy tính phải kết hợp ngữ nghĩa và cú pháp, mã hóa chúng một cách chính xác để máy tính có thể xử lý chúng một cách tự động. (Con người làm điều này ở cấp độ tiềm thức.)

Giáo sư Donald Knuth đã nói điều này về Floyd: “Ngày xưa, các lập trình viên chỉ loay hoay với các chương trình cho đến khi chúng có vẻ hoạt động. Cách tiếp cận của ông trong việc kết hợp toán học với khoa học máy tính là một khám phá mới cho lĩnh vực này.”

Khái niệm về hệ thống thông tin toàn cầu đã trở nên khả thi về mặt công nghệ vào cuối những năm 1980. Đến năm 1985, Internet đã trở nên phổ biến ở châu Âu. Năm 1988, kết nối IP trực tiếp đầu tiên giữa Bắc Mỹ và Châu Âu diễn ra. Sau đó nhanh chóng là các cuộc thảo luận về hệ thống thông tin và truyền thông giống như web.

World Wide Web và truyền thông xã hội

Khi mọi người bắt đầu làm việc trên World Wide Web, “loại” công ty quan tâm đến công nghệ sẽ xác định hướng kinh doanh mà công ty sẽ thực hiện. Khi mọi người thử nghiệm World Wide Web, trọng tâm chuyển sang tương tác xã hội và các nền tảng truyền thông xã hội như Facebook, LinkedIn, Google+, Instagram, Vine, Pinterest, Twitter và Tumblr, tất cả đều yêu cầu sự tương tác của con người. 

Vì ngôn ngữ tự nhiên có cấu trúc mà con người có thể giải thích nhưng máy móc thì không thể, con người phải “đọc” ý nghĩa của ngôn ngữ tự nhiên và trở thành một phần của hệ thống.

Gần đây hơn, các nhà nghiên cứu đã bắt đầu hợp nhất các ngôn ngữ lập trình với ngôn ngữ học, cho phép các nhà nghiên cứu kết hợp ngữ nghĩa và dữ liệu lớn khi họ cố gắng nắm bắt. trí tuệ nhân tạo đến cấp độ tiếp theo. Ngữ nghĩa là một quá trình nhận thức nhiều hơn những gì các tập tin và bộ nhớ máy tính có thể yêu cầu. Đó là quá trình thiết kế và sử dụng ngôn ngữ để giao tiếp và thể hiện kiến ​​thức. Nó cũng có thể cung cấp nền tảng cho quá trình suy nghĩ.

Web ngữ nghĩa so với World Wide Web

Vào tháng 2001 năm XNUMX, một bài báo có tựa đề “Web ngữ nghĩa” được xuất bản và tác giả bởi James Hendler, Ora Lassila và Tim Berners-Lee. (Tim Berners-Lee tiếp tục trở thành giám đốc của World Wide Web Consortium, hay W3C.) Bài báo của họ mô tả một cách mới để sử dụng và tìm kiếm trên Internet, một khía cạnh bổ sung đầy những khả năng mới. Mặc dù con người có thể đọc văn bản của trang web HTML nhưng máy tính/công cụ tìm kiếm thì không thể (trừ khi các thẻ mà nó có thể đọc được cố tình chèn vào). Điều này là do HTML được thiết kế để lưu trữ thông tin trực quan và không được viết bằng ngôn ngữ lập trình.

Semantic Web là một phần mở rộng của World Wide Web và tập trung vào công nghệ. World Wide Web cần sự hiện diện của con người, trong khi Semantic Web thì không. Nó sử dụng dữ liệu được mã hóa “ẩn”, và gần đây hơn là các quy trình ngôn ngữ tự nhiên để tìm kiếm, biên dịch và sắp xếp thông tin từ web. Web ngữ nghĩa chỉ cần sự hiện diện của con người để bắt đầu yêu cầu.

Ngữ nghĩa và dữ liệu được liên kết

Khái niệm dữ liệu được liên kết là một khía cạnh rất hữu ích của Web ngữ nghĩa và có chức năng đáng chú ý như một công cụ giáo dục. Nó có thể được sử dụng để xuất bản và chia sẻ thông tin trên internet. Cụm từ "Dữ liệu mở được liên kết” đã được sử dụng ít nhất từ ​​năm 2007, khi danh sách gửi thư cho Liên kết Dữ liệu Mở lần đầu tiên được tạo ra. Các Liên kết cộng đồng Dữ liệu MởMục tiêu của nó là mở rộng trang web với nguồn dữ liệu chung, cung cấp thông tin, thường ở dạng biểu đồ, dưới dạng thông tin miễn phí.

Internet cung cấp một lượng thông tin gần như vô tận. Từ bảng tính đến hình ảnh và từ video đến trang web tập hợp tất cả lại với nhau, các liên kết kết nối trang này với trang khác và cho phép chúng tôi khám phá luồng thông tin không ngừng phát triển. World Wide Web được mô tả là một trang web gồm các “tài liệu” được liên kết, trong khi dữ liệu được liên kết mô tả một trang web gồm các “dữ liệu” được liên kết. 

Dữ liệu được liên kết cho phép máy tính kết hợp dữ liệu và thông tin theo nhiều cách phức tạp. Tình huống này có thể thực hiện được thông qua các từ vựng được tiêu chuẩn hóa và các công cụ tìm kiếm chính sử dụng chúng. Bing, Google và Yahoo đã bắt đầu sử dụng các định dạng vi dữ liệu được đặt trong các tài liệu HTML để truyền đạt thông tin.

Việc sử dụng ngôn ngữ tự nhiên của máy tính sẽ tạo ra quyền truy cập vào nhiều dạng dữ liệu mới. Hãy xem xét những câu này ở dạng nói: “ruồi giấm như quả lê” và “thời gian trôi nhanh như bướm”. Mặc dù cấu trúc câu của mỗi ví dụ khá giống nhau nhưng ý nghĩa của chúng lại rất khác nhau, với các từ “ruồi” và “thích” có các định nghĩa khác nhau – các định nghĩa được xác định theo ngữ cảnh. Ví dụ này cho thấy ngay cả một câu cực kỳ đơn giản cũng đòi hỏi một lượng hiểu biết ngôn ngữ đáng kể.

Trong khi máy tính rất xuất sắc trong việc sử dụng ngôn ngữ đơn giản của toán học, thì ngôn ngữ của con người lại rất khó hiểu vì độ phức tạp của chúng và những ngoại lệ định kỳ đối với các quy tắc. Một chương trình chơi cờ có thể đấu và đánh bại hầu hết mọi người trong một ván cờ. Điều tương tự không thể xảy ra đối với các chương trình chơi đố vui. Một đứa trẻ bình thường có thể đánh bại một chương trình như vậy vì chương trình này thiếu sự hiểu biết đủ rộng về ý nghĩa, ngữ cảnh và sự tinh tế của ngôn ngữ. Vấn đề này áp dụng cho một số lượng đáng kể các dịch vụ và ứng dụng. 

Nếu không hiểu ngữ cảnh, công cụ tìm kiếm không thể phản hồi với kết quả hiệu quả cho những từ có nhiều nghĩa.

Ngữ nghĩa và Trợ lý ảo

 Barry Zane, phó chủ tịch kỹ thuật của Cambridge Semantics, nói:

“Các công nghệ dựa trên ngữ nghĩa là chìa khóa để làm cho dữ liệu trở nên dễ hiểu đối với cả con người và máy tính, cho phép hài hòa hóa dữ liệu bằng cách sử dụng các ý nghĩa kinh doanh chung”.

Với nền tảng là World Wide Web và sự phát triển về ngữ nghĩa để bao gồm các ngôn ngữ tự nhiên, trợ lý ảo hiện đang trở thành hiện thực. Siri của Apple là một ví dụ điển hình về trợ lý ảo. Siri không chỉ lấy thông tin; nó còn giúp mọi người hoàn thành công việc trực tuyến của mình nhanh chóng và dễ dàng hơn. Siri có thể diễn giải lời nói ở một mức độ nào đó và cũng có thể thực hiện nhiều dịch vụ khác nhau cho người dùng. Ban đầu, nhiệm vụ Siri có thể thực hiện tập trung vào người dùng internet di động. Nó sẽ đặt chỗ nhà hàng, kiểm tra tình trạng chuyến bay hoặc điều phối các hoạt động Internet khác nhau. Siri hiện đã chuyển sang các nền tảng và thiết bị khác, bao gồm cả ô tô.

Trong hai thập kỷ qua, ước mơ bổ sung quá trình ngôn ngữ tự nhiên với máy tính và việc để chúng nói chuyện bình thường như con người đã phát triển đáng kể.

Các trợ lý và dịch vụ ảo đang bắt đầu trao đổi thông tin hữu ích trên toàn bộ Web Ngữ nghĩa. Các trợ lý ảo như Bây giờ Google và Siri, đã khởi xướng một loạt các công ty khởi nghiệp, đặc biệt là những công ty cung cấp dịch vụ tự động. Chúng ta đang chứng kiến ​​sự xuất hiện của các dịch vụ và công nghệ ngữ nghĩa mới. Sự kết hợp của các xu hướng công nghệ và thế giới kinh doanh đang tạo ra một chu kỳ đổi mới mới ảnh hưởng đến cách các cá nhân và doanh nghiệp thực hiện công việc của mình và thậm chí cả cách thu thập dữ liệu thành thông tin hữu ích.

Tính linh hoạt của trợ lý ảo hoạt động trên web và khả dụng trên các thiết bị khác nhau là một phần quan trọng trong mục đích của Web ngữ nghĩa. 

Một khía cạnh của Semantic Web là khả năng giao tiếp với các máy tính khác và hoạt động mà không cần sự hiện diện của con người. Con người cần phải bắt đầu công việc, nhưng sau đó họ có thể làm việc khác với thời gian của mình. Việc sử dụng ngữ nghĩa cung cấp một trợ lý ảo có khả năng làm việc độc lập và xử lý lượng dữ liệu đáng kể.

Sự phát triển của Chatbot

Chatbots, một công cụ tương đối mới để giao tiếp với khách hàng và khách hàng tiềm năng, bắt đầu trở nên phổ biến vào khoảng năm 2018-2020. Chatbots được thiết kế để đơn giản hóa việc liên lạc giữa máy tính và con người. Bởi vì "máy biến áp” (được phát triển vào năm 2017) các hệ thống xử lý ngôn ngữ tự nhiên, kết hợp với tính chất nguồn mở của nhiều mô hình này, khả năng giao tiếp giữa bot và con người đã phần nào được cải thiện.

Chatbots cung cấp một cách mới để các tổ chức giải quyết nhu cầu của khách hàng tiềm năng trong thời gian thực. Mặc dù vẫn đang trong giai đoạn đầu sử dụng nhưng chatbot có thể phản hồi các truy vấn trực tuyến 24 giờ mỗi ngày. Tuy nhiên, một số tổ chức, bao gồm Google, Amazon, Facebook, Apple và Microsoft, đã phát triển chatbot. một số vẫn đang giải quyết những khúc mắc.

Hình ảnh được sử dụng theo giấy phép từ Shutterstock.com

Dấu thời gian:

Thêm từ PHỔ THÔNG DỮ LIỆU