Bối cảnh, tính nhất quán và sự hợp tác là những yếu tố cần thiết để thành công trong khoa học dữ liệu

Nút nguồn: 1882940

Bối cảnh, tính nhất quán và sự hợp tác là những yếu tố cần thiết để thành công trong khoa học dữ liệu
Photo by mohamed_hassan trên Pixabay

 

Các lĩnh vực trí tuệ nhân tạo (AI) và học máy (ML), vào cuối năm 2021, không còn là những lĩnh vực non trẻ với tương lai không chắc chắn ở phía trước. AI và ML đã phát triển để trở thành những lĩnh vực ảnh hưởng có ảnh hưởng lớn đến thế giới rộng lớn hơn của khoa học dữ liệu, một thực tế là vẫn đúng hơn trong suốt năm nay.

Tuy nhiên, vì AI, ML và sau đó là khoa học dữ liệu tiếp tục mở rộng nên cũng có những thông số có thể tạo nên hoặc phá vỡ sự thành công của các nhóm khoa học dữ liệu. Cơ hội để có được những hiểu biết sâu sắc và quan trọng từ các lĩnh vực AI và ML được xác định dựa trên các nhóm khoa học dữ liệu lớn hơn chỉ một nhà khoa học dữ liệu hoạt động với một máy tính xách tay. Đơn giản là có quá nhiều dữ liệu cần được thu thập, làm sạch và chuẩn bị để phân tích – một quá trình tiêu tốn một phần đáng kể thời gian làm việc trung bình của một nhà khoa học dữ liệu – để bất kỳ người nào có thể xử lý một mình. 

Các dự án khoa học dữ liệu hiện đại xoay quanh thông tin quan trọng liên quan đến việc chuẩn bị dữ liệu, các dự án khoa học dữ liệu trước đó và các cách tiềm năng để triển khai các mô hình dữ liệu phải được chia sẻ với nhiều khoa học dữ liệu. Do đó, điều quan trọng là phải điều tra lý do tại sao các nhóm khoa học dữ liệu yêu cầu bối cảnh, tính nhất quán và sự cộng tác an toàn cho dữ liệu của họ để đảm bảo thành công cho khoa học dữ liệu. Hãy nhanh chóng kiểm tra từng yêu cầu này để chúng ta có thể hiểu rõ hơn về thành công trong tương lai của khoa học dữ liệu sẽ như thế nào.

Phần một: Bối cảnh

 
Việc kiểm tra sự thành công của khoa học dữ liệu trong tương lai của chúng tôi bắt đầu với bối cảnh: không có quá trình xây dựng mô hình lặp đi lặp lại dựa trên thử nghiệm thử và thất bại có thể tồn tại lâu dài mà không có kiến ​​thức thể chế được ghi lại, lưu trữ và cung cấp cho các nhà khoa học dữ liệu. Tuy nhiên, rất nhiều kiến ​​thức về thể chế thường xuyên bị mất vì thiếu tài liệu và lưu trữ thích hợp.

Hãy xem xét kịch bản phổ biến này: một nhà khoa học dữ liệu cấp cơ sở hoặc công dân được kéo vào một dự án để cải thiện kỹ năng của họ, chỉ để đấu tranh ngay sau đó với cộng tác đồng bộ và không đồng bộ vì thiếu ngữ cảnh. Những thành viên nhóm đặc biệt này cần bối cảnh để biết thêm về dữ liệu mà họ đang tương tác, những người đã giải quyết vấn đề trong quá khứ và công việc trước đây ảnh hưởng như thế nào đến bối cảnh dự án hiện tại.

Nhu cầu ghi lại các dự án một cách chính xác cũng như các mô hình dữ liệu và quy trình làm việc của chúng có thể dễ dàng làm mất tập trung một nhóm các nhà khoa học dữ liệu, chứ chưa nói đến một nhóm hoạt động đơn lẻ. Các nhà lãnh đạo có thể cân nhắc lựa chọn để thuê một nhà phát triển tự do đóng góp thời gian của họ vào việc bảo tồn và phổ biến kiến ​​thức thể chế để cải thiện các phiên đánh giá và phản hồi tiêu chuẩn của các dự án khoa học dữ liệu hiện đại. Các phiên này cũng như hệ thống phần mềm, bàn làm việc và các phương pháp hay nhất có thể hợp lý hóa việc nắm bắt hiệu quả hơn bối cảnh liên quan đến dự án, cải thiện khả năng khám phá dữ liệu của các nhà khoa học dữ liệu cấp cơ sở và công dân trong tương lai.

Khoa học dữ liệu thành công đòi hỏi quản lý hợp lý kiến ​​thức và bối cảnh xung quanh của nó. Nếu không có nó, các nhà khoa học dữ liệu mới, cơ sở và công dân có thể phải vật lộn với việc tham gia và đóng góp có ý nghĩa cho các dự án của họ, do đó dẫn đến việc các nhóm tạo lại các dự án thay vì đóng góp cho công việc trước đó. 

Phần hai: Tính nhất quán

 
Các lĩnh vực ML và AI đã góp phần tạo ra những thay đổi cơ bản khi nói đến dịch vụ tài chính, khoa học sức khỏe và đời sống, và sản xuất; Tuy nhiên, những ngành công nghiệp này phải tuân theo các môi trường pháp lý quan trọng. Điều này có nghĩa là một dự án AI diễn ra trong một môi trường được quy định phải có thể tái tạo với một dấu vết kiểm tra rõ ràng. Nói cách khác, các nhà lãnh đạo CNTT và doanh nghiệp, những người theo một cách nào đó, có liên quan đến một dự án khoa học dữ liệu cần phải đảm bảo mức độ nhất quán của dữ liệu khi nói đến kết quả của dự án khoa học dữ liệu của họ. 

Các nhà lãnh đạo CNTT và doanh nghiệp mong đợi mức độ nhất quán đáng tin cậy cũng có thể tự tin hơn khi đến lúc thực hiện các loại thay đổi chiến lược mà AI tạo điều kiện. Có rất nhiều mối đe dọa khi nói đến các dự án khoa học dữ liệu và có rất nhiều khoản đầu tư dành cho chúng, vì vậy các nhà khoa học dữ liệu xứng đáng có được cơ sở hạ tầng để họ có thể hoạt động với mức độ tái tạo được đảm bảo từ bắt đầu đến kết thúc. Khả năng tái tạo đầy đủ này chuyển thành tính nhất quán trong dữ liệu mà các giám đốc điều hành hàng đầu đang tìm kiếm để quyết định liệu một dự án khoa học dữ liệu có đủ quan trọng và phù hợp với mục tiêu kinh doanh của họ hay không.

Đổi lại, những giám đốc điều hành hàng đầu này nên mong đợi rằng khi các nhóm khoa học của họ mở rộng, các bộ đào tạo cần thiết và các yêu cầu phần cứng cũng sẽ như vậy để đảm bảo tính nhất quán trong kết quả từ các dự án cũ hơn. Do đó, các quy trình và hệ thống giúp quản lý môi trường là điều cần thiết tuyệt đối cho việc mở rộng nhóm khoa học dữ liệu. Ví dụ: nếu một nhà khoa học dữ liệu đang sử dụng máy tính xách tay trong khi một kỹ sư dữ liệu đang chạy một phiên bản khác của thư viện chạy trên máy ảo đám mây, thì nhà khoa học dữ liệu đó có thể thấy mô hình dữ liệu của họ tạo ra các kết quả khác nhau từ máy này sang máy khác. Điểm mấu chốt: các giám đốc điều hành nên đảm bảo rằng các cộng tác viên dữ liệu của họ có một cách nhất quán để chia sẻ các môi trường phần mềm giống hệt nhau.

Phần ba: Hợp tác

 
Cuối cùng, chúng ta đi đến tầm quan trọng của sự cộng tác an toàn. Khi các doanh nghiệp tiếp tục chuyển hoạt động sang mô hình làm việc tại nhà, các tổ chức đang nhận ra rằng hợp tác khoa học dữ liệu khó hơn nhiều so với hợp tác trực tiếp. Mặc dù một số nhiệm vụ của khoa học dữ liệu cốt lõi có thể quản lý được với sự trợ giúp của một khoa học dữ liệu (chuẩn bị dữ liệu, nghiên cứu và lặp lại mô hình dữ liệu), nhưng phần lớn các giám đốc điều hành doanh nghiệp đã nhầm lẫn giữa việc cộng tác và sau đó đã cản trở năng suất làm việc từ xa.

Nhưng làm thế nào để tạo điều kiện cho sự phối hợp hiệu quả và từ xa giữa những người tham gia dự án cũng như bảo mật cho dữ liệu dự án? Câu trả lời nằm ở các tệp công việc có thể chia sẻ và dữ liệu liên quan đến một dự án khoa học dữ liệu điều đó làm cho nó khả thi hơn để phổ biến thông tin từ xa. Và khi việc phổ biến dữ liệu liên quan đến dự án trở nên đơn giản hơn, việc chia sẻ thông tin càng trở nên đơn giản, thì việc cộng tác dữ liệu từ xa càng dễ dàng. Những người tham gia dự án khoa học dữ liệu có thể tận dụng các công cụ dựa trên đám mây để tăng cường bảo mật đằng sau nghiên cứu của họ. nhưng có quá nhiều nhà lãnh đạo đã mắc phải sai lầm là không khuyến khích sự cộng tác, làm giảm năng suất làm việc.

Kết luận

 
Những tiến bộ tuyệt đối đã diễn ra trong lĩnh vực khoa học dữ liệu trong những năm gần đây là điều đáng kinh ngạc chưa từng có và thực sự là đáng kinh ngạc. Sự tiến bộ của khoa học dữ liệu đã giúp các công ty trên toàn thế giới giải quyết những câu hỏi mà trước đây rất ít, nếu có, có sẵn câu trả lời sẵn có mà không có những đổi mới có thể thực hiện được bởi AI và ML có thể thực hiện được. 

Tuy nhiên, khi thế giới khoa học dữ liệu tiếp tục trưởng thành và phát triển, đã đến lúc các giám đốc điều hành hàng đầu và nhóm khoa học dữ liệu mà họ giám sát phải rời xa cách hoàn thành công việc mang tính đặc biệt và phản ứng nhanh hơn. Các tài nguyên mà các nhà khoa học dữ liệu có thể sử dụng để tạo ra bối cảnh, tính nhất quán và sự cộng tác tốt hơn như bàn làm việc phần mềm có thể rất cần thiết cho sự thành công của khoa học dữ liệu. Cuối cùng, các dự án sẽ đòi hỏi ít nỗ lực hơn từ các nhà khoa học, kỹ sư, nhà phân tích và nhà nghiên cứu dữ liệu, những người sẽ có khả năng tốt hơn để đẩy nhanh sự thành công liên tục và đáng kinh ngạc của lĩnh vực này.

 
 
Nahla Davies là một nhà phát triển phần mềm và nhà văn công nghệ. Trước khi dành toàn bộ thời gian cho việc viết kỹ thuật, cô đã xoay xở — trong số những việc hấp dẫn khác — để trở thành lập trình viên chính tại một tổ chức xây dựng thương hiệu giàu kinh nghiệm Inc. có khách hàng bao gồm Samsung, Time Warner, Netflix và Sony.

Nguồn: https://www.kdnuggets.com/2022/01/context-consistency-collaboration-essential-data-science-success.html

Dấu thời gian:

Thêm từ Xe đẩy