9 หลักสูตร Harvard ฟรีเพื่อเรียนรู้วิทยาศาสตร์ข้อมูล

9 หลักสูตร Harvard ฟรีเพื่อเรียนรู้วิทยาศาสตร์ข้อมูล

โหนดต้นทาง: 2023063

9 หลักสูตรฮาร์วาร์ดฟรีเพื่อเรียนรู้วิทยาศาสตร์ข้อมูลในปี 2022
ภาพถ่ายโดย Danilo Rios Rio on Unsplash 

เมื่อเดือนที่แล้ว ฉันเขียนบทความเกี่ยวกับการสร้างโรดแมปการเรียนรู้วิทยาศาสตร์ข้อมูลด้วย หลักสูตรฟรีที่เปิดสอนโดย MIT.

อย่างไรก็ตาม จุดสนใจของหลักสูตรส่วนใหญ่ที่ฉันระบุไว้นั้นเป็นเนื้อหาเชิงทฤษฎี และมีการเน้นย้ำอย่างมากเกี่ยวกับการเรียนรู้คณิตศาสตร์และสถิติที่อยู่เบื้องหลังอัลกอริทึมการเรียนรู้ของเครื่อง

แม้ว่าแผนงานของ MIT จะช่วยให้คุณเข้าใจหลักการเบื้องหลังการสร้างแบบจำลองเชิงทำนาย แต่สิ่งที่ขาดไปคือความสามารถในการนำแนวคิดที่ได้เรียนรู้ไปใช้จริงและดำเนินโครงการวิทยาศาสตร์ข้อมูลในโลกแห่งความเป็นจริง

หลังจากใช้เวลาท่องอินเทอร์เน็ต ฉันพบหลักสูตรฟรีสองหลักสูตรจาก Harvard ซึ่งครอบคลุมเวิร์กโฟลว์วิทยาการข้อมูลทั้งหมด ——ตั้งแต่การเขียนโปรแกรมไปจนถึงการวิเคราะห์ข้อมูล สถิติ และแมชชีนเลิร์นนิง

เมื่อคุณจบหลักสูตรทั้งหมดในเส้นทางการเรียนรู้นี้แล้ว คุณยังจะได้รับโปรเจกต์สุดหินที่ให้คุณนำทุกสิ่งที่คุณเรียนรู้ไปปฏิบัติจริง

ในบทความนี้ ผมจะแสดงหลักสูตรฮาร์วาร์ดฟรี 9 หลักสูตรที่คุณสามารถนำไปใช้เพื่อเรียนรู้วิทยาการข้อมูลได้ตั้งแต่เริ่มต้น อย่าลังเลที่จะข้ามหลักสูตรใด ๆ เหล่านี้หากคุณมีความรู้เกี่ยวกับวิชานั้นอยู่แล้ว

ขั้นตอนแรกที่คุณควรทำเมื่อเรียนรู้วิทยาศาสตร์ข้อมูลคือการเรียนรู้การเขียนโค้ด คุณสามารถเลือกทำสิ่งนี้ได้ด้วยภาษาการเขียนโปรแกรมที่คุณเลือก—?ในอุดมคติคือ Python หรือ R

หากคุณต้องการเรียนรู้ R ทาง Harvard ขอเสนอหลักสูตร R เบื้องต้นที่สร้างขึ้นสำหรับผู้เรียนด้านวิทยาศาสตร์ข้อมูลโดยเฉพาะ ซึ่งเรียกว่า วิทยาศาสตร์ข้อมูล: พื้นฐาน R.

โปรแกรมนี้จะนำคุณไปสู่แนวคิด R เช่น ตัวแปร ชนิดข้อมูล เลขคณิตเวกเตอร์ และการจัดทำดัชนี คุณจะได้เรียนรู้การโต้แย้งข้อมูลกับไลบรารีเช่น dplyr และสร้างแผนภาพเพื่อแสดงข้อมูล

หากคุณชอบ Python คุณสามารถเลือกได้ ความรู้เบื้องต้นเกี่ยวกับการเขียนโปรแกรมด้วยภาษา Python ของ CS50 มอบให้ฟรีโดย Harvard ในหลักสูตรนี้ คุณจะได้เรียนรู้แนวคิดต่างๆ เช่น ฟังก์ชัน อาร์กิวเมนต์ ตัวแปร ชนิดข้อมูล ข้อความแสดงเงื่อนไข ลูป ออบเจกต์ เมธอด และอื่นๆ

ทั้งสองโปรแกรมข้างต้นเป็นแบบกำหนดจังหวะเอง อย่างไรก็ตาม หลักสูตร Python มีรายละเอียดมากกว่าโปรแกรม R และต้องใช้เวลานานกว่าจะสำเร็จ นอกจากนี้ หลักสูตรที่เหลือในโรดแมปนี้สอนใน R ดังนั้นอาจคุ้มค่าที่จะเรียนรู้ R เพื่อให้สามารถทำตามได้อย่างง่ายดาย

การแสดงภาพเป็นหนึ่งในเทคนิคที่ทรงพลังที่สุดซึ่งคุณสามารถแปลสิ่งที่คุณค้นพบในข้อมูลไปยังบุคคลอื่นได้

กับ การสร้างภาพข้อมูลของ Harvard คุณจะได้เรียนรู้การสร้างการแสดงภาพโดยใช้ไลบรารี ggplot2 ใน R พร้อมกับหลักการสื่อสารข้อมูลเชิงลึกที่ขับเคลื่อนด้วยข้อมูล

In นี้ หลักสูตร คุณจะได้เรียนรู้แนวคิดเกี่ยวกับความน่าจะเป็นที่สำคัญซึ่งเป็นพื้นฐานในการทำการทดสอบทางสถิติกับข้อมูล หัวข้อที่สอน ได้แก่ ตัวแปรสุ่ม ความเป็นอิสระ การจำลองแบบมอนติคาร์โล ค่าที่คาดหวัง ข้อผิดพลาดมาตรฐาน และทฤษฎีบทขีดจำกัดกลาง

แนวคิดข้างต้นจะได้รับการแนะนำด้วยความช่วยเหลือของกรณีศึกษา ซึ่งหมายความว่าคุณจะสามารถใช้ทุกสิ่งที่คุณเรียนรู้กับชุดข้อมูลในโลกแห่งความเป็นจริง

หลังจากเรียนรู้ความน่าจะเป็นแล้ว คุณสามารถใช้ นี้ หลักสูตรเพื่อเรียนรู้พื้นฐานของการอนุมานและการสร้างแบบจำลองทางสถิติ
โปรแกรมนี้จะสอนให้คุณกำหนดการประมาณการประชากรและส่วนต่างของข้อผิดพลาด แนะนำคุณเกี่ยวกับสถิติแบบเบส์ และให้ข้อมูลพื้นฐานของการสร้างแบบจำลองเชิงทำนาย

ฉันได้รวมสิ่งนี้แล้ว หลักสูตรการบริหารโครงการ เป็นตัวเลือกเนื่องจากไม่เกี่ยวข้องโดยตรงกับการเรียนรู้วิทยาศาสตร์ข้อมูล แต่คุณจะได้รับการสอนให้ใช้ Unix/Linux สำหรับการจัดการไฟล์, Github, การควบคุมเวอร์ชัน และการสร้างรายงานใน R

ความสามารถในการทำสิ่งที่กล่าวมาข้างต้นจะช่วยให้คุณประหยัดเวลาได้มาก และช่วยให้คุณจัดการโครงการด้านวิทยาศาสตร์ข้อมูลตั้งแต่ต้นจนจบได้ดียิ่งขึ้น

หลักสูตรถัดไปในรายการนี้เรียกว่า ข้อมูล Wranglingและจะสอนให้คุณเตรียมข้อมูลและแปลงเป็นรูปแบบที่โมเดลแมชชีนเลิร์นนิงย่อยได้ง่าย

คุณจะได้เรียนรู้การนำเข้าข้อมูลไปยัง R, ข้อมูลเป็นระเบียบเรียบร้อย, ประมวลผลข้อมูลสตริง, แยกวิเคราะห์ HTML, ทำงานกับออบเจกต์วันที่และเวลา และข้อความของฉัน

ในฐานะนักวิทยาศาสตร์ข้อมูล คุณมักจะต้องแยกข้อมูลที่เปิดเผยต่อสาธารณะทางอินเทอร์เน็ตในรูปแบบของเอกสาร PDF, เว็บเพจ HTML หรือทวีต คุณจะไม่เห็นข้อมูลที่จัดรูปแบบสะอาดตาในไฟล์ CSV หรือแผ่นงาน Excel เสมอไป

เมื่อจบหลักสูตรนี้ คุณจะได้เรียนรู้การโต้แย้งและล้างข้อมูลเพื่อให้ได้ข้อมูลเชิงลึกที่สำคัญจากข้อมูลนั้น

การถดถอยเชิงเส้น เป็นเทคนิคการเรียนรู้ด้วยเครื่องที่ใช้ในการจำลองความสัมพันธ์เชิงเส้นระหว่างตัวแปรสองตัวหรือมากกว่า นอกจากนี้ยังสามารถใช้เพื่อระบุและปรับผลกระทบของตัวแปรที่รบกวน

หลักสูตรนี้จะสอนคุณเกี่ยวกับทฤษฎีเบื้องหลังโมเดลการถดถอยเชิงเส้น วิธีตรวจสอบความสัมพันธ์ระหว่างตัวแปรสองตัว และวิธีตรวจจับและลบตัวแปรที่รบกวนกันก่อนที่จะสร้างอัลกอริทึมแมชชีนเลิร์นนิง

ในที่สุด คอร์สที่คุณรอคอยก็มาถึงแล้ว! ฮาร์วาร์ด โปรแกรมการเรียนรู้ของเครื่อง จะสอนคุณเกี่ยวกับพื้นฐานของแมชชีนเลิร์นนิง เทคนิคในการลดปัญหา overfitting แนวทางการสร้างแบบจำลองแบบมีการควบคุมและไม่มีการควบคุม และระบบคำแนะนำ

หลังจากจบหลักสูตรทั้งหมดข้างต้นแล้ว คุณสามารถเข้าเรียนของ Harvard's ได้ โครงการสุดหินด้านวิทยาศาสตร์ข้อมูลที่ซึ่งทักษะของคุณในการแสดงภาพข้อมูล ความน่าจะเป็น สถิติ การโต้แย้งข้อมูล การจัดระเบียบข้อมูล การถดถอย และการเรียนรู้ของเครื่องจะได้รับการประเมิน

ด้วยโปรเจกต์สุดท้ายนี้ คุณจะได้รับโอกาสในการรวบรวมความรู้ทั้งหมดที่ได้เรียนรู้จากหลักสูตรข้างต้น และได้รับความสามารถในการทำโปรเจกต์ด้านวิทยาศาสตร์ข้อมูลแบบลงมือปฏิบัติตั้งแต่เริ่มต้น

 
 

หมายเหตุ: หลักสูตรทั้งหมดข้างต้นมีให้บริการบนแพลตฟอร์มการเรียนรู้ออนไลน์จาก edX และสามารถตรวจสอบได้ฟรี หากคุณต้องการใบรับรองหลักสูตร คุณจะต้องเสียค่าใช้จ่าย

นาทัสชา เซลวาราช เป็นนักวิทยาศาสตร์ข้อมูลที่เรียนรู้ด้วยตนเองและมีใจรักในการเขียน คุณสามารถเชื่อมต่อกับเธอได้ที่ LinkedIn.
 

ประทับเวลา:

เพิ่มเติมจาก KD นักเก็ต