ทำความเข้าใจช่วงความเชื่อมั่นด้วย Python

โหนดต้นทาง: 1883080

บทความนี้เผยแพร่โดยเป็นส่วนหนึ่งของไฟล์ Blogathon วิทยาศาสตร์ข้อมูล.

สารบัญ

  1. บทนำ
  2. ช่วงความเชื่อมั่นด้วย Z-statistic
  3. การตีความช่วงความเชื่อมั่น
  4. สมมติฐานสำหรับ CI โดยใช้ z-statistic
  5. ช่วงความเชื่อมั่นด้วย t-statistic
  6. สมมติฐานสำหรับ CI โดยใช้ t-statistic
  7. การสร้าง t-interval ด้วย data ที่จับคู่
  8. z-value vs t-value: ควรใช้อะไรเมื่อใด
  9. ช่วงความเชื่อมั่นกับ python
  10. End-หมายเหตุ

บทนำ

เมื่อใดก็ตามที่เราแก้ปัญหาทางสถิติ เรามีความกังวลเกี่ยวกับการประมาณค่าพารามิเตอร์ประชากร แต่บ่อยครั้งที่การคำนวณพารามิเตอร์ประชากรแทบจะเป็นไปไม่ได้เลย สิ่งที่เราทำแทนคือสุ่มตัวอย่างจากประชากรและคำนวณสถิติกลุ่มตัวอย่างที่คาดว่าจะประมาณค่าพารามิเตอร์ประชากร แต่เราจะรู้ได้อย่างไรว่ากลุ่มตัวอย่างเป็นตัวแทนที่แท้จริงของประชากรหรือสถิติตัวอย่างเหล่านี้เบี่ยงเบนไปจากพารามิเตอร์ประชากรมากน้อยเพียงใด นี่คือจุดที่ช่วงความมั่นใจเข้ามาในรูปภาพ แล้วช่วงเหล่านี้คืออะไร? ช่วงความเชื่อมั่นคือช่วงของค่าที่อยู่เหนือหรือต่ำกว่าสถิติตัวอย่าง หรือเราสามารถกำหนดเป็นความน่าจะเป็นที่ช่วงของค่ารอบๆ สถิติตัวอย่างประกอบด้วยพารามิเตอร์ประชากรจริง

ช่วงความเชื่อมั่นด้วย Z-statistic

ก่อนที่จะเจาะลึกในหัวข้อนี้ เรามาทำความคุ้นเคยกับคำศัพท์ทางสถิติบางคำก่อน

ประชากร: เป็นชุดของบุคคลที่คล้ายกันทั้งหมด เช่น จำนวนประชากรในเมือง นักเรียนของวิทยาลัย เป็นต้น

ตัวอย่าง: เป็นกลุ่มเล็กๆ ของบุคคลที่คล้ายกันซึ่งมาจากประชากร ตัวอย่างสุ่มคือกลุ่มตัวอย่างที่สุ่มมาจากประชากร

พารามิเตอร์: ค่าเฉลี่ย (mu) ส่วนเบี่ยงเบนมาตรฐาน (ซิกมา) สัดส่วน (p) ที่ได้มาจากประชากร

สถิติ: ค่าเฉลี่ย (x บาร์) ส่วนเบี่ยงเบนมาตรฐาน (S) สัดส่วน (p ^) ที่เกี่ยวข้องกับตัวอย่าง

คะแนน Z: คือระยะห่างของจุดข้อมูลดิบใดๆ ในการแจกแจงแบบปกติจากค่ากลางที่ทำให้เป็นมาตรฐานโดยค่าเบี่ยงเบนมาตรฐาน มอบให้โดย: x-mu/ซิกมา

ตอนนี้เราพร้อมที่จะเจาะลึกแนวคิดเรื่องช่วงความมั่นใจแล้ว ด้วยเหตุผลบางอย่าง ฉันเชื่อว่าจะดีกว่ามากที่จะเข้าใจแนวคิดผ่านตัวอย่างที่เกี่ยวข้อง มากกว่าคำจำกัดความทางคณิตศาสตร์ดิบ มาเริ่มกันเลยดีกว่า

สมมติว่าคุณอาศัยอยู่ในเมืองที่มีประชากร 100,000 คน และการเลือกตั้งอยู่ใกล้แค่เอื้อม ในฐานะผู้ทำโพล คุณต้องคาดการณ์ว่าใครจะเป็นผู้ชนะการเลือกตั้ง ไม่ว่าพรรคสีน้ำเงินหรือฝ่ายเหลือง คุณเห็นว่าแทบจะเป็นไปไม่ได้เลยที่จะรวบรวมข้อมูลจากประชากรทั้งหมด ดังนั้นคุณสุ่มเลือก 100 คน ในตอนท้ายของการสำรวจ คุณพบว่าคน 62% กำลังจะลงคะแนนให้สีเหลือง ตอนนี้คำถามคือเราควรสรุปว่าสีเหลืองจะชนะโดยมีโอกาสชนะ 62% หรือ 62% ของประชากรทั้งหมดจะลงคะแนนให้สีเหลือง? คำตอบคือไม่ เราไม่รู้แน่ชัดว่าการประมาณค่าของเรานั้นมาจากพารามิเตอร์จริงมากแค่ไหน หากเราสุ่มตัวอย่างอื่น ผลลัพธ์อาจออกมาเป็น 58% หรือ 65% ดังนั้น สิ่งที่เราจะทำแทนคือการหาช่วงของค่ารอบๆ สถิติตัวอย่างของเรา ซึ่งน่าจะจับสัดส่วนประชากรที่แท้จริงได้มากที่สุด ในที่นี้สัดส่วนหมายถึงเปอร์เซ็นต์ของ

ช่วงความเชื่อมั่นด้วย Python

                                                                   รูปภาพเป็นของผู้เขียน

ทีนี้ หากเรานำตัวอย่างดังกล่าวมาร้อยตัวอย่างและพลอตสัดส่วนตัวอย่างของแต่ละตัวอย่าง เราจะได้การกระจายตัวแบบปกติของสัดส่วนการสุ่มตัวอย่าง และค่าเฉลี่ยของการกระจายจะเป็นค่าโดยประมาณที่สุดของสัดส่วนประชากร และค่าประมาณของเราสามารถอยู่ที่ใดก็ได้บนเส้นการกระจายตัว ตามกฎ 3-ซิกมา เรารู้ว่าประมาณ 95% ของตัวแปรสุ่มอยู่ภายในค่าเบี่ยงเบนมาตรฐาน 2 จากค่าเฉลี่ยของการแจกแจง ดังนั้น เราสามารถสรุปได้ว่าความน่าจะเป็นที่ p^ อยู่ภายในค่าเบี่ยงเบน 2 std ของ p คือ 95% หรือเราสามารถระบุได้ด้วยว่าความน่าจะเป็นที่ p อยู่ภายในค่าเบี่ยงเบน 2 std ด้านล่างและด้านบน p^ ก็เท่ากับ 95% สองข้อความนี้เทียบเท่าอย่างมีประสิทธิภาพ จุดสองจุดที่อยู่ด้านล่างและเหนือ p^ คือช่วงความเชื่อมั่นของเรา

ช่วงความเชื่อมั่นด้วย Python

                                                           รูปภาพเป็นของผู้เขียน

หากเราสามารถหาซิกม่าได้ เราก็สามารถคำนวณช่วงเวลาที่ต้องการได้ แต่ซิกม่าที่นี่คือพารามิเตอร์ประชากร และเรารู้ว่าการคำนวณนั้นมักจะแทบจะเป็นไปไม่ได้ ดังนั้นเราจะใช้สถิติตัวอย่างแทน เช่น ข้อผิดพลาดมาตรฐาน นี้จะได้รับเป็น

โดยที่ p^= สัดส่วนตัวอย่าง n=จำนวนตัวอย่าง

เส =√(0.62 . 0.38/100) = 0.05

ดังนั้น 2xSE = 0.1

ช่วงความเชื่อมั่นสำหรับข้อมูลของเราคือ (0.62-0.1,0.62+0.1) หรือ (0.52,0.72) เนื่องจากเราใช้ 2xSE สิ่งนี้แปลเป็นช่วงความมั่นใจ 95%

ทีนี้ คำถามคือถ้าเราต้องการสร้างช่วงความมั่นใจ 92% ล่ะ? ในตัวอย่างที่แล้ว เราคูณ 2 ด้วย SE เพื่อสร้างช่วงความเชื่อมั่น 95% 2 นี้เป็นคะแนน z สำหรับช่วงความเชื่อมั่น 95% (ค่าที่แน่นอนคือ 1.96) และหาค่านี้ได้จากตาราง z ค่าวิกฤตของ z สำหรับช่วงความเชื่อมั่น 92% คือ 1.75 อ้างถึง นี้ บทความเพื่อความเข้าใจที่ดีขึ้นของ z-score และ z-table

ช่วงเวลาถูกกำหนดโดย: (p^ + z*.SE , p^-z*.SE)

ถ้าแทนสัดส่วนตัวอย่าง ค่าเฉลี่ยตัวอย่างได้รับข้อผิดพลาดมาตรฐานจะเป็น ซิกม่า/sqrt(n) ที่นี่ซิกม่า คือค่าเบี่ยงเบน std ของประชากร เนื่องจากเรามักไม่มี เราใช้ค่าเบี่ยงเบน std ตัวอย่างแทน แต่มักสังเกตได้ว่าการประมาณค่าแบบนี้เมื่อให้ค่าเฉลี่ยกับผลลัพธ์นั้นมักจะลำเอียงเล็กน้อย ดังนั้นในกรณีเช่นนี้ ควรใช้สถิติ t แทน z-statistics

สูตรทั่วไปสำหรับช่วงความเชื่อมั่นที่มีสถิติ z ถูกกำหนดโดย

ในที่นี้ สถิติอ้างอิงถึงค่าเฉลี่ยตัวอย่างหรือสัดส่วนตัวอย่าง ซิกs คือค่าเบี่ยงเบนมาตรฐานของประชากร

การตีความช่วงความเชื่อมั่น

การตีความช่วงความเชื่อมั่นอย่างถูกต้องเป็นสิ่งสำคัญมาก พิจารณาตัวอย่างการสำรวจความคิดเห็นก่อนหน้านี้ที่เราคำนวณช่วงความเชื่อมั่น 95% ของเราเป็น (0.52,0.62) นั่นหมายความว่าอย่างไร? ช่วงความเชื่อมั่น 95% หมายความว่าถ้าเราดึงตัวอย่าง n ตัวอย่างจากประชากร จากนั้น 95% ของเวลา ช่วงที่ได้รับจะมีสัดส่วนประชากรจริง จำไว้ว่าช่วงความเชื่อมั่น 95% ไม่ได้หมายความว่ามีความเป็นไปได้ 95% ที่ช่วงนั้นจะมีสัดส่วนประชากรที่แท้จริง ตัวอย่างเช่น สำหรับช่วงความเชื่อมั่น 90% หากเราดึงตัวอย่าง 10 ตัวอย่างจากประชากร จากนั้น 9 ใน 10 เท่าของช่วงดังกล่าวจะมีพารามิเตอร์ประชากรจริง ดูภาพด้านล่างเพื่อความเข้าใจที่ดีขึ้น

การตีความช่วงความเชื่อมั่น

                                                            รูปภาพเป็นของผู้เขียน

สมมติฐานสำหรับช่วงความเชื่อมั่นโดยใช้ Z-statistic

มีข้อสันนิษฐานบางอย่างที่เราต้องมองหาเพื่อสร้างช่วงความเชื่อมั่นที่ถูกต้องโดยใช้ z-statistic

  1. ตัวอย่างสุ่ม: ตัวอย่างต้องเป็นแบบสุ่ม มีวิธีการสุ่มตัวอย่างที่แตกต่างกัน เช่น การสุ่มตัวอย่างแบบแบ่งชั้น การสุ่มตัวอย่างแบบง่าย การสุ่มตัวอย่างแบบคลัสเตอร์เพื่อรับตัวอย่างแบบสุ่ม
  2. เงื่อนไขปกติ: ข้อมูลต้องเป็นไปตามเงื่อนไขนี้ np^>=10 และ n.(1-p^)>=10 หมายความว่าโดยพื้นฐานแล้วการกระจายตัวอย่างของเราหมายถึงตัวอย่างต้องเป็นปกติ ไม่เบ้ข้างใดข้างหนึ่ง
  3. อิสระ: ตัวอย่างต้องเป็นอิสระ จำนวนตัวอย่างต้องน้อยกว่าหรือเท่ากับ 10% ของประชากรทั้งหมด หรือถ้าสุ่มตัวอย่างด้วยการเปลี่ยน

ช่วงความเชื่อมั่นด้วย T-statistic

จะเกิดอะไรขึ้นหากขนาดกลุ่มตัวอย่างค่อนข้างเล็กและไม่ได้ระบุค่าเบี่ยงเบนมาตรฐานของประชากรหรือไม่สามารถสันนิษฐานได้ เราจะสร้างช่วงความเชื่อมั่นได้อย่างไร? นั่นคือที่มาของ t-statistic สูตรพื้นฐานสำหรับการค้นหาช่วงความเชื่อมั่นที่นี่ยังคงเหมือนเดิมโดยเพียงแค่ z* แทนที่ด้วย t* สูตรทั่วไปถูกกำหนดโดย

โดยที่ S = ส่วนเบี่ยงเบนมาตรฐานของตัวอย่าง n = จำนวนตัวอย่าง

สมมติว่าคุณจัดงานเลี้ยงและต้องการประมาณการบริโภคเบียร์โดยเฉลี่ยของแขกของคุณ ดังนั้น คุณจะได้ตัวอย่างสุ่ม 20 คน และวัดการบริโภคเบียร์ ข้อมูลตัวอย่างมีความสมมาตรโดยมีค่าเฉลี่ย 0f 1200 มล. และค่าเบี่ยงเบนมาตรฐานที่ 120 มล. ดังนั้น ตอนนี้ คุณต้องการสร้างช่วงความมั่นใจ 95%

เรามีค่าเบี่ยงเบนมาตรฐานของตัวอย่าง จำนวนตัวอย่าง และค่าเฉลี่ยตัวอย่าง ทั้งหมดที่เราต้องการคือ t* ดังนั้น t* สำหรับช่วงความเชื่อมั่น 95% โดยมีระดับความเป็นอิสระ 19(n-1 = 20-1) คือ 2.093 ดังนั้น ช่วงที่ต้องการของเราคือหลังจากการคำนวณคือ (1256.16, 1143.83) โดยมีข้อผิดพลาด 56.16 อ้างถึง นี้ วิดีโอเพื่อทราบวิธีการอ่านตารางที

สมมติฐานสำหรับ CI โดยใช้ T-statistic

คล้ายกับกรณีของ z-statistic ในกรณีของ t-statistic เช่นกัน มีเงื่อนไขบางอย่างที่เราต้องระวังในข้อมูลที่กำหนด

  1. ตัวอย่างจะต้องสุ่ม
  2. ตัวอย่างต้องเป็นปกติ เพื่อให้เป็นปกติ ขนาดกลุ่มตัวอย่างควรมากกว่าหรือเท่ากับ 30 หรือถ้าชุดข้อมูลหลัก เช่น ประชากรปกติอย่างคร่าวๆ หรือถ้าขนาดกลุ่มตัวอย่างต่ำกว่า 30 การกระจายตัวก็ต้องสมมาตรอย่างคร่าวๆ
  3. การสังเกตส่วนบุคคลต้องเป็นอิสระ นั่นหมายความว่าเป็นไปตามกฎ 10% หรือการสุ่มตัวอย่างทำได้ด้วยการเปลี่ยน

การสร้าง T-interval สำหรับข้อมูลที่จับคู่

จนถึงขณะนี้เราได้ใช้ข้อมูลเพียงตัวอย่างเดียวเท่านั้น ตอนนี้เราจะมาดูกันว่าเราสามารถสร้าง t-interval สำหรับข้อมูลที่จับคู่ได้อย่างไร ในข้อมูลที่จับคู่ เราทำการสังเกตสองครั้งในบุคคลเดียวกัน ตัวอย่างเช่น การเปรียบเทียบเครื่องหมายก่อนการทดสอบและหลังการทดสอบของนักเรียน หรือข้อมูลเกี่ยวกับผลของยาและยาหลอกต่อกลุ่มบุคคล ในข้อมูลที่จับคู่ เราพบความแตกต่างระหว่างการสังเกตทั้งสองในคอลัมน์ที่ 3 ตามปกติเราจะยกตัวอย่างเพื่อทำความเข้าใจแนวคิดนี้เช่นกัน

ถาม ครูพยายามประเมินผลกระทบของหลักสูตรใหม่ที่มีต่อผลการทดสอบ ด้านล่างเป็นผลจากการสังเกต

ช่วงเวลา T สำหรับข้อมูลที่จับคู่

                                                      รูปภาพเป็นของผู้เขียน

เนื่องจากเราตั้งใจที่จะหาช่วงเวลาสำหรับผลต่างค่าเฉลี่ย เราจึงต้องการเพียงสถิติสำหรับส่วนต่าง เราจะใช้สูตรเดียวกับที่เราใช้มาก่อน

สถิติ +- (ค่าวิกฤตหรือค่า t) (ค่าเบี่ยงเบนมาตรฐานของสถิติ)

xd = ค่าเฉลี่ยความแตกต่าง Sd = ส่วนเบี่ยงเบนมาตรฐานของตัวอย่าง สำหรับ 95% CI ที่มีระดับความเป็นอิสระ 5 t* ให้มา 2.57 ระยะขอบของข้อผิดพลาด = 0.97 และช่วงความมั่นใจ (4.18,6.13)

การตีความ: จากการประมาณการข้างต้น เนื่องจากเราจะเห็นว่าช่วงความเชื่อมั่นไม่มีค่าศูนย์หรือค่าลบ ดังนั้น เราสามารถสรุปได้ว่าหลักสูตรใหม่มีผลดีต่อผลการทดสอบของนักเรียน ถ้ามีแต่ค่าลบ เราก็บอกได้เลยว่าหลักสูตรมีผลกระทบด้านลบ หรือถ้ามีค่าเป็นศูนย์ ก็มีความเป็นไปได้ที่ความแตกต่างจะเป็นศูนย์หรือไม่มีผลกระทบของหลักสูตรต่อผลการทดสอบ

ค่า Z เทียบกับค่า T

มีความสับสนมากมายในตอนเริ่มต้นเกี่ยวกับเวลาที่จะใช้อะไร กฎทั่วไปคือเมื่อขนาดกลุ่มตัวอย่าง >= 30 และค่าเบี่ยงเบนมาตรฐานของประชากรเป็นที่รู้กันว่าใช้สถิติ z ในกรณีที่ขนาดกลุ่มตัวอย่าง < 30 ให้ใช้สถิติ t ในชีวิตจริง เราไม่มีพารามิเตอร์ประชากร ดังนั้นเราจะใช้ z หรือ t ตามขนาดกลุ่มตัวอย่าง

ด้วยตัวอย่างที่มีขนาดเล็กกว่า (n<30) ทฤษฎีบท LImit กลางจะไม่มีผล และมีการใช้การแจกแจงแบบอื่นที่เรียกว่าการแจกแจงแบบ t ของนักเรียน การแจกแจงแบบ t คล้ายกับการแจกแจงแบบปกติ แต่มีรูปทรงต่างกันขึ้นอยู่กับขนาดกลุ่มตัวอย่าง แทนที่จะใช้ค่า z ค่า t จะถูกใช้ซึ่งมากกว่าสำหรับตัวอย่างที่มีขนาดเล็กกว่า ทำให้เกิดข้อผิดพลาดที่มากขึ้น เนื่องจากขนาดตัวอย่างขนาดเล็กจะมีความเที่ยงตรงน้อยกว่า

ช่วงความเชื่อมั่นด้วย Python

Python มีห้องสมุดขนาดใหญ่ที่รองรับการคำนวณทางสถิติทุกประเภท ทำให้ชีวิตของเราง่ายขึ้นเล็กน้อย ในส่วนนี้ เราจะดูข้อมูลเกี่ยวกับพฤติกรรมการนอนของเด็กวัยหัดเดิน ผู้เข้าร่วม 20 คนจากการสังเกตเหล่านี้มีสุขภาพแข็งแรง ประพฤติตัวปกติ ไม่มีความผิดปกติของการนอนหลับ เป้าหมายของเราคือการวิเคราะห์เวลานอนของเด็กวัยหัดเดินที่งีบหลับและไม่งีบหลับ

ข้อมูลอ้างอิง: Akacem LD, Simpkin CT, Carskadon MA, Wright KP Jr, Jenni OG, Achermann P, et al. (2015) ช่วงเวลาของนาฬิกา Circadian และการนอนหลับแตกต่างกันระหว่างเด็กวัยหัดเดินที่งีบหลับและไม่งีบหลับ กรุณาหนึ่ง 10(4): e0125181. https://doi.org/10.1371/journal.pone.0125181

เราจะนำเข้าห้องสมุดที่เราต้องการ

นำเข้า numpy เป็น np นำเข้าแพนด้าเป็น pd จาก scipy.stats นำเข้า t pd.set_option('display.max_columns', 30) # ชุดเพื่อให้สามารถดูคอลัมน์ทั้งหมดของคณิตศาสตร์นำเข้า DataFrame
df = pd.read_csv(nap_no_nap.csv) #กำลังอ่านข้อมูล
df.หัว()
ช่วงความเชื่อมั่นด้วย Python

สร้างช่วงความมั่นใจ 95% สองช่วงสำหรับเวลาเข้านอนโดยเฉลี่ย ช่วงแรกสำหรับเด็กวัยหัดเดินที่งีบหลับ และอีกช่วงสำหรับเด็กวัยหัดเดินที่ไม่หลับ อันดับแรก เราจะแยกคอลัมน์ 'เวลาเข้านอนตอนกลางคืน' สำหรับผู้ที่งีบหลับในตัวแปรใหม่ และผู้ที่ไม่ได้งีบในตัวแปรใหม่อื่น เวลาเข้านอนที่นี่จะถูกปรับเป็นทศนิยม

bedtime_nap = df['night bedtime'].loc[df['napping'] == 1] bedtime_no_nap = df['night bedtime'].loc[df['napping'] == 0] เวลานอน

พิมพ์(len(bedtime_nap))

พิมพ์(len(เวลานอน_no_nap))

เอาต์พุต: 15 n 5


ตอนนี้ เราจะหาค่าเฉลี่ยตัวอย่างเวลานอนของงีบและ no_nap

nap_mean_bedtime = bedtime_nap.mean () #20.304 no_nap_mean_bedtime = เวลานอน_no_nap.mean () #19.59

ตอนนี้ เราจะหาค่าเบี่ยงเบนมาตรฐานของตัวอย่างสำหรับ Xวัน และ Xไม่งีบ 

nap_s_bedtime = np.std(เวลานอน_nap,ddof=1) no_nap_s_bedtime = np.std(เวลานอน_no_nap,ddof=1)

หมายเหตุ: พารามิเตอร์ ddof ถูกตั้งค่าเป็น 1 สำหรับตัวอย่าง std dev ไม่เช่นนั้นจะกลายเป็น std dev ประชากร

ตอนนี้ เราจะพบข้อผิดพลาดมาตรฐานตัวอย่างสำหรับ Xวัน และ Xไม่งีบ 

nap_se_mean_bedtime = nap_s_bedtime/math.sqrt(len(bedtime_nap)) #0.1526 no_nap_se_mean_bedtime = no_nap_s_bedtime/math.sqrt(len(bedtime_no_nap)) #0.2270

จนถึงตอนนี้ดีมาก เนื่องจากขนาดกลุ่มตัวอย่างมีขนาดเล็ก และเราไม่มีส่วนเบี่ยงเบนมาตรฐานของสัดส่วนประชากร เราจะใช้ค่า t* วิธีหนึ่งในการหาค่า t* คือการใช้ scipy.stats t.ppf การทำงาน. อาร์กิวเมนต์สำหรับ t.ppf() คือ q = เปอร์เซ็นต์, df = ระดับความเป็นอิสระ, มาตราส่วน = std dev, loc = ค่าเฉลี่ย เนื่องจากการแจกแจงแบบ t นั้นสมมาตรสำหรับช่วงความเชื่อมั่น 95% q จะเท่ากับ 0.975 เอ่ยถึง นี้ สำหรับข้อมูลเพิ่มเติมเกี่ยวกับ t.ppf()

nap_t_star = t.ppf(0.975,df=14) #2.14 no_nap_t_star = t.ppf(0.975,df=5) #2.57

ตอนนี้ เราจะเพิ่มชิ้นส่วนเพื่อสร้างช่วงความมั่นใจในที่สุด

nap_ci_plus = เวลางีบหลับ + nap_t_star*nap_se_bedtime

nap_ci_minus = nap_mean_bedtime – nap_t_star*nap_se_bedtime เวลา

พิมพ์ (nap_ci_minus,nap_ci_plus)

no_nap_ci_plus = no_nap_mean_bedtime + no_nap_t_star*nap_se_bedtime เวลานอน

no_nap_ci_minus = no_nap_mean_bedtime – no_nap_t_star*nap_se_bedtime เวลานอน

พิมพ์ (no_nap_ci_minus,no_nap_ci_plus)


เอาท์พุต: 19.976680775477412 20.631319224522585 18.95974084563192 20.220259154368087

การตีความ: 

จากผลลัพธ์ข้างต้น เราสรุปได้ว่าเรามีความมั่นใจ 95% ว่าเวลานอนเฉลี่ยของเด็กวัยหัดเดินที่งีบหลับอยู่ระหว่างเวลา 19.98 – 20.63 น. ในขณะที่สำหรับเด็กวัยหัดเดินที่ไม่ได้งีบหลับคือระหว่าง 18.96 – 20.22 น. ผลลัพธ์เหล่านี้เป็นไปตามความคาดหมายของเราที่ว่า หากคุณงีบหลับในระหว่างวัน คุณจะนอนดึกตอนกลางคืน

หมายเหตุท้ายเรื่อง

ดังนั้น นี่คือทั้งหมดเกี่ยวกับช่วงความเชื่อมั่นอย่างง่ายโดยใช้ค่า z และ t เป็นแนวคิดที่สำคัญที่ควรทราบในกรณีของการศึกษาทางสถิติ วิธีการทางสถิติเชิงอนุมานที่ยอดเยี่ยมในการประมาณค่าพารามิเตอร์ประชากรจากข้อมูลตัวอย่าง ช่วงความเชื่อมั่นยังเชื่อมโยงกับการทดสอบสมมติฐานด้วยว่าสำหรับ 95% CI คุณเว้นที่ว่าง 5% สำหรับความผิดปกติ หากสมมติฐานว่างอยู่ภายในช่วงความเชื่อมั่น ค่า p จะมีขนาดใหญ่และเราจะไม่สามารถปฏิเสธค่าว่างได้ ในทางกลับกัน หากเกินนั้น เราก็จะมีหลักฐานเพียงพอที่จะปฏิเสธโมฆะและยอมรับสมมติฐานอื่น

หวังว่าคุณจะชอบบทความและสวัสดีปีใหม่ (:

สื่อที่แสดงในบทความนี้ไม่ได้เป็นของ Analytics Vidhya และถูกใช้ตามดุลยพินิจของผู้เขียน

ที่มา: https://www.analyticsvidhya.com/blog/2022/01/understanding-confidence-intervals-with-python/

ประทับเวลา:

เพิ่มเติมจาก การวิเคราะห์ วิทยา