8 ความน่าจะเป็นสำหรับนักวิทยาศาสตร์ข้อมูล
8.1 ทำไมนักวิทยาศาสตร์ข้อมูลต้องศึกษาความน่าจะเป็น?
ในโลกความเป็นจริง ข้อมูลไม่ได้มาพร้อมกับคำตอบที่ “ใช่” หรือ “ไม่ใช่” แบบ 100% เสมอไป ความน่าจะเป็นจึงทำหน้าที่เป็น “ภาษาที่ใช้สื่อสารกับความไม่แน่นอน” เพื่อเปลี่ยนความเสี่ยงให้เป็นสิ่งที่วัดค่าได้
รากฐานของการเรียนรู้ของเครื่อง โมเดลส่วนใหญ่ในการเรียนรู้ของเครื่อง ไม่ได้ให้คำตอบแบบฟันธง แต่ให้คำตอบเป็น “ระดับความเชื่อมั่น” (Confidence Score)
ตัวอย่าง: ระบบตรวจจับอีเมลขยะ (Spam Filter) ไม่ได้บอกว่า “นี่คือสแปม” แต่บอกว่า “มีความน่าจะเป็น 98% ที่จะเป็นสแปม”
หากความน่าจะเป็นสูงกว่าเกณฑ์ (Threshold) ที่เราตั้งไว้ ระบบจึงจะย้ายอีเมลนั้นไปลงถังขยะ [1]
สถิติเชิงอนุมาน ในข้อมูลขนาดใหญ่ เรามักไม่สามารถเก็บข้อมูลของประชากรทั้งหมดได้ (เช่น ความพึงพอใจของคนทั้งเชียงใหม่)
เราจึงใช้ความน่าจะเป็นเพื่อ “อนุมาน” (Inference) ว่าข้อมูลที่เราสุ่มมา (Sample) สามารถเป็นตัวแทนของภาพรวมได้แม่นยำเพียงใด
ความน่าจะเป็นช่วยตอบคำถามว่า “ยอดขายที่เพิ่มขึ้นนี้เกิดจากแคมเปญที่เราทำจริงๆ หรือเป็นแค่เรื่องบังเอิญ (Random Chance)?” [2]
การตัดสินใจภายใต้ความเสี่ยง ผู้บริหารไม่ได้ต้องการแค่ตัวเลขในอดีต แต่ต้องการทางเลือกสำหรับอนาคต
ค่าคาดหว้ง (Expected Value): ความน่าจะเป็นช่วยให้เราคำนวณได้ว่า หากเราลงทุนในแคมเปญใหม่ 1 แสนบาท โดยมีโอกาสสำเร็จ 40% และโอกาสล้มเหลว 60% ผลลัพธ์โดยเฉลี่ยที่ธุรกิจจะได้รับคือเท่าไหร่
สิ่งนี้เปลี่ยนจากการ “ใช้สัญชาตญาณ” (Gut Feeling) มาเป็นการตัดสินใจด้วย “ข้อมูลและความเสี่ยงที่คำนวณแล้ว”
ความแตกต่างระหว่าง ‘คนทั่วไป’ กับ ‘นักวิทยาศาสตร์ข้อมูล’ คือคนทั่วไปจะพูดว่า ‘น่าจะขายดีนะ’ แต่นักวิทยาศาสตร์ข้อมูลจะพูดว่า ‘จากข้อมูลย้อนหลัง เรามีความน่าจะเป็น 75% ที่จะทำยอดขายได้ตามเป้า’
8.2 ความน่าจะเป็นเบื้องต้น
ก่อนที่เราจะเริ่มคำนวณเหตุการณ์ที่ซับซ้อนในทางธุรกิจ เราต้องทำความเข้าใจก่อนว่า ความน่าจะเป็น (Probability) ไม่ใช่ตัวเลขที่ตั้งขึ้นมาลอยๆ แต่มีกฎเกณฑ์ทางคณิตศาสตร์ที่เข้มงวดรองรับ เพื่อให้การวิเคราะห์ข้อมูลของเรามีความสมเหตุสมผลและน่าเชื่อถือ [2]
ในทางสถิติ เรามักใช้สัญลักษณ์ \(P(A)\) แทน “ความน่าจะเป็นที่จะเกิดเหตุการณ์ \(A\)” โดยเหตุการณ์ \(A\) คือเซตย่อยของปริภูมิตัวอย่าง (Sample Space: \(S\)) ซึ่งคือผลลัพธ์ทั้งหมดที่เป็นไปได้จากการทดลองสุ่มหนึ่งๆ
8.3 สัจพจน์ของความน่าจะเป็น (Axioms of Probability)
ในปี 1933 Andrey Kolmogorov นักคณิตศาสตร์ชาวรัสเซียได้วางรากฐานสำคัญที่เรียกว่า “สัจพจน์ของความน่าจะเป็น” ซึ่งเปรียบเสมือนรัฐธรรมนูญของความน่าจะเป็นที่นักวิทยาศาสตร์ข้อมูล ทุกคนต้องยึดถือ มี 3 ข้อดังนี้
- ค่าต้องเป็นบวก (Non-negativity) ความน่าจะเป็นของเหตุการณ์ใดๆ ต้องไม่ติดลบเสมอ \[P(A) \ge 0\]
Business Sense: เราไม่สามารถบอกได้ว่า “โอกาสที่ลูกค้าจะเข้าร้านคือ -10%” ค่าต่ำสุดที่เป็นไปได้คือ 0 (ไม่มีโอกาสเกิดขึ้นเลย)
- กฎของความแน่นอน (Certainty) ความน่าจะเป็นของเหตุการณ์ทั้งหมดที่เป็นไปได้รวมกัน ต้องเท่ากับ 1 เสมอ \[P(S) = 1\]
Business Sense: หากเราพิจารณาทุกทางเลือกที่เป็นไปได้ (เช่น ลูกค้าซื้อ หรือ ลูกค้าไม่ซื้อ) เมื่อรวมโอกาสเข้าด้วยกันแล้วต้องได้ 100% เสมอ จะไม่มีสิ่งที่อยู่นอกเหนือจากระบบที่เรานิยามไว้
- กฎการบวกของเหตุการณ์ที่แยกจากกัน (Additivity) ถ้าเหตุการณ์ \(A\) และ \(B\) ไม่สามารถเกิดขึ้นพร้อมกันได้ (Mutually Exclusive) ความน่าจะเป็นที่จะเกิด \(A\) หรือ \(B\) คือผลรวมของความน่าจะเป็นของแต่ละเหตุการณ์ \[P(A \cup B) = P(A) + P(B)\]
Business Sense: หากโอกาสที่ลูกค้าจะสั่ง “กาแฟร้อน” คือ 0.3 และ “กาแฟเย็น” คือ 0.5 (โดยที่ลูกค้า 1 คนสั่งได้แค่อย่างเดียว) โอกาสที่ลูกค้าจะสั่งกาแฟ (ไม่ว่าร้อนหรือเย็น) คือ \(0.3 + 0.5 = 0.8\) หรือ 80%
เมื่อเราทราบกฎเหล็กแล้ว สิ่งที่ตามมาคือเราจะรู้ทันทีว่าค่าความน่าจะเป็นต้องอยู่ระหว่าง 0 ถึง 1 เสมอ: \[0 \le P(A) \le 1\]
\(P(A) = 0\): เหตุการณ์ที่ไม่มีวันเกิดขึ้น (Impossible)
\(P(A) = 1\): เหตุการณ์ที่เกิดขึ้นแน่นอน (Certain)
8.4 ปริภูมิตัวอย่าง(Sample Space) และเหตุการณ์ (Event)
ในโลกของข้อมูล ก่อนที่เราจะคำนวณอะไรได้ เราต้องกำหนดขอบเขตของสิ่งที่เป็นไปได้ทั้งหมดก่อน
- Sample Space (\(S\)) คือ “จักรวาลของผลลัพธ์” หรือเซตของผลลัพธ์ทั้งหมดที่เป็นไปได้จากการทดลองสุ่ม (Random Experiment) หนึ่งครั้ง
ตัวอย่างธุรกิจ: หากเราพิจารณาพฤติกรรมการเข้าชมเว็บไซต์ของลูกค้า 1 ราย
\[S = \{ \text{ซื้อสินค้า, ไม่ซื้อสินค้า, ใส่ตะกร้าแต่ไม่จ่ายเงิน} \}\]
- ตัวอย่างการสุ่มตรวจ: หากเราสุ่มตรวจสินค้าจากคลัง 2 ชิ้น (ดี = G, เสีย = D)
\[S=\{ \text{GG, GD, DG, DD}\}\]
- Event (\(A\)) คือ “เหตุการณ์ที่เราสนใจ” หรือเซตย่อย (Subset) ของ Sample Space
- ตัวอย่าง: จากการสุ่มตรวจสินค้า 2 ชิ้นข้างต้น หากเราสนใจเหตุการณ์ “พบสินค้าเสียอย่างน้อย 1 ชิ้น”
\[A = \{ \text{GD, DG, DD} \}\]
8.5 การคำนวณความน่าจะเป็นแบบคลาสสิก (Classical Probability)
เมื่อผลลัพธ์ทุกอย่างใน Sample Space มีโอกาสเกิดขึ้นเท่าๆ กัน (Equally Likely) เราสามารถใช้สูตรพื้นฐานที่ระบุไว้ได้ดังนี้
\[P(A) = \frac{n(A)}{n(S)}\]
โดยที่
\(n(A)\) คือ จำนวนสมาชิกในเหตุการณ์ที่เราสนใจ
\(n(S)\) คือ จำนวนสมาชิกทั้งหมดใน Sample Space
8.5.1 กรณีศึกษา: การสุ่มแจกคูปองที่ Chiang Mai Brew
สมมติว่าในระบบสะสมแต้มของร้าน มีรายชื่อลูกค้าที่มาใช้บริการในวันนี้ทั้งหมด 100 คน แบ่งเป็น
ลูกค้าใหม่ (New Customer): 30 คน
ลูกค้าประจำ (Regular Customer): 70 คน
โจทย์: หากต้องการสุ่มเลือกลูกค้า 1 คนเพื่อแจกคูปอง “กาแฟฟรี” ความน่าจะเป็นที่จะได้ ลูกค้าใหม่ เป็นเท่าไหร่?
วิธีคิด:
จำนวนผลลัพธ์ทั้งหมด \(n(S) = 100\)
จำนวนผลลัพธ์ที่สนใจ (ลูกค้าใหม่) \(n(A) = 30\)
\(P(\text{New Customer}) = \frac{30}{100} = 0.3\) หรือ 30%
ในทางทฤษฎี (Classical) เราอาจจะบอกว่าโอกาสได้หัวหรือก้อยคือ 0.5 แต่ในทางวิทยาการข้อมูล เรามักจะใช้ Empirical Probability คือการดูจากข้อมูลจริง (Relative Frequency) เช่น ถ้าลูกค้าเข้าร้าน 1,000 คน แล้วซื้อจริง 200 คน ความน่าจะเป็นที่คนต่อไปจะซื้อคือ 0.2… นี่คือการนำสถิติจากอดีตมาคาดการณ์อนาคต
ก้าวสำคัญที่จะเปลี่ยนนักศึกษาให้เป็นนักวิทยาศาสตร์ข้อมูล คือการเข้าใจ “ความน่าจะเป็นแบบมีเงื่อนไข” (Conditional Probability) เพราะในโลกของข้อมูลขนาดใหญ่ เหตุการณ์หนึ่งมักจะส่งผลต่ออีกเหตุการณ์หนึ่งเสมอ และนี่คือรากฐานสำคัญของ “กฎความสัมพันธ์” (Association Rules) ที่ใช้ในการทำ Market Basket Analysis (เช่น การวิเคราะห์ว่าถ้าลูกค้าซื้อกาแฟแล้ว มีโอกาสแค่ไหนที่จะซื้อขนมปังด้วย)
8.6 ความน่าจะเป็นแบบมีเงื่อนไข (Conditional Probability)
ในบางครั้ง การคำนวณความน่าจะเป็นของเหตุการณ์หนึ่งจะเปลี่ยนไป เมื่อเรามี “ข้อมูลเพิ่มเติม” หรือทราบว่ามีอีกเหตุการณ์หนึ่งเกิดขึ้นก่อนหน้า
เราใช้สัญลักษณ์ \(P(A|B)\) อ่านว่า **“ความน่าจะเป็นของเหตุการณ์** \(A\) เมื่อกำหนดว่าเหตุการณ์ \(B\) ได้เกิดขึ้นแล้ว”
8.7 การประยุกต์ใช้: จากความน่าจะเป็นสู่ “กฎความสัมพันธ์” (Association Rules)
ในทางวิทยาการข้อมูลเรานำแนวคิดนี้ไปใช้หาความสัมพันธ์ของสินค้าในตะกร้าสินค้า (Market Basket Analysis) โดยมีดัชนีชี้วัดที่สำคัญ 2 ตัวที่มาจากพื้นฐานความน่าจะเป็น
- ค่าความเชื่อมั่น (Confidence) คือค่าความน่าจะเป็นแบบมีเงื่อนไข \(P(\text{ซื้อสินค้า B} | \text{ซื้อสินค้า A})\) เพื่อดูว่าถ้าลูกค้าซื้อ A แล้ว จะซื้อ B ตามมาด้วยความมั่นใจแค่ไหน
8.7.1 กรณีศึกษา: Chiang Mai Brew Insights
สมมติฐานข้อมูลการขาย 100 บิล พบว่า:
บิลที่ซื้อ กาแฟ (Coffee) มี 60 บิล
บิลที่ซื้อทั้ง กาแฟ และ เบเกอรี่ (Coffee & Bakery) มี 30 บิล
โจทย์: หากลูกค้าเดินเข้ามาซื้อกาแฟแล้ว ความน่าจะเป็นที่เขาจะซื้อเบเกอรี่ด้วยความเชื่อมั่น (Confidence) เป็นเท่าไหร่?
วิธีคำนวณ: \[P(\text{Bakery} | \text{Coffee}) = \frac{P(\text{Bakery} \cap \text{Coffee})}{P(\text{Coffee})} = \frac{30/100}{60/100} = \frac{30}{60} = 0.5\]
Insight: มีโอกาสถึง 50% ที่คนซื้อกาแฟจะซื้อเบเกอรี่เพิ่ม นี่คือข้อมูลสำคัญในการจัดโปรโมชั่น “Coffee & Bakery Set” [3]
8.8 กฎการคูณ (Multiplication Rule) และความเป็นอิสระต่อกัน (Independence)
จากสูตรข้างต้น เราสามารถย้ายข้างเพื่อหาโอกาสที่จะเกิดเหตุการณ์ร่วมกันได้: \[P(A \cap B) = P(B) \cdot P(A|B)\]
แต่ถ้าเหตุการณ์ A และ B ไม่เกี่ยวข้องกันเลย (Non-Independent): เช่น การที่ลูกค้าซื้อกาแฟ ไม่ได้ส่งผลต่อการที่ฝนจะตกข้างนอกร้าน \[P(A \cap B) = P(A) \cdot P(B)\]
ความน่าจะเป็นแบบมีเงื่อนไข \(P(A|B)\) นี้แหละ คือกระดูกสันหลังของ Naive Bayes Classifier ที่เราจะใช้จำแนกอีเมลสแปม หรือใช้ทำ Recommendation System ในแอปฯ สั่งอาหาร… ถ้าเราเข้าใจ \(P(A|B)\) เราจะเข้าใจว่าทำไม YouTube ถึงรู้ใจว่าเราอยากดูคลิปอะไรเป็นลำดับถัดไป
8.9 ตัวแปรสุ่ม (Random Variables: \(X\))
ในทางสถิติและ Data Science เรามักจะเปลี่ยนผลลัพธ์ที่เป็น “ข้อความ” หรือ “เหตุการณ์” ให้กลายเป็น “ตัวเลข” เพื่อให้คอมพิวเตอร์สามารถคำนวณได้ เราเรียกตัวเลขที่ได้จากกระบวนการสุ่มนี้ว่า ตัวแปรสุ่ม โดยแบ่งออกเป็น 2 ประเภทหลักตามลักษณะของข้อมูล [4]
- ตัวแปรสุ่มชนิดไม่ต่อเนื่อง (Discrete Random Variables) ในทางคณิตศาสตร์ เรานิยามตัวแปรสุ่มชนิดนี้ผ่าน ฟังก์ชันมวลความน่าจะเป็น (Probability Mass Function: PMF)
นิยาม: ให้ \(X\) เป็นตัวแปรสุ่ม โดยที่เซตของค่าที่เป็นไปได้ \(x_1, x_2, \dots\) มีจำนวนจำกัดหรือนับได้ (Countable)
การแสดงแทน: เราใช้ฟังก์ชัน \(f(x) = P(X = x)\) เพื่อบอกความน่าจะเป็นที่ \(X\) จะมีค่าเท่ากับ \(x\) พอดี
สมบัติทางคณิตศาสตร์
\(0 \le f(x) \le 1\)
\(\sum_{all \ x} f(x) = 1\) (ผลรวมความน่าจะเป็นของทุกค่าต้องเท่ากับ 1)
ตัวอย่างในธุรกิจ
จำนวนลูกค้าที่เดินเข้าร้าน Chiang Mai Brew ในแต่ละชั่วโมง (0, 1, 2, …)
จำนวนครั้งที่ผู้ใช้งานคลิกปุ่ม “Buy Now” บนหน้าเว็บไซต์
จำนวนสินค้าที่เสีย (Defective) ในการสุ่มตรวจ 10 ชิ้น
- ตัวแปรสุ่มชนิดต่อเนื่อง (Continuous Random Variables) เนื่องจากตัวแปรชนิดนี้มีค่าได้ไม่จำกัดในช่วงหนึ่งๆ ความน่าจะเป็นที่ \(X\) จะเท่ากับค่าใดค่าหนึ่ง “เป๊ะๆ” จึงเท่ากับ 0 เสมอ เราจึงนิยามผ่าน ฟังก์ชันความหนาแน่นความน่าจะเป็น (Probability Density Function: PDF)
นิยาม: ให้ \(X\) เป็นตัวแปรสุ่มที่สามารถรับค่าได้ทุกค่าในช่วงจำนวนจริง การคำนวณความน่าจะเป็นจะทำผ่าน “พื้นที่ใต้กราฟ” ในช่วงที่สนใจ
การแสดงแทน: ความน่าจะเป็นที่ \(X\) จะมีค่าอยู่ในช่วง \([a, b]\) คำนวณได้จาก \[P(a \le X \le b) = \int_{a}^{b} f(x) \,dx\]
สมบัติทางคณิตศาสตร์:
\(f(x) \ge 0\) สำหรับทุกค่า \(x\)
\(\int_{-\infty}^{\infty} f(x) \,dx = 1\) (พื้นที่ใต้กราฟทั้งหมดต้องเท่ากับ 1)
ตัวอย่างในธุรกิจ
เวลาที่ลูกค้าใช้รอคิวรับกาแฟ (เช่น 5.45 นาที)
รายได้รวมของบริษัทในแต่ละไตรมาส
อุณหภูมิเฉลี่ยภายในร้านในแต่ละวัน
| คุณสมบัติ | Discrete (\(X\) ไม่ต่อเนื่อง) | Continuous (\(X\) ต่อเนื่อง) |
|---|---|---|
| ค่าที่เป็นไปได้ | จำนวนนับ \(\{0, 1, 2, \dots\}\) | ช่วงของจำนวนจริง \((a, b)\) |
| เครื่องมือคำนวณ | การบวกสะสม (\(\sum\)) | การหาปริพันธ์ (Integral \(\int\)) |
| ฟังก์ชันที่ใช้ | PMF: \(P(X=x)\) | PDF: \(f(x)\) |
| ตัวอย่าง | จำนวน Transaction | ยอดขายรวม (บาท.สตางค์) |
จากตารางสรุปเปรียบเทียบเชิงโครงสร้าง Table 8.1 นักศึกษาจะเห็นว่าเครื่องมือทางคณิตศาสตร์อย่าง \(\sum\) (ซิกมา) หรือ \(\int\) (อินทิกรัล) นั้นมีไว้เพื่อให้เราเข้าใจ “หลักการ” แต่ในชีวิตจริงของการทำงานด้านวิทยาการข้อมูล เราจะใช้ฟังก์ชันสำเร็จรูปในการหาค่าเหล่านี้
1. สำหรับตัวแปรสุ่มชนิดไม่ต่อเนื่อง (Discrete) เมื่อเราต้องการหาโอกาสที่จะเกิดเหตุการณ์จำนวนครั้งที่แน่นอน (เช่น โอกาสที่ลูกค้าจะซื้อของพอดี 5 คน จาก 20 คน)
Excel: ใช้ฟังก์ชัน
=BINOM.DIST(x, n, p, FALSE)FALSEในที่นี้คือการสั่งให้คำนวณแบบ PMF เพื่อหาค่าที่จุดนั้นๆ เป๊ะๆ
jamovi: ในเมนู distrACTION นักศึกษาสามารถเลือก Binomial Distribution แล้วระบุจำนวนครั้ง (\(n\)) และโอกาสสำเร็จ (\(p\)) โปรแกรมจะวาดกราฟแท่งแสดงโอกาสของแต่ละจำนวนครั้งให้ทันที
2. สำหรับตัวแปรสุ่มชนิดต่อเนื่อง (Continuous) เมื่อเราต้องการหาพื้นที่ใต้กราฟเพื่อดูโอกาสที่ข้อมูลจะตกอยู่ในช่วงที่เราสนใจ (เช่น โอกาสที่ยอดขายจะอยู่ระหว่าง 500 - 1,000 บาท)
- Excel: ใช้ฟังก์ชัน
=NORM.DIST(x, mean, sd, TRUE)TRUEคือการสั่งให้คำนวณแบบ “สะสม” (Cumulative) ซึ่งเทียบเท่ากับการหาพื้นที่ใต้กราฟ (Integral) ตั้งแต่ค่าเริ่มต้นมาถึงจุดที่เรากำหนด
- jamovi: ในเมนู distrACTION เลือก Normal Distribution นักศึกษาสามารถกรอกค่าเฉลี่ย (\(\mu\)) และส่วนเบี่ยงเบนมาตรฐาน (\(\sigma\)) พร้อมระบุช่วงของค่า \(x\) โปรแกรมจะทำการระบายสีพื้นที่ใต้กราฟ (Shaded Area) และคำนวณค่าความน่าจะเป็นให้โดยที่เราไม่ต้องเขียนสมการแคลคูลัสเอง
8.9.1 สรุปปิดท้ายบท: ความน่าจะเป็นกับวิทยาการข้อมูล
ท้ายที่สุดแล้ว ความน่าจะเป็นคือเครื่องมือที่ช่วยให้นักวิทยาศาสตร์ข้อมูล สามารถ
วัดค่าความเสี่ยง: ไม่ใช่แค่บอกว่า “น่าจะ” แต่บอกได้ว่า “โอกาสกี่เปอร์เซ็นต์”
ตั้งเกณฑ์การตัดสินใจ: เช่น ถ้าความน่าจะเป็นที่ลูกค้าจะเบี้ยวหนี้สูงกว่า 0.8 ระบบจะไม่อนุมัติเงินกู้โดยอัตโนมัติ
ประเมินความแม่นยำ: โมเดลที่เราสร้างขึ้นนั้น “เดาถูก” เพราะฝีมือหรือเพราะ “โชคช่วย” (Random Chance)
8.10 การแจกแจงความน่าจะเป็น (Probability Distributions)
เมื่อเรานำ ตัวแปรสุ่ม (\(X\)) มาพล็อตกราฟเพื่อดูว่าแต่ละค่ามีโอกาสเกิดขึ้นมากน้อยเพียงใด เราจะได้สิ่งที่เรียกว่า “การแจกแจงความน่าจะเป็น” ซึ่งเปรียบเสมือนพิมพ์เขียวหรือพฤติกรรมของข้อมูลนั้นๆ
8.10.1 การแจกแจงแบบทวินาม (Binomial Distribution)
ใช้กับตัวแปรสุ่มชนิด Discrete ที่มีผลลัพธ์เพียง 2 ทางเลือก (Success/Failure) ในการทดลองหลายๆ ครั้งที่อิสระต่อกัน
ตัวอย่าง: หากเราส่งอีเมลการตลาดไป 100 ฉบับ และรู้ว่าปกติมีคนเปิด 10% เราสามารถใช้ Binomial เพื่อหาว่า “ความน่าจะเป็นที่จะมีคนเปิดอีเมลพอดี 15 คนเป็นเท่าไหร่?”
Parameter สำคัญ: \(n\) (จำนวนครั้ง) และ \(p\) (โอกาสสำเร็จ)
8.10.2 การแจกแจงแบบปกติ (Normal Distribution / Gaussian)
คือการแจกแจงที่สำคัญที่สุดสำหรับตัวแปรสุ่มชนิด Continuous มีรูปทรงเป็น “ระฆังคว่ำ” (Bell Curve) ที่สมมาตร
ตัวอย่าง: อายุของลูกค้า, ส่วนสูง, หรือข้อผิดพลาด (Errors) ในการพยากรณ์โมเดล มักมีการแจกแจงแบบปกติ
หัวใจสำคัญ: ข้อมูลส่วนใหญ่จะกองอยู่ตรงกลาง (Mean) และกระจายออกไปตามความเบี่ยงเบนมาตรฐาน (SD)
Central Limit Theorem: ในโลกของข้อมูลขนาดใหญ่ ถ้าเราสุ่มตัวอย่างจำนวนมากพอ ค่าเฉลี่ยของมันจะวิ่งเข้าหาการแจกแจงแบบปกติเสมอ ซึ่งเป็นพื้นฐานของการทดสอบสมมติฐาน (\(t-test, Z-test\)) [5]
หัวข้อสุดท้ายนี้จะเป็นการนำจิ๊กซอว์ทุกชิ้นที่เราเรียนมา ทั้งเรื่อง Axioms, Conditional Probability, และ Distribution มาประกอบร่างกันเพื่อใช้ใน “การตัดสินใจเชิงธุรกิจ” ซึ่งเป็นปลายทางสำคัญของนักวิทยาศาสตร์ข้อมูล
8.11 การตัดสินใจด้วยความน่าจะเป็น (Decision Making with Probability)
ในโลกของวิทยาการข้อมูล เราไม่ได้สร้างโมเดลเพียงเพื่อความสวยงาม แต่เราสร้างขึ้นเพื่อ “ลดความเสี่ยงในการตัดสินใจ” โดยเราจะเปลี่ยนความไม่แน่นอนให้กลายเป็นตัวเลขที่เปรียบเทียบกันได้ผ่านแนวคิดหลักๆ ดังนี้
8.11.1 การคาดการณ์พฤติกรรมลูกค้า (Predictive Modeling)
เราใช้ความน่าจะเป็นเพื่อระบุ “โอกาส” ที่เหตุการณ์ในอนาคตจะเกิดขึ้น เช่น
Churn Prediction: ความน่าจะเป็นที่ลูกค้าจะเลิกใช้บริการ (เช่น \(P(\text{Churn} > 0.7)\)) หากค่านี้สูง ร้าน Chiang Mai Brew อาจต้องส่งคูปองส่วนลดพิเศษไปดึงดูดไว้ก่อนที่เขาจะจากไปจริงๆ [6]
Conversion Rate: ความน่าจะเป็นที่คนที่เดินผ่านหน้าเว็บไซต์จะคลิกซื้อสินค้า
8.11.2 การวิเคราะห์ความเสี่ยง
ในการทำธุรกิจ ทุกการตัดสินใจมีความเสี่ยง ความน่าจะเป็นช่วยให้เราทำ “Stress Test” หรือการจำลองสถานการณ์ได้:
- ตัวอย่าง: หากเราลงทุนนำเข้าเมล็ดกาแฟพิเศษจากเวียดนาม 100 กิโลกรัม ความน่าจะเป็นที่สินค้าจะขายหมดภายใน 1 เดือนเป็นเท่าไหร่? หาก \(P(\text{ขายหมด}) < 0.5\) เราอาจต้องปรับแผนการสั่งซื้อเพื่อไม่ให้เงินจม
8.11.3 ค่าคาดหวัง (Expected Value: \(E[X]\)) - เครื่องมือตัดสินใจที่สำคัญที่สุด
นี่คือจุดที่ความน่าจะเป็นถูกนำมาใช้ตัดสินใจเลือกทางเลือกที่ดีที่สุดในเชิงเศรษฐศาสตร์ \[E[X] = \sum (x \cdot P(x))\]
กรณีศึกษา: หากคุณต้องเลือกระหว่าง 2 แคมเปญ:
แคมเปญ A: มีโอกาสได้กำไร 10,000 บาท (70%) หรือขาดทุน 2,000 บาท (30%)
แคมเปญ B: มีโอกาสได้กำไร 50,000 บาท (10%) หรือเท่าทุน 0 บาท (90%)
การคำนวณ \[\begin{aligned} E[A] &= (10,000 \cdot 0.7) + (-2,000 \cdot 0.3) = 6,400 \text{ บาท}\\ E[B] &= (50,000 \cdot 0.1) + (0 \cdot 0.9) = 5,000 \text{ บาท}\end{aligned}\]
- การตัดสินใจ: แม้แคมเปญ B จะมีตัวเลขกำไรที่สูงกว่ามาก (5 หมื่น) แต่ในเชิงสถิติ แคมเปญ A ให้ค่าคาดหวังที่สูงกว่า และมีความเสี่ยงที่สมเหตุสมผลมากกว่า
ข้อมูลบอกเราว่า ‘อดีตเกิดอะไรขึ้น’ แต่ความน่าจะเป็น บอกเราว่า ‘อนาคตมีทางเลือกอะไรบ้าง’ การตัดสินใจโดยปราศจากความน่าจะเป็น คือการเดินในที่มืดด้วยสัญชาตญาณ แต่การใช้ความน่าจะเป็น คือการเปิดไฟสปอร์ตไลท์ให้เห็นเส้นทางที่มีโอกาสสำเร็จสูงสุด
8.12 แบบฝึกหัดท้ายบท
ให้นักศึกษาใช้โปรแกรม Microsoft Excel หรือ jamovi ในการคำนวณและหาคำตอบจากโจทย์กรณีศึกษาต่อไปนี้ โดยอ้างอิงหลักการของตัวแปรสุ่มและการแจกแจงความน่าจะเป็น
Empirical Probability: จากข้อมูลการขายใน 1 วันของร้าน Chiang Mai Brew พบว่ามีบิลทั้งหมด 250 บิล เป็นบิลที่สั่ง “เมนูมัทฉะ” 45 บิล จงใช้ Excel คำนวณหาความน่าจะเป็นที่ลูกค้าคนถัดไปจะสั่งมัทฉะ (\(P(Matcha)\))
Conditional Probability & Confidence: ใน jamovi หากผลการวิเคราะห์พบว่า
ความน่าจะเป็นที่ลูกค้าจะซื้อทั้งกาแฟและครัวซองต์ \(P(Coffee \cap Croissant) = 0.15\)
ความน่าจะเป็นที่ลูกค้าจะซื้อกาแฟ \(P(Coffee) = 0.60\)
จงคำนวณหาค่าความเชื่อมั่น (Confidence)\(P(Croissant | Coffee)\) ว่ามีค่าเท่าใด?
Binomial Distribution (Exact): หากทราบว่าโอกาสที่ลูกค้าจะสมัครบัตรสมาชิกใหม่คือ 10% (\(p=0.1\)) หากวันนี้มีลูกค้าเข้าร้าน 20 คน จงใช้ฟังก์ชัน
=BINOM.DISTใน Excel หาโอกาสที่จะมีลูกค้าสมัครสมาชิก พอดี 2 คนBinomial Distribution (Cumulative): จากโจทย์ข้อ 3 จงหาความน่าจะเป็นที่จะมีลูกค้าสมัครสมาชิก ไม่เกิน 3 คน (คำใบ้: ใช้ Cumulative = TRUE)
Expected Value: ร้านอาหารจัดโปรโมชั่นสุ่มแจกรางวัล โดยมีรางวัลมูลค่า 500 บาท (โอกาส 5%), 100 บาท (โอกาส 15%) และไม่ได้รางวัลเลย (โอกาส 80%) จงใช้ฟังก์ชัน
SUMPRODUCTใน Excel เพื่อหา “ค่าคาดหวัง” (Expected Value) ของการสุ่มแจกครั้งนี้Normal Distribution Visual: ให้นักศึกษาใช้เมนู Distributions ใน jamovi เลือก Normal Distribution กำหนด Mean = 150 และ SD = 30 (สมมติว่าเป็นยอดซื้อต่อบิล) จงแคปเจอร์กราฟที่แสดงพื้นที่ความน่าจะเป็นของลูกค้าที่มียอดซื้อ มากกว่า 200 บาท
Probability Density: จากข้อ 6 จงหาค่าความน่าจะเป็นที่ลูกค้าจะมียอดซื้ออยู่ระหว่าง 120 ถึง 180 บาท โดยใช้เครื่องมือคำนวณพื้นที่ใต้กราฟใน jamovi
Outlier Impact: หากเราพบว่ามีลูกค้าคนหนึ่งมียอดซื้อสูงถึง 500 บาท ซึ่งถือเป็น Outlier ใน Box Plot จากบทที่แล้ว นักศึกษาคิดว่าค่านี้ส่งผลต่อการระบุ “ค่าเฉลี่ย” (Mean) ในการแจกแจงแบบปกติอย่างไร?
Risk Analysis: หากบริษัทมีโครงการลงทุน 2 โครงการ
โครงการ A: ค่าคาดหวังกำไร 50,000 บาท ความน่าจะเป็นที่จะขาดทุน 10%
โครงการ B: ค่าคาดหวังกำไร 70,000 บาท ความน่าจะเป็นที่จะขาดทุน 40%
หากบริษัทเป็นกลุ่มที่ “ยอมรับความเสี่ยงได้ต่ำ” นักศึกษาจะเสนอให้เลือกโครงการใด เพราะเหตุใด?
- Data Ethics: ในการทำ Churn Prediction หากโมเดลรายงานว่า “ลูกค้าคนนี้มีความน่าจะเป็นที่จะเลิกใช้บริการ 0.85” และร้านค้าตัดสินใจระงับสิทธิพิเศษบางอย่างทันทีเพื่อลดความสูญเสีย นักศึกษาคิดว่าการตัดสินใจโดยใช้ “ความน่าจะเป็น” เพียงอย่างเดียวโดยไม่พิจารณาปัจจัยอื่นเหมาะสมหรือไม่? [7]