8  ความน่าจะเป็นสำหรับนักวิทยาศาสตร์ข้อมูล

Modified

18 พฤษภาคม 2569

Noteวัตถุประสงค์การเรียนรู้

เมื่อศึกษาบทนี้แล้ว ผู้เรียนควรสามารถ:

  1. อธิบายแนวคิดของความน่าจะเป็นได้

  2. คำนวณความน่าจะเป็นได้

  3. เข้าใจความหมายของตัวแปรสุ่ม (random variable) ได้

  4. เชื่อมโยงความน่าจะเป็นกับวิทยาการข้อมูลได้

8.1 ทำไมนักวิทยาศาสตร์ข้อมูลต้องศึกษาความน่าจะเป็น?

ในโลกความเป็นจริง ข้อมูลไม่ได้มาพร้อมกับคำตอบที่ “ใช่” หรือ “ไม่ใช่” แบบ 100% เสมอไป ความน่าจะเป็นจึงทำหน้าที่เป็น “ภาษาที่ใช้สื่อสารกับความไม่แน่นอน” เพื่อเปลี่ยนความเสี่ยงให้เป็นสิ่งที่วัดค่าได้

  1. รากฐานของการเรียนรู้ของเครื่อง โมเดลส่วนใหญ่ในการเรียนรู้ของเครื่อง ไม่ได้ให้คำตอบแบบฟันธง แต่ให้คำตอบเป็น “ระดับความเชื่อมั่น” (Confidence Score)

    • ตัวอย่าง: ระบบตรวจจับอีเมลขยะ (Spam Filter) ไม่ได้บอกว่า “นี่คือสแปม” แต่บอกว่า “มีความน่าจะเป็น 98% ที่จะเป็นสแปม”

    • หากความน่าจะเป็นสูงกว่าเกณฑ์ (Threshold) ที่เราตั้งไว้ ระบบจึงจะย้ายอีเมลนั้นไปลงถังขยะ [1]

  2. สถิติเชิงอนุมาน ในข้อมูลขนาดใหญ่ เรามักไม่สามารถเก็บข้อมูลของประชากรทั้งหมดได้ (เช่น ความพึงพอใจของคนทั้งเชียงใหม่)

    • เราจึงใช้ความน่าจะเป็นเพื่อ “อนุมาน” (Inference) ว่าข้อมูลที่เราสุ่มมา (Sample) สามารถเป็นตัวแทนของภาพรวมได้แม่นยำเพียงใด

    • ความน่าจะเป็นช่วยตอบคำถามว่า “ยอดขายที่เพิ่มขึ้นนี้เกิดจากแคมเปญที่เราทำจริงๆ หรือเป็นแค่เรื่องบังเอิญ (Random Chance)?” [2]

  3. การตัดสินใจภายใต้ความเสี่ยง ผู้บริหารไม่ได้ต้องการแค่ตัวเลขในอดีต แต่ต้องการทางเลือกสำหรับอนาคต

    • ค่าคาดหว้ง (Expected Value): ความน่าจะเป็นช่วยให้เราคำนวณได้ว่า หากเราลงทุนในแคมเปญใหม่ 1 แสนบาท โดยมีโอกาสสำเร็จ 40% และโอกาสล้มเหลว 60% ผลลัพธ์โดยเฉลี่ยที่ธุรกิจจะได้รับคือเท่าไหร่

    • สิ่งนี้เปลี่ยนจากการ “ใช้สัญชาตญาณ” (Gut Feeling) มาเป็นการตัดสินใจด้วย “ข้อมูลและความเสี่ยงที่คำนวณแล้ว”

ความแตกต่างระหว่าง ‘คนทั่วไป’ กับ ‘นักวิทยาศาสตร์ข้อมูล’ คือคนทั่วไปจะพูดว่า ‘น่าจะขายดีนะ’ แต่นักวิทยาศาสตร์ข้อมูลจะพูดว่า ‘จากข้อมูลย้อนหลัง เรามีความน่าจะเป็น 75% ที่จะทำยอดขายได้ตามเป้า’

8.2 ความน่าจะเป็นเบื้องต้น

ก่อนที่เราจะเริ่มคำนวณเหตุการณ์ที่ซับซ้อนในทางธุรกิจ เราต้องทำความเข้าใจก่อนว่า ความน่าจะเป็น (Probability) ไม่ใช่ตัวเลขที่ตั้งขึ้นมาลอยๆ แต่มีกฎเกณฑ์ทางคณิตศาสตร์ที่เข้มงวดรองรับ เพื่อให้การวิเคราะห์ข้อมูลของเรามีความสมเหตุสมผลและน่าเชื่อถือ [2]

ในทางสถิติ เรามักใช้สัญลักษณ์ \(P(A)\) แทน “ความน่าจะเป็นที่จะเกิดเหตุการณ์ \(A\)” โดยเหตุการณ์ \(A\) คือเซตย่อยของปริภูมิตัวอย่าง (Sample Space: \(S\)) ซึ่งคือผลลัพธ์ทั้งหมดที่เป็นไปได้จากการทดลองสุ่มหนึ่งๆ

8.3 สัจพจน์ของความน่าจะเป็น (Axioms of Probability)

ในปี 1933 Andrey Kolmogorov นักคณิตศาสตร์ชาวรัสเซียได้วางรากฐานสำคัญที่เรียกว่า “สัจพจน์ของความน่าจะเป็น” ซึ่งเปรียบเสมือนรัฐธรรมนูญของความน่าจะเป็นที่นักวิทยาศาสตร์ข้อมูล ทุกคนต้องยึดถือ มี 3 ข้อดังนี้

  1. ค่าต้องเป็นบวก (Non-negativity) ความน่าจะเป็นของเหตุการณ์ใดๆ ต้องไม่ติดลบเสมอ \[P(A) \ge 0\]

Business Sense: เราไม่สามารถบอกได้ว่า “โอกาสที่ลูกค้าจะเข้าร้านคือ -10%” ค่าต่ำสุดที่เป็นไปได้คือ 0 (ไม่มีโอกาสเกิดขึ้นเลย)

  1. กฎของความแน่นอน (Certainty) ความน่าจะเป็นของเหตุการณ์ทั้งหมดที่เป็นไปได้รวมกัน ต้องเท่ากับ 1 เสมอ \[P(S) = 1\]

Business Sense: หากเราพิจารณาทุกทางเลือกที่เป็นไปได้ (เช่น ลูกค้าซื้อ หรือ ลูกค้าไม่ซื้อ) เมื่อรวมโอกาสเข้าด้วยกันแล้วต้องได้ 100% เสมอ จะไม่มีสิ่งที่อยู่นอกเหนือจากระบบที่เรานิยามไว้

  1. กฎการบวกของเหตุการณ์ที่แยกจากกัน (Additivity) ถ้าเหตุการณ์ \(A\) และ \(B\) ไม่สามารถเกิดขึ้นพร้อมกันได้ (Mutually Exclusive) ความน่าจะเป็นที่จะเกิด \(A\) หรือ \(B\) คือผลรวมของความน่าจะเป็นของแต่ละเหตุการณ์ \[P(A \cup B) = P(A) + P(B)\]

Business Sense: หากโอกาสที่ลูกค้าจะสั่ง “กาแฟร้อน” คือ 0.3 และ “กาแฟเย็น” คือ 0.5 (โดยที่ลูกค้า 1 คนสั่งได้แค่อย่างเดียว) โอกาสที่ลูกค้าจะสั่งกาแฟ (ไม่ว่าร้อนหรือเย็น) คือ \(0.3 + 0.5 = 0.8\) หรือ 80%

เมื่อเราทราบกฎเหล็กแล้ว สิ่งที่ตามมาคือเราจะรู้ทันทีว่าค่าความน่าจะเป็นต้องอยู่ระหว่าง 0 ถึง 1 เสมอ: \[0 \le P(A) \le 1\]

  • \(P(A) = 0\): เหตุการณ์ที่ไม่มีวันเกิดขึ้น (Impossible)

  • \(P(A) = 1\): เหตุการณ์ที่เกิดขึ้นแน่นอน (Certain)

8.4 ปริภูมิตัวอย่าง(Sample Space) และเหตุการณ์ (Event)

ในโลกของข้อมูล ก่อนที่เราจะคำนวณอะไรได้ เราต้องกำหนดขอบเขตของสิ่งที่เป็นไปได้ทั้งหมดก่อน

  1. Sample Space (\(S\)) คือ “จักรวาลของผลลัพธ์” หรือเซตของผลลัพธ์ทั้งหมดที่เป็นไปได้จากการทดลองสุ่ม (Random Experiment) หนึ่งครั้ง

ตัวอย่างธุรกิจ: หากเราพิจารณาพฤติกรรมการเข้าชมเว็บไซต์ของลูกค้า 1 ราย

\[S = \{ \text{ซื้อสินค้า, ไม่ซื้อสินค้า, ใส่ตะกร้าแต่ไม่จ่ายเงิน} \}\]

  • ตัวอย่างการสุ่มตรวจ: หากเราสุ่มตรวจสินค้าจากคลัง 2 ชิ้น (ดี = G, เสีย = D)

\[S=\{ \text{GG, GD, DG, DD}\}\]

  1. Event (\(A\)) คือ “เหตุการณ์ที่เราสนใจ” หรือเซตย่อย (Subset) ของ Sample Space
  • ตัวอย่าง: จากการสุ่มตรวจสินค้า 2 ชิ้นข้างต้น หากเราสนใจเหตุการณ์ “พบสินค้าเสียอย่างน้อย 1 ชิ้น”

\[A = \{ \text{GD, DG, DD} \}\]

8.5 การคำนวณความน่าจะเป็นแบบคลาสสิก (Classical Probability)

เมื่อผลลัพธ์ทุกอย่างใน Sample Space มีโอกาสเกิดขึ้นเท่าๆ กัน (Equally Likely) เราสามารถใช้สูตรพื้นฐานที่ระบุไว้ได้ดังนี้

\[P(A) = \frac{n(A)}{n(S)}\]

โดยที่

  • \(n(A)\) คือ จำนวนสมาชิกในเหตุการณ์ที่เราสนใจ

  • \(n(S)\) คือ จำนวนสมาชิกทั้งหมดใน Sample Space

8.5.1 กรณีศึกษา: การสุ่มแจกคูปองที่ Chiang Mai Brew

สมมติว่าในระบบสะสมแต้มของร้าน มีรายชื่อลูกค้าที่มาใช้บริการในวันนี้ทั้งหมด 100 คน แบ่งเป็น

  • ลูกค้าใหม่ (New Customer): 30 คน

  • ลูกค้าประจำ (Regular Customer): 70 คน

โจทย์: หากต้องการสุ่มเลือกลูกค้า 1 คนเพื่อแจกคูปอง “กาแฟฟรี” ความน่าจะเป็นที่จะได้ ลูกค้าใหม่ เป็นเท่าไหร่?

วิธีคิด:

  1. จำนวนผลลัพธ์ทั้งหมด \(n(S) = 100\)

  2. จำนวนผลลัพธ์ที่สนใจ (ลูกค้าใหม่) \(n(A) = 30\)

  3. \(P(\text{New Customer}) = \frac{30}{100} = 0.3\) หรือ 30%

ในทางทฤษฎี (Classical) เราอาจจะบอกว่าโอกาสได้หัวหรือก้อยคือ 0.5 แต่ในทางวิทยาการข้อมูล เรามักจะใช้ Empirical Probability คือการดูจากข้อมูลจริง (Relative Frequency) เช่น ถ้าลูกค้าเข้าร้าน 1,000 คน แล้วซื้อจริง 200 คน ความน่าจะเป็นที่คนต่อไปจะซื้อคือ 0.2… นี่คือการนำสถิติจากอดีตมาคาดการณ์อนาคต

Importantข้อควรระวังในการคำนวณ (Common Pitfall)

1 หน่วยต้องชัดเจน: จำนวนผลลัพธ์ต้องอยู่ในหน่วยเดียวกัน

2 Sample Space ต้องครบถ้วน: หากเราลืมนับผลลัพธ์ใดผลลัพธ์หนึ่งไป ค่า \(P(A)\) จะคลาดเคลื่อนทันที (ซึ่งใน Big Data มักเกิดจากข้อมูลที่ขาดหายหรือ Missing Values)

ก้าวสำคัญที่จะเปลี่ยนนักศึกษาให้เป็นนักวิทยาศาสตร์ข้อมูล คือการเข้าใจ “ความน่าจะเป็นแบบมีเงื่อนไข” (Conditional Probability) เพราะในโลกของข้อมูลขนาดใหญ่ เหตุการณ์หนึ่งมักจะส่งผลต่ออีกเหตุการณ์หนึ่งเสมอ และนี่คือรากฐานสำคัญของ “กฎความสัมพันธ์” (Association Rules) ที่ใช้ในการทำ Market Basket Analysis (เช่น การวิเคราะห์ว่าถ้าลูกค้าซื้อกาแฟแล้ว มีโอกาสแค่ไหนที่จะซื้อขนมปังด้วย)

8.6 ความน่าจะเป็นแบบมีเงื่อนไข (Conditional Probability)

ในบางครั้ง การคำนวณความน่าจะเป็นของเหตุการณ์หนึ่งจะเปลี่ยนไป เมื่อเรามี “ข้อมูลเพิ่มเติม” หรือทราบว่ามีอีกเหตุการณ์หนึ่งเกิดขึ้นก่อนหน้า

เราใช้สัญลักษณ์ \(P(A|B)\) อ่านว่า **“ความน่าจะเป็นของเหตุการณ์** \(A\) เมื่อกำหนดว่าเหตุการณ์ \(B\) ได้เกิดขึ้นแล้ว”

Tipสูตรการคำนวณ

\[P(A|B) = \frac{P(A \cap B)}{P(B)} \quad \text{โดยที่ } P(B) > 0\]

  • \(P(A \cap B)\) คือ โอกาสที่ทั้งเหตุการณ์ A และ B จะเกิดขึ้นพร้อมกัน

  • \(P(B)\) คือ โอกาสที่จะเกิดเหตุการณ์ B (เหตุการณ์ที่เป็นเงื่อนไข)

8.7 การประยุกต์ใช้: จากความน่าจะเป็นสู่ “กฎความสัมพันธ์” (Association Rules)

ในทางวิทยาการข้อมูลเรานำแนวคิดนี้ไปใช้หาความสัมพันธ์ของสินค้าในตะกร้าสินค้า (Market Basket Analysis) โดยมีดัชนีชี้วัดที่สำคัญ 2 ตัวที่มาจากพื้นฐานความน่าจะเป็น

  1. ค่าความเชื่อมั่น (Confidence) คือค่าความน่าจะเป็นแบบมีเงื่อนไข \(P(\text{ซื้อสินค้า B} | \text{ซื้อสินค้า A})\) เพื่อดูว่าถ้าลูกค้าซื้อ A แล้ว จะซื้อ B ตามมาด้วยความมั่นใจแค่ไหน

8.7.1 กรณีศึกษา: Chiang Mai Brew Insights

สมมติฐานข้อมูลการขาย 100 บิล พบว่า:

  • บิลที่ซื้อ กาแฟ (Coffee) มี 60 บิล

  • บิลที่ซื้อทั้ง กาแฟ และ เบเกอรี่ (Coffee & Bakery) มี 30 บิล

โจทย์: หากลูกค้าเดินเข้ามาซื้อกาแฟแล้ว ความน่าจะเป็นที่เขาจะซื้อเบเกอรี่ด้วยความเชื่อมั่น (Confidence) เป็นเท่าไหร่?

วิธีคำนวณ: \[P(\text{Bakery} | \text{Coffee}) = \frac{P(\text{Bakery} \cap \text{Coffee})}{P(\text{Coffee})} = \frac{30/100}{60/100} = \frac{30}{60} = 0.5\]

Insight: มีโอกาสถึง 50% ที่คนซื้อกาแฟจะซื้อเบเกอรี่เพิ่ม นี่คือข้อมูลสำคัญในการจัดโปรโมชั่น “Coffee & Bakery Set” [3]

8.8 กฎการคูณ (Multiplication Rule) และความเป็นอิสระต่อกัน (Independence)

จากสูตรข้างต้น เราสามารถย้ายข้างเพื่อหาโอกาสที่จะเกิดเหตุการณ์ร่วมกันได้: \[P(A \cap B) = P(B) \cdot P(A|B)\]

แต่ถ้าเหตุการณ์ A และ B ไม่เกี่ยวข้องกันเลย (Non-Independent): เช่น การที่ลูกค้าซื้อกาแฟ ไม่ได้ส่งผลต่อการที่ฝนจะตกข้างนอกร้าน \[P(A \cap B) = P(A) \cdot P(B)\]

ความน่าจะเป็นแบบมีเงื่อนไข \(P(A|B)\) นี้แหละ คือกระดูกสันหลังของ Naive Bayes Classifier ที่เราจะใช้จำแนกอีเมลสแปม หรือใช้ทำ Recommendation System ในแอปฯ สั่งอาหาร… ถ้าเราเข้าใจ \(P(A|B)\) เราจะเข้าใจว่าทำไม YouTube ถึงรู้ใจว่าเราอยากดูคลิปอะไรเป็นลำดับถัดไป

8.9 ตัวแปรสุ่ม (Random Variables: \(X\))

ในทางสถิติและ Data Science เรามักจะเปลี่ยนผลลัพธ์ที่เป็น “ข้อความ” หรือ “เหตุการณ์” ให้กลายเป็น “ตัวเลข” เพื่อให้คอมพิวเตอร์สามารถคำนวณได้ เราเรียกตัวเลขที่ได้จากกระบวนการสุ่มนี้ว่า ตัวแปรสุ่ม โดยแบ่งออกเป็น 2 ประเภทหลักตามลักษณะของข้อมูล [4]

  1. ตัวแปรสุ่มชนิดไม่ต่อเนื่อง (Discrete Random Variables) ในทางคณิตศาสตร์ เรานิยามตัวแปรสุ่มชนิดนี้ผ่าน ฟังก์ชันมวลความน่าจะเป็น (Probability Mass Function: PMF)
  • นิยาม: ให้ \(X\) เป็นตัวแปรสุ่ม โดยที่เซตของค่าที่เป็นไปได้ \(x_1, x_2, \dots\) มีจำนวนจำกัดหรือนับได้ (Countable)

  • การแสดงแทน: เราใช้ฟังก์ชัน \(f(x) = P(X = x)\) เพื่อบอกความน่าจะเป็นที่ \(X\) จะมีค่าเท่ากับ \(x\) พอดี

  • สมบัติทางคณิตศาสตร์

    1. \(0 \le f(x) \le 1\)

    2. \(\sum_{all \ x} f(x) = 1\) (ผลรวมความน่าจะเป็นของทุกค่าต้องเท่ากับ 1)

ตัวอย่างในธุรกิจ

  • จำนวนลูกค้าที่เดินเข้าร้าน Chiang Mai Brew ในแต่ละชั่วโมง (0, 1, 2, …)

  • จำนวนครั้งที่ผู้ใช้งานคลิกปุ่ม “Buy Now” บนหน้าเว็บไซต์

  • จำนวนสินค้าที่เสีย (Defective) ในการสุ่มตรวจ 10 ชิ้น

  1. ตัวแปรสุ่มชนิดต่อเนื่อง (Continuous Random Variables) เนื่องจากตัวแปรชนิดนี้มีค่าได้ไม่จำกัดในช่วงหนึ่งๆ ความน่าจะเป็นที่ \(X\) จะเท่ากับค่าใดค่าหนึ่ง “เป๊ะๆ” จึงเท่ากับ 0 เสมอ เราจึงนิยามผ่าน ฟังก์ชันความหนาแน่นความน่าจะเป็น (Probability Density Function: PDF)
  • นิยาม: ให้ \(X\) เป็นตัวแปรสุ่มที่สามารถรับค่าได้ทุกค่าในช่วงจำนวนจริง การคำนวณความน่าจะเป็นจะทำผ่าน “พื้นที่ใต้กราฟ” ในช่วงที่สนใจ

  • การแสดงแทน: ความน่าจะเป็นที่ \(X\) จะมีค่าอยู่ในช่วง \([a, b]\) คำนวณได้จาก \[P(a \le X \le b) = \int_{a}^{b} f(x) \,dx\]

  • สมบัติทางคณิตศาสตร์:

    1. \(f(x) \ge 0\) สำหรับทุกค่า \(x\)

    2. \(\int_{-\infty}^{\infty} f(x) \,dx = 1\) (พื้นที่ใต้กราฟทั้งหมดต้องเท่ากับ 1)

ตัวอย่างในธุรกิจ

  • เวลาที่ลูกค้าใช้รอคิวรับกาแฟ (เช่น 5.45 นาที)

  • รายได้รวมของบริษัทในแต่ละไตรมาส

  • อุณหภูมิเฉลี่ยภายในร้านในแต่ละวัน

Table 8.1: สรุปเปรียบเทียบเชิงโครงสร้าง
คุณสมบัติ Discrete (\(X\) ไม่ต่อเนื่อง) Continuous (\(X\) ต่อเนื่อง)
ค่าที่เป็นไปได้ จำนวนนับ \(\{0, 1, 2, \dots\}\) ช่วงของจำนวนจริง \((a, b)\)
เครื่องมือคำนวณ การบวกสะสม (\(\sum\)) การหาปริพันธ์ (Integral \(\int\))
ฟังก์ชันที่ใช้ PMF: \(P(X=x)\) PDF: \(f(x)\)
ตัวอย่าง จำนวน Transaction ยอดขายรวม (บาท.สตางค์)

จากตารางสรุปเปรียบเทียบเชิงโครงสร้าง Table 8.1 นักศึกษาจะเห็นว่าเครื่องมือทางคณิตศาสตร์อย่าง \(\sum\) (ซิกมา) หรือ \(\int\) (อินทิกรัล) นั้นมีไว้เพื่อให้เราเข้าใจ “หลักการ” แต่ในชีวิตจริงของการทำงานด้านวิทยาการข้อมูล เราจะใช้ฟังก์ชันสำเร็จรูปในการหาค่าเหล่านี้

1. สำหรับตัวแปรสุ่มชนิดไม่ต่อเนื่อง (Discrete) เมื่อเราต้องการหาโอกาสที่จะเกิดเหตุการณ์จำนวนครั้งที่แน่นอน (เช่น โอกาสที่ลูกค้าจะซื้อของพอดี 5 คน จาก 20 คน)

  • Excel: ใช้ฟังก์ชัน =BINOM.DIST(x, n, p, FALSE)

    • FALSE ในที่นี้คือการสั่งให้คำนวณแบบ PMF เพื่อหาค่าที่จุดนั้นๆ เป๊ะๆ
  • jamovi: ในเมนู distrACTION นักศึกษาสามารถเลือก Binomial Distribution แล้วระบุจำนวนครั้ง (\(n\)) และโอกาสสำเร็จ (\(p\)) โปรแกรมจะวาดกราฟแท่งแสดงโอกาสของแต่ละจำนวนครั้งให้ทันที

2. สำหรับตัวแปรสุ่มชนิดต่อเนื่อง (Continuous) เมื่อเราต้องการหาพื้นที่ใต้กราฟเพื่อดูโอกาสที่ข้อมูลจะตกอยู่ในช่วงที่เราสนใจ (เช่น โอกาสที่ยอดขายจะอยู่ระหว่าง 500 - 1,000 บาท)

  • Excel: ใช้ฟังก์ชัน =NORM.DIST(x, mean, sd, TRUE)
    • TRUE คือการสั่งให้คำนวณแบบ “สะสม” (Cumulative) ซึ่งเทียบเท่ากับการหาพื้นที่ใต้กราฟ (Integral) ตั้งแต่ค่าเริ่มต้นมาถึงจุดที่เรากำหนด
  • jamovi: ในเมนู distrACTION เลือก Normal Distribution นักศึกษาสามารถกรอกค่าเฉลี่ย (\(\mu\)) และส่วนเบี่ยงเบนมาตรฐาน (\(\sigma\)) พร้อมระบุช่วงของค่า \(x\) โปรแกรมจะทำการระบายสีพื้นที่ใต้กราฟ (Shaded Area) และคำนวณค่าความน่าจะเป็นให้โดยที่เราไม่ต้องเขียนสมการแคลคูลัสเอง

8.9.1 สรุปปิดท้ายบท: ความน่าจะเป็นกับวิทยาการข้อมูล

ท้ายที่สุดแล้ว ความน่าจะเป็นคือเครื่องมือที่ช่วยให้นักวิทยาศาสตร์ข้อมูล สามารถ

  1. วัดค่าความเสี่ยง: ไม่ใช่แค่บอกว่า “น่าจะ” แต่บอกได้ว่า “โอกาสกี่เปอร์เซ็นต์”

  2. ตั้งเกณฑ์การตัดสินใจ: เช่น ถ้าความน่าจะเป็นที่ลูกค้าจะเบี้ยวหนี้สูงกว่า 0.8 ระบบจะไม่อนุมัติเงินกู้โดยอัตโนมัติ

  3. ประเมินความแม่นยำ: โมเดลที่เราสร้างขึ้นนั้น “เดาถูก” เพราะฝีมือหรือเพราะ “โชคช่วย” (Random Chance)

8.10 การแจกแจงความน่าจะเป็น (Probability Distributions)

เมื่อเรานำ ตัวแปรสุ่ม (\(X\)) มาพล็อตกราฟเพื่อดูว่าแต่ละค่ามีโอกาสเกิดขึ้นมากน้อยเพียงใด เราจะได้สิ่งที่เรียกว่า “การแจกแจงความน่าจะเป็น” ซึ่งเปรียบเสมือนพิมพ์เขียวหรือพฤติกรรมของข้อมูลนั้นๆ

8.10.1 การแจกแจงแบบทวินาม (Binomial Distribution)

ใช้กับตัวแปรสุ่มชนิด Discrete ที่มีผลลัพธ์เพียง 2 ทางเลือก (Success/Failure) ในการทดลองหลายๆ ครั้งที่อิสระต่อกัน

  • ตัวอย่าง: หากเราส่งอีเมลการตลาดไป 100 ฉบับ และรู้ว่าปกติมีคนเปิด 10% เราสามารถใช้ Binomial เพื่อหาว่า “ความน่าจะเป็นที่จะมีคนเปิดอีเมลพอดี 15 คนเป็นเท่าไหร่?”

  • Parameter สำคัญ: \(n\) (จำนวนครั้ง) และ \(p\) (โอกาสสำเร็จ)

8.10.2 การแจกแจงแบบปกติ (Normal Distribution / Gaussian)

คือการแจกแจงที่สำคัญที่สุดสำหรับตัวแปรสุ่มชนิด Continuous มีรูปทรงเป็น “ระฆังคว่ำ” (Bell Curve) ที่สมมาตร

  • ตัวอย่าง: อายุของลูกค้า, ส่วนสูง, หรือข้อผิดพลาด (Errors) ในการพยากรณ์โมเดล มักมีการแจกแจงแบบปกติ

  • หัวใจสำคัญ: ข้อมูลส่วนใหญ่จะกองอยู่ตรงกลาง (Mean) และกระจายออกไปตามความเบี่ยงเบนมาตรฐาน (SD)

  • Central Limit Theorem: ในโลกของข้อมูลขนาดใหญ่ ถ้าเราสุ่มตัวอย่างจำนวนมากพอ ค่าเฉลี่ยของมันจะวิ่งเข้าหาการแจกแจงแบบปกติเสมอ ซึ่งเป็นพื้นฐานของการทดสอบสมมติฐาน (\(t-test, Z-test\)) [5]

หัวข้อสุดท้ายนี้จะเป็นการนำจิ๊กซอว์ทุกชิ้นที่เราเรียนมา ทั้งเรื่อง Axioms, Conditional Probability, และ Distribution มาประกอบร่างกันเพื่อใช้ใน “การตัดสินใจเชิงธุรกิจ” ซึ่งเป็นปลายทางสำคัญของนักวิทยาศาสตร์ข้อมูล

8.11 การตัดสินใจด้วยความน่าจะเป็น (Decision Making with Probability)

ในโลกของวิทยาการข้อมูล เราไม่ได้สร้างโมเดลเพียงเพื่อความสวยงาม แต่เราสร้างขึ้นเพื่อ “ลดความเสี่ยงในการตัดสินใจ” โดยเราจะเปลี่ยนความไม่แน่นอนให้กลายเป็นตัวเลขที่เปรียบเทียบกันได้ผ่านแนวคิดหลักๆ ดังนี้

8.11.1 การคาดการณ์พฤติกรรมลูกค้า (Predictive Modeling)

เราใช้ความน่าจะเป็นเพื่อระบุ “โอกาส” ที่เหตุการณ์ในอนาคตจะเกิดขึ้น เช่น

  • Churn Prediction: ความน่าจะเป็นที่ลูกค้าจะเลิกใช้บริการ (เช่น \(P(\text{Churn} > 0.7)\)) หากค่านี้สูง ร้าน Chiang Mai Brew อาจต้องส่งคูปองส่วนลดพิเศษไปดึงดูดไว้ก่อนที่เขาจะจากไปจริงๆ [6]

  • Conversion Rate: ความน่าจะเป็นที่คนที่เดินผ่านหน้าเว็บไซต์จะคลิกซื้อสินค้า

8.11.2 การวิเคราะห์ความเสี่ยง

ในการทำธุรกิจ ทุกการตัดสินใจมีความเสี่ยง ความน่าจะเป็นช่วยให้เราทำ “Stress Test” หรือการจำลองสถานการณ์ได้:

  • ตัวอย่าง: หากเราลงทุนนำเข้าเมล็ดกาแฟพิเศษจากเวียดนาม 100 กิโลกรัม ความน่าจะเป็นที่สินค้าจะขายหมดภายใน 1 เดือนเป็นเท่าไหร่? หาก \(P(\text{ขายหมด}) < 0.5\) เราอาจต้องปรับแผนการสั่งซื้อเพื่อไม่ให้เงินจม

8.11.3 ค่าคาดหวัง (Expected Value: \(E[X]\)) - เครื่องมือตัดสินใจที่สำคัญที่สุด

นี่คือจุดที่ความน่าจะเป็นถูกนำมาใช้ตัดสินใจเลือกทางเลือกที่ดีที่สุดในเชิงเศรษฐศาสตร์ \[E[X] = \sum (x \cdot P(x))\]

  • กรณีศึกษา: หากคุณต้องเลือกระหว่าง 2 แคมเปญ:

    • แคมเปญ A: มีโอกาสได้กำไร 10,000 บาท (70%) หรือขาดทุน 2,000 บาท (30%)

    • แคมเปญ B: มีโอกาสได้กำไร 50,000 บาท (10%) หรือเท่าทุน 0 บาท (90%)

การคำนวณ \[\begin{aligned} E[A] &= (10,000 \cdot 0.7) + (-2,000 \cdot 0.3) = 6,400 \text{ บาท}\\ E[B] &= (50,000 \cdot 0.1) + (0 \cdot 0.9) = 5,000 \text{ บาท}\end{aligned}\]

  • การตัดสินใจ: แม้แคมเปญ B จะมีตัวเลขกำไรที่สูงกว่ามาก (5 หมื่น) แต่ในเชิงสถิติ แคมเปญ A ให้ค่าคาดหวังที่สูงกว่า และมีความเสี่ยงที่สมเหตุสมผลมากกว่า

ข้อมูลบอกเราว่า ‘อดีตเกิดอะไรขึ้น’ แต่ความน่าจะเป็น บอกเราว่า ‘อนาคตมีทางเลือกอะไรบ้าง’ การตัดสินใจโดยปราศจากความน่าจะเป็น คือการเดินในที่มืดด้วยสัญชาตญาณ แต่การใช้ความน่าจะเป็น คือการเปิดไฟสปอร์ตไลท์ให้เห็นเส้นทางที่มีโอกาสสำเร็จสูงสุด

8.12 แบบฝึกหัดท้ายบท

Noteคำชี้แจง

ให้นักศึกษาใช้โปรแกรม Microsoft Excel หรือ jamovi ในการคำนวณและหาคำตอบจากโจทย์กรณีศึกษาต่อไปนี้ โดยอ้างอิงหลักการของตัวแปรสุ่มและการแจกแจงความน่าจะเป็น

  1. Empirical Probability: จากข้อมูลการขายใน 1 วันของร้าน Chiang Mai Brew พบว่ามีบิลทั้งหมด 250 บิล เป็นบิลที่สั่ง “เมนูมัทฉะ” 45 บิล จงใช้ Excel คำนวณหาความน่าจะเป็นที่ลูกค้าคนถัดไปจะสั่งมัทฉะ (\(P(Matcha)\))

  2. Conditional Probability & Confidence: ใน jamovi หากผลการวิเคราะห์พบว่า

    • ความน่าจะเป็นที่ลูกค้าจะซื้อทั้งกาแฟและครัวซองต์ \(P(Coffee \cap Croissant) = 0.15\)

    • ความน่าจะเป็นที่ลูกค้าจะซื้อกาแฟ \(P(Coffee) = 0.60\)

จงคำนวณหาค่าความเชื่อมั่น (Confidence)\(P(Croissant | Coffee)\) ว่ามีค่าเท่าใด?

  1. Binomial Distribution (Exact): หากทราบว่าโอกาสที่ลูกค้าจะสมัครบัตรสมาชิกใหม่คือ 10% (\(p=0.1\)) หากวันนี้มีลูกค้าเข้าร้าน 20 คน จงใช้ฟังก์ชัน =BINOM.DIST ใน Excel หาโอกาสที่จะมีลูกค้าสมัครสมาชิก พอดี 2 คน

  2. Binomial Distribution (Cumulative): จากโจทย์ข้อ 3 จงหาความน่าจะเป็นที่จะมีลูกค้าสมัครสมาชิก ไม่เกิน 3 คน (คำใบ้: ใช้ Cumulative = TRUE)

  3. Expected Value: ร้านอาหารจัดโปรโมชั่นสุ่มแจกรางวัล โดยมีรางวัลมูลค่า 500 บาท (โอกาส 5%), 100 บาท (โอกาส 15%) และไม่ได้รางวัลเลย (โอกาส 80%) จงใช้ฟังก์ชัน SUMPRODUCT ใน Excel เพื่อหา “ค่าคาดหวัง” (Expected Value) ของการสุ่มแจกครั้งนี้

  4. Normal Distribution Visual: ให้นักศึกษาใช้เมนู Distributions ใน jamovi เลือก Normal Distribution กำหนด Mean = 150 และ SD = 30 (สมมติว่าเป็นยอดซื้อต่อบิล) จงแคปเจอร์กราฟที่แสดงพื้นที่ความน่าจะเป็นของลูกค้าที่มียอดซื้อ มากกว่า 200 บาท

  5. Probability Density: จากข้อ 6 จงหาค่าความน่าจะเป็นที่ลูกค้าจะมียอดซื้ออยู่ระหว่าง 120 ถึง 180 บาท โดยใช้เครื่องมือคำนวณพื้นที่ใต้กราฟใน jamovi

  6. Outlier Impact: หากเราพบว่ามีลูกค้าคนหนึ่งมียอดซื้อสูงถึง 500 บาท ซึ่งถือเป็น Outlier ใน Box Plot จากบทที่แล้ว นักศึกษาคิดว่าค่านี้ส่งผลต่อการระบุ “ค่าเฉลี่ย” (Mean) ในการแจกแจงแบบปกติอย่างไร?

  7. Risk Analysis: หากบริษัทมีโครงการลงทุน 2 โครงการ

    • โครงการ A: ค่าคาดหวังกำไร 50,000 บาท ความน่าจะเป็นที่จะขาดทุน 10%

    • โครงการ B: ค่าคาดหวังกำไร 70,000 บาท ความน่าจะเป็นที่จะขาดทุน 40%

หากบริษัทเป็นกลุ่มที่ “ยอมรับความเสี่ยงได้ต่ำ” นักศึกษาจะเสนอให้เลือกโครงการใด เพราะเหตุใด?

  1. Data Ethics: ในการทำ Churn Prediction หากโมเดลรายงานว่า “ลูกค้าคนนี้มีความน่าจะเป็นที่จะเลิกใช้บริการ 0.85” และร้านค้าตัดสินใจระงับสิทธิพิเศษบางอย่างทันทีเพื่อลดความสูญเสีย นักศึกษาคิดว่าการตัดสินใจโดยใช้ “ความน่าจะเป็น” เพียงอย่างเดียวโดยไม่พิจารณาปัจจัยอื่นเหมาะสมหรือไม่? [7]