8 ความน่าจะเป็นสำหรับนักวิทยาศาสตร์ข้อมูล

Modified

18 พฤษภาคม 2569

วัตถุประสงค์การเรียนรู้

เมื่อศึกษาบทนี้แล้ว ผู้เรียนควรสามารถ:

อธิบายแนวคิดของความน่าจะเป็นได้
คำนวณความน่าจะเป็นได้
เข้าใจความหมายของตัวแปรสุ่ม (random variable) ได้
เชื่อมโยงความน่าจะเป็นกับวิทยาการข้อมูลได้

8.1 ทำไมนักวิทยาศาสตร์ข้อมูลต้องศึกษาความน่าจะเป็น?

ในโลกความเป็นจริง ข้อมูลไม่ได้มาพร้อมกับคำตอบที่ “ใช่” หรือ “ไม่ใช่” แบบ 100% เสมอไป ความน่าจะเป็นจึงทำหน้าที่เป็น “ภาษาที่ใช้สื่อสารกับความไม่แน่นอน” เพื่อเปลี่ยนความเสี่ยงให้เป็นสิ่งที่วัดค่าได้

รากฐานของการเรียนรู้ของเครื่อง โมเดลส่วนใหญ่ในการเรียนรู้ของเครื่อง ไม่ได้ให้คำตอบแบบฟันธง แต่ให้คำตอบเป็น “ระดับความเชื่อมั่น” (Confidence Score)
- ตัวอย่าง: ระบบตรวจจับอีเมลขยะ (Spam Filter) ไม่ได้บอกว่า “นี่คือสแปม” แต่บอกว่า “มีความน่าจะเป็น 98% ที่จะเป็นสแปม”
- หากความน่าจะเป็นสูงกว่าเกณฑ์ (Threshold) ที่เราตั้งไว้ ระบบจึงจะย้ายอีเมลนั้นไปลงถังขยะ [1]
สถิติเชิงอนุมาน ในข้อมูลขนาดใหญ่ เรามักไม่สามารถเก็บข้อมูลของประชากรทั้งหมดได้ (เช่น ความพึงพอใจของคนทั้งเชียงใหม่)
- เราจึงใช้ความน่าจะเป็นเพื่อ “อนุมาน” (Inference) ว่าข้อมูลที่เราสุ่มมา (Sample) สามารถเป็นตัวแทนของภาพรวมได้แม่นยำเพียงใด
- ความน่าจะเป็นช่วยตอบคำถามว่า “ยอดขายที่เพิ่มขึ้นนี้เกิดจากแคมเปญที่เราทำจริงๆ หรือเป็นแค่เรื่องบังเอิญ (Random Chance)?” [2]
การตัดสินใจภายใต้ความเสี่ยง ผู้บริหารไม่ได้ต้องการแค่ตัวเลขในอดีต แต่ต้องการทางเลือกสำหรับอนาคต
- ค่าคาดหว้ง (Expected Value): ความน่าจะเป็นช่วยให้เราคำนวณได้ว่า หากเราลงทุนในแคมเปญใหม่ 1 แสนบาท โดยมีโอกาสสำเร็จ 40% และโอกาสล้มเหลว 60% ผลลัพธ์โดยเฉลี่ยที่ธุรกิจจะได้รับคือเท่าไหร่
- สิ่งนี้เปลี่ยนจากการ “ใช้สัญชาตญาณ” (Gut Feeling) มาเป็นการตัดสินใจด้วย “ข้อมูลและความเสี่ยงที่คำนวณแล้ว”

ความแตกต่างระหว่าง ‘คนทั่วไป’ กับ ‘นักวิทยาศาสตร์ข้อมูล’ คือคนทั่วไปจะพูดว่า ‘น่าจะขายดีนะ’ แต่นักวิทยาศาสตร์ข้อมูลจะพูดว่า ‘จากข้อมูลย้อนหลัง เรามีความน่าจะเป็น 75% ที่จะทำยอดขายได้ตามเป้า’

8.2 ความน่าจะเป็นเบื้องต้น

ก่อนที่เราจะเริ่มคำนวณเหตุการณ์ที่ซับซ้อนในทางธุรกิจ เราต้องทำความเข้าใจก่อนว่า ความน่าจะเป็น (Probability) ไม่ใช่ตัวเลขที่ตั้งขึ้นมาลอยๆ แต่มีกฎเกณฑ์ทางคณิตศาสตร์ที่เข้มงวดรองรับ เพื่อให้การวิเคราะห์ข้อมูลของเรามีความสมเหตุสมผลและน่าเชื่อถือ [2]

ในทางสถิติ เรามักใช้สัญลักษณ์ \(P(A)\) แทน “ความน่าจะเป็นที่จะเกิดเหตุการณ์ \(A\)” โดยเหตุการณ์ \(A\) คือเซตย่อยของปริภูมิตัวอย่าง (Sample Space: \(S\)) ซึ่งคือผลลัพธ์ทั้งหมดที่เป็นไปได้จากการทดลองสุ่มหนึ่งๆ

8.3 สัจพจน์ของความน่าจะเป็น (Axioms of Probability)

ในปี 1933 Andrey Kolmogorov นักคณิตศาสตร์ชาวรัสเซียได้วางรากฐานสำคัญที่เรียกว่า “สัจพจน์ของความน่าจะเป็น” ซึ่งเปรียบเสมือนรัฐธรรมนูญของความน่าจะเป็นที่นักวิทยาศาสตร์ข้อมูล ทุกคนต้องยึดถือ มี 3 ข้อดังนี้

ค่าต้องเป็นบวก (Non-negativity) ความน่าจะเป็นของเหตุการณ์ใดๆ ต้องไม่ติดลบเสมอ \[P(A) \ge 0\]

Business Sense: เราไม่สามารถบอกได้ว่า “โอกาสที่ลูกค้าจะเข้าร้านคือ -10%” ค่าต่ำสุดที่เป็นไปได้คือ 0 (ไม่มีโอกาสเกิดขึ้นเลย)

กฎของความแน่นอน (Certainty) ความน่าจะเป็นของเหตุการณ์ทั้งหมดที่เป็นไปได้รวมกัน ต้องเท่ากับ 1 เสมอ \[P(S) = 1\]

Business Sense: หากเราพิจารณาทุกทางเลือกที่เป็นไปได้ (เช่น ลูกค้าซื้อ หรือ ลูกค้าไม่ซื้อ) เมื่อรวมโอกาสเข้าด้วยกันแล้วต้องได้ 100% เสมอ จะไม่มีสิ่งที่อยู่นอกเหนือจากระบบที่เรานิยามไว้

กฎการบวกของเหตุการณ์ที่แยกจากกัน (Additivity) ถ้าเหตุการณ์ \(A\) และ \(B\) ไม่สามารถเกิดขึ้นพร้อมกันได้ (Mutually Exclusive) ความน่าจะเป็นที่จะเกิด \(A\) หรือ \(B\) คือผลรวมของความน่าจะเป็นของแต่ละเหตุการณ์ \[P(A \cup B) = P(A) + P(B)\]

Business Sense: หากโอกาสที่ลูกค้าจะสั่ง “กาแฟร้อน” คือ 0.3 และ “กาแฟเย็น” คือ 0.5 (โดยที่ลูกค้า 1 คนสั่งได้แค่อย่างเดียว) โอกาสที่ลูกค้าจะสั่งกาแฟ (ไม่ว่าร้อนหรือเย็น) คือ \(0.3 + 0.5 = 0.8\) หรือ 80%

เมื่อเราทราบกฎเหล็กแล้ว สิ่งที่ตามมาคือเราจะรู้ทันทีว่าค่าความน่าจะเป็นต้องอยู่ระหว่าง 0 ถึง 1 เสมอ: \[0 \le P(A) \le 1\]

\(P(A) = 0\): เหตุการณ์ที่ไม่มีวันเกิดขึ้น (Impossible)
\(P(A) = 1\): เหตุการณ์ที่เกิดขึ้นแน่นอน (Certain)

8.4 ปริภูมิตัวอย่าง(Sample Space) และเหตุการณ์ (Event)

ในโลกของข้อมูล ก่อนที่เราจะคำนวณอะไรได้ เราต้องกำหนดขอบเขตของสิ่งที่เป็นไปได้ทั้งหมดก่อน

Sample Space (\(S\)) คือ “จักรวาลของผลลัพธ์” หรือเซตของผลลัพธ์ทั้งหมดที่เป็นไปได้จากการทดลองสุ่ม (Random Experiment) หนึ่งครั้ง

ตัวอย่างธุรกิจ: หากเราพิจารณาพฤติกรรมการเข้าชมเว็บไซต์ของลูกค้า 1 ราย

\[S = \{ \text{ซื้อสินค้า, ไม่ซื้อสินค้า, ใส่ตะกร้าแต่ไม่จ่ายเงิน} \}\]

ตัวอย่างการสุ่มตรวจ: หากเราสุ่มตรวจสินค้าจากคลัง 2 ชิ้น (ดี = G, เสีย = D)

\[S=\{ \text{GG, GD, DG, DD}\}\]

Event (\(A\)) คือ “เหตุการณ์ที่เราสนใจ” หรือเซตย่อย (Subset) ของ Sample Space

ตัวอย่าง: จากการสุ่มตรวจสินค้า 2 ชิ้นข้างต้น หากเราสนใจเหตุการณ์ “พบสินค้าเสียอย่างน้อย 1 ชิ้น”

\[A = \{ \text{GD, DG, DD} \}\]

8.5 การคำนวณความน่าจะเป็นแบบคลาสสิก (Classical Probability)

เมื่อผลลัพธ์ทุกอย่างใน Sample Space มีโอกาสเกิดขึ้นเท่าๆ กัน (Equally Likely) เราสามารถใช้สูตรพื้นฐานที่ระบุไว้ได้ดังนี้

\[P(A) = \frac{n(A)}{n(S)}\]

โดยที่

\(n(A)\) คือ จำนวนสมาชิกในเหตุการณ์ที่เราสนใจ
\(n(S)\) คือ จำนวนสมาชิกทั้งหมดใน Sample Space

8.5.1 กรณีศึกษา: การสุ่มแจกคูปองที่ Chiang Mai Brew

สมมติว่าในระบบสะสมแต้มของร้าน มีรายชื่อลูกค้าที่มาใช้บริการในวันนี้ทั้งหมด 100 คน แบ่งเป็น

ลูกค้าใหม่ (New Customer): 30 คน
ลูกค้าประจำ (Regular Customer): 70 คน

โจทย์: หากต้องการสุ่มเลือกลูกค้า 1 คนเพื่อแจกคูปอง “กาแฟฟรี” ความน่าจะเป็นที่จะได้ ลูกค้าใหม่ เป็นเท่าไหร่?

วิธีคิด:

จำนวนผลลัพธ์ทั้งหมด \(n(S) = 100\)
จำนวนผลลัพธ์ที่สนใจ (ลูกค้าใหม่) \(n(A) = 30\)
\(P(\text{New Customer}) = \frac{30}{100} = 0.3\) หรือ 30%

ในทางทฤษฎี (Classical) เราอาจจะบอกว่าโอกาสได้หัวหรือก้อยคือ 0.5 แต่ในทางวิทยาการข้อมูล เรามักจะใช้ Empirical Probability คือการดูจากข้อมูลจริง (Relative Frequency) เช่น ถ้าลูกค้าเข้าร้าน 1,000 คน แล้วซื้อจริง 200 คน ความน่าจะเป็นที่คนต่อไปจะซื้อคือ 0.2… นี่คือการนำสถิติจากอดีตมาคาดการณ์อนาคต

ข้อควรระวังในการคำนวณ (Common Pitfall)

1 หน่วยต้องชัดเจน: จำนวนผลลัพธ์ต้องอยู่ในหน่วยเดียวกัน

2 Sample Space ต้องครบถ้วน: หากเราลืมนับผลลัพธ์ใดผลลัพธ์หนึ่งไป ค่า \(P(A)\) จะคลาดเคลื่อนทันที (ซึ่งใน Big Data มักเกิดจากข้อมูลที่ขาดหายหรือ Missing Values)

ก้าวสำคัญที่จะเปลี่ยนนักศึกษาให้เป็นนักวิทยาศาสตร์ข้อมูล คือการเข้าใจ “ความน่าจะเป็นแบบมีเงื่อนไข” (Conditional Probability) เพราะในโลกของข้อมูลขนาดใหญ่ เหตุการณ์หนึ่งมักจะส่งผลต่ออีกเหตุการณ์หนึ่งเสมอ และนี่คือรากฐานสำคัญของ “กฎความสัมพันธ์” (Association Rules) ที่ใช้ในการทำ Market Basket Analysis (เช่น การวิเคราะห์ว่าถ้าลูกค้าซื้อกาแฟแล้ว มีโอกาสแค่ไหนที่จะซื้อขนมปังด้วย)

8.6 ความน่าจะเป็นแบบมีเงื่อนไข (Conditional Probability)

ในบางครั้ง การคำนวณความน่าจะเป็นของเหตุการณ์หนึ่งจะเปลี่ยนไป เมื่อเรามี “ข้อมูลเพิ่มเติม” หรือทราบว่ามีอีกเหตุการณ์หนึ่งเกิดขึ้นก่อนหน้า

เราใช้สัญลักษณ์ \(P(A|B)\) อ่านว่า **“ความน่าจะเป็นของเหตุการณ์** \(A\) เมื่อกำหนดว่าเหตุการณ์ \(B\) ได้เกิดขึ้นแล้ว”

สูตรการคำนวณ

\[P(A|B) = \frac{P(A \cap B)}{P(B)} \quad \text{โดยที่ } P(B) > 0\]

\(P(A \cap B)\) คือ โอกาสที่ทั้งเหตุการณ์ A และ B จะเกิดขึ้นพร้อมกัน
\(P(B)\) คือ โอกาสที่จะเกิดเหตุการณ์ B (เหตุการณ์ที่เป็นเงื่อนไข)

8.7 การประยุกต์ใช้: จากความน่าจะเป็นสู่ “กฎความสัมพันธ์” (Association Rules)

ในทางวิทยาการข้อมูลเรานำแนวคิดนี้ไปใช้หาความสัมพันธ์ของสินค้าในตะกร้าสินค้า (Market Basket Analysis) โดยมีดัชนีชี้วัดที่สำคัญ 2 ตัวที่มาจากพื้นฐานความน่าจะเป็น

ค่าความเชื่อมั่น (Confidence) คือค่าความน่าจะเป็นแบบมีเงื่อนไข \(P(\text{ซื้อสินค้า B} | \text{ซื้อสินค้า A})\) เพื่อดูว่าถ้าลูกค้าซื้อ A แล้ว จะซื้อ B ตามมาด้วยความมั่นใจแค่ไหน

8.7.1 กรณีศึกษา: Chiang Mai Brew Insights

สมมติฐานข้อมูลการขาย 100 บิล พบว่า:

บิลที่ซื้อ กาแฟ (Coffee) มี 60 บิล
บิลที่ซื้อทั้ง กาแฟ และ เบเกอรี่ (Coffee & Bakery) มี 30 บิล

โจทย์: หากลูกค้าเดินเข้ามาซื้อกาแฟแล้ว ความน่าจะเป็นที่เขาจะซื้อเบเกอรี่ด้วยความเชื่อมั่น (Confidence) เป็นเท่าไหร่?

วิธีคำนวณ: \[P(\text{Bakery} | \text{Coffee}) = \frac{P(\text{Bakery} \cap \text{Coffee})}{P(\text{Coffee})} = \frac{30/100}{60/100} = \frac{30}{60} = 0.5\]

Insight: มีโอกาสถึง 50% ที่คนซื้อกาแฟจะซื้อเบเกอรี่เพิ่ม นี่คือข้อมูลสำคัญในการจัดโปรโมชั่น “Coffee & Bakery Set” [3]

8.8 กฎการคูณ (Multiplication Rule) และความเป็นอิสระต่อกัน (Independence)

จากสูตรข้างต้น เราสามารถย้ายข้างเพื่อหาโอกาสที่จะเกิดเหตุการณ์ร่วมกันได้: \[P(A \cap B) = P(B) \cdot P(A|B)\]

แต่ถ้าเหตุการณ์ A และ B ไม่เกี่ยวข้องกันเลย (Non-Independent): เช่น การที่ลูกค้าซื้อกาแฟ ไม่ได้ส่งผลต่อการที่ฝนจะตกข้างนอกร้าน \[P(A \cap B) = P(A) \cdot P(B)\]

ความน่าจะเป็นแบบมีเงื่อนไข \(P(A|B)\) นี้แหละ คือกระดูกสันหลังของ Naive Bayes Classifier ที่เราจะใช้จำแนกอีเมลสแปม หรือใช้ทำ Recommendation System ในแอปฯ สั่งอาหาร… ถ้าเราเข้าใจ \(P(A|B)\) เราจะเข้าใจว่าทำไม YouTube ถึงรู้ใจว่าเราอยากดูคลิปอะไรเป็นลำดับถัดไป

8.9 ตัวแปรสุ่ม (Random Variables: \(X\))

ในทางสถิติและ Data Science เรามักจะเปลี่ยนผลลัพธ์ที่เป็น “ข้อความ” หรือ “เหตุการณ์” ให้กลายเป็น “ตัวเลข” เพื่อให้คอมพิวเตอร์สามารถคำนวณได้ เราเรียกตัวเลขที่ได้จากกระบวนการสุ่มนี้ว่า ตัวแปรสุ่ม โดยแบ่งออกเป็น 2 ประเภทหลักตามลักษณะของข้อมูล [4]

ตัวแปรสุ่มชนิดไม่ต่อเนื่อง (Discrete Random Variables) ในทางคณิตศาสตร์ เรานิยามตัวแปรสุ่มชนิดนี้ผ่าน ฟังก์ชันมวลความน่าจะเป็น (Probability Mass Function: PMF)

นิยาม: ให้ \(X\) เป็นตัวแปรสุ่ม โดยที่เซตของค่าที่เป็นไปได้ \(x_1, x_2, \dots\) มีจำนวนจำกัดหรือนับได้ (Countable)
การแสดงแทน: เราใช้ฟังก์ชัน \(f(x) = P(X = x)\) เพื่อบอกความน่าจะเป็นที่ \(X\) จะมีค่าเท่ากับ \(x\) พอดี
สมบัติทางคณิตศาสตร์
1. \(0 \le f(x) \le 1\)
2. \(\sum_{all \ x} f(x) = 1\) (ผลรวมความน่าจะเป็นของทุกค่าต้องเท่ากับ 1)

ตัวอย่างในธุรกิจ

จำนวนลูกค้าที่เดินเข้าร้าน Chiang Mai Brew ในแต่ละชั่วโมง (0, 1, 2, …)
จำนวนครั้งที่ผู้ใช้งานคลิกปุ่ม “Buy Now” บนหน้าเว็บไซต์
จำนวนสินค้าที่เสีย (Defective) ในการสุ่มตรวจ 10 ชิ้น

ตัวแปรสุ่มชนิดต่อเนื่อง (Continuous Random Variables) เนื่องจากตัวแปรชนิดนี้มีค่าได้ไม่จำกัดในช่วงหนึ่งๆ ความน่าจะเป็นที่ \(X\) จะเท่ากับค่าใดค่าหนึ่ง “เป๊ะๆ” จึงเท่ากับ 0 เสมอ เราจึงนิยามผ่าน ฟังก์ชันความหนาแน่นความน่าจะเป็น (Probability Density Function: PDF)

นิยาม: ให้ \(X\) เป็นตัวแปรสุ่มที่สามารถรับค่าได้ทุกค่าในช่วงจำนวนจริง การคำนวณความน่าจะเป็นจะทำผ่าน “พื้นที่ใต้กราฟ” ในช่วงที่สนใจ
การแสดงแทน: ความน่าจะเป็นที่ \(X\) จะมีค่าอยู่ในช่วง \([a, b]\) คำนวณได้จาก \[P(a \le X \le b) = \int_{a}^{b} f(x) \,dx\]
สมบัติทางคณิตศาสตร์:
1. \(f(x) \ge 0\) สำหรับทุกค่า \(x\)
2. \(\int_{-\infty}^{\infty} f(x) \,dx = 1\) (พื้นที่ใต้กราฟทั้งหมดต้องเท่ากับ 1)

ตัวอย่างในธุรกิจ

เวลาที่ลูกค้าใช้รอคิวรับกาแฟ (เช่น 5.45 นาที)
รายได้รวมของบริษัทในแต่ละไตรมาส
อุณหภูมิเฉลี่ยภายในร้านในแต่ละวัน

Table 8.1: สรุปเปรียบเทียบเชิงโครงสร้าง

คุณสมบัติ	Discrete (\(X\) ไม่ต่อเนื่อง)	Continuous (\(X\) ต่อเนื่อง)
ค่าที่เป็นไปได้	จำนวนนับ \(\{0, 1, 2, \dots\}\)	ช่วงของจำนวนจริง \((a, b)\)
เครื่องมือคำนวณ	การบวกสะสม (\(\sum\))	การหาปริพันธ์ (Integral \(\int\))
ฟังก์ชันที่ใช้	PMF: \(P(X=x)\)	PDF: \(f(x)\)
ตัวอย่าง	จำนวน Transaction	ยอดขายรวม (บาท.สตางค์)

จากตารางสรุปเปรียบเทียบเชิงโครงสร้าง Table 8.1 นักศึกษาจะเห็นว่าเครื่องมือทางคณิตศาสตร์อย่าง \(\sum\) (ซิกมา) หรือ \(\int\) (อินทิกรัล) นั้นมีไว้เพื่อให้เราเข้าใจ “หลักการ” แต่ในชีวิตจริงของการทำงานด้านวิทยาการข้อมูล เราจะใช้ฟังก์ชันสำเร็จรูปในการหาค่าเหล่านี้

1. สำหรับตัวแปรสุ่มชนิดไม่ต่อเนื่อง (Discrete) เมื่อเราต้องการหาโอกาสที่จะเกิดเหตุการณ์จำนวนครั้งที่แน่นอน (เช่น โอกาสที่ลูกค้าจะซื้อของพอดี 5 คน จาก 20 คน)

Excel: ใช้ฟังก์ชัน =BINOM.DIST(x, n, p, FALSE)
- FALSE ในที่นี้คือการสั่งให้คำนวณแบบ PMF เพื่อหาค่าที่จุดนั้นๆ เป๊ะๆ
jamovi: ในเมนู distrACTION นักศึกษาสามารถเลือก Binomial Distribution แล้วระบุจำนวนครั้ง (\(n\)) และโอกาสสำเร็จ (\(p\)) โปรแกรมจะวาดกราฟแท่งแสดงโอกาสของแต่ละจำนวนครั้งให้ทันที

2. สำหรับตัวแปรสุ่มชนิดต่อเนื่อง (Continuous) เมื่อเราต้องการหาพื้นที่ใต้กราฟเพื่อดูโอกาสที่ข้อมูลจะตกอยู่ในช่วงที่เราสนใจ (เช่น โอกาสที่ยอดขายจะอยู่ระหว่าง 500 - 1,000 บาท)

Excel: ใช้ฟังก์ชัน =NORM.DIST(x, mean, sd, TRUE)
- TRUE คือการสั่งให้คำนวณแบบ “สะสม” (Cumulative) ซึ่งเทียบเท่ากับการหาพื้นที่ใต้กราฟ (Integral) ตั้งแต่ค่าเริ่มต้นมาถึงจุดที่เรากำหนด
jamovi: ในเมนู distrACTION เลือก Normal Distribution นักศึกษาสามารถกรอกค่าเฉลี่ย (\(\mu\)) และส่วนเบี่ยงเบนมาตรฐาน (\(\sigma\)) พร้อมระบุช่วงของค่า \(x\) โปรแกรมจะทำการระบายสีพื้นที่ใต้กราฟ (Shaded Area) และคำนวณค่าความน่าจะเป็นให้โดยที่เราไม่ต้องเขียนสมการแคลคูลัสเอง

8.9.1 สรุปปิดท้ายบท: ความน่าจะเป็นกับวิทยาการข้อมูล

ท้ายที่สุดแล้ว ความน่าจะเป็นคือเครื่องมือที่ช่วยให้นักวิทยาศาสตร์ข้อมูล สามารถ

วัดค่าความเสี่ยง: ไม่ใช่แค่บอกว่า “น่าจะ” แต่บอกได้ว่า “โอกาสกี่เปอร์เซ็นต์”
ตั้งเกณฑ์การตัดสินใจ: เช่น ถ้าความน่าจะเป็นที่ลูกค้าจะเบี้ยวหนี้สูงกว่า 0.8 ระบบจะไม่อนุมัติเงินกู้โดยอัตโนมัติ
ประเมินความแม่นยำ: โมเดลที่เราสร้างขึ้นนั้น “เดาถูก” เพราะฝีมือหรือเพราะ “โชคช่วย” (Random Chance)

8.10 การแจกแจงความน่าจะเป็น (Probability Distributions)

เมื่อเรานำ ตัวแปรสุ่ม (\(X\)) มาพล็อตกราฟเพื่อดูว่าแต่ละค่ามีโอกาสเกิดขึ้นมากน้อยเพียงใด เราจะได้สิ่งที่เรียกว่า “การแจกแจงความน่าจะเป็น” ซึ่งเปรียบเสมือนพิมพ์เขียวหรือพฤติกรรมของข้อมูลนั้นๆ

8.10.1 การแจกแจงแบบทวินาม (Binomial Distribution)

ใช้กับตัวแปรสุ่มชนิด Discrete ที่มีผลลัพธ์เพียง 2 ทางเลือก (Success/Failure) ในการทดลองหลายๆ ครั้งที่อิสระต่อกัน

ตัวอย่าง: หากเราส่งอีเมลการตลาดไป 100 ฉบับ และรู้ว่าปกติมีคนเปิด 10% เราสามารถใช้ Binomial เพื่อหาว่า “ความน่าจะเป็นที่จะมีคนเปิดอีเมลพอดี 15 คนเป็นเท่าไหร่?”
Parameter สำคัญ: \(n\) (จำนวนครั้ง) และ \(p\) (โอกาสสำเร็จ)

8.10.2 การแจกแจงแบบปกติ (Normal Distribution / Gaussian)

คือการแจกแจงที่สำคัญที่สุดสำหรับตัวแปรสุ่มชนิด Continuous มีรูปทรงเป็น “ระฆังคว่ำ” (Bell Curve) ที่สมมาตร

ตัวอย่าง: อายุของลูกค้า, ส่วนสูง, หรือข้อผิดพลาด (Errors) ในการพยากรณ์โมเดล มักมีการแจกแจงแบบปกติ
หัวใจสำคัญ: ข้อมูลส่วนใหญ่จะกองอยู่ตรงกลาง (Mean) และกระจายออกไปตามความเบี่ยงเบนมาตรฐาน (SD)
Central Limit Theorem: ในโลกของข้อมูลขนาดใหญ่ ถ้าเราสุ่มตัวอย่างจำนวนมากพอ ค่าเฉลี่ยของมันจะวิ่งเข้าหาการแจกแจงแบบปกติเสมอ ซึ่งเป็นพื้นฐานของการทดสอบสมมติฐาน (\(t-test, Z-test\)) [5]

หัวข้อสุดท้ายนี้จะเป็นการนำจิ๊กซอว์ทุกชิ้นที่เราเรียนมา ทั้งเรื่อง Axioms, Conditional Probability, และ Distribution มาประกอบร่างกันเพื่อใช้ใน “การตัดสินใจเชิงธุรกิจ” ซึ่งเป็นปลายทางสำคัญของนักวิทยาศาสตร์ข้อมูล

8.11 การตัดสินใจด้วยความน่าจะเป็น (Decision Making with Probability)

ในโลกของวิทยาการข้อมูล เราไม่ได้สร้างโมเดลเพียงเพื่อความสวยงาม แต่เราสร้างขึ้นเพื่อ “ลดความเสี่ยงในการตัดสินใจ” โดยเราจะเปลี่ยนความไม่แน่นอนให้กลายเป็นตัวเลขที่เปรียบเทียบกันได้ผ่านแนวคิดหลักๆ ดังนี้

8.11.1 การคาดการณ์พฤติกรรมลูกค้า (Predictive Modeling)

เราใช้ความน่าจะเป็นเพื่อระบุ “โอกาส” ที่เหตุการณ์ในอนาคตจะเกิดขึ้น เช่น

Churn Prediction: ความน่าจะเป็นที่ลูกค้าจะเลิกใช้บริการ (เช่น \(P(\text{Churn} > 0.7)\)) หากค่านี้สูง ร้าน Chiang Mai Brew อาจต้องส่งคูปองส่วนลดพิเศษไปดึงดูดไว้ก่อนที่เขาจะจากไปจริงๆ [6]
Conversion Rate: ความน่าจะเป็นที่คนที่เดินผ่านหน้าเว็บไซต์จะคลิกซื้อสินค้า

8.11.2 การวิเคราะห์ความเสี่ยง

ในการทำธุรกิจ ทุกการตัดสินใจมีความเสี่ยง ความน่าจะเป็นช่วยให้เราทำ “Stress Test” หรือการจำลองสถานการณ์ได้:

ตัวอย่าง: หากเราลงทุนนำเข้าเมล็ดกาแฟพิเศษจากเวียดนาม 100 กิโลกรัม ความน่าจะเป็นที่สินค้าจะขายหมดภายใน 1 เดือนเป็นเท่าไหร่? หาก \(P(\text{ขายหมด}) < 0.5\) เราอาจต้องปรับแผนการสั่งซื้อเพื่อไม่ให้เงินจม

8.11.3 ค่าคาดหวัง (Expected Value: \(E[X]\)) - เครื่องมือตัดสินใจที่สำคัญที่สุด

นี่คือจุดที่ความน่าจะเป็นถูกนำมาใช้ตัดสินใจเลือกทางเลือกที่ดีที่สุดในเชิงเศรษฐศาสตร์ \[E[X] = \sum (x \cdot P(x))\]

กรณีศึกษา: หากคุณต้องเลือกระหว่าง 2 แคมเปญ:
- แคมเปญ A: มีโอกาสได้กำไร 10,000 บาท (70%) หรือขาดทุน 2,000 บาท (30%)
- แคมเปญ B: มีโอกาสได้กำไร 50,000 บาท (10%) หรือเท่าทุน 0 บาท (90%)

การคำนวณ \[\begin{aligned} E[A] &= (10,000 \cdot 0.7) + (-2,000 \cdot 0.3) = 6,400 \text{ บาท}\\ E[B] &= (50,000 \cdot 0.1) + (0 \cdot 0.9) = 5,000 \text{ บาท}\end{aligned}\]

การตัดสินใจ: แม้แคมเปญ B จะมีตัวเลขกำไรที่สูงกว่ามาก (5 หมื่น) แต่ในเชิงสถิติ แคมเปญ A ให้ค่าคาดหวังที่สูงกว่า และมีความเสี่ยงที่สมเหตุสมผลมากกว่า

ข้อมูลบอกเราว่า ‘อดีตเกิดอะไรขึ้น’ แต่ความน่าจะเป็น บอกเราว่า ‘อนาคตมีทางเลือกอะไรบ้าง’ การตัดสินใจโดยปราศจากความน่าจะเป็น คือการเดินในที่มืดด้วยสัญชาตญาณ แต่การใช้ความน่าจะเป็น คือการเปิดไฟสปอร์ตไลท์ให้เห็นเส้นทางที่มีโอกาสสำเร็จสูงสุด

8.12 แบบฝึกหัดท้ายบท

คำชี้แจง

ให้นักศึกษาใช้โปรแกรม Microsoft Excel หรือ jamovi ในการคำนวณและหาคำตอบจากโจทย์กรณีศึกษาต่อไปนี้ โดยอ้างอิงหลักการของตัวแปรสุ่มและการแจกแจงความน่าจะเป็น

Empirical Probability: จากข้อมูลการขายใน 1 วันของร้าน Chiang Mai Brew พบว่ามีบิลทั้งหมด 250 บิล เป็นบิลที่สั่ง “เมนูมัทฉะ” 45 บิล จงใช้ Excel คำนวณหาความน่าจะเป็นที่ลูกค้าคนถัดไปจะสั่งมัทฉะ (\(P(Matcha)\))
Conditional Probability & Confidence: ใน jamovi หากผลการวิเคราะห์พบว่า
- ความน่าจะเป็นที่ลูกค้าจะซื้อทั้งกาแฟและครัวซองต์ \(P(Coffee \cap Croissant) = 0.15\)
- ความน่าจะเป็นที่ลูกค้าจะซื้อกาแฟ \(P(Coffee) = 0.60\)

จงคำนวณหาค่าความเชื่อมั่น (Confidence)\(P(Croissant | Coffee)\) ว่ามีค่าเท่าใด?

Binomial Distribution (Exact): หากทราบว่าโอกาสที่ลูกค้าจะสมัครบัตรสมาชิกใหม่คือ 10% (\(p=0.1\)) หากวันนี้มีลูกค้าเข้าร้าน 20 คน จงใช้ฟังก์ชัน =BINOM.DIST ใน Excel หาโอกาสที่จะมีลูกค้าสมัครสมาชิก พอดี 2 คน
Binomial Distribution (Cumulative): จากโจทย์ข้อ 3 จงหาความน่าจะเป็นที่จะมีลูกค้าสมัครสมาชิก ไม่เกิน 3 คน (คำใบ้: ใช้ Cumulative = TRUE)
Expected Value: ร้านอาหารจัดโปรโมชั่นสุ่มแจกรางวัล โดยมีรางวัลมูลค่า 500 บาท (โอกาส 5%), 100 บาท (โอกาส 15%) และไม่ได้รางวัลเลย (โอกาส 80%) จงใช้ฟังก์ชัน SUMPRODUCT ใน Excel เพื่อหา “ค่าคาดหวัง” (Expected Value) ของการสุ่มแจกครั้งนี้
Normal Distribution Visual: ให้นักศึกษาใช้เมนู Distributions ใน jamovi เลือก Normal Distribution กำหนด Mean = 150 และ SD = 30 (สมมติว่าเป็นยอดซื้อต่อบิล) จงแคปเจอร์กราฟที่แสดงพื้นที่ความน่าจะเป็นของลูกค้าที่มียอดซื้อ มากกว่า 200 บาท
Probability Density: จากข้อ 6 จงหาค่าความน่าจะเป็นที่ลูกค้าจะมียอดซื้ออยู่ระหว่าง 120 ถึง 180 บาท โดยใช้เครื่องมือคำนวณพื้นที่ใต้กราฟใน jamovi
Outlier Impact: หากเราพบว่ามีลูกค้าคนหนึ่งมียอดซื้อสูงถึง 500 บาท ซึ่งถือเป็น Outlier ใน Box Plot จากบทที่แล้ว นักศึกษาคิดว่าค่านี้ส่งผลต่อการระบุ “ค่าเฉลี่ย” (Mean) ในการแจกแจงแบบปกติอย่างไร?
Risk Analysis: หากบริษัทมีโครงการลงทุน 2 โครงการ
- โครงการ A: ค่าคาดหวังกำไร 50,000 บาท ความน่าจะเป็นที่จะขาดทุน 10%
- โครงการ B: ค่าคาดหวังกำไร 70,000 บาท ความน่าจะเป็นที่จะขาดทุน 40%

หากบริษัทเป็นกลุ่มที่ “ยอมรับความเสี่ยงได้ต่ำ” นักศึกษาจะเสนอให้เลือกโครงการใด เพราะเหตุใด?

Data Ethics: ในการทำ Churn Prediction หากโมเดลรายงานว่า “ลูกค้าคนนี้มีความน่าจะเป็นที่จะเลิกใช้บริการ 0.85” และร้านค้าตัดสินใจระงับสิทธิพิเศษบางอย่างทันทีเพื่อลดความสูญเสีย นักศึกษาคิดว่าการตัดสินใจโดยใช้ “ความน่าจะเป็น” เพียงอย่างเดียวโดยไม่พิจารณาปัจจัยอื่นเหมาะสมหรือไม่? [7]

[1]

G. James, D. Witten, T. Hastie, และ R. Tibshirani, An Introduction to Statistical Learning: with Applications in R, 2nd พิมพ์ครั้งที่. Springer, 2021.

[2]

L. Wasserman, All of Statistics: A Concise Course in Statistical Inference. Springer Science & Business Media, 2004.

[3]

J. Han, M. Kamber, และ J. Pei, Data Mining: Concepts and Techniques. Morgan Kaufmann, 2011.

[4]

F. Provost และ T. Fawcett, Data Science for Business: What You Need to Know about Data Mining and Data-Analytic Thinking. O’Reilly Media, 2013.

[5]

A. Reinhart, Statistics Done Wrong: The Woefully Complete Guide. No Starch Press, 2015.

[6]

R. J. Hyndman และ G. Athanasopoulos, Forecasting: Principles and Practice, 2nd พิมพ์ครั้งที่. OTexts, 2018.

[7]

C. O’Neil, Weapons of Math Destruction. Crown, 2016.

[8]

H. Wickham และ G. Grolemund, R for Data Science. O’Reilly Media, 2017.

[9]

W. McKinney, Python for Data Analysis: Data Wrangling with Pandas, NumPy, and Jupyter, 3rd พิมพ์ครั้งที่. O’Reilly Media, 2022.

[10]

C. N. Knaflic, Storytelling with Data: A Data Visualization Guide for Business Professionals. John Wiley & Sons, 2015.

[11]

T. H. Davenport และ J. G. Harris, Competing on Analytics. Harvard Business Review Press, 2010.

[12]

T. Hastie, R. Tibshirani, และ J. Friedman, The Elements of Statistical Learning. Springer, 2009.

[13]

A. G’eron, Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 3rd พิมพ์ครั้งที่. O’Reilly Media, 2022.

[14]

J. Silge และ D. Robinson, Text Mining with R: A Tidy Approach. O’Reilly Media, 2017.

[15]

E. R. Tufte, The Visual Display of Quantitative Information, 2nd พิมพ์ครั้งที่. Graphics Press, 2001.

[16]

CRISP-DM Consortium, “CRISP-DM 1.0: Step-by-step Data Mining Guide”. https://www.the-modeling-agency.com/crisp-dm.pdf, 2000.

[17]

V. Mayer-Schönberger และ K. Cukier, Big Data: A Revolution That Will Transform How We Live, Work, and Think. Houghton Mifflin Harcourt, 2013.

[18]

R. Sharda, D. Delen, และ E. Turban, Business Intelligence and Analytics: Systems for Decision Support. Pearson, 2014.

[19]

T. White, Hadoop: The Definitive Guide. O’Reilly Media, 2012.

[20]

M. Zaharia และ B. Chambers, Spark: The Definitive Guide. O’Reilly Media, 2018.

[21]

N. Marz และ J. Warren, Big Data: Principles and Best Practices of Scalable Real-Time Data Systems. Manning, 2015.

[22]

D. Jurafsky และ J. H. Martin, Speech and Language Processing. Draft, 2023.

[23]

A. et al. Meurer, “SymPy: Symbolic Computing in Python”, PeerJ Computer Science, ปี 3, น. e103, 2017, doi: 10.7717/peerj-cs.103.

[24]

J. D. Hunter, “Matplotlib: A 2D Graphics Environment”, Computing in Science & Engineering, ปี 9, ฉบับที่ 3, น. 90–95, 2007, doi: 10.1109/MCSE.2007.55.

[25]

K. Healy, Data Visualization: A Practical Introduction. Princeton University Press, 2018.

[26]

H. Wickham, “Tidy Data”, Journal of Statistical Software, ปี 59, ฉบับที่ 10, น. 1–23, 2014.

[27]

J. R. Quinlan, C4.5: Programs for Machine Learning. Morgan Kaufmann, 1993.

[28]

R. Agrawal, T. Imieliński, และ A. Swami, “Mining Association Rules Between Sets of Items in Large Databases”, SIGMOD Record, ปี 22, ฉบับที่ 2, น. 207–216, 1993.

[29]

J. MacQueen, “Some Methods for Classification and Analysis of Multivariate Observations”, ใน Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, 1967, น. 281–297.

[30]

S. Few, Information Dashboard Design. O’Reilly Media, 2009.

[31]

โอลาริก สุรินต๊ะ, Orange: เครื่องมือสำหรับการโปรแกรมแบบวิชวลสำหรับการเรียนรู้เครื่องจักรและการวิเคราะห์ข้อมูล (Orange: A Visual Programming Tool for Machine Learning and Data Analytics). 2016. เข้าถึงได้จาก: https://github.com/mrolarik/Orange-visual-programming/blob/master/book/Orange-A-Visual-Programming-Tool-for-Machine-Learning-and-Data-Analytics.pdf

[32]

สมศักดิ์ จันทร์เอม, “เว็บไซต์รายวิชา 888102 อภิมหาข้อมูลทางธุรกิจ (Big Data for Business)”. https://myweb.cmu.ac.th/somsak.chanaim/888102TH/web/; วิทยาลัยนานาชาตินวัตกรรมดิจิทัล มหาวิทยาลัยเชียงใหม่, 2569.

[33]

สมศักดิ์. จันทร์เอม, Jamovi Manual: คู่มือใช้งานโปรแกรม Jamovi. International College of Digital Innovation, Chiang Mai University, 2024. เข้าถึงได้จาก: https://myweb.cmu.ac.th/somsak.chanaim/Ebook/Jamovi/

[34]

สมศักดิ์. จันทร์เอม, Data Visualization with R Programming: การสร้างภาพนิทัศน์ด้วยภาษาอาร์. International College of Digital Innovation, Chiang Mai University, 2023. เข้าถึงได้จาก: https://myweb.cmu.ac.th/somsak.chanaim/Ebook/DataVizR/

[35]

สมศักดิ์. จันทร์เอม, Excel for Economic Analysis: การวิเคราะห์เศรษฐศาสตร์ด้วยโปรแกรมเอ็กเซล. International College of Digital Innovation, Chiang Mai University, 2023. เข้าถึงได้จาก: https://myweb.cmu.ac.th/somsak.chanaim/Ebook/ExcelEcon/

[36]

สมศักดิ์. จันทร์เอม, Modern Economic Analysis using Python: การวิเคราะห์เศรษฐศาสตร์สมัยใหม่ด้วยภาษาไพทอน. International College of Digital Innovation, Chiang Mai University, 2024. เข้าถึงได้จาก: https://myweb.cmu.ac.th/somsak.chanaim/Ebook/PythonEcon/