ในโลกของ Generative AI (GenAI) ที่กำลังเติบโตอย่างรวดเร็วในปัจจุบัน การทำความเข้าใจเกี่ยวกับตัวแปรที่สำคัญอย่าง Max Token ถือเป็นสิ่งที่จำเป็นสำหรับนักพัฒนา ผู้ใช้งาน AI API และผู้ที่สนใจนำ AI มาใช้ในงานต่าง ๆ ไม่ว่าจะเป็นโมเดลจาก OpenAI อย่าง GPT-4 หรือ GPT-3.5 และ Anthropics Claude เป็นต้น บทความนี้จะพาคุณไปสำรวจความหมายของ Max Token ความสำคัญของมัน วิธีการคำนวณ รวมถึงวิธีการตั้งค่าเพื่อให้การใช้งาน AI มีประสิทธิภาพและประหยัดค่าใช้จ่ายมากที่สุด
Max Token คืออะไร?
Max Token คือ Hyper-Parameter ที่กำหนดขอบเขตของจำนวน Token ทั้งหมดที่โมเดลสามารถใช้งานได้ภายในหนึ่งการประมวลผล โดย Token ในที่นี้หมายถึงหน่วยข้อมูลย่อย ๆ ที่ประกอบกันเป็นข้อความ เช่น คำ วลี หรือแม้แต่ตัวอักษรในบางกรณี การตั้งค่า Max Token จะมีผลโดยตรงต่อทั้ง Input Token (จำนวน Token ที่ผู้ใช้ป้อนเข้าไปในคำถามหรือ Prompt) และ Output Token (จำนวน Token ที่โมเดลตอบกลับมา)
สมการของ Max Token สามารถสรุปได้ง่าย ๆ ดังนี้:
Max Token = Input Token + Output Token
Input Token และ Output Token มีความสำคัญอย่างไร?
1. Input Token
Input Token คือจำนวน Token ที่เกิดจากข้อความหรือคำถามที่ผู้ใช้ส่งไปยังโมเดล ตัวอย่างเช่น หากคุณพิมพ์คำถามว่า “What is the capital of Thailand?” โมเดลจะนับจำนวน Token จากข้อความนี้และจัดเก็บไว้ในส่วนของ Input Token
2. Output Token
Output Token คือจำนวน Token ที่โมเดลตอบกลับผู้ใช้ ตัวอย่างเช่น หากโมเดลตอบว่า “The capital of Thailand is Bangkok.” ข้อความนี้จะถูกนับจำนวน Token และบันทึกเป็น Output Token
ตัวอย่างการคำนวณ Max Token
เพื่อให้เข้าใจง่ายขึ้น ลองมาดูตัวอย่าง:
- หากตั้งค่า Max Token ไว้ที่ 1,000 Token
- เมื่อผู้ใช้ป้อนคำถาม (Input Token) จำนวน 800 Token
- โมเดลจะเหลือพื้นที่สำหรับตอบกลับ (Output Token) ไม่เกิน 200 Token
ในอีกกรณีหนึ่ง:
- หากผู้ใช้ป้อนคำถามเพียง 200 Token
- โมเดลจะสามารถตอบกลับได้ถึง 800 Token
ดังนั้น การตั้งค่าที่เหมาะสมขึ้นอยู่กับลักษณะการใช้งาน เช่น หากผู้ใช้มักถามคำถามยาว ๆ หรือคำตอบที่ต้องการมีความละเอียดมาก คุณควรกำหนด Max Token ให้สูงขึ้น
การตั้งค่า Max Token อย่างเหมาะสม
1. ลักษณะของคำถามและคำตอบ
- หากคำถามหรือคำตอบมักจะมีความยาวสั้น เช่น การสร้าง Chatbot สำหรับตอบคำถามทั่วไป (FAQs) คุณสามารถตั้งค่า Max Token ในระดับต่ำเพื่อประหยัดค่าใช้จ่าย
- ในทางกลับกัน หากโมเดลต้องการสร้างคำตอบที่ยาวและซับซ้อน เช่น การสรุปบทความหรือการเขียนรายงาน Max Token ควรตั้งค่าในระดับสูงขึ้น
2. บริบทของการใช้งาน
การตั้งค่า Max Token ที่น้อยเกินไป อาจทำให้คำตอบที่โมเดลสร้างขึ้นไม่ครบถ้วน หรือถูกตัดจบก่อน อย่างไรก็ตาม หากตั้งค่าไว้สูงเกินไป อาจทำให้ค่าใช้จ่ายเพิ่มขึ้นโดยไม่จำเป็น
ผลกระทบต่อค่าใช้จ่าย
เนื่องจากการใช้งาน API ของโมเดล AI มีค่าใช้จ่ายตามจำนวน Token ที่ใช้ การตั้งค่า Max Token ที่เหมาะสมจะช่วยลดค่าใช้จ่ายได้ โดยโมเดลอย่าง OpenAI จะกำหนดราคาของ Input Token และ Output Token ไว้ต่างกัน เช่น:
- Input Token: $0.015 ต่อ 1 ล้าน Token
- Output Token: $0.06 ต่อ 1 ล้าน Token
อย่างไรก็ตาม ยังมีอีกหนึ่งปัจจัยที่ช่วยลดค่าใช้จ่ายได้อย่างมีประสิทธิภาพ นั่นคือ Cache Token
Cache Token คืออะไร?

Cache Token เป็นฟีเจอร์ที่ช่วยเพิ่มประสิทธิภาพและลดค่าใช้จ่ายของการใช้งานโมเดล AI โดยการจดจำคำถามและคำตอบที่เคยถูกถามหรือประมวลผลไปก่อนหน้า หากคำถามเดิมถูกถามซ้ำ โมเดลจะไม่ต้องประมวลผลใหม่ แต่จะดึงคำตอบจาก Cache มาใช้ ซึ่งช่วยลดต้นทุนได้อย่างมาก
ตัวอย่างการใช้งาน Cache Token
สมมติคุณสร้าง AI Agent ชื่อ “Purchasing Guru” เพื่อช่วยตอบคำถามด้านการจัดซื้อในองค์กร คำถามบางคำถาม เช่น “What is the procurement policy?” อาจถูกถามซ้ำหลายครั้งจากผู้ใช้งานที่แตกต่างกัน ในกรณีนี้ Cache Token จะเข้ามาช่วยดึงคำตอบเดิมมาใช้แทนที่จะให้โมเดลประมวลผลใหม่ทุกครั้ง
ราคาของ Cache Token
ในกรณีของ OpenAI ราคาของ Cache Token จะถูกกว่าราคาปกติถึง 50% เช่น หาก Input Token ปกติราคาคือ $0.015 ต่อ 1 ล้าน Token Cache Input Token จะมีราคาเพียง $0.0075 เท่านั้น
กลยุทธ์การใช้ Cache Token ให้เกิดประโยชน์สูงสุด
- ใช้ Prompt Template
สร้างรูปแบบคำถามที่เป็นมาตรฐาน เช่น การออกแบบ FAQ หรือคำถามที่พบบ่อย เพื่อกระตุ้นให้ผู้ใช้งานถามคำถามในรูปแบบเดียวกัน - Dynamic Prompt Buttons
เพิ่มปุ่มคำถามสำเร็จรูปที่ผู้ใช้สามารถกดเพื่อส่งคำถามไปยังโมเดลได้ทันที เช่น คำถามพื้นฐานเกี่ยวกับการใช้งาน หรือคำถามที่เกี่ยวกับ Use Case เฉพาะ - Conversation Starter
เริ่มต้นการสนทนาด้วยคำถามเบื้องต้นที่ถูกตั้งค่าไว้แล้ว ช่วยลดจำนวน Token ที่ผู้ใช้ต้องพิมพ์เอง
สรุป
Max Token เป็นตัวแปรสำคัญที่ส่งผลต่อประสิทธิภาพและค่าใช้จ่ายในการใช้งานโมเดล AI โดยตรง การตั้งค่า Max Token ที่เหมาะสมต้องคำนึงถึงลักษณะคำถาม คำตอบ และบริบทของการใช้งาน นอกจากนี้ การใช้ฟีเจอร์ Cache Token จะช่วยลดค่าใช้จ่ายและเพิ่มความรวดเร็วในการตอบคำถามได้อย่างมีนัยสำคัญ
หากคุณต้องการนำ AI มาใช้ในงานของคุณ ควรให้ความสำคัญกับการปรับแต่งค่า Hyper-Parameter อย่าง Max Token เพื่อให้การใช้งานมีประสิทธิภาพสูงสุดทั้งในด้านคุณภาพและต้นทุน
📍 ติดตามเนื้อหาเพิ่มเติม ที่เรานำมาฝากได้ที่ ที่นี่
อัปเดตความรู้เรื่อง AI และเทคนิคการทำงานให้คุณทุกสัปดาห์! ได้ที่ learn.prompt-expert.co




