Artificial Intelligence

PlAwAnSaI

Administrator
  • ประเภทของการเรียนรู้:
    • ต้องการพยากรณ์การใช้ไฟฟ้าในอนาคต → Prediction
      เนื่องจากเป็นการพยากรณ์แนวโน้มของการใช้ไฟฟ้าในอนาคตจากข้อมูลในอดีต
    • ต้องการพัฒนาระบบที่สามารถแยกประเภทของ Email เป็น Spam หรือไม่ Spam → Classification
      เป็นการจัดประเภทข้อมูล Email ออกเป็นสองกลุ่ม (Spam/ไม่ Spam)
    • วิเคราะห์ข้อมูลการเคลื่อนที่ของประชากรเพื่ออธิบายพฤติกรรม → Descriptive Inference
      เป็นการอธิบายข้อมูลและทำความเข้าใจพฤติกรรมที่เกิดขึ้นจากข้อมูลการเคลื่อนที่ของประชากร
    • พัฒนาระบบที่ช่วยหาวิธีการขนส่งสินค้าที่มีต้นทุนต่ำที่สุด → Optimization
      เป็นการหาวิธีที่มีประสิทธิภาพสูงสุดในการขนส่งสินค้าเพื่อลดต้นทุน
      .
  • ชนิดของข้อมูลที่สามารถนำไปสร้างเป็นภาพได้:
    • UINT8 (Unsigned Integer 8-bit)
      ใช้กันทั่วไปในการเก็บค่า Pixel ของภาพ (0-255) ในภาพแบบ Grayscale และ RGB
    • Float64 (64-bit Floating Point)
      ใช้แทนค่าตัวเลขที่มีทศนิยม แม้ไม่ใช่รูปแบบทั่วไปของภาพ แต่สามารถใช้เก็บค่า Pixel ที่เป็น Normalized Values (เช่น 0.0 ถึง 1.0)
    • Float32 (32-bit Floating Point)
      เช่นเดียวกับ Float64 มักใช้ในการประมวลผลภาพแบบ Deep Learning หรือ Graphic Computer
      .
  • อุปกรณ์สำหรับใช้ในการพัฒนา IoT:
    • ESP8266: เป็น Module Wi-Fi ราคาถูกที่ได้รับความนิยมในการพัฒนา IoT
    • Arduino Board: Board Micro Controller ยอดนิยมที่ใช้พัฒนาอุปกรณ์ IoT
    • Raspberry Pi: Computer ขนาดเล็กที่ใช้กันมากในโครงการ IoT
      .
  • ค่า WER (Word Error Rate) ตามสูตรที่กำหนด: 𝑊𝐸𝑅 = (𝑆 + 𝐼 + 𝐷) / 𝑁
    ข้อมูลที่กำหนด:
    Target Tokens: ["ชอบ", "กิน", "ไก่ทอด", "และ", "ส้มตำ"]
    Generated Tokens: ["ชอบ", "กิน", "กลิ่น", "ไก่ทอด", "ส้มตำ", "มา"]
    วิเคราะห์ความผิดพลาด:
    S (Substitutions - คำที่แทนที่กัน) "กลิ่น" ถูกแทนที่ "ไก่ทอด" (1 คำ)
    D (Deletions - คำที่หายไป) "และ" หายไป (1 คำ)
    I (Insertions - คำที่เพิ่มเข้ามา) "มา" ถูกเพิ่มเข้ามา (1 คำ)
    N (จำนวนคำใน Target Sentence) ["ชอบ", "กิน", "ไก่ทอด", "และ", "ส้มตำ"] → 5 คำ
    แทนค่าลงในสูตร:= (1+1+1) / 5 = 3/5

  • นิพจน์ (P → Q) ∧ (Q → P) หมายถึง P และ Q มีค่าความจริงเหมือนกันเสมอ
    นี่คือความหมายของ "การเชื่อมโดยสมมูล" (Biconditional) ซึ่งเขียนแทนด้วย P ⟷ Q

  • Unsupervised Learning เป็น Technique การเรียนรู้ของเครื่องที่ไม่ต้องการ Label ในข้อมูล Input ในการฝึก

  • การคำนวณจาก ตำแหน่ง End-effector ของแขนกลหุ่นยนต์ เพื่อหามุมองศาการเคลื่อนที่ของ แต่ละจุดหมุน (Angle of Joint) เป็นปัญหา Inverse Kinematics (IK)
    Inverse Kinematics (IK): ใช้คำนวณมุมของข้อต่อเพื่อให้ End-effector ไปยังตำแหน่งที่ต้องการ
    Direct Kinematics (DK): ใช้หาตำแหน่งของ End-effector จากมุมของข้อต่อ (ตรงข้ามกับ IK)

  • หากมีข้อมูลเสียงจำนวนน้อย การรู้จำเสียงพูดด้วย HMM จะให้ประสิทธิภาพดีกว่าแบบจำลอง DNN แบบทั่วไป เพราะ HMM (Hidden Markov Model) ใช้ข้อมูลที่มีโครงสร้างชัดเจนและทำงานได้ดีเมื่อข้อมูลมีขนาดเล็ก ขณะที่ DNN (Deep Neural Network) ต้องการข้อมูลจำนวนมาก

    การรู้จำเสียงพูดแบบจำลอง DNN จะต้องอาศัยคลังข้อมูลจำนวนมากจึงจะได้แบบจำลองมีประสิทธิภาพ เพราะ DNN ต้องการข้อมูลขนาดใหญ่เพื่อเรียนรู้รูปแบบเสียงพูดอย่างมีประสิทธิภาพ

    ในกรณีทั่วไป HMM เร็วกว่า DNN เพราะมีโครงสร้างที่ง่ายกว่า แต่ให้ความแม่นยำน้อยกว่าเมื่อเทียบกับ DNN บนข้อมูลขนาดใหญ่

    หากมีข้อมูลขนาดใหญ่มากๆ เช่น 1,000 ชั่วโมง แบบจำลอง DNN จะให้ประสิทธิภาพดีกว่าแบบจำลอง HMM เพราะ DNN สามารถเรียนรู้คุณลักษณะเชิงลึกจากข้อมูลจำนวนมาก ทำให้แม่นยำกว่า HMM

  • เครือข่ายประสาทเทียม (Neural Network) เป็น Technique การเรียนรู้เชิงลึกที่ทรงพลัง เหมาะอย่างยิ่งสำหรับงานที่เกี่ยวข้องกับการรู้จำรูปแบบและการจำแนกประเภท เช่น การรู้จำและจำแนกตัวเลขที่เขียนด้วยมือจากภาพ เครือข่ายประสาทเทียมได้รับแรงบันดาลใจมาจากเครือข่ายประสาทชีวภาพในสมองมนุษย์

  • ระบบ AI ที่มีปฏิสัมพันธ์กับสภาพแวดล้อมที่เปลี่ยนแปลงตลอดเวลาและต้องเรียนรู้การกระทำที่เหมาะสมที่สุดโดยอาศัยการเรียนรู้แบบ Reinforcement ตัวอย่างเช่น ระบบ Self-driving Car อาจได้รับรางวัลเชิงบวกสำหรับการขับขี่ที่ปลอดภัยและมีประสิทธิภาพ และได้รับบทลงโทษเชิงลบสำหรับการชนหรือการละเมิดกฎจราจร

  • Embedding มีบทบาทสำคัญในการแสดงและทำความเข้าใจความหมายของคำและภาษา, Model ภาษาขนาดใหญ่ (LLMs) มักได้รับการฝึกฝนบนข้อมูลข้อความจำนวนมหาศาล และ Embedding ถูกใช้เพื่อแสดงคำหรือ Token ในข้อมูลนี้ในรูปแบบของ Vector เชิงตัวเลข

  • Fine-tuning คือกระบวนการปรับแต่ง Model ภาษาที่ผ่านการฝึกฝนมาก่อนแล้ว เพื่อให้สามารถทำงานเฉพาะทางได้ โดยการฝึกฝนเพิ่มเติมบนข้อมูลที่มีการติดฉลาก (Label) สำหรับงานเหล่านั้น

  • Multimodal Model ถูกออกแบบมาเป็นพิเศษเพื่อรองรับข้อมูลนำเข้าจากหลายรูปแบบ เช่น ข้อความ ภาพ เสียง และ VDO, Model เหล่านี้สามารถผสมผสานและประมวลผลข้อมูลจากแหล่งข้อมูลนำเข้าที่แตกต่างกันได้

  • Amazon Comprehend เป็นบริการประมวลผลภาษาธรรมชาติ (Natural Language) ที่สามารถวิเคราะห์ข้อความและดึงข้อมูลเชิงลึกต่างๆ เช่น ความรู้สึก, Entity, วลีสำคัญ (Key Phrase) และหัวข้อ (Topic)

  • Amazon SageMaker เป็นบริการที่มีการจัดการอย่างเต็มรูปแบบ (Fully Managed) ซึ่งให้บริการ Machine Learning Lifecycle อย่างครบถ้วน รวมถึงการเตรียมข้อมูล การสร้าง Model การฝึกสอน (Training), การปรับแต่ง (Tuning), และการ Deploy

  • การประมวลผลเอกสารอัจฉริยะ (Intelligent Document Processing/IDP) คือรูปแบบการใช้งานที่ดึงและจำแนกข้อมูลสารสนเทศจากข้อมูลที่ไม่มีโครงสร้างหรือที่มีโครงสร้าง สร้างสรุปความ และแสดงข้อมูลเชิงลึกที่นำไปดำเนินการได้จริง

    การจดจำใบหน้า คือ Software ที่ระบุหรือยืนยันตัวตนของบุคคลโดยใช้ใบหน้า

    Computer Vision คือรูปแบบการใช้งาน AI ที่เกี่ยวข้องกับการวิเคราะห์และทำความเข้าใจภาพและ VDO Digital

    การตรวจจับการหลอกลวง คือรูปแบบการใช้งาน AI ที่ระบุและป้องกันกิจกรรมที่เป็นการหลอกลวง เช่น การฉ้อโกงบัตร Credit หรือภัยคุกคามการรักษาความปลอดภัยทาง Cyber

  • การใช้ Algorithm ของ Computer Vision และ Machine Learning (ML) เพื่อตรวจสอบการควบคุมคุณภาพบนสายการผลิตโดยอัตโนมัติ เป็นการนำ Technology AI/ML ไปใช้ได้เหมาะสม โดยวิธีนี้ใช้ระบบ AI/ML เพื่อตรวจจับรูปแบบและความผิดปกติ จึงตรวจสอบคุณภาพได้อย่างสม่ำเสมอและปรับขนาดได้ ซึ่งก็จะช่วยปรับปรุงคุณภาพของผลิตภัณฑ์และลดความจำเป็นในการตรวจสอบด้วยตนเองได้ในท้ายที่สุด

  • Technique ของ ML:
    • การถดถอย ใช้แก้ปัญหาที่ต้องอาศัยการคาดการณ์ค่าตัวเลขแบบต่อเนื่อง (เช่น คาดการณ์ราคาขายบ้าน)
    • การจำแนกประเภทเป็น Technique การเรียนรู้แบบมีผู้ดูแลที่ใช้กำหนดประเภทหรือหมวดหมู่ให้กับ Instance ข้อมูลใหม่ที่ยังไม่เคยเห็น โดยอิงตาม Model ที่ผ่านการฝึกมาแล้ว
    • การแบ่งกลุ่ม Cluster จัดกลุ่มข้อมูลเป็น Cluster ต่างๆ ตามคุณสมบัติที่คล้ายกันหรือระยะห่างระหว่างจุดข้อมูล เพื่อให้เข้าใจคุณลักษณะของ Cluster เฉพาะได้ดีขึ้น
    • การลดมิติข้อมูลเป็น Technique การเรียนรู้แบบไม่มีผู้ดูแลที่ใช้เพื่อลดจำนวนคุณสมบัติหรือมิติในชุดข้อมูลหนึ่ง โดยที่ยังคงข้อมูลหรือรูปแบบที่สำคัญที่สุดไว้ตามเดิม
      .
  • ความสามารถส่วนหนึ่งของระบบ Generative AI สำหรับการใช้งานทางธุรกิจ:
    • การปรับให้เหมาะกับแต่ละบุคคล: Generative AI สามารถสร้างเนื้อหาเฉพาะบุคคลที่ปรับให้เหมาะกับความต้องการหรือลักษณะเฉพาะของแต่ละบุคคล ซึ่งช่วยปรับปรุงประสบการณ์และการมีส่วนร่วมของผู้ใช้ให้ดียิ่งขึ้น
    • ความสามารถในการปรับขนาด: เมื่อผ่านการฝึกมาแล้ว Model Generative AI จะสามารถสร้างเนื้อหาจำนวนมากได้อย่างรวดเร็ว ทำให้ Model นี้เหมาะสำหรับงานที่ต้องผลิตเนื้อหาปริมาณมาก
    • ความง่ายในการใช้งาน: Generative AI ทำให้งานที่ซับซ้อนง่ายขึ้นได้ ด้วยการทำให้กระบวนการสร้างเนื้อหาดำเนินไปเองอัตโนมัติ ตัวอย่างเช่น Model ภาษา AI สามารถสร้างข้อความที่เหมือนกับสร้างด้วยมนุษย์ ซึ่งจะลดเวลาและภาระงานที่จำเป็นสำหรับการสร้างเนื้อหาให้น้อยลง
      .
  • ความท้าทายของ Generative AI:
    • ความไม่แน่นอนเป็นความท้าทายที่ Model สร้าง Output ที่ต่างไปจากเดิมทุกครั้งที่ Run จากข้อมูล Input เดียวกัน
    • ความไม่เหมาะสมเกิดขึ้นเมื่อ Model สร้างเนื้อหาที่กระตุ้นโทสะ สร้างความขุ่นเคือง หรือไม่เหมาะสม
    • ความเสี่ยงทางสังคมเกิดขึ้นเมื่อ Model สร้างเนื้อหาไม่พึงประสงค์ที่อาจส่งผลเสียต่อองค์กร
    • ผลลัพธ์เพี้ยนเกิดขึ้นเมื่อ Model สร้างผลคำตอบที่ไม่ถูกต้อง ไม่สอดคล้องกับข้อมูลสำหรับฝึก
      .
  • ตัวชี้วัดทางธุรกิจที่เหมาะสำหรับการประเมินประสิทธิภาพของระบบสนับสนุนลูกค้า คือความพึงพอใจของลูกค้าซึ่งเป็นตัวชี้วัดที่สำคัญสำหรับการประเมินประสิทธิภาพของระบบ เนื่องจากจะวัดโดยตรงว่าระบบตอบสนองความต้องการและตรงตามความคาดหวังของลูกค้าเพียงใด

    ประสิทธิภาพข้ามกลุ่มธุรกิจมีความเกี่ยวข้องกับระบบสนับสนุนลูกค้าน้อยกว่า เพราะจะมุ่งเน้นที่สินค้าหรือบริการเฉพาะ

    รายได้เฉลี่ยต่อผู้ใช้เป็นการวัดจำนวนเงินเฉลี่ยที่ได้รับจากลูกค้าแต่ละราย

    อัตราการ Conversion เหมาะจะใช้กับโครงการริเริ่มด้านการขายและการตลาดมากกว่าการสนับสนุนลูกค้า
:cool:
 
Last edited:

PlAwAnSaI

Administrator
  • AI ที่มีความรับผิดชอบไม่ได้จำกัดอยู่เฉพาะ Generative AI แม้ว่าความคิดสร้างสรรค์ ผลิตภาพ และการเชื่อมต่อจะเป็นข้อดีของ AI ที่มีความรับผิดชอบ แต่สิ่งเหล่านี้ไม่ได้เป็นนิยามของ AI ที่มีความรับผิดชอบ AI ที่มีความรับผิดชอบหมายถึงมาตราฐานในการยึดมั่นต่อแนวปฏิบัติที่มีความรับผิดชอบ และลดความเสี่ยงที่อาจเกิดขึ้นและผลลัพธ์เชิงลบจากการใช้งาน AI

  • ในการหลีกเลี่ยงการยึดโยงข้อมูลน้อยและมากเกินไป Model ควรได้รับการฝึกให้มี Bias และความแปรปรวนต่ำ หาก Bias หรือความแปรปรวนสูง Model จะทำงานได้ไม่ดี

  • ความท้าทายของ AI ที่มีความรับผิดชอบ:
    • เนื้อหาที่ไม่เหมาะสมอธิบายได้ว่า เป็นผลลัพธ์ของ Model พื้นฐานที่แสดงออกในรูปแบบที่แสดงความเกลียดชัง คุกคาม ดูหมิ่น หรือสร้างความเสื่อมเสียต่อบุคคลหรือกลุ่มบุคคล
    • LLM รุ่นแรกๆ นั้นมีแนวโน้มจะผลิตผลลัพธ์ที่มาจากการทำซ้ำข้อความของข้อมูลสำหรับฝึกแบบคำต่อคำ ซึ่งส่งผลให้เกิดข้อกังวลด้านความเป็นส่วนตัวและลิขสิทธิ์เกี่ยวกับทรัพย์สินทางปัญญา การนำแนวปฏิบัติ AI ที่มีความรับผิดชอบไปใช้สามารถช่วยเอาชนะความท้าทายเหล่านี้ได้
      .
  • การกำกับดูแล AI ให้กระบวนการที่เป็นแนวทางและกลไกเชิงสถาบันเพื่อรับรองความรับผิดชอบ การลดความเสี่ยง และการตรวจสอบการใช้ AI ตั้งแต่การวิจัยและพัฒนา (R&D) ไปจนถึงการนำไปใช้จริง สิ่งนี้ส่งเสริมการเพิ่มพูนประโยชน์สูงสุดต่อสังคมไปพร้อมๆ กับการลดอันตรายที่เกิดจาก AI การกำกับดูแลเป็นสิ่งสำคัญสำหรับการนำ AI ไปใช้อย่างมีความรับผิดชอบ

  • ความสามารถในการอธิบายช่วยให้ผู้ใช้สามารถตรวจสอบ Function การทำงานของระบบ ตรวจหา Bias ที่ไม่พึงประสงค์ เพิ่มการควบคุมที่มีประโยชน์โดยมนุษย์ และสร้างความไว้วางใจในระดับเหมาะสมต่อระบบ AI ได้ มิตินี้ของ AI ส่งเสริมการพัฒนาและการนำ Technology AI ไปใช้จริงอย่างมีความรับผิดชอบเพื่อประโยชน์ของสังคม หากไม่มีความสามารถในการอธิบาย AI อาจสูญเสียความไว้วางใจจากสาธารณชนเมื่อเกิดข้อผิดพลาดที่ยากต่อการทำความเข้าใจ

  • Amazon SageMaker Clarify ให้เครื่องมือที่สร้างเพื่อวัตถุประสงค์เฉพาะเพื่อให้ได้ข้อมูลเชิงลึกที่มากขึ้นเกี่ยวกับ Model ML และข้อมูลที่อ้างอิงจาก Metric เช่น ความแม่นยำ ความทนทาน เนื้อหาที่ไม่เหมาะสม และ Bias เพื่อปรับปรุงคุณภาพของ Model และสนับสนุนโครงการริเริ่มด้าน AI ที่มีความรับผิดชอบ
    สามารถใช้ในการประเมิน Model และให้ความสามารถในการอธิบายสำหรับ Model อย่างไรก็ตาม ไม่สามารถใช้ในการบันทึกข้อมูลเกี่ยวกับ Model ที่นักพัฒนาจะฝึกได้

  • AI Service Card เป็นเอกสารประกอบรูปแบบหนึ่งเกี่ยวกับ AI ที่มีความรับผิดชอบ ซึ่ง Team สามารถเข้าถึงข้อมูลทั้งหมดที่รวบรวมไว้ในที่เดียว โดยเป็นข้อมูลเกี่ยวกับกรณีใช้งานและข้อจำกัดที่ตั้งใจไว้, ตัวเลือกการออกแบบ AI ที่มีความรับผิดชอบ และแนวปฏิบัติที่ดีที่สุดในการนำไปใช้จริงและการเพิ่มประสิทธิภาพสำหรับบริการ AI ของ AWS
    มันเป็นเอกสารประกอบด้านความโปร่งใสที่ AWS ให้เกี่ยวกับเครื่องมือ AI ที่เสนอให้ลูกค้าใช้ เอกสารนี้ไม่สามารถปรับแต่งได้

  • การติดตามตรวจสอบมีความสำคัญในการดูแลจัดการ Model ให้มีคุณภาพสูงอยู่เสมอ และช่วยให้แน่ใจว่าการคาดการณ์มีความแม่นยำ
    • SageMaker Model Monitor จะตรวจจับและแจ้งเตือนผู้ใช้เกี่ยวกับการคาดการณ์ที่ไม่ถูกต้องจาก Model ที่ถูกติดตั้งใช้งานโดยอัตโนมัติ
    • และเมื่อใช้งาน Amazon Augmented AI (A2I) ผู้ใช้จะสามารถนำการตรวจทานโดยมนุษย์มาใช้ในการคาดการณ์ของ ML ได้เมื่อจำเป็นต้องมีการกำกับดูแลโดยมนุษย์
      .
  • การกำหนดขอบเขตกรณีใช้งานของ App อย่างแคบจะช่วยให้เลือก Model ที่ดีที่สุดสำหรับ App ได้ นโยบายการกำกับดูแลและความรับผิดชอบในการติดตามตรวจสอบ Model มีความสำคัญ แต่ไม่ได้มีผลกระทบต่อการเลือก Model สำหรับ App โดยพื้นฐาน

  • การเพิ่มข้อมูล (Data Augmentation) สามารถใช้เพื่อสร้าง Instance ใหม่ของกลุ่มที่มีตัวแทนน้อย สิ่งนี้สามารถช่วยปรับสมดุลชุดข้อมูลและป้องกันไม่ให้เกิด Bias ที่เอนเอียงหากกลุ่มที่มี มีตัวแทนมากกว่า ได้

  • การเลือก Model หรือกรองเนื้อหาอันตรายที่ Generative AI อาจสร้างขึ้น:
    • เมื่อมีการประเมิน Model บน Amazon Bedrock, Team ก็จะสามารถประเมิน เปรียบเทียบ และเลือก Model พื้นฐานที่ดีที่สุดสำหรับกรณีใช้งานของตนได้
    • Guardrails สำหรับ Amazon Bedrock จะช่วยให้ Team สามารถปรับใช้มาตรการป้องกันให้แก่ App Generative AI ของตนได้ สิ่งนี้สามารถช่วยกรองเนื้อหาที่เป็นอันตรายได้

      ส่วน:
    • SageMaker Data Wrangler สามารถใช้เพื่อปรับสมดุลข้อมูลในกรณีที่มีความไม่สมดุล
    • Amazon A2I สามารถใช้สร้างขั้นตอนการทำงานที่ต้องการการตรวจทานการคาดการณ์ของ ML โดยมนุษย์
    • SageMaker Model Dashboard สามารถใช้เป็นศูนย์กลางในการเก็บข้อมูลพฤติกรรมของ Model ในระบบการผลิตสำหรับ Team
      .
  • ข้อมูลเชิงลึกที่ Model ที่โปร่งใสและอธิบายได้ ทำให้ Model ง่ายต่อการแก้ไขจุดบกพร่องและปรับปรุงเพื่อเพิ่มประสิทธิภาพ นอกจากนี้ยังช่วยสร้างความไว้วางใจกับผู้ใช้
    ความเสี่ยงบางประการที่ควรพิจารณาสำหรับ Model ที่โปร่งใสและอธิบายได้คือ Model อาจซับซ้อนและมีค่าใช้จ่ายในการพัฒนาสูงกว่า นอกจากนี้ยังมีความเสี่ยงต่อการละเมิดในเรื่องการรักษาความปลอดภัยได้มากขึ้น

  • นักพัฒนาสามารถใช้ SageMaker Autopilot เพื่อให้ข้อมูลเชิงลึกที่สามารถอธิบายได้ว่า Model ML ทำการคาดการณ์อย่างไร
    AWS HealthScribe เป็นบริการที่เป็นไปตามมาตรฐาน HIPAA สำหรับการสร้าง App ทางการแพทย์โดยอัตโนมัติจากการวิเคราะห์การสนทนาระหว่างผู้ป่วยและแพทย์

  • นักพัฒนาสามารถใช้ SageMaker Model Card เพื่อให้ความโปร่งใสกับ Model ที่ตนสร้างและฝึก โดยสามารถใช้เพื่อบันทึกและจัดทำเอกสารข้อมูลเพื่อความโปร่งใสได้
    Amazon SageMaker Role Manager เป็นเครื่องมือที่ผู้ดูแลระบบใช้ในการให้สิทธิ์การเข้าถึง

  • Model:
    • Model ที่ให้ความโปร่งใสแก่ระบบเพื่อให้มนุษย์สามารถอธิบายผลลัพธ์ของ Model ได้ โดยอิงตามน้ำหนักและคุณลักษณะเป็นตัวอย่างของความสามารถในการตีความใน Model
    • Model ที่ใช้วิธีการที่ไม่ขึ้นอยู่กับ Model เพื่ออธิบายพฤติกรรมของ Model ในเชิงมนุษย์เป็นตัวอย่างของความสามารถในการอธิบายใน Model
    • Model ที่หลีกเลี่ยงการก่อให้เกิดอันตรายในการโต้ตอบกับโลกเป็นตัวอย่างของความปลอดภัยใน Model
    • Model ที่สามารถควบคุมการคาดการณ์และพฤติกรรมได้โดยการเปลี่ยนแปลงข้อมูลสำหรับฝึกเป็นตัวอย่างของความสามารถในการควบคุม
      .
  • หลักการของการออกแบบที่มุ่งเน้นมนุษย์สำหรับ AI ที่อธิบายได้:
    • การออกแบบเพื่อเสริมการตัดสินใจเป็นหลักการออกแบบที่จะช่วยผู้มีอำนาจตัดสินใจในการทำการตัดสินใจอย่างรอบคอบในสภาพแวดล้อมที่มีแรงกดดันสูงโดยใช้ Technology
    • หลักการออกแบบเพื่อการตัดสินใจที่ปราศจาก Bias เน้นการลด Bias
    • หลักการออกแบบเพื่อการเรียนรู้ของมนุษย์และ AI เน้นการสร้างระบบ AI ที่ดีขึ้น

  • การใช้ภาพความละเอียดสูงระดับ 4K ไม่จำเป็น หากใช้ AI Model ที่มี Input Size เพียง 416x416 Pixel เนื่องจาก:
    .
    1. 🔍 Model จะ Resize ภาพอยู่ดี
      AI Model (เช่น YOLOv3) ที่มี Input Size 416x416 จะ ย่อขนาดภาพต้นฉบับ (ไม่ว่าจะใหญ่แค่ไหน) ให้เหลือ 416x416 ก่อนนำเข้า Model
      ➡️ ดังนั้น ข้อมูลที่เกินมาจาก 4K จะ สูญหายระหว่างการ Resize โดยไม่มีประโยชน์

    2. ⚖️ สิ้นเปลืองทรัพยากรโดยไม่จำเป็น
      การ Load ภาพ 4K:
      • ใช้ หน่วยความจำ (RAM/VRAM) มากขึ้น
      • ใช้ พลังประมวลผล มากขึ้น (CPU/GPU) โดยเฉพาะตอนแปลงหรือ Pre-process ภาพ
      • เพิ่ม เวลา Load/อ่าน File
        ➡️ แต่สุดท้ายข้อมูลถูกย่อเหลือแค่ 416x416 เท่านั้น
        .
    3. 🎯 ไม่มีผลต่อความแม่นยำของ Model
      การให้ Input 4K กับ Model ที่รองรับแค่ 416x416 ไม่ได้เพิ่มคุณภาพการทำนาย เพราะข้อมูลถูกลดขนาดไปอยู่ดี หากต้องการใช้ภาพความละเอียดสูงให้ได้ประโยชน์จริง ต้องใช้ Model ที่รองรับ Input Size ใหญ่กว่านี้
      ใช้ภาพขนาดใกล้เคียง เช่น 512x512 หรือ 640x640 แล้วค่อย Resize ลง จะประหยัดทรัพยากรและเร็วกว่า
      หากต้องการเพิ่มความแม่นยำหรือรายละเอียดในการตรวจจับ อาจพิจารณาใช้:
      • Multi-scale Input
      • Sliding Window หรือ Crop ภาพเป็นส่วนๆ แล้วประมวลผล
        หรือ High-resolution Input กับ Model ที่รองรับ เช่น Input Size 1024x1024
:cool:
 
Last edited:

PlAwAnSaI

Administrator
  • หากต้องการ วัดระยะห่างระหว่างวัตถุในภาพ (หน่วยเป็น Pixel)
    ✅ ควรใช้ “Model Detection” ไม่ใช่ “Classification” เพราะ:
    .
    1. 🎯 วัตถุประสงค์ต่างกันโดยสิ้นเชิง

      จุดประสงค์DetectionClassification
      หา “วัตถุอยู่ตรงไหน”✅ ได้ตำแหน่ง (bounding box)❌ ไม่รู้ตำแหน่ง
      บอกประเภทวัตถุ✅ บอกชนิด + ตำแหน่ง✅ บอกชนิดเท่านั้น
      วัดระยะระหว่างวัตถุ✅ ทำได้ เพราะมีพิกัด❌ ทำไม่ได้ เพราะไม่มีพิกัด

    2. 📦 การวัดระยะ = ต้องรู้ตำแหน่งของวัตถุ
      ตัวอย่าง:
      ถ้าต้องการวัดระยะห่างระหว่าง "รถสองคัน" ในภาพ
      • ต้องรู้ว่า รถแต่ละคันอยู่ตรงไหนใน Pixel (Bounding Box)
      • จากนั้นใช้จุดศูนย์กลางของแต่ละ Box → วัดระยะห่างเป็น Pixel
        Model Object Detection (เช่น YOLO, SSD, Faster R-CNN):
      • ให้ผลลัพธ์เป็น พิกัด (x, y, w, h) ของแต่ละวัตถุ
      • ทำให้สามารถนำไปคำนวณระยะห่างได้ทันที
        .
    3. ❌ Classification ไม่สามารถบอกตำแหน่งวัตถุได้
      Model Classification (เช่น ResNet, VGG, EfficientNet):
      • บอกว่าในภาพมีอะไร เช่น "มีแมว"
      • แต่ไม่รู้ว่าแมวอยู่ตรงไหน
      • ดังนั้นจึง วัดระยะห่างระหว่างวัตถุไม่ได้เลย
        .
  • การเตรียม Dataset ที่มี จำนวนภาพเยอะ แต่มี ความหลากหลายน้อย (Low Diversity)
    ✅ แม้จะมี “ปริมาณ”
    ❌ แต่ คุณภาพของข้อมูลในการเรียนรู้จะต่ำ ซึ่งจะส่งผลเสียต่อการ Train Model AI
    ความหลากหลายสำคัญกว่าแค่จำนวน:

    🔍ผลกระทบหลัก:
    .
    1. Overfitting ง่าย:
      • Model เรียนรู้ "ซ้ำ" จากภาพที่คล้ายกันมากเกินไป
      • ทำให้ จำลักษณะของ Training Set ได้แม่นยำเกินไป
      • แต่ ไม่สามารถ Generalize ไปยังภาพใหม่ที่ต่างออกไป
        .
    2. ประสิทธิภาพต่ำในการใช้งานจริง:
      • Accuracy หรือ mAP อาจดูดีใน Training Set
      • แต่ Performance จะลดลงมากเมื่อเจอภาพจากสถานการณ์ที่ต่างออกไป เช่น มุมกล้องเปลี่ยน, แสงแตกต่าง, วัตถุอยู่ในตำแหน่งใหม่, พื้นหลังเปลี่ยน
        .
    3. เรียนรู้ลักษณะผิด (Bias):
      • Model จะเข้าใจว่า “สิ่งที่เห็นบ่อย” = “ลักษณะทั่วไปของวัตถุ”
      • เช่น หากแมวใน Dataset มีแต่ขนสีขาว → Model อาจไม่รู้จักแมวขนดำ

        🛠 วิธีแก้หรือชดเชย

      • ✅1. เพิ่มความหลากหลายเทียม (Data Augmentation) ใช้ Technique อย่าง:
        • Flip, Rotate, Crop
        • Brightness/Contrast Adjust
        • Blur, Noise
        • CutMix, Mosaic (สำหรับ Detection)
          ➡️ ช่วยสร้าง “ความหลากหลายจำลอง” ให้ Dataset
          .
      • ✅2. เก็บภาพจากหลายสภาพแวดล้อม หากเป็นไปได้:
        • ใช้กล้องหลายตัว
        • ถ่ายในหลายสถานที่, เวลาต่างกัน
        • เปลี่ยนมุม มุมมอง และระยะห่าง
          .
      • ✅3. ใช้ Pretrained Model + Fine-tuning:
        • หาก Dataset ขาด Diversity แต่ยังมีจำนวนมาก
        • ใช้ Model ที่ Pretrain จาก Dataset ใหญ่ เช่น COCO, ImageNet
        • แล้วทำ Fine-tune เฉพาะ Task → ช่วยให้ Model ไม่ Bias จาก Dataset ที่มี
          .
  • การเพิ่มภาพที่ ไม่มีวัตถุที่เราต้องการตรวจจับ (เรียกว่า “Negative Sample”) ลงใน Dataset จะช่วย Model เรียนรู้ได้ดีขึ้น และมี ✅ ประโยชน์หลายด้าน:
    .
    1. 🧠ลด False Positive:
      • ถ้า Dataset มีแต่ภาพที่มีวัตถุเป้าหมาย Model อาจ "เข้าใจผิด" ว่า ทุกภาพต้องมีวัตถุเสมอ
      • นำไปสู่การตรวจจับผิดพลาดในภาพที่ไม่ควรมี (False Positive)
      • การใส่ภาพที่ไม่มีวัตถุ ช่วยให้ Model เรียนรู้ว่า “ภาพเปล่า” หรือ “ฉากธรรมดา” = ไม่ควรมีการตรวจจับ
        .
    2. 🎯เพิ่มความแม่นยำโดยรวม:
      • ทำให้ Model แยกแยะได้ดีขึ้นว่า “อะไรคือวัตถุ” และ “อะไรไม่ใช่”
      • ช่วยให้ Model ตัดสินใจได้แม่นยำมากขึ้น ไม่จับสิ่งที่คล้ายคลึงกันแต่ไม่ใช่วัตถุเป้าหมาย
      • ทำให้ Model เรียนรู้ว่า “ไม่มี” ก็เป็นคำตอบได้
        .
    3. 🧪จำลองสถานการณ์จริง:
      • ในการใช้งานจริง เช่น กล้องวงจรปิด, หุ่นยนต์, หรือระบบตรวจสอบสินค้า
        ➜ บางครั้งจะมีภาพที่ ไม่มีวัตถุเป้าหมายเลย
      • การ Train ด้วยภาพลักษณะนี้ช่วยให้ Model ทำงานได้สมจริงมากขึ้น
      • เพิ่มความสามารถในการ Generalize
        .
    4. 📊สร้าง Balance ให้ Dataset:
      • Dataset ที่มีแต่ Positive Sample (เช่น วัตถุทุกภาพ) จะมี Bias สูง
      • การเพิ่ม Negative Sample ช่วยทำให้ Class Distribution มีความสมดุลมากขึ้น
      • เหมาะกับ Deployment ในโลกจริง

        ⚠️ ข้อควรระวัง:
      • ต้องแน่ใจว่า Negative Image ไม่มีวัตถุที่เกี่ยวข้องจริงๆ
      • ควรมีความหลากหลาย (มุมกล้อง, พื้นหลัง, สภาพแสง, ฯลฯ)
      • อย่าใส่จำนวนมากเกินไปจน Dataset กลายเป็น Unbalanced ในทางตรงข้าม
        .
  • 🔍ปัญหา: วัตถุขนาดเล็กตรวจจับยากเพราะ..:
    • ข้อมูลน้อยใน Pixel: รายละเอียดของวัตถุมีน้อย
    • ถูกลด Resolution ระหว่าง Down-sampling ใน CNN
    • Overlap กับพื้นหลังง่าย
    • Bounding Box ขนาดเล็กมาก จนอาจหายไปจาก Feature Map

      ✅ แนวทางปรับปรุงการตรวจจับวัตถุขนาดเล็ก:
      .
      1. 📸เพิ่มขนาดภาพ Input (Input Resolution)
        • ใช้ Input Image ที่มีความละเอียดสูงขึ้น เช่น จาก 416x416 → 640x640 หรือ 1024x1024
        • ช่วยให้วัตถุขนาดเล็ก “ใหญ่ขึ้น” บน Feature Map
        • Model เช่น YOLOv5, YOLOv8, Faster R-CNN รองรับ Resolution ที่ยืดหยุ่น
          ⚠️ ต้องแลกกับการใช้หน่วยความจำและเวลา Inference ที่เพิ่มขึ้น
          .
      2. 🏗️เลือก Model ที่รองรับการตรวจจับวัตถุขนาดเล็กดี:
        • ใช้ Model ที่มี Multi-scale Prediction และ FPN (Feature Pyramid Network) เช่น YOLOv3/4/5/8, EfficientDet, Faster R-CNN with FPN
        • บาง Model เช่น YOLOv5s6 หรือ YOLOv8x ให้ Resolution และ Receptive Field ที่ดีสำหรับวัตถุเล็ก
          .
      3. 🧠ปรับ Anchor Box / Box Prior ให้เหมาะกับขนาดวัตถุ:
        • หากใช้ YOLO-style models ใช้คำสั่ง k-means เพื่อปรับ Anchor Box Size ให้สอดคล้องกับวัตถุเล็กใน Dataset หรือปรับ Manual ให้มีขนาดเล็กลง
        • ช่วยให้ Model “เริ่มต้น” คาดเดากรอบได้ใกล้เคียงความจริงมากขึ้น
          .
      4. 🖼️ ทำ Data Augmentation แบบเน้นวัตถุเล็ก:
        Technique ที่ช่วยให้วัตถุเล็ก “ชัดขึ้น” ในระหว่างการ Train:
        • Copy-paste วัตถุเล็กลงไปในฉากหลากหลาย
        • Mosaic / MixUp (มีใน YOLOv5, 8) → ทำให้เห็นวัตถุเล็กหลายตำแหน่งในภาพเดียว
        • Random Crop โดยที่ Cropping ไม่ตัดวัตถุเล็กออก
        • Zoom-in แบบ Preserve Bounding Box
          .
      5. 🧪ใช้ Crop + Sliding Window ใน Preprocessing (ถ้าจำเป็น):
        • แบ่งภาพใหญ่ออกเป็นหลายภาพย่อยที่มี Resolution สูงขึ้น (เช่น Crop เป็น Patch ขนาด 640x640)
        • ตรวจทีละส่วน แล้วรวมผลลัพธ์กลับ (Post-processing)
        • เหมาะกับวัตถุเล็กในภาพความละเอียดสูง เช่น Drone, Satellite, หรือกล้องวงจรปิด
:cool:
 
Last edited:
Top