Kei Moriyama / Bayesian Optimization from Human Feedback: Near-Optimal Regret Bounds

Created Fri, 03 Apr 2026 00:00:00 +0900 Modified Tue, 21 Apr 2026 02:44:11 +0200
319 Words

๐Ÿ“„่ซ–ๆ–‡ๆƒ…ๅ ฑ

๐Ÿ”‘ใ“ใฎ่ซ–ๆ–‡ใฎใ‚ญใƒผใƒกใƒƒใ‚ปใƒผใ‚ธ

  • ….?

๐ŸŽ“ใฉใ†ใ„ใ†ๅ•้กŒใซๅ–ใ‚Š็ต„ใ‚“ใ ใฎใ‹

  • ไธ€ๅฏพๆฏ”่ผƒใซใ‚ˆใ‚‹ใƒ•ใ‚ฃใƒผใƒ‰ใƒใƒƒใ‚ฏใ‚’็”จใ„ใŸใƒ™ใ‚คใ‚บๆœ€้ฉๅŒ–ใฎregret boundใ‚’่งฃๆžใ—ใŸ
  • ใ“ใฎ่งฃๆž็ตๆžœใ‚’ๅ…ƒใซๆ–ฐใ—ใ„ใƒ™ใ‚คใ‚บๆœ€้ฉๅŒ–ใฎใ‚ขใƒซใ‚ดใƒชใ‚บใƒ ใ‚’ๆๆกˆใ—ใŸ

๐Ÿง‘โ€๐ŸŽ“ใใฎๅ•้กŒใซๅ–ใ‚Š็ต„ใ‚€ใ“ใจใŒใชใœ้‡่ฆใชใฎใ‹

  • ๆ—ขๅญ˜ใฎ่งฃๆž่ซ–ๆ–‡ใงใฏใ€ใ‚ใ‚‹ๅฎšๆ•ฐใŒใคใ„ใฆใ„ใŸใŒใ€ใ“ใฎ่ซ–ๆ–‡ใงใ“ใฎๅฎšๆ•ฐใ‚’ๆธ›ใ‚‰ใ—ใฆใ‚‚่‰ฏใ„ไบ‹ใ‚’็คบใ—ใŸ
  • ้€šๅธธใฎใƒ™ใ‚คใ‚บๆœ€้ฉๅŒ–ใจใฏ็•ฐใชใ‚Šใ€่ฉ•ไพกๅ€คใŒไธ€ๅฏพๆฏ”่ผƒใงใ‚ใ‚‹ใŸใ‚ใ€regret boundใฎ่งฃๆžใŒ่ค‡้›‘ใงใ‚ใ‚‹

๐Ÿ’กๅ•้กŒ่งฃๆฑบใซๅ‘ใ‘ใŸใ‚ญใƒผใ‚ขใ‚คใƒ‡ใ‚ขใฏไฝ•ใ‹

  • ใ‚ˆใๅˆ†ใ‹ใ‚‰ใชใ‹ใฃใŸ
  • ็†่ซ–็š„ใชไบ‹ใ‚’็†่งฃใ™ใ‚‹ใŸใ‚ใฎ็Ÿฅ่ญ˜ใŒ่ถณใ‚Šใชใ™ใŽ

๐Ÿ‘€ๆ–ฐใŸใซๅˆ†ใ‹ใฃใŸใ“ใจใฏไฝ•ใ‹

  • ไฝ•ใŒๅˆ†ใ‹ใ‚Œใฐๅˆ†ใ‹ใ‚‹ใ‚ˆใ†ใซใชใ‚‹ใฎใ‹ๅˆ†ใ‹ใ‚‰ใชใ„

โ“็–‘ๅ•็‚นใฏไฝ•ใ‹