特定課題報告書印刷(Print out of Special Research Projects)

表題番号：2025C-106 日付：2026/02/20

研究課題環境・タスク網羅性を実現するマルチエージェント深層強化学習法の研究

	研究者所属（当時）	資格	氏名
（代表者）	理工学術院基幹理工学部	教授	菅原　俊治

研究成果概要: マルチエージェント深層強化学習によるエージェントの協調・調整・競争行動の獲得に関する研究が活発化しており、多くの成果が報告されている。エージェントとは自律的に行動を決定するプログラムであり、Webエージェントのほか、ロボット、自動走行車、各種機械の制御プログラムなど、人間の意図する行動を実現することを目的としている。深層強化学習により、効率的な協調行動、たとえば効率化や競合を避けるための分業、他のエージェントの行動とタイミングを合わせる行動などを獲得することは可能である。しかし、既存手法を複雑な環境に適用すると、全体あるいは一部のエージェントが、環境の一部（たとえば初期地点から遠方の領域）や特定のタスク（たとえば他と比べてコストの高いタスク）を「見逃すことが適切である」と学習してしまう場合がある。これは人間の意図とかけ離れた行動の獲得につながる。
　　そこで本研究期間で、環境内の他のエージェントへの行動指示を考慮し、それを補完する行動を学習する枠組みを提案した。具体的には、直接的な行動指示が与えられない場合でも、他のエージェントの行動を予測し、それを補うことで環境全体を網羅する行動を実現することを目指した。このために、他のエージェントの行動を含む多様なパターンと、それに基づく報酬設計を導入し、それらを学習する手法を提案した。本研究は、これまでのコントラビリティを埋め込んだ学習手法を拡張するものであり、より人間の意図に沿った行動を学習させる方法であると位置づけられる。