所有产品 > 科技成果
产品信息图片
针对大规模环境下复杂任务的策略搜索强化学习方法研究
行业领域:
成熟度:
浏览量: 发布时间:
来源地:天津市-天津市-天津港保税区
  • 产品详情
  • 服务评价
  • 成交记录
  • 详细信息:

    1.主要技术内容
    强化学习是机器学习领域中解决连续决策问题的重要学习方法,研究智能体如何在未知环 境中做出决策以获得最大累积回报。策略搜索是强化学习领域中解决连续动作空间的决策问题 最为灵活有效的方法之一。然而,针对大规模环境下复杂任务,现有策略搜索方法存在以下局限:①受限于手工特征设计,难以显式描述高维复杂状态变量;②受限于针对指定任务的专门策略模型,难以表达复杂任务的策略;③受限目标函数的非凸性,难以寻找全局最优策略解。为了解决上述问题,本课题拟构建一套面向大规模环境下复杂任务的策略搜索强化学习研究方案。具体内容包括:①大规模环境下状态变量的自主表达;②强泛化能力的深度策略模型;③ 面向全局最优解的引导型策略搜索算法。通过整合上述新技术,提出一套完整的适用于大规模 环境下复杂任务的强化学习方案,为实际应用中的智能控制问题提供理论依据与技术指导,并为下一步深入研究打下基础。
    创新点在于:(1)将深度神经网络应用到强化学习系统中的状态感知,实现状态变量自主表示,提高学习性能,并减轻策略学习负担。此创新点为实际应用中智能体对于环境理解提供技术支持,更大程度地提高了智能系统的自动化。(2)构建具有深度递归型结构的策略模型,使其能够表达高复杂度的决策任务,具有较强的泛化能力,从而打破传统强化学习方法中只针对特定任务设计策略模型的局限性。此创新点极大地提高了智能系统自主学习的泛化能力,提高了学习系统的通用性。(3)提出面向全局最优的引导型策略搜索学习算法,利用高质量引导型样本的帮助进行高效策略搜索,从而得到较好的局部最优解,在一定程度上缓解策略搜索算法由于高度非凸的目标函数造成多个局部最优解存在的问题。此方法不仅适用于强化学习,对于具有局部最优问题的其他机器学习方均可适用。
    本科技成果立足于实际应用中对智能决策问题的需求,以大规模环境下的复杂决策任务为应用背景进行拓展,研究一套全新的实用型强化学习理论体系和方法,为现实世界中的智能控制提供有力的技术支撑。
    2.授权申请专利情况
    现已在相关领域申请专利 11 项,授权专利 2 项。
    3.经济社会价值
    本科技成果立足于实际应用中对智能决策问题的需求,以大规模环境下的复杂决策任务为应用背景进行拓展,研究一套全新的实用型强化学习理论体系和方法,为现实世界中的智能控制提供有力的技术支撑。技术成果可被成功应用到诸多领域:如智能机器人、电脑游戏、调度系统、智能对话系统、存储系统、智能电网、智能交通系统、多智能体系统、无人驾驶车、航空航天系统及数字艺术智能系统等,为整个社会实现真正智能化提供了有力技术支撑。

      联系我们

      张女士 

        

      更多推荐