针对多约束未知环境下,风况、障碍物等多因素导致无人机(Unmanned Aerial Vehicle,UAV)路径规划模型收敛效率低和算法复杂度过高的问题,提出一种基于渐进式强化学习的路径规划策略(Progressive Deep Reinforcement Q-learning Network,PR-DQN)。算法考虑类教式训练学习方法,通过构建特征区分的场景,在模型训练过程中动态调整UAV训练场景,解决了模型过早面对复杂任务而导致的学习困难,避免了模型陷入局部最优,提升了模型学习效率。此外,算法综合考量了未知环境中,风况、障碍物和能耗等多约束条件对UAV飞行轨迹的影响,通过构建能耗、碰撞因子和多约束奖赏函数,约束UAV飞行中的路径选择,保证了UAV在安全和能耗允许的前提下,完成路径规划任务。实验结果表明,所提方案平均规划成功率高于同类算法约5.4%,平均训练开销低于同类算法约11.7%,在多类型、多数量障碍物和多元能耗并存的未知环境中,PR-DQN算法具有较高的应用前景。