【博客之星】2024年度个人成长、强化学习算法领域总结

📢在2025年初,非常荣幸能通过审核进入到《2024年度CSDN博客之星总评选》TOP300的年度评选中,排名40 。这还是第一次来到这个阶段,作为一名博士研究生,还是备受鼓舞的。在这里我将以回顾的方式讲述一下这一年在CSDN中走过的路,也对这一年来在👉强化学习领域的相关算法和内容进行总结。

【博客之星】2024年度个人成长、强化学习算法领域总结

目录

一、2024这一年的回顾

1.发文数量

2.文章数据

3.博客数据

4.博客成就

5.博客之星评选

二、2024年度强化学习算法总结

1.强化学习的核心改进

2.强化学习的跨领域应用

3.技术集成与生态系统

4.未来展望

5.总结

三、文末愿景


一、2024这一年的回顾

1.发文数量

在这一年的创作中,共发布94 篇文章,其中强化学习算法相关文章发布了65 篇,将其分为了六个专栏,主要关注于单智能体强化学习算法多智能体强化学习算法。

在强化学习文章的基础上,总结了强化学习相关算法,建立了GitCode算法库,希望在未来打造成最完备的强化学习算法库,也得到了GitCode官方的支持:

2.文章数据

强化学习算法相关文章是这个系列的主要文章,得益于大家的支持,每篇文章基本都得到了2000+的阅读量、100+的点赞、评论、收藏。

很多文章也进入了热榜,也十分有幸多次上了综合热榜、领域内容榜(结构与算法、人工智能),多次斩获第一No.1

3.博客数据

截至目前为止,访问量突破了百万大关,博客总排名也进入了前1000名,获得了2W粉丝的支持,感谢这一年来大家的关照。

文章的点赞达到了9420次,内容获得了10620次评论、10865次收藏、代码片获得了7732次分享。

4.博客成就

2024年是十分值得纪念的一年,在这一年中,通过对嵌入式领域、人工智能领域、通信领域的文章的发布,成为了人工智能领域优质创作者 ;随后时间,通过对强化学习算法系列文章的发布,以成为了CSDN博客专家。之后扩展到了其他社区,也取得了一定成就,如成为了华为云享专家等。

博客也多次成为了创作者周榜第一No.1,从长沙周榜第一转移到了上海市周榜第一。

5.博客之星评选

今年也是很有幸成功入围2024年博客之星,创作影响力排名榜总分490 (满分500),排名第40名 。往年只是看着各位大佬互相发招,今年很荣幸获得这个机会,能够和各位大佬互相交流,让我受益匪浅。也希望在接下里的评选中能够得到大家的支持,感谢,感谢!!!


二、2024年度强化学习算法总结

2024年,强化学习(Reinforcement Learning, RL)领域取得了显著的进展,其研究热点涵盖了理论创新、实际应用和技术集成。本文从强化学习的核心改进、跨领域应用以及未来趋势展望等方面,为您通俗解读这一年的重要成果。

1.强化学习的核心改进

  • 高效性与稳定性的新突破

    • 样本效率:通过结合模型学习(Model-based RL)和基于信任区域优化(TRPO、PPO)的改进,样本效率显著提高,尤其在少样本场景下的性能更为突出。
    • 探索机制优化:引入基于智能记忆的探索策略(如Memory Augmented Exploration),使得探索过程更加智能化,减少冗余。
    • 长期依赖建模:Transformer架构被广泛用于捕捉复杂任务中的长时依赖关系。
  • 离线强化学习的迅速发展

    离线RL(Offline RL)技术通过整合大规模的历史数据进行策略优化,突破了传统RL对实时环境交互的依赖。2024年,结合生成对抗网络(GAN)和自监督学习(Self-Supervised Learning)的离线RL算法在医疗、自动驾驶等领域大显身手。

  • 多智能体系统的强化学习

    多智能体RL(Multi-Agent RL)取得了新的突破,尤其是在多智能体协作与博弈的场景中。结合博弈论的平衡点算法(如Nash-DQN)和通信增强技术,使得智能体之间的协作更加高效。

2.强化学习的跨领域应用

  • 工业与工程优化

    • 强化学习被用于物流调度、供应链优化等实际问题,显著提高了资源利用率。特斯拉和亚马逊的物流机器人项目广泛采用基于RL的动态路径规划算法。
    • 制造业中,RL用于设备维护预测和流程优化,减少了非计划性停机时间。
  • 医疗与健康管理

    • 在医疗领域,RL被用于个性化治疗方案的推荐,例如癌症治疗中的动态剂量调整。
    • 基于RL的健康管理模型通过预测用户行为和健康风险,优化个性化的健康干预措施。
  • 游戏与内容生成

    • AlphaZero框架的改进被用于游戏AI开发,展现出超越人类的策略水平。
    • RL还被用于生成艺术内容和增强虚拟现实体验,为游戏和影视行业注入了新活力。

3.技术集成与生态系统

强化学习与大模型的融合

2024年,强化学习与大规模语言模型(如GPT-4.5)的结合成为研究热点。这种融合实现了从语言到动作的无缝连接,为人机交互、机器人导航等场景带来更多可能。

提出了新型RLHF(Reinforcement Learning with Human Feedback)技术,优化模型输出质量,同时增强用户体验。

强化学习与图神经网络的协同

强化学习与图神经网络(GNN)的结合在大规模网络优化(如社交网络分析、通信网络优化)中表现突出。这种协同方式极大地扩展了RL的应用边界。

4.未来展望

  1. 更高的样本效率与鲁棒性

    未来的强化学习将继续聚焦于提高样本效率和策略的鲁棒性,探索如何在更复杂的环境中实现快速收敛。

  2. 伦理与安全性问题

    随着RL在实际应用中的广泛部署,其安全性和伦理问题日益凸显。未来需要更全面的约束机制和验证方法。

  3. 普及与工具化

    RL工具包的不断完善(如RLlib和TensorFlow Agents),让更多开发者能够快速上手,并将其应用于真实场景。

5.总结

2024年,强化学习领域经历了理论与实践的双重飞跃,其在智能系统开发、生产优化和人类福祉提升方面发挥了重要作用。展望未来,随着技术的持续突破和生态的逐步完善,强化学习将为更多行业赋能,推动智能化社会的加速到来。


三、文末愿景

在最后,作为一名耕耘在算法领域的研究生程序猿,我想用一个经典算法作为2024年的总结,它能够通过结合来时的路与展望终点的路,为我提供一个优质的前进路径。如果我能够规划好未来,或许未来的我能够走向一条次优路径,甚至是走向人生的最优路径。

python 复制代码
"""
项目:A*算法代码

作者:不去幼儿园

时间:2025年1月19日

"""
import heapq
import numpy as np
import math
import matplotlib.pyplot as plt
plt.rcParams['font.family'] = 'SimHei'  # Windows系统常用中文字体

def heuristic_func(node, goal):
	# 将当前节点和目标节点组合为一个状态输入神经网络
	# value = np.linalg.norm(np.array(node) - np.array(goal))  # 欧式距离
	value = sum(map(lambda x, y: math.fabs(x - y), node, goal))  # 曼哈顿距离
	return value

def reconstruct_path(came_from, current):
	# 从目标节点倒推到起点,返回完整路径
	path = [current]
	while current in came_from:
		current = came_from[current]
		path.append(current)
	path.reverse()  # 翻转路径使其从起点到终点
	return path

def Astar(env, start, goal, function_flag=False):
	# 初始化开启列表,用优先队列存储待处理节点
	open_list = []
	open_list_ = []
	close_list = []
	close_list_ = []
	heapq.heappush(open_list, (0, start))  # 优先级为 f_score,节点为 start
	open_list_.append(start)
	came_from = {}  # 记录每个节点的上一个节点
	g_score = {start: 0}  # 记录从起点到当前节点的实际代价
	f_score = {start: heuristic_func(start, goal) + g_score[start]}  # 初始总代价
	transition_cost = 1  # 状态转移代价
	GAMA = 0.5
	step_num = 0
	while open_list:
		step_num += 1
		# 从优先队列中取出代价最低的节点
		current_tuple = heapq.heappop(open_list)
		current = current_tuple[1]
		open_list_.remove(current)
		close_list.append(current_tuple)
		close_list_.append(current)
		if current == goal:
			# 找到目标,重建路径并返回
			return reconstruct_path(came_from, current), step_num

		# 遍历当前节点的所有邻居
		for neighbor, cost in env.get_neighbors(current, transition_cost):
			tentative_g_score = g_score.get(current, float('inf')) + cost  # 计算临时的 g_score
			if neighbor in close_list_:
				continue
			if neighbor not in open_list_:
				# 如果从当前节点到邻居的路径更短,更新路径信息
				came_from[neighbor] = current
				g_score[neighbor] = tentative_g_score
				# 计算邻居的 f_score 并加入优先队列
				f_score[neighbor] = GAMA*tentative_g_score + (1-GAMA)*heuristic_func(neighbor, goal)
				# if (f_score[neighbor], neighbor) not in open_list:
				open_list_.append(neighbor)
				heapq.heappush(open_list, (f_score[neighbor], neighbor))
			else:
				if tentative_g_score < g_score.get(neighbor, float('inf')):
					# 如果从当前节点到邻居的路径更短,更新路径信息
					came_from[neighbor] = current
					g_score[neighbor] = tentative_g_score
					# 计算邻居的 f_score 并加入优先队列
					f_score[neighbor] = GAMA * tentative_g_score + (1 - GAMA) * heuristic_func(neighbor, goal)
					# if (f_score[neighbor], neighbor) not in open_list:
					open_list_.append(neighbor)
					heapq.heappush(open_list, (f_score[neighbor], neighbor))

	return None, step_num  # 没有找到路径

在这新的2025年中,也祝愿阅读这篇文章的你们都能找到属于自己人生的最优路径。

所愿皆所得,所念皆所愿,所期皆所念,所念皆星河。

人生之路幸福美满,不留遗憾。

相关推荐
L-含光承影10 分钟前
【第二十周】U-Net:用于生物图像分割的卷积神经网络
人工智能·神经网络·cnn
--fancy31 分钟前
提示词的艺术----AI Prompt撰写指南(个人用)
人工智能·chatgpt·prompt
视觉语言导航34 分钟前
IJCAI-2024 | 具身导航的花样Prompts!VLN-MP:利用多模态Prompts增强视觉语言导航能力
人工智能·深度学习·具身智能
流星Studio38 分钟前
某Websocket反爬逆向分析+请求加解密+还原html
爬虫·python·js逆向
程序设计实验室39 分钟前
编写爬虫下载公众号上好看的壁纸
爬虫·python
AIzealot无1 小时前
力扣hot100之螺旋矩阵
算法·leetcode·矩阵
兑生1 小时前
力扣面试150 长度最小的子数组 滑动窗口
算法·leetcode·面试
miilue1 小时前
[LeetCode] 链表I — 704#设计链表 | 203#移除链表元素 | 206#反转链表 | 递归法
java·开发语言·c++·算法·leetcode·链表
Tisfy1 小时前
LeetCode 2266.统计打字方案数:排列组合
数学·算法·leetcode·动态规划·题解·排列组合