OJ模拟4 - 技术栈

五个一组求平均（填空）

作者: Turbo

时间限制: 1s

章节: 一维数组

问题描述

程序的功能是：按顺序给s数组中的元素赋予从2开始的偶数，然后再按顺序对每五个元素求一个平均值，并将这些值依次存放在w所指的数组中。若s数组中元素的个数不是5的倍数，多余部分忽略不计。

例如，s数组有14个元素，则只对前10个元素进行处理，不对最后的4个元素求平均值。

请在程序的下划线处填入正确的内容并把下划线删除，使程序得出正确的结果。

注意：源程序如下。

不得增行或删行，也不得更改程序的结构！

#include <stdio.h>

#define SIZE 100

int main() {

double s $SIZE$ , w $SIZE / 5$ ;

int i, k, n;

double sum;

scanf("%d", &n);

for (k = 2, i = 0; i < n; i++) {

s $i$ = k;

/**********found**********/

}

sum = 0.0;

for (k = 0, i = 0; i < n; i++) {

sum += s $i$ ;

/**********found**********/

if (2 == 0) {

w $k$ = sum / 5;

/**********found**********/

k++;

}

for (i = 0; i < k; i++)

printf("%6.2f ", w $i$ );

return 0;

}

cpp 复制代码

#include <stdio.h>

#define SIZE 100

int main() {

	double s[SIZE], w[SIZE / 5];

	int i, k, n;

    double sum;

	scanf("%d", &n);

	for (k = 2, i = 0; i < n; i++) {

		s[i] = k;

		/**********found**********/

		k=k+2;

	}

	sum = 0.0;

	for (k = 0, i = 0; i < n; i++) {

		sum += s[i];

		/**********found**********/

		if ((i+1)%5 == 0) {

			w[k] = sum / 5;

			/**********found**********/

			sum=0.0;

			k++;

		}

	}

	for (i = 0; i < k; i++)

		printf("%6.2f ", w[i]);

	return 0;

}

大于均值的数（填空）

作者: Turbo

时间限制: 1s

章节: 一维数组

问题描述

给定程序的功能是：计算x数组中N个数的平均值（规定所有数均为正数），然后输出；并将大于平均值的数放在数组y中，并输出。

例如，有10个正数：46 30 32 40 6 17 45 15 48 26，平均值为：30.500000

并输出：46 32 40 45 48

请在程序的下划线处填入正确的内容并把下划线删除，使程序得出正确的结果。

注意：源程序如下。

不得增行或删行，也不得更改程序的结构！

#include <stdlib.h>

#include <stdio.h>

#define N 100

int main() {

int i, j;

double av;

int n;

double x $N$ , y $N$ ;

scanf("%d", &n);

for (i = 0; i < n; i++) {

scanf("%lf", &x $i$ );

}

/**********found**********/

av = 1;

/**********found**********/

for (i = 0; i < n; i++)

av = av + 2;

for (i = j = 0; i < n; i++)

/**********found**********/

if (x $i$ > av)

y $__3__$ = x $i$ ;

y $j$ = -1;

printf("average=%f\n", av);

for (i = 0; y $i$ >= 0; i++)

printf("%5.1f ", y $i$ );

return 0;

}

输入说明

输入一个正整数n

然后输入n个正数

输出说明

根据源程序所给格式输出

cpp 复制代码

#include <stdlib.h>

#include <stdio.h>

#define N 100

int main() {

    int i, j;

	double av;

	int n;

	double x[N], y[N];

	scanf("%d", &n);

	for (i = 0; i < n; i++) {

		scanf("%lf", &x[i]);

	}

	/**********found**********/

	 av = 0.0;

	/**********found**********/

	for (i = 0; i < n; i++)

		av = av + x[i]/n;

	for (i = j = 0; i < n; i++)

		/**********found**********/

		if (x[i] > av)

			y[j++] = x[i];

	y[j] = -1;

	printf("average=%f\n", av);

	for (i = 0; y[i] >= 0; i++)

		printf("%5.1f ", y[i]);

	return 0;

}

环形矩阵（填空）

作者: Turbo

时间限制: 1s

章节: 二维数组

问题描述

给定程序的功能是建立一个n*n的矩阵。矩阵元素的构成规律是：

最外层元素的值全部为1；从外向内第2层元素的值全部为2；第3层元素的值全部为3，依次类推。例如，若n=5，生成的矩阵为：

1 1 1 1 1

1 2 2 2 1

1 2 3 2 1

1 2 2 2 1

1 1 1 1 1

请在程序的下划线处填入正确的内容并把下划线删除，使程序得出正确的结果。

注意：源程序如下。不得增行或删行，也不得更改程序的结构！

#include <stdio.h>

#define N 15

int main() {

int a $N$ $N$ = {0}, i, j, k, m, n;

scanf("%d", &n);

if (n % 2 == 0)

m = n / 2 ;

else

/**********found**********/

m = 1;

for (i = 0; i < m; i++) {

/**********found**********/

for (j = 2 ; j < n - i; j++)

a $i$ $j$ = a $n - i - 1$ $j$ = i + 1;

for (k = i + 1; k < n - i; k++)

/**********found**********/

a $k$ $i$ = a $k$ $n - i - 1$ = 3;

}

for (i = 0; i < n; i++) {

for (j = 0; j < n; j++)

printf("%3d", a $i$ $j$ );

printf("\n");

}

return 0;

}

输入说明

输入一个正整数n

输出说明

根据源程序所给格式输出

cpp 复制代码

#include  <stdio.h>

#define N 15

int main() {

	int a[N][N] = {0}, i, j, k, m, n;

	scanf("%d", &n);

	if (n % 2 == 0)

		m = n / 2 ;

	else

        /**********found**********/

		m = n/2+1;

	for (i = 0; i < m; i++) {

		/**********found**********/

		for (j = i ; j < n - i; j++)

			a[i][j] = a[n - i - 1][j] = i + 1;

		for (k = i + 1; k < n - i; k++)

			/**********found**********/

			a[k][i] = a[k][n - i - 1] = i+1;

	}

	for (i = 0; i < n; i++) {

		for (j = 0; j < n; j++)

			printf("%3d", a[i][j]);

		printf("\n");

	}

	return 0;

}

英语翻译

Reinforcement learning is a powerful approach for solving sequential decision-making problems. In this framework, an agent interacts with an environment by taking actions and receiving rewards. The goal is to learn an optimal policy that maximizes cumulative rewards over time. Unlike supervised learning, reinforcement learning relies on trial-and-error rather than labeled data. Techniques such as Q-learning and policy gradient methods are widely used to train agents. With the integration of deep neural networks, deep reinforcement learning has achieved remarkable success in complex tasks such as game playing, robotic control, and autonomous systems. However, challenges such as sample inefficiency and unstable training remain key issues that researchers are actively addressing.

强化学习是一种强大的方法，适用于解决序列决策问题。在这一框架下，一个代理通过与环境的交互来采取行动并获取奖励。目标在于学习一种最优策略，该策略能够随着时间的推移最大化累积奖励。与有监督学习不同，强化学习依赖于试错而非标注数据。诸如Q学习和政策梯度方法等技术被广泛应用于代理的训练过程。随着深度神经网络的融入，深度强化学习已在游戏博弈、机器人控制及自主系统等复杂任务中取得了显著成就。然而，诸如样本利用效率低下和训练不稳定等挑战仍是研究人员正积极应对的关键问题。

Reinforcement learning 强化学习

cumulative累积的

gradient坡度