通信原理课设(gec6818) 007:语音识别

1、去科大讯飞官网下载对应的sdk

2、科大讯飞文件夹的意思

3、配置ARM的录音环境

4、编程实现语音识别

我们的需求是将一个语音文件从客户端传到服务器，因此我们最好是选用tcp

现在市面上面常用的语音识别解决方案为：科大讯飞c和百度c++

离线语音识别和在线语音识别有一定区别，以识别"你好"为例：

在线：语音识别可以直接返回"你好"这个字符串

离线：只能做命令词 --- 根据我的需求写好代号

如：你好 --- 1001

最终我们可以拿到这个1001这个id

语音解决方案没有arm的环境，因此我们需要用开发板去录音，将这个录音文件发送给乌班图，由乌班图识别出来之后返回给arm板

1、去科大讯飞官网下载对应的sdk

进入科大讯飞官网 -> 讯飞开放平台 -> 离线命令词识别 -> 免费试用

-> 下载对应的SDK-> 跳转到对应的sdk下载界面->注意下面三个红色框框的选择（下载sdk可能会提示要实名认证，认证就好了）

2、科大讯飞文件夹的意思

每个人下载的sdk都是不一样的

进入到\samples\asr_offline_sample，可以看到有一个makefile文件，我们在编译的时候直接make就可以了。make会找Makefile去执行，make完成如果没有报错，它会在bin目录里面生成一个asr_offline_sample可执行文件。

由于我们只用x64的库，所以我们用记事本打开makefile，将x86改成x64

在执行的时候要找到这个库我们需要将这个库弄到 /lib文件夹

cpp 复制代码

 sudo cp lib/x64/libmsc.so /lib

3、配置ARM的录音环境

链接：https://pan.baidu.com/s/1LZ0Lpj9DhqpMzhzYjp0xVg?pwd=scrt

提取码：scrt

1、首先将alsa-1.0.tar.gz这个文件拷贝到开发板的 /home

cp /mnt/udisk/alsa-1.0.tar.gz /home

2、在home目录里面解压这个文件

tar xvf alsa-1.0.tar.gz

3、进入 alsa-1.0这个文件夹

cd alsa-1.0

进入这个文件夹里面的bin目录

cd bin

将这个bin目录里面的 arecord aplay这两个文件复制到 /bin

cp arecord aplay /bin

4、然后cd ..

进入lib这个文件夹 cd bin

将里面so这些动态库复制到 /lib这个文件夹

cp libasound.s* /lib

5、回到home目录

cd /home

在home目录里面建立一个文件夹叫gec

mkdir gec

继续在gec文件夹里面建立一个文件夹alsa-1.0.22

mkdir -p /home/gec/alsa-1.0.22

将这个alsa-1.0整体copy 到gec文件夹里面去并且要换一个名字叫alsa-1.0.22(必须是这个名字)

cd /home/alsa-1.0 进入这个文件夹

cp -rf * /home/gec/alsa-1.0.22

6、录音环境配置完成，进行测试

录音：arecord 1.wav （ctrl + c结束）

放音：aplay 1.wav

录音4s，频率16000，保存为hehe.pcm：arecord -d4 -c1 -r16000 -traw -fS16_LE hehe.pcm

放音：aplay -d4 -c1 -r16000 -traw -fS16_LE hehe.pcm

（录音是arecord ，放音是aplay ，其他参数都是一样的）

4、编程实现语音识别

我们进行语音识别时，也是在网络编程，需要客户端和服务端。在这里，客户端是开发板，开发板进行录音，并将录音文件发送给乌班图。Ubuntu是服务端，接收开发板发送过来的录音文件，并进行语音识别，返回语句的id。

在第二部分我们知道文件夹中的bin存放可执行文件以及识别的音频。我们进入bin文件夹可以看到一个call.bnf，用记事本打开：

看到这个，我们就能知道语音识别仅仅能识别返回在call.bnf定义了id的语句，那怎么才能识别我们想要说的话呢？简单，我们自己在里面加就可以了。比如加个"打开蜂鸣器":

有了这个基础，我们后面才能实现语音控制开发板。

现在先实现简单的语句识别，即开发板录音并将录音文件发给ubuntu，ubuntu进行语音识别，并返回对应语句的id：

建立两个文件夹：client和server

client文件夹存放客户端程序tcp_client.c

server文件夹存放科大讯飞的sdk和服务端程序tcp_sever.c

由于这次是传文件，和上一篇网络编程的传法还是有些不同的

关键代码：

tcp_client.c :

cpp 复制代码

void function(void)
{
	unsigned char buf[1024] = {0};
    while(1)
    {
        //首先发送文件大小
		//阻塞你按回车
		printf("按回车继续\n");
		getchar();
		//弄你的文件
		printf("请录音4秒........\n");
		//获取音频文件 
		system("arecord -d4 -c1 -r16000 -traw -fS16_LE hehe.pcm");
		int fd = open("hehe.pcm",O_RDWR);
		if(-1 == fd)
		{
			perror("open pcm error");
			exit(10);
		}
		int filesize = lseek(fd,0x00,SEEK_END);
		lseek(fd,0x00,SEEK_SET);//偏移到开头
		send(sockfd,&filesize,4,0);
		//接收信息 "error!!!" or "next!!!!"
		
		recv(sockfd,buf,9,0);
		printf("11111 %s\n",buf);
		if(strcmp(buf,"next!!!!"))
		{
			printf("服务器错误了\n");
			continue;
		}
        //如果是"next!!!!"发送文件
		while(1)
		{
			int r = read(fd,buf,1024);
			if(-1 == r)
			{
				perror("read pcm error");
				break;
			}
			else if(0 == r)
			{
				printf("over\n");
				break;				
			}
			else
			{
				send(sockfd,buf,r,0);
			}
		}
		close(fd);
		//等待接收id
		int id;
		recv(sockfd,&id,4,0);	
		if(id == 6666)
		{
			printf("打印");
		}
		printf("id ===== %d\n",id);
    }
}

asr_offine_sample.c :

cpp 复制代码

//一个全局的科大讯飞的id  也就是我最终想要得到的结果
int FlayId = 0;//0代表一个错误值


//解析出相应的id出来 id固定为4位
int StringToId(const char * str)
{
	int id = 0;
	printf("------> %s\n",str);
	
	int len = strlen(str) - 3;
	//固定匹配  "id="这个字符串  模式匹配用正则表达式
	for(int i = 0;i < len;i++)
	{
		if(!strncmp(str,"id=",3))
		{
			
			str += 4;//id=" 这个字符串给过掉
			printf("------> %s\n",str);
			id = (str[0]-'0')*1000+(str[1]-'0')*100+(str[2]-'0')*10+(str[3]-'0'); 
			break;
		}
		str++;//一旦没有匹配 那么我们就往后面走一个
	}
	
	return id;
}

//语音识别  返回结果
//返回的是ID  返回0表示识别失败
int GetFlayId(void)
{
	int ret = run_asr(&asr_data);
	if(MSP_SUCCESS != ret)//识别出错
	{
		printf("离线语法识别出错: %d \n", ret);
		return 0;
	}
	return FlayId;
}

tcp_server.c :

cpp 复制代码

void SaveFile(int accceptfd,int filesize)
{
	//每一次都是重复的覆盖hehe.pcm
	int fd = open("wav/hehe.pcm",O_RDWR | O_TRUNC | O_CREAT, 0664);//截短这个文件
	if(-1 == fd)
	{
		send(accceptfd,"error!!!",9,0);//失败发送这个错误
		return;
	}
	send(accceptfd,"next!!!!",9,0);//发送下一步的指令
	unsigned char buf[1024] = {0};
	int size = 0;
	//接收文件的内容
	while(1)		
	{
		int r = recv(accceptfd,buf,1024,0);
		if(-1 == r)
        {
            perror("recv error");
            break;
        }
        else if(0 == r)//客户端已经断了
        {
            printf("对方断开连接了\n");
            break;
        }
        else//接收到信息了
        {
            //将文件的内容写入到文件
			write(fd,buf,r);
			//做完之后要退出
			size += r;
			if(size >= filesize)
				break;
			
        }
	}
	
	
	
	
	close(fd);
}




//专门用于去服务一个客户的线程
void * ClinetFunction(void * arg)
{
    
    pthread_detach(pthread_self());//将其分离

    int * accceptfd = (int *)arg;
    printf(" * accceptfd = %d\n", * accceptfd);
	int filesize = 0;
    //你发什么信息过来  我就在这个信息之前加上一节 然后回发给你
    while(1)
    {
		printf("\t\t等待客户端传文件过来........\n");
        int r = recv(*accceptfd,&filesize,4,0);//阻塞等待数据过来
        if(-1 == r)
        {
            perror("recv error");
            break;
        }
        else if(0 == r)//客户端已经断了
        {
            printf("对方断开连接了\n");
            break;
        }
        else//接收到信息了
        {
            //文件大小
			
			SaveFile(* accceptfd,filesize);
			
			int id = GetFlayId();//文件接收完毕  那么我们就放过去识别即可
			//给客户端返回id
			send(* accceptfd,&id,4,0);
            
        }
    }


    close(*accceptfd);
    free(accceptfd);
	return NULL;
}

完整工程：

链接：https://pan.baidu.com/s/1thUvAArWzcqmOT6QrvGHew?pwd=yuyi

提取码：yuyi