大模型面试(三)

这次是某家公司的一个电话面试,问的过程还比较简单直接。

问:我们在大模型开源项目的应用上遇到了什么困难?

这个。。有两个困难,一个是RAG的优化,一开始RAG是比较慢的,而且召回率不高;

后来使用了HyQE的方法,针对一段文本,提出一个问题和它对应,以补充的问题来建立文档索引。当用户提问的时候,直接在数据库里寻找相似问题,这样检索效率高而且召回率高。

第二个是语音识别识别错误的问题;把识别语音和转写文字的特征一起输入到神经网络里,这样可以提高识别准确度。(或者多几个候选词)

然后问到了我以前在一家人工智能公司的工作经验,问到了其中的内容审核项目。

这个项目的创新点在哪里?过拟合的情况?

主要是从网上爬取文本数据,然后给公开的审核接口先过一遍,然后训练过程中遇到的难样本,重新标注再训练。

正负样本不均匀的问题:实际场景,正样本远少于负样本,用了针对样本不平衡的loss比如dice loss,weighted ce等,然后多种loss采用加权和的方式进行融合(问题:有没有其他融合的方式呢?辅助loss?)。

过拟合?主要是看在测试集上的loss表现吧。

还提到了分词的问题;但是这个是不可避免的,这种词要衡量一个边界条件,要不要使用关键词检索规则还是经过bert模型判断。

对将来发展的规划?大模型应该怎么应用?

反问环节:

大模型的应用主要是面向to C还是to b的?都有,客服这种是to C的

训练的数据和算力准备的怎么样?数据以文本数据为主,算力似乎不太够,只有t级别的显卡?比较寒酸了,有a10显卡吗

什么指标比较看重?避免大模型幻觉。

相关推荐
盼小辉丶1 小时前
Double DQN(DDQN)详解与实现
深度学习·keras·强化学习
沐怡旸1 小时前
【技术选型】前端框架:Vue vs React - 组合式API与Hooks的哲学之争
前端·面试
软件测试媛2 小时前
14:00开始面试,14:06就出来了,问的问题有点变态。。。
面试·职场和发展
Java水解3 小时前
2026java面试题(含答案,持续更新中)
java·后端·面试
生涯にわたる学び3 小时前
面试题整理01
面试
Francek Chen3 小时前
【自然语言处理】预训练02:近似训练
人工智能·pytorch·深度学习·自然语言处理
碧海银沙音频科技研究院3 小时前
i2s封装成自己定义8路音频数据发送方法
arm开发·人工智能·深度学习·算法·音视频
java1234_小锋4 小时前
PyTorch2 Python深度学习 - 数据集与数据加载
开发语言·python·深度学习·pytorch2
文火冰糖的硅基工坊6 小时前
[人工智能-大模型-118]:模型层 - RNN状态记忆是如何实现的?是通过带权重的神经元,还是通过张量?
人工智能·rnn·深度学习
哥布林学者7 小时前
吴恩达深度学习课程二: 改善深层神经网络 第一周:深度学习的实践(四)其他缓解过拟合的方法
深度学习·ai