大模型面试(三)

这次是某家公司的一个电话面试,问的过程还比较简单直接。

问:我们在大模型开源项目的应用上遇到了什么困难?

这个。。有两个困难,一个是RAG的优化,一开始RAG是比较慢的,而且召回率不高;

后来使用了HyQE的方法,针对一段文本,提出一个问题和它对应,以补充的问题来建立文档索引。当用户提问的时候,直接在数据库里寻找相似问题,这样检索效率高而且召回率高。

第二个是语音识别识别错误的问题;把识别语音和转写文字的特征一起输入到神经网络里,这样可以提高识别准确度。(或者多几个候选词)

然后问到了我以前在一家人工智能公司的工作经验,问到了其中的内容审核项目。

这个项目的创新点在哪里?过拟合的情况?

主要是从网上爬取文本数据,然后给公开的审核接口先过一遍,然后训练过程中遇到的难样本,重新标注再训练。

正负样本不均匀的问题:实际场景,正样本远少于负样本,用了针对样本不平衡的loss比如dice loss,weighted ce等,然后多种loss采用加权和的方式进行融合(问题:有没有其他融合的方式呢?辅助loss?)。

过拟合?主要是看在测试集上的loss表现吧。

还提到了分词的问题;但是这个是不可避免的,这种词要衡量一个边界条件,要不要使用关键词检索规则还是经过bert模型判断。

对将来发展的规划?大模型应该怎么应用?

反问环节:

大模型的应用主要是面向to C还是to b的?都有,客服这种是to C的

训练的数据和算力准备的怎么样?数据以文本数据为主,算力似乎不太够,只有t级别的显卡?比较寒酸了,有a10显卡吗

什么指标比较看重?避免大模型幻觉。

相关推荐
爱睡懒觉的焦糖玛奇朵5 小时前
【从视频到数据集:焦糖玛奇朵的魔法工具使用说明】
人工智能·python·深度学习·学习·算法·yolo·音视频
解局易否结局7 小时前
从架构视角看 ops-transformer:一个解决分层系统设计问题的算子仓库
深度学习·架构·transformer
kyriewen7 小时前
写组件文档写到吐?我用AI自动生成Storybook,同事以后直接抄
前端·javascript·面试
绝知此事8 小时前
【算法突围 02】树形结构与数据库索引:树形结构与数据库索引:从 BST 到 B+ 树的演化与 MySQL 优化
数据库·mysql·算法·面试·b+树
五点六六六8 小时前
你敢信这是非Native页面写出来的渐变效果吗🌝(底层原理解析
前端·javascript·面试
陈天伟教授9 小时前
图解人工智能(34)深度学习面临的挑战
人工智能·深度学习·神经网络·cnn
Dfreedom.9 小时前
算子融合:从硬件本质到性能飞跃的深度学习优化艺术
人工智能·深度学习·gpu·gpu加速·模型加速·算子融合·模型计算
L、21811 小时前
CANN调优工具链全景:从profiler到tensorboard的完整观测体系
linux·运维·服务器·深度学习
25Qi导航11 小时前
找刊网使用指南:从选刊到发表的功能说明
人工智能·深度学习·期刊·找刊网.com·找刊网
AI技术控11 小时前
KV Cache 缓存机制的原理和应用:从 Transformer 推理到大模型服务优化
人工智能·python·深度学习·缓存·自然语言处理·transformer