LLM春招准备(1)

llm排序

GPT4V

GPT-4V可以很好地理解直接绘制在图像上的视觉指示。它可以直接识别叠加在图像上的不同类型的视觉标记作为指针,例如圆形、方框和手绘(见下图)。虽然GPT-4V能够直接理解坐标,但相比于仅文本坐标,GPT-4V在有视觉指示帮助下能够更可靠地执行任务。


位置编码

相对位置编码

手写

手写softmax,

python 复制代码
def softmax(x):
    exp_x = np.exp(x - np.max(x, axis=-1, keepdims=True))
    sm = exp_x/np.sum(exp_x, axis=-1, keepdims=True)
    return sm

手写crossentropy

python 复制代码
def cross_entropy(predictions, targets, epsilon=1e-12):
    predictions = np.clip(predictions, epsilon, 1.-epsilon)
    N = predictions.shape[0]
    ce = - np.sum(targets*np.log(predictions)) / N
    return ce

手写attention

python 复制代码
def saled_dot_product_attention(Q,K,V):
	dk = K.shape[-1]
	scores = np.dot(Q,K.T)/np.sqrt(dk)
	weights = softmax(scores)
	output = np.dot(weight,V)
	return weight, output

标签平滑label smoothing

标签平滑其实就是将硬标签(hard label)转化为软标签(soft label),也就是将标签的one hot编码中的1转化为比1稍小的数,将0转化为比0稍大的数,这样在计算损失函数时(比如交叉熵损失函数),损失函数会把原来值为0的标签也考虑进来,其实就相当于在标签的one hot编码中的每一维上增加了噪声。本质上是向训练集中增加了信息,使得训练集的信息量增大了,更加接近真实分布的数据集的信息量,所以有利于缓解过拟合

解决Transformer处理长序列

稀疏注意力

和Linformer,Longformer类似,Sparse Attention也是为了解决Transformer模型随着长度的增加,Attention部分所占用的内存和计算呈平方比增加的问题。

相关推荐
知来者逆6 小时前
Binoculars——分析证实大语言模型生成文本的检测和引用量按学科和国家明确显示了使用偏差的多样性和对内容类型的影响
人工智能·深度学习·语言模型·自然语言处理·llm·大语言模型
几米哥14 小时前
如何构建高效的AI代理系统:LLM应用实践与最佳方案的深度解析
llm·aigc
测试者家园15 小时前
ChatGPT生成接口文档实践案例(二)
软件测试·chatgpt·llm·测试用例·测试图书·质量效能·用chatgpt做测试
bastgia3 天前
Tokenformer: 下一代Transformer架构
人工智能·机器学习·llm
新智元3 天前
李飞飞谢赛宁:多模态 LLM「空间大脑」觉醒,惊现世界模型雏形!
人工智能·llm
RWKV元始智能4 天前
RWKV-7:极先进的大模型架构,长文本能力极强
人工智能·llm
zaim14 天前
计算机的错误计算(一百八十七)
人工智能·ai·大模型·llm·错误·正弦/sin·误差/error
张拭心4 天前
Google 提供的 Android 端上大模型组件:MediaPipe LLM 介绍
android·人工智能·llm
带电的小王4 天前
whisper.cpp: Android端测试 -- Android端手机部署音频大模型
android·智能手机·llm·whisper·音频大模型·whisper.cpp
带电的小王5 天前
whisper.cpp: PC端测试 -- 电脑端部署音频大模型
llm·whisper·音视频·音频大模型