huggingface

weixin_404551243 天前
人工智能·自然语言处理·nlp·huggingface·tasks
HUGGINGFACE NLP- MAIN NLP TASKS1.1 分类 1.1.1 实体命名识别 (NER): 找出句子中的实体(如人物、地点或组织)。这可以通过为每个实体或“无实体”指定一个类别的标签。 1.1.2 词性标注 (POS): 将句子中的每个单词标记为对应于特定的词性(如名词、动词、形容词等)。 1.1.3 分块(chunking): 找到属于同一实体的Token。这个任务(可结合POS或NER)可以任何将一块Token作为制定一个标签(通常是B -),另一个标签(通常I -)表示Token是否是同一块,和第三个标签(通常是O)表示Token不属于
weixin_404551247 天前
人工智能·自然语言处理·微调·nlp·huggingface·fine-train
huggingface NLP-微调一个预训练模型微调一个预训练模型1.1 处理数据 1.1.1 fine-tune 使用tokenizer后的token 进行训练
HuggingFace11 天前
huggingface·人工评估
人工评估 | 基础概念这是 人工评估 系列文章的第一篇《基础概念》,全系列包括:人工评估是指让人类评价模型输出回答的好坏。 本文讨论的都是后验评估,即模型已经完成训练,给定一个任务让人类进行评估。
Tonyfield15 天前
人工智能·深度学习·huggingface·modal·下载模型
Visual Code的Terminal (PowerShell)中下载huggingface模型方案:使用 huggingface_hub 工具 + hf-mirror 镜像站点实现huggingface-cli 指令将用指定的站点代替缺省站点 huggingface.co
阿正的梦工坊22 天前
huggingface
理解Parquet文件和Arrow格式:从Hugging Face数据集的角度出发parquet发音:美 [pɑrˈkeɪ] 镶木地板;拼花木地板在机器学习和大数据处理中,数据的存储和传输格式对于性能至关重要。两种广泛使用的格式是 Parquet 和 Arrow。它们在数据存储、传输和处理上都有各自的优势,尤其是在大规模数据集的使用中尤为重要。
阿正的梦工坊22 天前
huggingface
如何从 Hugging Face 数据集中随机采样数据并保存为新的 Arrow 文件在使用 Hugging Face 的数据集进行模型训练时,有时我们并不需要整个数据集,尤其是当数据集非常大时。为了节省存储空间和提高训练效率,我们可以从数据集中随机采样一部分数据,并将其保存为新的 Arrow 文件格式。本文将介绍如何通过代码实现这一过程,并解释如何计算文件大小,以便在 dataset_info.json 文件中记录文件信息,方便后续训练使用。
GPUStack2 个月前
大模型·huggingface·modelscope·genai·gguf
制作并量化GGUF模型上传到HuggingFace和ModelScopellama.cpp 是 Ollama、LMStudio 和其他很多热门项目的底层实现,也是 GPUStack 所支持的推理引擎之一,它提供了 GGUF 模型文件格式。GGUF (General Gaussian U-Net Format) 是一种用于存储模型以进行推理的文件格式,旨在针对推理进行优化,可以快速加载和运行模型。
HyperAI超神经2 个月前
人工智能·机器学习·github·llama·huggingface
对标Hugging Face?GitHub Models新增OpenAI o1/Llama 3.2等, 新功能支持模型并排比较「开源能够确保世界上更多人从 AI 的发展中获得利益与机会」,扎克伯格曾在 Llama 3.1 发布时撰写长文,阐述了开源的意义。 诚然,伴随 AI 近年来的飞跃式发展,开源的热度持续攀升,开发者在开源社区的贡献不仅代表了个人的技术态度,甚至也在一定程度上彰显了其探索前沿技术的成就。
HackerTom2 个月前
pytorch·python·json·huggingface·safetensors
safetensor存取pytorch模型参数、玄数据简例safetensors [1] 号称提供一种更安全的存数据方式,支持多种框架,见 [2]。不过在处理玄数据(metadata)时:
会飞的Anthony2 个月前
人工智能·分词·huggingface
基于Python的自然语言处理系列(34):Huggingface 自定义分词器与数据集在自然语言处理 (NLP) 中,分词是将原始文本转换为模型可处理的数字形式的关键步骤。无论是情感分析、文本生成,还是问答系统,分词都决定了模型如何理解输入数据。Huggingface 的 transformers 库提供了多种强大的分词工具,使我们可以灵活地加载、保存和使用预训练模型的分词器。本篇文章将深入探讨 Huggingface 的分词器工作机制,包括基于词、字符和子词的分词方法。同时,我们将介绍如何处理长序列、多序列、以及使用填充 (padding) 和注意力掩码 (attention mask)
SiYuanFeng2 个月前
人工智能·pytorch·python·huggingface
更改huggingface和pytorch的断点的默认下载位置更改了默认下载位置,我们就能把本地下载的默认直接放入规定的位置读入了,也能避免默认下载到系统盘但系统盘容量不足的问题。
Hiweir ·2 个月前
人工智能·python·深度学习·自然语言处理·huggingface·datasets
NLP任务之翻译目录1 加载预训练模型的分词器2 加载本地数据集3 数据预处理4 创建数据加载器5 定义下游任务的模型
Hiweir ·3 个月前
人工智能·自然语言处理·分类·huggingface
NLP任务之文本分类(情感分析)目录1 加载预训练模型对应的分词器2 加载数据集3 数据预处理4 构建数据加载器DataLoader5 定义下游任务模型
colorknight3 个月前
人工智能·低代码·macos·huggingface·数据科学·ai agent
1.2.3 HuggingFists安装说明-MacOS安装【GitHub】GitHub - Datayoo/HuggingFists4Mac【百度网盘】https://pan.baidu.com/s/12WxZ-2GgMtbQeP7AcmsyHg?pwd=2024
Hiweir ·3 个月前
人工智能·gpt·自然语言处理·huggingface
NLP任务之预测最后一个词目录1.加载预训练模型2 从本地加载数据集3.数据集处理4.下游任务模型5.测试代码6.训练代码7.保存训练好的模型
colorknight3 个月前
人工智能·低代码·llm·huggingface·数据科学·huggingfists·安装说明
1.2 HuggingFists安装说明-Linux安装【GitHub】https://github.com/Datayoo/HuggingFists【百度网盘】https://pan.baidu.com/s/12-qzxARjzRjYFvF8ddUJQQ?pwd=2024
多恩Stone3 个月前
git·stable diffusion·huggingface·diffusers
【Hugging Face 下载中断】Git LFS 如何下载指定文件、单个文件夹?在处理大型模型或数据集时,我们经常使用 Git Large File Storage (LFS) 来管理这些大文件。然而,下载过程中可能会遇到中断,需要重新下载特定文件或文件夹。本文将介绍如何在 Hugging Face 上使用 Git LFS 下载指定文件或单个文件夹。
enjoy编程4 个月前
ai·大模型·llm·pipeline·huggingface·transformers
hg transformers pipeline使用在Hugging Face的transformers库中,pipeline是一个高级API,它提供了一种简便的方式来使用预训练模型进行各种NLP任务,比如情感分析、文本生成、翻译、问答等。通过pipeline,你可以在几行代码内实现复杂的NLP任务。pipeline会自动加载用于指定任务的默认模型和tokenizer,如果需要,用户也可以指定使用特定的模型和tokenizer
知世不是芝士4 个月前
人工智能·自然语言处理·llm·大语言模型·huggingface·ai大模型·计算机技术
使用Hugging Face构建大型语言模型应用在本文中,我们将介绍如何使用Hugging Face的大型语言模型(LLM)构建一些常见的应用,包括摘要(Summarization)、情感分析(Sentiment analysis)、翻译(Translation)、零样本分类(Zero-shot classification)和少样本学习(Few-shot learning)。我们将探索现有的开源和专有模型,展示如何直接应用于各种应用场景。同时,我们还将介绍简单的提示工程(prompt engineering),以及如何使用Hugging Face的A
SpikeKing4 个月前
aigc·flux·huggingface·comfyui·clip
ComfyUI - 在 ComfyUI 配置与测试图像生成 Flux 模型教程欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/141201307