【大模型应用】使用 Windows 窗体作为 Copilot 应用程序的 Ollama AI 前端(测试llava视觉问答)...

项目 "WinForm_Ollama_Copilot" 是一个使用Windows Forms作为前端的Ollama AI Copilot应用程序。这个项目的目的是提供一个用户界面(UI),通过它,用户可以与Ollama AI进行交互。以下是该项目的一些关键特点和功能:

  • Ollama Copilot: 这是一个为Windows操作系统设计的Ollama AI的用户界面。它允许Copilot响应自动转发到其他应用程序,就像其他付费copilots一样。

  • 集成功能: 该项目包括语音转文本、文本转语音和光学字符识别(OCR)等功能,所有这些都使用免费的开源软件实现。

  • 版本更新: 项目已经经历了多次更新,包括对模型名称中的版本支持、添加打开应用程序文件夹按钮、使用历史记录复选框等功能的增加。

  • 安装程序: 项目包括Windows Installer Setup Project,它包含Python和辅助脚本,以便用户可以轻松安装和运行应用程序。

此外,项目还包括了一些示例脚本和命令,如启动Pyttsx3Server和TesseractOCRServer,这些都是与项目集成的服务。项目还提供了一个安装程序,使用户可以在Windows上安装和运行Ollama Copilot。

测试本地大模型llava:latest

LLaVA(Large Language and Vision Assistant)是一个由威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学研究者共同发布的多模态大模型。这个模型结合了语言和视觉处理能力,旨在提供一个通用的助手,能够有效地遵循多模态指令,例如视觉或语言的指令,满足人类的意图,在真实环境中完成各种任务。

LLaVA模型的主要特点包括:

  • 多模态指令数据:使用ChatGPT/GPT-4将图像-文本对转换为适当的指令格式,以支持模型的训练。

  • 大型多模态模型:通过连接CLIP的开源视觉编码器和语言解码器LLaMA,开发了一个大型多模态模型(LMM),并在生成的视觉-语言指令数据上进行端到端微调。

  • 开源:研究者向公众发布了生成的多模式指令数据、用于数据生成和模型训练的代码库、模型检查点和可视化聊天演示。

LLaVA模型在多模态理解和生成方面展现出了强大的能力,尤其是在视觉问答、图像描述等任务上。它已经在多个基准测试中展现出了新的状态最优(SOTA)成绩,成为OpenAI的GPT-4V的有力竞争对手。

主界面切换到Config 页选择已安装的Ollama模型**"llava:latest"**

切换到Prompt 进行文本提问(Ctrl+Enter提交)

修改提示词,准备对图片进行问答

切换到Images页面

复制一张图片,点击Paste,之后Submit

(提示词)识别图片内容,请用中文回答,下面为对图片的描述

markdown 复制代码
这张图片中的内容是:


* 一位腹肌发达的男性,他正站在一个红色的单车上。
* 男性戴着黑色的运动服装和白色的球鞋。
* 周围有一些建筑物和城市环境。
* 男性肌肉发达,展现出来是一个健身人士,可能是一个健身教练或者单车运动员。


无法确定他的具体职业,但他确实有很好的身材和身材健康的生活习惯。

再复制一张图片,先点击Clear,再点击Paste,最后Submit

go 复制代码
这张图片是一张街道上的行走者,她正在过马路,而且有一些交通设施,
比如自行车道和烧瓜机。这个女人身上没有背包,因此不能确定她是否携带物品。
当然,图片中的其他细节也可以看出这是一个公共地区。

图片描述结果

go 复制代码
翻译为中文:
图像显示一名行人在红绿灯处过马路。这个人正在穿过人行横道,人行横道有斑马
线图案。他们穿着蓝色牛仔裤和深色上衣,一只脚抬起,仿佛在跨步中。这个人提
着一个手提包,似乎在向前看。
街道本身非常繁忙,有许多车辆,包括停放和行驶的汽车和卡车。图像左侧有一辆
白色货车,背景中还可以看到其他几辆车。角落里还有一个交通信号灯,表明这是
一个有管制的十字路口。
图像中没有可见的文字。整个场景表明这是一个有正常交通状况的城市环境。这个
人的动作暗示他们正在遵守在指定区域过马路的规则。

英文提示词:Describe this image 或 "What is shown in this image?"

注:中文效果可能没有英文详细。而且每次回答不尽相同

参考网址

https://github.com/tgraupmann/WinForm_Ollama_Copilot/releases/tag/v1.0.5 程序下载地址

相关推荐
树獭非懒16 小时前
Claude Code 完全入门指南:让你的 AI 从"会说"到"会做"
人工智能·程序员·llm
数智工坊16 小时前
基于CLIP隐空间的层级文本条件图像生成:unCLIP核心原理与全链路解析
论文阅读·人工智能·深度学习·transformer·迁移学习
雪回16 小时前
基于 Stable Diffusion-WebUI 实现 LandPPT 本地模型绘图配置指南(SDWebUI )
人工智能·深度学习·ai·ai作画·stable diffusion·ppt
^ V ^16 小时前
1.1 具身智能 (Embodied AI)
人工智能·具身智能
薛定猫AI16 小时前
【深度解析】从 AI 超级应用到数字操作系统:基于大模型 API 构建可落地的 Agent 工作流
人工智能
captain_AIouo16 小时前
Captain AI以数据为核心,打造OZON智能决策引擎
大数据·人工智能·经验分享·aigc
ALINX技术博客16 小时前
AMD VU FPGA+NVIDIA Thor AI 超高性能异构平台 ALINX HEA13,支撑新一代边缘 AI 系统
人工智能·fpga开发
TENSORTEC腾视科技16 小时前
AI赋能 车行无忧|腾视科技ES10终端,为车辆装上“智慧大脑”
人工智能·科技·ai·零售·无人叉车及智能调度系统解决方案
chatexcel16 小时前
AI PPT生成学术展演文稿实操教程:提示词设计与生成流程详解
人工智能·powerpoint
科研前沿17 小时前
实景像素级精准复刻,夯实动态真孪生底座——原生自研技术壁垒,领航视频孪生产业发展
人工智能·音视频