无公网IP 外网访问本地部署 llamafile 大语言模型

llamafile 是一种AI大模型部署（或者说运行）的方案，它的特点就是可以将模型和运行环境打包成一个独立的可执行文件，这样就简化了部署流程。用户只需要下载并执行该文件，无需安装运行环境或依赖库，这大大提高了使用大型语言模型的便捷性。

本文将详细的介绍如何在 Windows 系统电脑端下载运行llamafile ，并且结合路由侠内网穿透实现外网访问本地的llamafile 。

第一步，下载 llamafile

2，下载后，需要解压文件，解压后可以看到一个llamafile.exe文件，不用点击这个文件。

3，进入这个链接：魔搭社区，去下载对应的大语言模型，本文以下载的是第一个模型为例。

4，下载好后，把下载的大语言模型和上面我们下载的llamafile.exe文件放在一起。

5，在llamafile目录下，点击左上角文件，直接打开powershell命令窗口。

6，执行输入下面命令运行llamafile。

复制代码

.\llamafile-0.6.2.exe -m .\Qwen-7B-Chat-q4_0.llamafile -ngl 9999 --port 8080 --host 0.0.0.0

.\llamafile-0.6.2.exe 表示运行llamafile；

.\Qwen-7B-Chat-q4_0.llamafile表示运行自己下载的大语言模型；

-ngl 999 表示调用GPU显卡运行；

8080 是web 界面访问端口，可以自己修改；

后面-host 默认即可。

7，打开浏览器，输入本地访问地址，就能看到 llama 的web ui 界面,这样表示启动就成功了

第二步，如何在外网访问本地局域网的llamafile

在内网的电脑上安装路由侠，点此下载

1，下载安装完成后，打开路由侠界面，点击【内网映射】。

2，点击【添加映射】。

3，选择【原生端口】。

4，在内网端口里填写默认端口 8080 后点击【创建】按钮，如下图。

5，创建好后，就可以看到一条映射的公网地址，鼠标右键点击【复制地址】。

6，在外网的浏览器的地址栏输入复制的外网地址就可以访问llamafile了。