在 Google Colab 上使用自己的数据集进行模型训练。Colab 允许通过多种方式上传数据,包括直接从本地计算机上传、从 Google Drive 加载或通过网络链接下载,从github导入等。
GitHub导入
使用以下的代码将github上的文件克隆到colab的当前目录下
python
!git clone https://github.com/myDataSet.git
!ls -R 查看当前目录下的文件及所有的子目录文件。
这种方法的缺点是只要一断,就得重新download,还是挺麻烦的。
直接上传文件
在 Colab 中,选择左侧的文件图标,然后点击"上传"按钮上传文件。
这种方法适合于较小的数据集,因为文件将被上传到您的 Colab 会话中,并在会话结束时消失。
从 Google Drive 加载
将数据集上传到 Google Drive。
在 Colab 中,可以使用以下代码挂载 Google Drive:
python
from google.colab import drive
drive.mount('/content/drive')
挂载后,可以像访问本地文件系统一样访问 Google Drive 中的文件。
或者直接手动点击挂载谷歌云盘
方便上传自己的数据集
通过网络链接下载
如果数据集可以通过网址访问,可以直接在 Colab 中使用 wget 命令或 Python 的 requests 库来下载数据集。
wget命令如下
python
!wget http://example.com/path/to/dataset.csv
注意事项
确保下载链接是直接指向文件的,而不是一个网页或者是需要认证的资源。
wget 支持多种选项,例如 -O 用于指定输出文件的名称,如果不想使用服务器指定的文件名。
如果数据集很大,下载可能需要一些时间,这取决于网络连接速度和数据集的大小。
下载的文件会存储在 Colab 的临时虚拟机环境中,如果会话结束或者虚拟机重启,文件会丢失。如果需要长期保存,还是上传到 Google Drive比较稳妥。