活动简介
以及AIGC里面的本次任务说明:Task 2 精读代码,实战进阶
和上次任务一样,链接里的教程非常详细,对小白非常友好,从使用AI助手理解代码到使用AI助手生成合适的提示词,手把手教!(此次任务关键是教会我们如何使用AI提升工作效率,教会我们学习的方法,授人以鱼不如授人以渔!)
具体细节我就不赘述了,参看教程即可,下面我主要就此次Task2任务学到了哪些内容作一个总结。
个人总结
基础知识
首先呢,是先带我们了解了一下AI生图前沿,这能激发我们学习的乐趣,不仅仅因为AI生图是未来人工智能的重点方向。比如说:
1.现在生成的图片能起到一个以假乱真的效果,这是让人不可思议的,从而衍生出我们的两种挑战欲望(正向思维:不断改进技术,生成更逼真的图像;逆向思维:如何区分一张图像是否是AI生成的)。
2.然后是教程里总结的一段话我觉得特别好,所以贴上来:
- 对于普通人来说,可以避免被常见的AI生图场景欺骗,偶尔也可以通过相关工具绘图
- 对于创作者来说,通过AI生图的工具可以提效,快速制作自己所需要的内容
- 对于技术人来说,了解AI生图的能力的玩法,可以更好地针对自己的业务进行开发和使用,甚至攻克难题开发更实用的工具
接下来的话,是讲了一下AI生图的历史。基本就是随着深度学习的发展,AI生图也蓬勃发展了嘛。首先就是普通的深度网络,卷积(关键是提取图像特征),有了这个backbone,能够很好地提取特证就能很好地做图像分类任务,也能很好地用于图像生成。后来ResNet的出现直接大大加深了深度网络的层数,也就是网络越深效果越好,突破了这个层数的限制,无疑是一个里程碑。然后下一个里程碑呢,就是大模型时代了,教程中提到的OpenAI推出的DALL-E中的CLIP(CLIP具体是不是DALL-E用到的记不清了,反正它是OpenAI的)就是大模型,我记得它好像是基于ViT(Vision Transformer)+对比学习来的。CLIP确实是一个里程碑(出货最让我佩服的一个是ResNet的何恺明,一个就是OpenAI了)。
以上呢,就是总结的我在知识部分产生的一些感想。
实践感受
实践部分呢,自然就是先学习如何使用AI工具啦,毕竟磨刀不误砍柴工嘛。不过我最早用的工具是ChatGPT,后边就习惯一直用它了(现在免费的已经出到了ChatGPT-4o版本,好处是能上传文档,坏处是有次数限制)。后来由于网络的不稳定我还使用了另一个工具Kimi(好处是突破了文本限制,能发送大量文档和文字)。通义千问和文心一言也有使用过,也不错,可以看出国内的大模型确实是追上来了,不过还是存在ChatGPT那些先入为主(率先占据市场)的问题。
ChatGPT:
Kimi:
通义千问:
文心一言:
学会了AI工具的使用,理解代码就很容易了。教程中也有对baseline代码的解读,这里就不过多赘述了,理解不透彻的可以继续追问AI(毕竟AI是不会嫌你烦的哈哈)。
接下来的任务呢,就是生成我们的故事图片,还是借助AI(这样看上去AI是不是很万能哈哈),根据我们的需求来帮我们生成提示词,下面是根据教程的故事生成的图片:
有了AI,我们可以把我们各种天马行空的故事转变为适合模型的提示词,这不就大大提高了我们的创作能力嘛哈哈。
遇到的问题
其中在生成8张图片的过程中出现了一个"超出显存"的报错:
后来询问助教重启kernel得以解决,我想可能是前面一些乱七八糟的东西没有释放吧。