Datawhale AI 夏令营第四期 AIGC Task2

活动简介

活动链接：Datawhale AI 夏令营（第四期）

以及AIGC里面的本次任务说明：Task 2 精读代码，实战进阶

和上次任务一样，链接里的教程非常详细，对小白非常友好，从使用AI助手理解代码到使用AI助手生成合适的提示词，手把手教！（此次任务关键是教会我们如何使用AI提升工作效率，教会我们学习的方法，授人以鱼不如授人以渔！）

具体细节我就不赘述了，参看教程即可，下面我主要就此次Task2任务学到了哪些内容作一个总结。

个人总结

基础知识

首先呢，是先带我们了解了一下AI生图前沿，这能激发我们学习的乐趣，不仅仅因为AI生图是未来人工智能的重点方向。比如说：

1.现在生成的图片能起到一个以假乱真的效果，这是让人不可思议的，从而衍生出我们的两种挑战欲望（正向思维：不断改进技术，生成更逼真的图像；逆向思维：如何区分一张图像是否是AI生成的）。

2.然后是教程里总结的一段话我觉得特别好，所以贴上来：

对于普通人来说，可以避免被常见的AI生图场景欺骗，偶尔也可以通过相关工具绘图
对于创作者来说，通过AI生图的工具可以提效，快速制作自己所需要的内容
对于技术人来说，了解AI生图的能力的玩法，可以更好地针对自己的业务进行开发和使用，甚至攻克难题开发更实用的工具

接下来的话，是讲了一下AI生图的历史。基本就是随着深度学习的发展，AI生图也蓬勃发展了嘛。首先就是普通的深度网络，卷积（关键是提取图像特征），有了这个backbone，能够很好地提取特证就能很好地做图像分类任务，也能很好地用于图像生成。后来ResNet的出现直接大大加深了深度网络的层数，也就是网络越深效果越好，突破了这个层数的限制，无疑是一个里程碑。然后下一个里程碑呢，就是大模型时代了，教程中提到的OpenAI推出的DALL-E中的CLIP（CLIP具体是不是DALL-E用到的记不清了，反正它是OpenAI的）就是大模型，我记得它好像是基于ViT（Vision Transformer）+对比学习来的。CLIP确实是一个里程碑（出货最让我佩服的一个是ResNet的何恺明，一个就是OpenAI了）。

以上呢，就是总结的我在知识部分产生的一些感想。

实践感受

实践部分呢，自然就是先学习如何使用AI工具啦，毕竟磨刀不误砍柴工嘛。不过我最早用的工具是ChatGPT，后边就习惯一直用它了（现在免费的已经出到了ChatGPT-4o版本，好处是能上传文档，坏处是有次数限制）。后来由于网络的不稳定我还使用了另一个工具Kimi（好处是突破了文本限制，能发送大量文档和文字）。通义千问和文心一言也有使用过，也不错，可以看出国内的大模型确实是追上来了，不过还是存在ChatGPT那些先入为主（率先占据市场）的问题。

ChatGPT：