7.计算机视觉:让AI拥有一双“火眼金睛”

  1. 什么是计算机视觉(CV)?
    让计算机理解数字图像或视频的内容。
    人类可以瞬间认出猫、读出路牌、判断远近,但对计算机来说,图像只是一堆0-255的像素数字。

👁️ 核心任务:从像素矩阵中提取有意义的信息。

  1. 四大经典任务
    图像分类:这张图是猫还是狗?

目标检测:找出图中所有物体及其位置(画框)

图像分割:每个像素属于哪个物体(精确到轮廓)

姿态估计:识别人体关节关键点

  1. 卷积神经网络(CNN)------视觉革命的引擎
    为什么普通DNN不适合图像?
    全连接层参数量巨大:100x100的图,输入层就有1万个节点,第一层隐藏层若1000个节点,权重1000万,易过拟合且慢。

CNN的三大利器

A. 卷积层:用一个小的"卷积核"在图像上滑动,提取局部特征(边缘、纹理)。

例如3x3的核可以检测垂直边缘

多个核可以检测不同特征

B. 池化层:降采样(如2x2区域取最大值),减少尺寸,增加平移不变性。

C. 全连接层:最后将特征图展平,做分类。

经典CNN架构简图

python 复制代码
Input(224x224x3) -> Conv+ReLU -> Pool -> Conv+ReLU -> Pool -> ... -> FC(1000类)
  1. 动手:用预训练模型识别1000类物体
python 复制代码
from tensorflow.keras.applications.resnet50 import ResNet50, decode_predictions
from tensorflow.keras.preprocessing import image
import numpy as np

model = ResNet50(weights='imagenet')
img_path = 'cat.jpg'
img = image.load_img(img_path, target_size=(224, 224))
x = image.img_to_array(img)
x = np.expand_dims(x, axis=0)
preds = model.predict(x)
print('Predicted:', decode_predictions(preds, top=3)[0])
  1. 目标检测的演进
    两阶段法(R-CNN系列):先提候选框,再分类。准确但慢。

单阶段法(YOLO, SSD):直接回归框和类别。实时检测(30+FPS)。

YOLO的理念:把图像分成SxS网格,每个网格预测B个边界框和置信度。

  1. 计算机视觉的日常应用
    应用 技术
    人脸解锁 人脸检测+识别
    自动驾驶 车道线检测+行人检测+语义分割
    医疗影像 肺结节检测、视网膜病变分级
    安防 行为识别、车牌识别
    小结
    CNN通过卷积和池化高效提取图像的层次化特征,使计算机视觉从实验室走入千家万户。下一篇我们走进自然语言处理,看看AI如何理解人类的语言。

下一篇预告:《自然语言处理:AI如何读懂你的"弦外之音"?》

相关推荐
青禾网络7 小时前
Web 前端如何接入 AI 音效生成:从零到可用的完整方案
人工智能·设计模式
用户252736278147 小时前
【技术实战】用 Spring Boot + Vue3 + LM Studio 在本地跑通 RAG 知识库
人工智能
用户5191495848457 小时前
VBScript随机数生成器内部机制:从时间种子到密码令牌破解
人工智能·aigc
米小虾8 小时前
Context Engineering —— 知识与记忆的窗口
人工智能·agent
IT_陈寒8 小时前
Python里这个赋值坑,连老司机都能翻车
前端·人工智能·后端
Shockang18 小时前
AI 设计工作流全景拆解:Figma MCP / Claude Design / Codex / Google Stitch
人工智能
To_OC19 小时前
数据集划分不是随便切:手把手切分大众点评情感数据集
人工智能·llm·agent
冬奇Lab20 小时前
每日一个开源项目(第142篇):android/skills - Google 官方 Android 开发 AI Skill 库
人工智能·开源·资讯
冬奇Lab20 小时前
Skill 系列(06):Skill 工程化与治理——路由准确率 38%、压缩节省 76%
人工智能·开源·agent