7.计算机视觉:让AI拥有一双“火眼金睛”

  1. 什么是计算机视觉(CV)?
    让计算机理解数字图像或视频的内容。
    人类可以瞬间认出猫、读出路牌、判断远近,但对计算机来说,图像只是一堆0-255的像素数字。

👁️ 核心任务:从像素矩阵中提取有意义的信息。

  1. 四大经典任务
    图像分类:这张图是猫还是狗?

目标检测:找出图中所有物体及其位置(画框)

图像分割:每个像素属于哪个物体(精确到轮廓)

姿态估计:识别人体关节关键点

  1. 卷积神经网络(CNN)------视觉革命的引擎
    为什么普通DNN不适合图像?
    全连接层参数量巨大:100x100的图,输入层就有1万个节点,第一层隐藏层若1000个节点,权重1000万,易过拟合且慢。

CNN的三大利器

A. 卷积层:用一个小的"卷积核"在图像上滑动,提取局部特征(边缘、纹理)。

例如3x3的核可以检测垂直边缘

多个核可以检测不同特征

B. 池化层:降采样(如2x2区域取最大值),减少尺寸,增加平移不变性。

C. 全连接层:最后将特征图展平,做分类。

经典CNN架构简图

python 复制代码
Input(224x224x3) -> Conv+ReLU -> Pool -> Conv+ReLU -> Pool -> ... -> FC(1000类)
  1. 动手:用预训练模型识别1000类物体
python 复制代码
from tensorflow.keras.applications.resnet50 import ResNet50, decode_predictions
from tensorflow.keras.preprocessing import image
import numpy as np

model = ResNet50(weights='imagenet')
img_path = 'cat.jpg'
img = image.load_img(img_path, target_size=(224, 224))
x = image.img_to_array(img)
x = np.expand_dims(x, axis=0)
preds = model.predict(x)
print('Predicted:', decode_predictions(preds, top=3)[0])
  1. 目标检测的演进
    两阶段法(R-CNN系列):先提候选框,再分类。准确但慢。

单阶段法(YOLO, SSD):直接回归框和类别。实时检测(30+FPS)。

YOLO的理念:把图像分成SxS网格,每个网格预测B个边界框和置信度。

  1. 计算机视觉的日常应用
    应用 技术
    人脸解锁 人脸检测+识别
    自动驾驶 车道线检测+行人检测+语义分割
    医疗影像 肺结节检测、视网膜病变分级
    安防 行为识别、车牌识别
    小结
    CNN通过卷积和池化高效提取图像的层次化特征,使计算机视觉从实验室走入千家万户。下一篇我们走进自然语言处理,看看AI如何理解人类的语言。

下一篇预告:《自然语言处理:AI如何读懂你的"弦外之音"?》

相关推荐
morning_judger1 分钟前
Agent开发系列(七)-可观测性Agent的设计
运维·人工智能
Ada's1 分钟前
产品方案设计:002CodeAgent、MAS
人工智能
其利天下技术2 分钟前
第三代半导体“碳化硅(SiC)器件”基础知识详解--【其利天下】
大数据·人工智能·第三代半导体·碳化硅技术及其运用·其利天下技术
lifallen4 分钟前
第五章 从 Tool 到 Skill:认知复用如何发生
人工智能·ai·语言模型·agi
林小卫很行4 分钟前
Obsidian 入门58:用 Remotely Save + 腾讯云 COS 实现多端同步
人工智能·云计算·腾讯云·知识管理·obsidian
继续商行5 分钟前
Go并发模型深度剖析:从GPM调度到Channel通信原理的底层实现
人工智能
linge_sun10 分钟前
SpringAI SQL 智能助手实战:用自然语言查询数据库
java·人工智能·ai编程
圣殿骑士-Khtangc10 分钟前
2026 AI 编程工具终极实战指南:Cursor vs Claude Code vs Copilot,开发者该怎么选?
人工智能·copilot
澹锦汐11 分钟前
独立开发者的出海架构:从单一市场到全球化部署
人工智能
深度学习lover12 分钟前
<数据集>yolo航拍视角垃圾识别<目标检测>
人工智能·深度学习·yolo·目标检测·数据集·航拍视角垃圾识别