AI 如何看见东西？—— 机器视觉

ListenAI · 发表于 3 天前

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区

您需要登录才可以下载或查看，没有账号？立即注册

×

AI 如何看见东西？—— 机器视觉

每天进出小区或校园，是不是刷一下脸就能开门？用平板拍照搜题，AI 能立刻认出 “这是数学题”“那是一朵花”；玩体感游戏时，挥挥手就能控制角色 —— 这些都是 AI 在 “看见” 世界！可 AI 没有真正的眼睛，它是怎么 “看” 到东西的呢？今天咱们就结合CSK6大模型开发板的视觉识别进行讲解和实际操作，揭开 “机器视觉” 的神秘面纱，看看 AI 的 “视觉魔法” 是怎么实现的～

一、先搞懂：AI 的 “眼睛” 和 “视觉大脑” 是啥？

咱们人类看东西，要靠 “眼睛 + 大脑” 配合：眼睛像相机，把看到的画面 “拍” 下来；大脑再分析画面里有什么（是猫还是狗？在左边还是右边？）。AI 的 “看见”，其实是 “机器眼睛” 和 “视觉算法大脑” 在干活，步骤和咱们看东西特别像。

第一步：用 “机器眼睛” 抓画面 —— 就像拍照片

AI 的 “眼睛” 不是肉眼睛，而是摄像头、扫描仪、无人机镜头这些设备。比如校园人脸识别机的摄像头，会把你的脸 “拍” 成一张数字图片；平板的摄像头，会把数学题拍成像素组成的画面。

你知道吗？数字图片其实是无数个 “彩色小方块” 拼起来的 —— 这就是 “像素”！就像你用马赛克积木拼画，每个小积木是一种颜色，拼起来就是完整的图案。AI 的 “眼睛” 抓画面，其实就是收集这些 “彩色小方块” 的信息（比如这个方块是红色、那个是蓝色）。

第二步：拆画面找 “关键特征”—— 像玩拼图找线索

拿到 “马赛克画面” 后，AI 的 “视觉大脑”（算法）不会直接认 “整幅图”，而是先拆出 “关键特征”。这就像你拼拼图时，先找 “有尖角的块”“有蓝色的块”（这些是拼图的特征），再慢慢拼出完整图案。

比如看一只猫的图片，AI 会拆出这些特征：“有三角形的耳朵”“圆圆的眼睛”“毛茸茸的尾巴”“四条短腿”；看数学题时，会拆出 “有数字‘3’”“有‘+’号”“有等号‘=’”。这些特征，就是 AI 认东西的 “小线索”。

第三步：对比特征下判断 —— 像认熟人和陌生人

拆完特征后，AI 会把这些 “小线索” 和自己 “记忆库里的模板” 对比：如果特征对得上，就认出来了；对不上，就说 “没见过”。

比如校园人脸识别机里，存着你的 “人脸模板”（记着你眼睛的间距、鼻子的形状、嘴巴的位置）；当你刷脸时，AI 把实时拍到的脸的特征，和模板对比 —— 要是 90% 以上都一样，就会说 “匹配成功，开门！”；要是拍到的是其他同学的脸，特征对不上，门就不开。

这三步连起来，就是 AI “看见” 东西的基本原理：抓画面→拆特征→比模板！

二、传统机器视觉算法：AI 的 “专项视觉小能手”

早期的 AI，就像 “偏科的小朋友”—— 只能专门认一种东西，比如只认人脸、只认手势。这些专门的算法，就是 “传统机器视觉模型”，咱们挑三个最常见的来讲：

1. 人脸识别：AI 怎么 “认脸” 不认错？

传统人脸识别，核心是 “找脸上的‘固定打卡点’”，步骤特别像警察叔叔认通缉犯（靠五官特征）：

● 第一步：找 “打卡点”（特征点）：AI 会在脸上找 20-100 个 “固定位置”，比如 “左眼瞳孔中心”“右眼瞳孔中心”“鼻尖”“嘴角”“眉毛末端”—— 这些点的位置，每个人都不一样（比如你的两眼间距比同桌宽一点，鼻尖比好朋友尖一点）。

● 第二步：算 “距离和角度”：AI 会计算这些 “打卡点” 之间的距离（比如两眼之间的距离是 3 厘米）、角度（比如鼻尖到嘴角的连线和水平线的角度是 15 度），把这些数据变成 “你的专属脸密码”。

● 第三步：对比 “脸密码”：把实时算出来的 “脸密码”，和提前存在库里的 “脸密码” 对比 —— 要是大部分数据都一样，就认出来是你；要是差太多，就认成 “陌生人”。

比如学校的人脸识别考勤机，就是靠这套方法，每天确认 “是你本人来上学”，不会把你和长得像的同学弄混～

2. 头肩检测：AI 怎么在人群里 “框” 住人？

你有没有发现，视频会议时，屏幕会自动用方框 “框住” 说话人的头和肩膀？这就是 “头肩检测” 在干活！传统头肩检测，靠的是 “认轮廓”，像咱们在远处认同学 —— 不用看清脸，看头和肩膀的形状就知道是他：

● 第一步：找 “头肩轮廓”：头的轮廓像 “圆形或椭圆形”，肩膀的轮廓像 “两条斜着的直线”，合起来像 “倒过来的‘T’字”。AI 会在画面里找这种 “圆 + 斜直线” 的组合。

● 第二步：定 “范围框”：找到头肩轮廓后，AI 会画一个方框，把 “头的顶部” 到 “肩膀的底部” 都框进去 —— 这样就知道 “人在这里”。

● 第三步：跟踪 “移动”：如果人在画面里走动，AI 会跟着轮廓的移动，调整方框的位置，始终 “框住” 人。

比如上网课时，老师用的直播软件，能自动把老师的头肩框在画面中间，让大家看得更清楚 —— 这就是头肩检测的功劳！

3. 手势识别：AI 怎么 “看懂” 你的小手势？

玩体感游戏时，你比 “剪刀手”，游戏角色就出剪刀；比 “OK”，就确认选择 —— 这是 “手势识别” 在干活！传统手势识别，靠的是 “认手指的数量和角度”，像咱们玩 “石头剪刀布” 时，看对方手的形状判断：

● 第一步：找 “手的轮廓”：AI 先在画面里区分 “手” 和 “背景”（比如你的手在白色桌子前，AI 会把 “不是白色的部分” 当成手），画出手的轮廓。

● 第二步：数 “手指尖”：手的轮廓上，凸起的小尖尖就是手指尖 —— 比 “剪刀手” 时，有 2 个指尖；比 “OK” 时，有 4 个指尖（拇指和食指弯成圈，其他三个手指伸直）；比 “石头” 时，没有指尖。

● 第三步：对应 “指令”：AI 把 “指尖数量 + 手指角度” 和 “指令模板” 对比 —— 比如 “2 个指尖” 对应 “剪刀”，“4 个指尖 + 拇指食指成圈” 对应 “确认”，然后告诉游戏该做什么。

比如有些智能台灯，你挥挥手就能开、再挥挥手就能关 —— 就是靠手势识别，“看懂” 你的挥手动作～

三、大模型视觉识别：AI 的 “全能视觉学霸”

传统模型只能 “偏科” 认一种东西，可现在的 AI 能同时认很多东西 —— 比如看图识物 APP，既能认猫、认狗，又能认植物、认汽车，还能告诉你 “这是一只橘猫，正在玩毛线球”。这就是 “大模型视觉识别”，它像 “全能学霸”，能学很多东西，还能灵活判断！

大模型视觉识别：为什么这么 “聪明”？

和传统模型比，大模型的秘诀是 “看更多图、学通用规律”：

● 传统模型：像只学过 “猫的模板” 的小朋友，只认得出猫，遇到狗就说 “不认识”；

● 大模型：像看过几万张 “猫、狗、植物、汽车” 图片的大朋友，不仅记着每种东西的特征，还能总结规律（比如 “有毛、有四条腿、会叫的可能是动物”“有叶子、有根、会开花的可能是植物”）。

它的原理像 “看绘本学认物”：

1. 看海量图片 “学经验”：工程师会给大模型看几百万、几千万张图片，每张图片都标着 “这是什么”（比如 “橘猫”“玫瑰花”“自行车”）。大模型会一点点记：“橘猫是橙色的，有圆眼睛”“玫瑰花有红色花瓣，有刺”“自行车有两个轮子，有车把”。

2. 学 “联想规律”：看的图多了，大模型还能学会 “联想”—— 比如看到 “猫 + 毛线球”，会想到 “猫在玩毛线球”；看到 “小朋友 + 书包”，会想到 “小朋友要去上学”。

3. 灵活判断 “新图片”：遇到没见过的图片时，大模型会用学过的规律 “猜”—— 比如看到 “一只黄色的、有圆眼睛、在追蝴蝶的动物”，会想 “它有毛、有四条腿，像猫；颜色是黄色，可能是橘猫；在追蝴蝶，就是在玩”，然后告诉你 “这是一只橘猫，正在追蝴蝶”。

大模型视觉识别：生活里的例子

● 看图识物 APP：你拍一朵不认识的花，APP 能告诉你 “这是向日葵，属于菊科，喜欢阳光”—— 大模型不仅认得出 “向日葵”，还知道它的 “科属” 和 “习性”。

● AI 批改作业：你拍数学题 “3+5=7”，AI 能指出 “错啦，3+5 应该等于 8”—— 大模型能认得出数字、加号、等号，还能算对结果。

● 自动驾驶的 “眼睛”：自动驾驶汽车的摄像头，能同时认 “红绿灯（红灯要停）”“行人（要避让）”“自行车（要减速）”“马路牙子（不能压）”—— 大模型靠学过的 “交通规则图”，帮汽车判断该怎么开。

其实 AI “看见” 东西，和咱们学认物的过程特别像：先看细节（特征），再记规律，最后慢慢变熟练。传统模型是 “专项练习”，大模型是 “综合学习”，而这一切的基础，还是咱们之前聊到的 AI 算法。下次你用 AI 看图片、刷脸、玩体感游戏时，不妨多想想：它是靠 “专项小能手” 还是 “全能学霸” 在干活？它找到的 “特征” 和你看到的一样吗？说不定以后你还能设计出更厉害的 “AI 眼睛”，让它看见更多精彩的东西呢！

四、 其他资料

以上图片内容仅作参考，可以根据实际讲解场景进行更换。后续会继续推出相关内容。

有先提前学习的朋友可以先参考这份课程设计参考：https://docs2.listenai.com/x/xNA3G4J8h

演示硬件参考：https://docs2.listenai.com/x/nTn9kMMCU

		自动登录	找回密码
密码			立即注册

[技术文章] AI 如何看见东西？—— 机器视觉

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区