我们从2011年坚守至今,只想做存粹的技术论坛。  由于网站在外面,点击附件后要很长世间才弹出下载,请耐心等待,勿重复点击不要用Edge和IE浏览器下载,否则提示不安全下载不了

 找回密码
 立即注册
搜索
查看: 27|回复: 0

[技术文章] AI 如何看见东西?—— 机器视觉

[复制链接]

该用户从未签到

38

主题

0

回帖

133

积分

二级逆天

积分
133
发表于 3 天前 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区

您需要 登录 才可以下载或查看,没有账号?立即注册

×

                                                                                       
AI 如何看见东西?—— 机器视觉
每天进出小区或校园,是不是刷一下脸就能开门?用平板拍照搜题,AI 能立刻认出 “这是数学题”“那是一朵花”;玩体感游戏时,挥挥手就能控制角色 —— 这些都是 AI 在 “看见” 世界!可 AI 没有真正的眼睛,它是怎么 “看” 到东西的呢?今天咱们就结合CSK6大模型开发板的视觉识别进行讲解和实际操作,揭开 “机器视觉” 的神秘面纱,看看 AI 的 “视觉魔法” 是怎么实现的~
一、先搞懂:AI 的 “眼睛” 和 “视觉大脑” 是啥?
咱们人类看东西,要靠 “眼睛 + 大脑” 配合:眼睛像相机,把看到的画面 “拍” 下来;大脑再分析画面里有什么(是猫还是狗?在左边还是右边?)。AI 的 “看见”,其实是 “机器眼睛” 和 “视觉算法大脑” 在干活,步骤和咱们看东西特别像。
141655d8455a30.png
第一步:用 “机器眼睛” 抓画面 —— 就像拍照片
AI 的 “眼睛” 不是肉眼睛,而是摄像头、扫描仪、无人机镜头这些设备。比如校园人脸识别机的摄像头,会把你的脸 “拍” 成一张数字图片;平板的摄像头,会把数学题拍成像素组成的画面。
14165648acb7e7.png
你知道吗?数字图片其实是无数个 “彩色小方块” 拼起来的 —— 这就是 “像素”!就像你用马赛克积木拼画,每个小积木是一种颜色,拼起来就是完整的图案。AI 的 “眼睛” 抓画面,其实就是收集这些 “彩色小方块” 的信息(比如这个方块是红色、那个是蓝色)。
第二步:拆画面找 “关键特征”—— 像玩拼图找线索
拿到 “马赛克画面” 后,AI 的 “视觉大脑”(算法)不会直接认 “整幅图”,而是先拆出 “关键特征”。这就像你拼拼图时,先找 “有尖角的块”“有蓝色的块”(这些是拼图的特征),再慢慢拼出完整图案。
比如看一只猫的图片,AI 会拆出这些特征:“有三角形的耳朵”“圆圆的眼睛”“毛茸茸的尾巴”“四条短腿”;看数学题时,会拆出 “有数字‘3’”“有‘+’号”“有等号‘=’”。这些特征,就是 AI 认东西的 “小线索”。
第三步:对比特征下判断 —— 像认熟人和陌生人
拆完特征后,AI 会把这些 “小线索” 和自己 “记忆库里的模板” 对比:如果特征对得上,就认出来了;对不上,就说 “没见过”。
比如校园人脸识别机里,存着你的 “人脸模板”(记着你眼睛的间距、鼻子的形状、嘴巴的位置);当你刷脸时,AI 把实时拍到的脸的特征,和模板对比 —— 要是 90% 以上都一样,就会说 “匹配成功,开门!”;要是拍到的是其他同学的脸,特征对不上,门就不开。
这三步连起来,就是 AI “看见” 东西的基本原理:抓画面→拆特征→比模板!
二、传统机器视觉算法:AI 的 “专项视觉小能手”
早期的 AI,就像 “偏科的小朋友”—— 只能专门认一种东西,比如只认人脸、只认手势。这些专门的算法,就是 “传统机器视觉模型”,咱们挑三个最常见的来讲:
1. 人脸识别:AI 怎么 “认脸” 不认错?
传统人脸识别,核心是 “找脸上的‘固定打卡点’”,步骤特别像警察叔叔认通缉犯(靠五官特征):
14165732f59098.png
                ● 第一步:找 “打卡点”(特征点):AI 会在脸上找 20-100 个 “固定位置”,比如 “左眼瞳孔中心”“右眼瞳孔中心”“鼻尖”“嘴角”“眉毛末端”—— 这些点的位置,每个人都不一样(比如你的两眼间距比同桌宽一点,鼻尖比好朋友尖一点)。
                ● 第二步:算 “距离和角度”:AI 会计算这些 “打卡点” 之间的距离(比如两眼之间的距离是 3 厘米)、角度(比如鼻尖到嘴角的连线和水平线的角度是 15 度),把这些数据变成 “你的专属脸密码”。
                ● 第三步:对比 “脸密码”:把实时算出来的 “脸密码”,和提前存在库里的 “脸密码” 对比 —— 要是大部分数据都一样,就认出来是你;要是差太多,就认成 “陌生人”。
比如学校的人脸识别考勤机,就是靠这套方法,每天确认 “是你本人来上学”,不会把你和长得像的同学弄混~
2. 头肩检测:AI 怎么在人群里 “框” 住人?
你有没有发现,视频会议时,屏幕会自动用方框 “框住” 说话人的头和肩膀?这就是 “头肩检测” 在干活!传统头肩检测,靠的是 “认轮廓”,像咱们在远处认同学 —— 不用看清脸,看头和肩膀的形状就知道是他:
141658d913ff61.png
                ● 第一步:找 “头肩轮廓”:头的轮廓像 “圆形或椭圆形”,肩膀的轮廓像 “两条斜着的直线”,合起来像 “倒过来的‘T’字”。AI 会在画面里找这种 “圆 + 斜直线” 的组合。
                ● 第二步:定 “范围框”:找到头肩轮廓后,AI 会画一个方框,把 “头的顶部” 到 “肩膀的底部” 都框进去 —— 这样就知道 “人在这里”。
                ● 第三步:跟踪 “移动”:如果人在画面里走动,AI 会跟着轮廓的移动,调整方框的位置,始终 “框住” 人。
比如上网课时,老师用的直播软件,能自动把老师的头肩框在画面中间,让大家看得更清楚 —— 这就是头肩检测的功劳!
3. 手势识别:AI 怎么 “看懂” 你的小手势?
玩体感游戏时,你比 “剪刀手”,游戏角色就出剪刀;比 “OK”,就确认选择 —— 这是 “手势识别” 在干活!传统手势识别,靠的是 “认手指的数量和角度”,像咱们玩 “石头剪刀布” 时,看对方手的形状判断:
141658c754c176.png
                ● 第一步:找 “手的轮廓”:AI 先在画面里区分 “手” 和 “背景”(比如你的手在白色桌子前,AI 会把 “不是白色的部分” 当成手),画出手的轮廓。
                ● 第二步:数 “手指尖”:手的轮廓上,凸起的小尖尖就是手指尖 —— 比 “剪刀手” 时,有 2 个指尖;比 “OK” 时,有 4 个指尖(拇指和食指弯成圈,其他三个手指伸直);比 “石头” 时,没有指尖。
                ● 第三步:对应 “指令”:AI 把 “指尖数量 + 手指角度” 和 “指令模板” 对比 —— 比如 “2 个指尖” 对应 “剪刀”,“4 个指尖 + 拇指食指成圈” 对应 “确认”,然后告诉游戏该做什么。
比如有些智能台灯,你挥挥手就能开、再挥挥手就能关 —— 就是靠手势识别,“看懂” 你的挥手动作~
三、大模型视觉识别:AI 的 “全能视觉学霸”
传统模型只能 “偏科” 认一种东西,可现在的 AI 能同时认很多东西 —— 比如看图识物 APP,既能认猫、认狗,又能认植物、认汽车,还能告诉你 “这是一只橘猫,正在玩毛线球”。这就是 “大模型视觉识别”,它像 “全能学霸”,能学很多东西,还能灵活判断!
1417012f542329.png
大模型视觉识别:为什么这么 “聪明”?
和传统模型比,大模型的秘诀是 “看更多图、学通用规律”:
                ● 传统模型:像只学过 “猫的模板” 的小朋友,只认得出猫,遇到狗就说 “不认识”;
                ● 大模型:像看过几万张 “猫、狗、植物、汽车” 图片的大朋友,不仅记着每种东西的特征,还能总结规律(比如 “有毛、有四条腿、会叫的可能是动物”“有叶子、有根、会开花的可能是植物”)。
它的原理像 “看绘本学认物”:
            1.     看海量图片 “学经验”:工程师会给大模型看几百万、几千万张图片,每张图片都标着 “这是什么”(比如 “橘猫”“玫瑰花”“自行车”)。大模型会一点点记:“橘猫是橙色的,有圆眼睛”“玫瑰花有红色花瓣,有刺”“自行车有两个轮子,有车把”。
            2.     学 “联想规律”:看的图多了,大模型还能学会 “联想”—— 比如看到 “猫 + 毛线球”,会想到 “猫在玩毛线球”;看到 “小朋友 + 书包”,会想到 “小朋友要去上学”。
            3.     灵活判断 “新图片”:遇到没见过的图片时,大模型会用学过的规律 “猜”—— 比如看到 “一只黄色的、有圆眼睛、在追蝴蝶的动物”,会想 “它有毛、有四条腿,像猫;颜色是黄色,可能是橘猫;在追蝴蝶,就是在玩”,然后告诉你 “这是一只橘猫,正在追蝴蝶”。
大模型视觉识别:生活里的例子
                ● 看图识物 APP:你拍一朵不认识的花,APP 能告诉你 “这是向日葵,属于菊科,喜欢阳光”—— 大模型不仅认得出 “向日葵”,还知道它的 “科属” 和 “习性”。
                ● AI 批改作业:你拍数学题 “3+5=7”,AI 能指出 “错啦,3+5 应该等于 8”—— 大模型能认得出数字、加号、等号,还能算对结果。
                ● 自动驾驶的 “眼睛”:自动驾驶汽车的摄像头,能同时认 “红绿灯(红灯要停)”“行人(要避让)”“自行车(要减速)”“马路牙子(不能压)”—— 大模型靠学过的 “交通规则图”,帮汽车判断该怎么开。
其实 AI “看见” 东西,和咱们学认物的过程特别像:先看细节(特征),再记规律,最后慢慢变熟练。传统模型是 “专项练习”,大模型是 “综合学习”,而这一切的基础,还是咱们之前聊到的 AI 算法。下次你用 AI 看图片、刷脸、玩体感游戏时,不妨多想想:它是靠 “专项小能手” 还是 “全能学霸” 在干活?它找到的 “特征” 和你看到的一样吗?说不定以后你还能设计出更厉害的 “AI 眼睛”,让它看见更多精彩的东西呢!
            四、     其他资料
以上图片内容仅作参考,可以根据实际讲解场景进行更换。后续会继续推出相关内容。
有先提前学习的朋友可以先参考这份课程设计参考:https://docs2.listenai.com/x/xNA3G4J8h




回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

每日签到,有金币领取。


Copyright ©2011-2024 NTpcb.com All Right Reserved.  Powered by Discuz! (NTpcb)

本站信息均由会员发表,不代表NTpcb立场,如侵犯了您的权利请发帖投诉

( 闽ICP备2024076463号-1 ) 论坛技术支持QQ群171867948 ,论坛问题,充值问题请联系QQ1308068381

平平安安
TOP
快速回复 返回顶部 返回列表