聆思CSK6大模型开发板视觉识别类开源SDK介绍

显示全部楼层 · 2024-6-18 14:50:35

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区

您需要登录才可以下载或查看，没有账号？立即注册

×

大模型开发板除了语音交互之外，还配套有大模型拍照识图和坐姿检测、人脸识别、活体识别、头肩跟随、手势识别、物体分类等七个线视觉识别方面的交互示例等。

联网使用	大模型图片分析+拍照
离线识别	坐姿检测、人脸识别、活体识别、头肩跟随、手势识别、物体分类

SDK介绍
1、大模型语音交互+拍照识图SDK
SDK功能

● 语音交互：支持按键录音或唤醒后通过语音与大模型进行对话

● 拍照识图：支持通过摄像头拍摄图像并上传给大模型进行识别，支持依据识图内容进行提问

● 图片生成：支持通过语音交互描述画面内容，令大模型生成图片并显示至套件屏幕上

拍照识图

在待机页，点击拍照按钮即可进入取景页面，对准要拍照的物体，点击右侧中间的拍照键完成抓拍，确认画面抓拍正常后（无晃动模糊的情况），点击右侧的 √ 进行提交识别。

2、坐姿检测SDK
算法简介

CSK6 大模型开发套件可检测图像中人物的坐姿情况，并对各种不良的坐姿进行识别，当画面中有坐姿信息时，显示屏上将实时对人物的关键骨骼点进行标注并显示该人物的包含手、身体状态在内的坐姿检测结果，结果包含一下内容：

● 手状态：正常/下垂/撑脸

● 身体状态：正常/趴桌/倾斜/驼背/离席

CSK6 芯片支持运行坐姿检测 AI算法，具备以下特性：

● 硬件上仅需配合 30W 像素镜头模组，性价比出色

● 纯离线运行算法，无需联网，保障隐私

● 检测准确率＞ 97%，响应时间＜ 18ms

● 识别距离：推荐 40cm ~ 60cm, 建议不超过 110cm

3、人脸识别SDK
人脸识别算法简介

人脸识别算法具备以下特性：

● 支持检测图像中人脸信息，选取画面中分值最高的人脸，返回人脸边界框、人脸标定点、头部姿态角度、人脸识别特征等

● 人脸标定点支持68个关键点检测

● 头部姿态角度支持pitch、roll、yaw三个角度

● 支持特征比较：将检测到的人脸特征值和本地存储的人脸特征值输入算法进行比对，并返回比对结果

应用场景

离线人脸识别适用于网络条件不稳定、无网、数据安全性要求高、人脸库较小（20人以下）单台设备的人脸识别场景。常见于人脸门禁、小型企业考勤机、自助终端设备等。

算法效果指标数据
识别效果

在1m距离内，测试特征底库10个，人脸识别效果分别为：

识别能力	识别率	虚警率
人脸识别	95%	0.1%

人脸标定	平均误差(NME)约为0.04
头部姿态	模型预测平均偏差约为±3°
全流程耗时	100ms以内

使用介绍
人脸识别示例工程的使用

调用人脸识别算法，可以通过开发板上的按键操作进行人脸注册、脸识别，并通过图像预览工具查看摄像头的画面与输出结果。

固件功能说明

程序运行后，默认会在屏幕上显示实时的摄像头画面并在画面中使用方框实时标注出人脸，并通过方框的颜色指示不同的识别状态。

可以按照以下流程进行人脸识别功能的使用：

● Step1：检测到人脸 (屏幕显示黄色框 / 开发板LED亮黄色)

● Step2：按K1按键注册当前人脸特征 (屏幕 registered参数增加1 /开发板LED闪烁蓝色)

● Step3：按K2对当前人脸进行识别比对

○ 识别通过：屏幕显示绿色框 / 开发板LED亮绿色

○ 识别未通过：屏幕显示红色框 / 开发板LED亮红色

LED指示状态

● 黄色：检测到人脸

● 绿色：人脸特征比对通过

● 红色：人脸特征比对未通过

按键功能

● K1：录入当前检测到的人脸特征

● K2：将当然的人脸特征与之前录入的特征进行比较

● K3：开关摄像头红外补光灯(安装红外摄像头时)

4、活体识别
功能说明

需要搭配带补光灯的红外摄像头，结合人脸识别算法，实现对活体的检测。

程序运行后，默认会在屏幕上显示实时的摄像头画面并在画面中使用方框实时标注出人脸，并通过方框的颜色指示不同的识别状态。

1.注册人脸

当LED为黄色时(检测到人脸)，按动K1按键，此时将会录入当前检测到的人脸特征，录入成功后，可看到屏幕上显示的registered 数量增加1，说明本次录入已完成并加入人脸特征库。

2.比对人脸

当LED为黄色时(检测到人脸)，按动K2按键，此时固件会将当前摄像头前检测到的人脸与已录入的人脸特征进行比对，若对比成功(命中已录入的人脸特征)，屏幕中圈中人脸的框将变为绿色，同时开发板上的LED颜色将变为绿色，表示人脸特征比对通过，并在屏幕上显示匹配的人脸特征序号(id)与评分(score)。

若比对不通过，即当前人脸未在人脸特征库中录入过，屏幕中圈中人脸的框将变为红色，同时开发板上的LED颜色将变为红色，表示人脸特征比对通过。

3.串口日志的查看

本示例同样支持串口日志的打印，可通过连接开发板上的DAP_USB 并使用串口工具打开对应的串口设备进行日志查看，默认波特率 115200，伴随着人脸录入、人脸比对等操作，可看到日志串口有对应的结果输出。

5、头肩跟随+手势识别SDK
头肩跟随
头肩算法介绍

检测图像中所有人体的头肩位置，返回每个头肩的唯一id、位置坐标、检测得分等；

● 通过摄像头实时获取图像并在屏幕上进行预览显示

● 在屏幕展示的画面中标注头肩检测和手势识别的结果与评分

手势识别

通过头肩检测识别用户的手势，返回当前目标的手势、得分等；

支持5种手势，分别为LIKE(?)、OK(?)、STOP(?)、YES(✌️)、SIX(?)；

应用场景
跟拍云台

在直播、视频通话场景，通过云台实现人体追踪，让手机一直正面朝向用户进行录像。并且可以通过手势开启、停止追踪。

算法参数
（1）识别效果

为了让用户在常用的交互距离取得比较好的识别效果，我们建议头肩跟踪跟手势识别最短交互距离为0.5m，最佳交互距分别为3.5m/3m，所对应的识别效果如下：

识别能力	最佳交互距离	识别率	虚警率
头肩跟踪	3.5m	95%	5%
手势识别	3m	91%	5%

（2）帧率

以下是分别在单人和多人场景下的帧率：

场景	识别能力	帧率
单人	头肩追踪、手势识别	15FPS
多人	头肩追踪、手势识别	10FPS

6、物体分类
算法简介

CSK6 大模型开发套件可通过摄像头抓拍画面并对该画面进行物体分类识别，支持包括苹果、床、键盘等100+种物体的识别。通过触摸屏可进行取景与抓拍控制，完成拍照后将自动识别并在屏幕上显示识别结果。

本示例演示在开发套件上运行基于pytorch-cifar100（https://github.com/weiaicunzai/pytorch-cifar100）训练的resnet18物体分类模型，支持通过摄像头拍照并完成对指定物品的分类识别。

本模型支持以下物体的分类识别：

"apple",    "aquarium_fish", "baby",    "bear",    "beaver",    "bed",
"bee",       "beetle",       "bicycle", "bottle",    "bowl",       "boy",
"bridge",    "bus",          "butterfly", "camel",    "can",       "castle",
"caterpillar", "cattle",       "chair",    "chimpanzee", "clock",       "cloud",
"cockroach", "couch",       "crab",    "crocodile",  "cup",       "dinosaur",
"dolphin",    "elephant",    "flatfish",  "forest",    "fox",       "girl",
"hamster",    "house",       "kangaroo",  "keyboard", "lamp",       "lawn_mower",
"leopard",    "lion",       "lizard", "lobster", "man",       "maple_tree",
"motorcycle",  "mountain",    "mouse",    "mushroom", "oak_tree",    "orange",
"orchid",    "otter",       "palm_tree", "pear",    "pickup_truck", "pine_tree",
"plain",    "plate",       "poppy",    "porcupine",  "possum",    "rabbit",
"raccoon",    "ray",          "road",    "rocket",    "rose",       "sea",
"seal",       "shark",       "shrew",    "skunk",    "skyscraper", "snail",
"snake",    "spider",       "squirrel",  "streetcar",  "sunflower", "sweet_pepper",
"table",    "tank",       "telephone", "television", "tiger",       "tractor",
"train",    "trout",       "tulip",    "turtle",    "wardrobe",    "whale",
"willow_tree", "wolf",       "woman",    "worm"

本示例基于开源项目进行移植适配，仅用于 CV 能力的验证与评估，不代表适用于商用项目。

功能实现

● 点击屏幕翻转按钮，可实现对摄像头的影像预览翻转，可根据摄像头是否安装在开发板背面进行切换

● 点击屏幕 TAKE 按钮，可对当面画面进行拍照并识别

SDK资源下载

大模型拍照识图：https://cloud.listenai.com/CSKG9 ... e_open/apps/LLM_pic

其他功能SDK下载地址：https://cloud.listenai.com/CSKG962172/duomotai_ap/-/tree/master/

● 坐姿检测： apps目录下，工程目录名称为 lcd_spd

● 人脸识别： apps目录下，工程目录名称为 fd

● 活体识别： apps目录下，工程目录名称为 fdh

● 头肩跟随+手势识别： apps目录下，工程目录名称为 hsd

● 物体分类： apps目录下，工程目录名称为 resnet18

已打包好的DEMO固件下载：

● 大模型拍照识图固件：https://docs2.listenai.com/x/UzjbjIAxw

● 坐姿检测： https://docs2.listenai.com/x/D3CV6m1w6

● 人脸识别： https://docs2.listenai.com/x/C176n3JaJ

● 活体识别： https://docs2.listenai.com/x/Pr51i42rn

● 头肩跟随+手势识别：https://docs2.listenai.com/x/UGGyPHCTL

● 物体分类： https://docs2.listenai.com/x/urrNYp4Ie

补充开发板信息

开发板具备丰富语音图像功能与硬件外设的开发板，采用有着丰富组件生态的 Zephyr RTOS 作为操作系统，默认配套开箱即玩的 AI 应用，也可以配合聆思的模型训练推理工具 LNN 将自己的算法模型部署至芯片上，构建自己的 AI 应用，开发板详情参考：https://docs2.listenai.com/x/nTn9kMMCU

聆思CSK6大模型开发板视觉识别类开源SDK介绍

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区

浏览过的版块