我们从2011年坚守至今,只想做存粹的技术论坛,记录你的技术足迹,有空就回来看看。  由于网站在外面,点击附件后可能要20秒才弹出下载,请耐心等待,勿重复点击

 找回密码
 立即注册
搜索
查看: 426|回复: 1

聆思CSK6大模型多模态语音交互开源SDK介绍

[复制链接]

该用户从未签到

5

主题

0

回帖

38

积分

一级逆天

积分
38
发表于 2024-6-13 15:40:25 | 显示全部楼层 |阅读模式

聆思CSK6大模型多模态SDK除了支持语音交互之外,还支持图像方面的交互,包括对图像的识别以及图片生成。用户可以通过语音交互、摄像头拍照作为交互入口,实现与大模型的多模态交互。
SDK主要包含以下功能:
●语音交互:支持按键录音或唤醒后通过语音与大模型进行对话
●拍照识图:支持通过摄像头拍摄图像并上传给大模型进行识别,支持依据识图内容进行提问
●图片生成:支持通过语音交互描述画面内容,令大模型生成图片并显示至套件屏幕上
语音交互模式支持的语音交互模式
多模态SDK支持三种交互方式,其特点如下:
模式
唤醒方式
交互方式
按键交互
按下屏幕麦克风图标或开发板K3按键
按住按键说话,松开提交
语音唤醒(单轮)
唤醒词 “小美小美”
听到提示音 “在呢” 后进行提问,每次提问均需要唤醒
语音唤醒(多轮)
唤醒词 “小美小美”
听到提示音 “在呢” 后进行提问,可持续对话,当超过20秒无语音输入时自动结束本次交互
语音交互模式的切换
在待机页面,下滑可调出下滑菜单,点击下滑菜单中的 设置图标,可进行配置页面。
选中对应的模式后,点击左上角即可回到待机页面并生效。
按键交互模式
设置成按键交互(按键唤醒)模式下,按住屏幕上的麦克风按钮或开发板上的K3按键,即进入录音状态,松开按键则结束录音并提交。
语音唤醒模式
当设置为语音唤醒(单轮)或语音唤醒(多轮),可通过唤醒词 —— “小美小美” 对设备进行唤醒,当听到 “在呢” 的提示音后,即可正常进行语音输入。
退出对话
在使用过程中,点击左上角即可结束本轮对话回到待机页面,此操作会同步清除本次对话的上下文信息。
拍照识图
在待机页,点击拍照按钮即可进入取景页面,对准要拍照的物体,点击右侧中间的拍照键完成抓拍,确认画面抓拍正常后(无晃动模糊的情况),点击右侧的 √ 进行提交识别。
文生图
在设备进入语音交互状态后,可以通过带有绘画意图的提示词让大模型进行作画,比如:
●“画一只熊猫”(结果看下方图片附件)
SDK资源下载


开发板.png

画一只熊猫

画一只熊猫

聆思CSK6开发板大模型多模态开源SDK介绍.pdf

664.78 KB, 下载次数: 0, 下载积分: 金币 -1 枚

回复

使用道具 举报

  • TA的每日心情
    开心
    9 小时前
  • 签到天数: 13 天

    [LV.3]偶尔看看II

    37

    主题

    3162

    回帖

    8334

    积分

    二级逆天

    积分
    8334

    终身成就奖特殊贡献奖原创先锋奖

    QQ
    发表于 2024-6-14 08:39:34 | 显示全部楼层
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    Copyright ©2011-2024 NTpcb.com All Right Reserved.  Powered by Discuz! (NTpcb)

    本站信息均由会员发表,不代表NTpcb立场,如侵犯了您的权利请发帖投诉

    平平安安
    TOP
    快速回复 返回顶部 返回列表