[IT/数码] 如果你的公司要做AI

[复制链接]
查看8 | 回复0 | 前天 00:37 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区

您需要 登录 才可以下载或查看,没有账号?立即注册

×

大模型建设正如火如荼,各企业都在规划或推进大模型项目和工具的建设。近期发布的DeepSeek推理模型更是给AI又添了一把火,它给国内企业带来了开源的、可自部署的强大模型,基本改变了AI工作从可用到好用的内容。Gartner发布的报告《4 Ways Generative AI Will Impact CISOs and Their Teams》中断言:无论安全性如何,企业都会拥抱生成式人工智能。

基于我今年年初以来参与建设AI相关项目的经验,我总结了一个公司想要进行AI建设的各项流程,并举例我的工作内容,以下为我的见解和理解。

一、大模型建设的统一框架

我将企业AI建设的核心要素整合为一个统一框架,具体如下图所示。

1 从硬件开始

大模型的训练和推理对算力有着极高的要求,主要依赖于GPU(图形处理单元)或NPU(神经网络处理单元)等硬件设备,对应为显卡、AI计算卡和新型集成CPU,目前AI训练运行主要以AI计算卡为主,显卡为辅。因此,硬件基础设施的建设是AI项目成功的基础。企业建设应至少保证AI模型的稳定调用和训练。在此基础上,考虑到不同厂商、型号和驱动程序的多样性,统一硬件管理变得至关重要,这里就需要企业规划和建设统计的统一硬件管理平台。

1.1 关键能力要求
  • 设备统一调度与管理:需要一个集中化的硬件管理平台,能够对不同设备进行统一调度和资源分配,确保算力的最优利用。
  • 硬件资源监控:实时监控硬件使用情况,确保硬件资源的高效利用和及时调度。
  • 故障管理与容错:在硬件发生故障时,能够迅速识别并进行容错处理,保障系统的连续运行。
1.2 开源解决方案

**一念LLM (KsanaLLM):**https://github.com/pcg-mlp/KsanaLLM

1.3 租用平台

对于拥有基础设施商业化的公司,搭建完成硬件统一框架即可开始售卖租用,例如腾讯云、华为云的GPU 云服务器,再例如MindSpore、ModelScope等直接将环境搭好的平台。使用时需要注意涉密信息的泄漏问题。

2 统一的生成式 AI API 调度系统

在大模型的应用过程中,API调用是实现生成式AI功能的主要方式。为了确保API的高效利用和系统的可扩展性,必须建立一个统一的API调度系统。

2.1 关键能力要求
  • 用户权限管理:对不同用户的权限进行精细化管理,确保敏感数据和计算资源的安全。
  • 大模型API使用管理:根据不同的业务需求和使用场景,管理不同大模型的调用和执行情况。
  • 使用统计与监控:对API的调用量、响应时间等进行统计与监控,以评估性能并进行优化。
  • 使用量控制与限流:为了防止资源滥用或过载,系统应能根据需要设置API使用的限制,确保系统稳定运行。
2.2 开源解决方案

**One API:**https://github.com/songquanpeng/one-api

**New API:**https://github.com/Calcium-Ion/new-api

2.3 租用平台

各AI均提供自己的API调用方式,比如OpenAI、Anthropic、Gemini、通义千问、豆包等等。另外也可使用统一的API提供平台,如:SiliconFlow、Fireworks AI等。使用时同样需要注意涉密信息的泄漏问题。

3 生成式 AI 应用引擎

生成式AI的核心应用场景通常围绕着智能Agent进行(关于AI Agent的理解推荐阅读Anthropic的一篇文章《Building effective agents》,链接为:https://www.anthropic.com/research/building-effective-agents),这些Agent能够基于大量数据和模型进行自动化决策和任务执行,AI Agent的编写是企业建设AI工具的核心工作。因此,一个完整的生成式AI应用引擎需要包括多个关键模块,确保其能够高效运转,并为用户提供精准的智能支持。

3.1 关键能力要求
  • RAG能力(Retrieval-Augmented Generation):结合检索和生成能力,通过对外部知识的检索来增强生成模型的输出质量,确保生成内容更具准确性和丰富性。
  • 智能Agent管理:对多个AI Agent进行管理,包括任务分配、资源调度、性能监控等,确保Agent能够高效执行任务。
  • 工作流系统:支持不同AI应用场景下的工作流设计,使得AI的应用能够与业务流程无缝衔接,提升自动化水平和操作效率。
3.2 开源解决方案

**Dify:**https://github.com/langgenius/dify

**FastGPT:**https://github.com/labring/FastGPT

3.3 租用平台

上面说到的Dify、FastGPT等均提供在线平台供租用。

二、建设准备

在启动生成式AI项目之前,需要进行充分的规划和准备,以确保项目的顺利推进。以下是Gartner建议的关键准备工作:

1 制定详细的战略规划和目标

在项目启动之前,必须明确战略目标和关键时间节点,确保项目能够在规定时间内交付并达到预期效果。同时,确定项目的技术架构、团队配置、预算安排等,以便对项目实施过程进行全程监控和调整。

2 设定风险管理框架

AI项目中存在多种风险,特别是在大模型应用场景下,必须针对潜在的风险进行全面识别和管控:

  • 敏感数据泄露:确保数据的隐私性和安全性,使用加密技术和安全存储机制防止数据泄露。
  • 版权和法律合规风险:确保生成内容不侵犯版权,遵循相关法规政策,特别是与数据使用和模型训练相关的法规。
  • 人工智能幻觉(Hallucination):大模型有时可能会产生错误或不准确的信息,必须设计有效的反馈和纠正机制,确保AI系统的输出可信赖。
  • 内容策略和品牌风险:确保生成内容与企业品牌形象和内容策略一致,避免不当内容引发负面影响。
3 培训与支持

项目的顺利推进不仅依赖于技术实现,还需要相关人员具备必要的技术知识和操作技能。为了降低操作风险和提升系统的使用效果,企业应为员工提供系统的培训和支持,帮助他们了解AI系统的运作机制和最佳实践。

4 制定使用政策和操作指南

为了避免数据泄露、隐私侵犯等风险,企业应在项目启动前制定完善的用户政策和操作指南,明确使用者的行为规范和安全要求,并为系统使用提供详细的操作手册。

三、我的实践1 智能安全服务问答

为了解决一线安全工程师的各类问题,比如应急响应、告警研判等内容,建立的一个智能回复机器人,主要就是通过RAG的模式进行文档检索并优化输出。网络安全知识内容在互联网中知识内容较少,因此利用公司内部文档进行知识回复的用处很大。

这个项目是在2023年年底2024年年初进行的,当时选用的模型及平台为:Qwen/Qwen1.5-32B-Chat、FastAPI及FastGPT(目前来看Qwen/Qwen2.5-32B-Instruct及Dify是更好的选择)。

这些内容现在看来比较简单,但在当时AI自部署还不太成熟的时期,需要自己配置合适的CUDA、Pytorch等环境。

具体搭建流程见之前的公众号文章《用最小的理解和资源跑通知识库大模型》,或个人博客地址:https://blo.zbss.site/用最小的理解和资源跑通知识库大模型/。

2 大模型告警智能研判

保密原因暂无法说明。

3 AI自动化渗透测试

保密原因暂无法说明。

四、总结

本文最初于2024年12月底完成,原计划在整理智能研判相关内容后再发布,但是一直没有时间进行补全。半年过去,AI技术领域已发生了许多变化:智能体(Agent)的成熟度显著提升,MCP爆火并已成为统一标准。但是从零开始构建企业AI能力的核心路径没有发生变化,依旧是围绕硬件基础设施、统一API调度系统、生成式AI应用引擎这三大支柱逐步推进。



回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

hdy

836

主题

350

回帖

866

积分

二级逆天

积分
866