如果你的公司要做AI

显示全部楼层 · 前天 00:37

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区

您需要登录才可以下载或查看，没有账号？立即注册

×

大模型建设正如火如荼，各企业都在规划或推进大模型项目和工具的建设。近期发布的DeepSeek推理模型更是给AI又添了一把火，它给国内企业带来了开源的、可自部署的强大模型，基本改变了AI工作从可用到好用的内容。Gartner发布的报告《4 Ways Generative AI Will Impact CISOs and Their Teams》中断言：无论安全性如何，企业都会拥抱生成式人工智能。

基于我今年年初以来参与建设AI相关项目的经验，我总结了一个公司想要进行AI建设的各项流程，并举例我的工作内容，以下为我的见解和理解。

一、大模型建设的统一框架

我将企业AI建设的核心要素整合为一个统一框架，具体如下图所示。

1 从硬件开始

大模型的训练和推理对算力有着极高的要求，主要依赖于GPU（图形处理单元）或NPU（神经网络处理单元）等硬件设备，对应为显卡、AI计算卡和新型集成CPU，目前AI训练运行主要以AI计算卡为主，显卡为辅。因此，硬件基础设施的建设是AI项目成功的基础。企业建设应至少保证AI模型的稳定调用和训练。在此基础上，考虑到不同厂商、型号和驱动程序的多样性，统一硬件管理变得至关重要，这里就需要企业规划和建设统计的统一硬件管理平台。

1.1 关键能力要求

设备统一调度与管理：需要一个集中化的硬件管理平台，能够对不同设备进行统一调度和资源分配，确保算力的最优利用。
硬件资源监控：实时监控硬件使用情况，确保硬件资源的高效利用和及时调度。
故障管理与容错：在硬件发生故障时，能够迅速识别并进行容错处理，保障系统的连续运行。

1.2 开源解决方案

**一念LLM (KsanaLLM)：**https://github.com/pcg-mlp/KsanaLLM

1.3 租用平台

对于拥有基础设施商业化的公司，搭建完成硬件统一框架即可开始售卖租用，例如腾讯云、华为云的GPU 云服务器，再例如MindSpore、ModelScope等直接将环境搭好的平台。使用时需要注意涉密信息的泄漏问题。

2 统一的生成式 AI API 调度系统

在大模型的应用过程中，API调用是实现生成式AI功能的主要方式。为了确保API的高效利用和系统的可扩展性，必须建立一个统一的API调度系统。

2.1 关键能力要求

用户权限管理：对不同用户的权限进行精细化管理，确保敏感数据和计算资源的安全。
大模型API使用管理：根据不同的业务需求和使用场景，管理不同大模型的调用和执行情况。
使用统计与监控：对API的调用量、响应时间等进行统计与监控，以评估性能并进行优化。
使用量控制与限流：为了防止资源滥用或过载，系统应能根据需要设置API使用的限制，确保系统稳定运行。

2.2 开源解决方案

**One API：**https://github.com/songquanpeng/one-api

**New API：**https://github.com/Calcium-Ion/new-api

2.3 租用平台

各AI均提供自己的API调用方式，比如OpenAI、Anthropic、Gemini、通义千问、豆包等等。另外也可使用统一的API提供平台，如：SiliconFlow、Fireworks AI等。使用时同样需要注意涉密信息的泄漏问题。

3 生成式 AI 应用引擎

生成式AI的核心应用场景通常围绕着智能Agent进行（关于AI Agent的理解推荐阅读Anthropic的一篇文章《Building effective agents》，链接为：https://www.anthropic.com/research/building-effective-agents），这些Agent能够基于大量数据和模型进行自动化决策和任务执行，AI Agent的编写是企业建设AI工具的核心工作。因此，一个完整的生成式AI应用引擎需要包括多个关键模块，确保其能够高效运转，并为用户提供精准的智能支持。

3.1 关键能力要求

RAG能力（Retrieval-Augmented Generation）：结合检索和生成能力，通过对外部知识的检索来增强生成模型的输出质量，确保生成内容更具准确性和丰富性。
智能Agent管理：对多个AI Agent进行管理，包括任务分配、资源调度、性能监控等，确保Agent能够高效执行任务。
工作流系统：支持不同AI应用场景下的工作流设计，使得AI的应用能够与业务流程无缝衔接，提升自动化水平和操作效率。

3.2 开源解决方案

**Dify：**https://github.com/langgenius/dify

**FastGPT：**https://github.com/labring/FastGPT

3.3 租用平台

上面说到的Dify、FastGPT等均提供在线平台供租用。

二、建设准备

在启动生成式AI项目之前，需要进行充分的规划和准备，以确保项目的顺利推进。以下是Gartner建议的关键准备工作：

1 制定详细的战略规划和目标

在项目启动之前，必须明确战略目标和关键时间节点，确保项目能够在规定时间内交付并达到预期效果。同时，确定项目的技术架构、团队配置、预算安排等，以便对项目实施过程进行全程监控和调整。

2 设定风险管理框架

AI项目中存在多种风险，特别是在大模型应用场景下，必须针对潜在的风险进行全面识别和管控：

敏感数据泄露：确保数据的隐私性和安全性，使用加密技术和安全存储机制防止数据泄露。
版权和法律合规风险：确保生成内容不侵犯版权，遵循相关法规政策，特别是与数据使用和模型训练相关的法规。
人工智能幻觉（Hallucination）：大模型有时可能会产生错误或不准确的信息，必须设计有效的反馈和纠正机制，确保AI系统的输出可信赖。
内容策略和品牌风险：确保生成内容与企业品牌形象和内容策略一致，避免不当内容引发负面影响。

3 培训与支持

项目的顺利推进不仅依赖于技术实现，还需要相关人员具备必要的技术知识和操作技能。为了降低操作风险和提升系统的使用效果，企业应为员工提供系统的培训和支持，帮助他们了解AI系统的运作机制和最佳实践。

4 制定使用政策和操作指南

为了避免数据泄露、隐私侵犯等风险，企业应在项目启动前制定完善的用户政策和操作指南，明确使用者的行为规范和安全要求，并为系统使用提供详细的操作手册。

三、我的实践1 智能安全服务问答

为了解决一线安全工程师的各类问题，比如应急响应、告警研判等内容，建立的一个智能回复机器人，主要就是通过RAG的模式进行文档检索并优化输出。网络安全知识内容在互联网中知识内容较少，因此利用公司内部文档进行知识回复的用处很大。

这个项目是在2023年年底2024年年初进行的，当时选用的模型及平台为：Qwen/Qwen1.5-32B-Chat、FastAPI及FastGPT（目前来看Qwen/Qwen2.5-32B-Instruct及Dify是更好的选择）。

这些内容现在看来比较简单，但在当时AI自部署还不太成熟的时期，需要自己配置合适的CUDA、Pytorch等环境。

具体搭建流程见之前的公众号文章《用最小的理解和资源跑通知识库大模型》，或个人博客地址：https://blo.zbss.site/用最小的理解和资源跑通知识库大模型/。

2 大模型告警智能研判

保密原因暂无法说明。

3 AI自动化渗透测试

保密原因暂无法说明。

四、总结

本文最初于2024年12月底完成，原计划在整理智能研判相关内容后再发布，但是一直没有时间进行补全。半年过去，AI技术领域已发生了许多变化：智能体（Agent）的成熟度显著提升，MCP爆火并已成为统一标准。但是从零开始构建企业AI能力的核心路径没有发生变化，依旧是围绕硬件基础设施、统一API调度系统、生成式AI应用引擎这三大支柱逐步推进。

[IT/数码] 如果你的公司要做AI

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区