DeepSeek是一家成立于2023年的中国人工智能公司,专注于开发开源的大型语言模型(LLM)及相关技术。以下是其核心信息:
公司背景
- 创立:由量化私募幻方量化创始人梁文峰于2023年7月创立,总部位于杭州。
- 技术路线:以开源为核心,通过混合架构(如MoE专家混合模型)实现高效计算,降低开发成本。据报道,其旗舰模型DeepSeek-R1开发成本仅约600万美元,远低于国际竞争对手。
核心技术与产品
- 模型系列:
- DeepSeek-R1:6710亿参数,性能比肩OpenAI的GPT-4和Claude 3.5,在数学推理、代码生成等任务中表现突出,已接入英伟达NIM微服务和国家超算互联网平台。
- DeepSeek-V3:开源模型,支持多模态任务,性能接近GPT-4 Turbo,价格仅为其1%,被誉为“AI届拼多多”。
- DeepSeek-Coder:开源代码生成模型,支持80余种编程语言,在HumanEval等基准测试中超越CodeLlama,70亿参数版本性能达CodeLlama 340亿参数水平。
- Janus-Pro-7B:文本生成图像模型,性能优于DALL-E 3和Stable Diffusion。
- 技术优势:
- 混合架构:结合MoE与密集模型,提升效率和扩展性。
- 多领域支持:覆盖自然语言处理、代码生成、数学推理、图像生成等。
应用与市场
- 用户增长:2025年1月推出官方App后,迅速登顶全球140多个国家的应用商店下载榜,日活跃用户超3000万,累计下载量破1.1亿次。
- 合作伙伴:与比亚迪、吉利、岚图等车企深度融合,赋能智能座舱;接入阿里云、腾讯云等算力平台,并在深圳、广州等城市政务系统中部署。
- 国际影响:因低成本高性能引发市场震动,被外媒称为“中国版ChatGPT”,甚至导致美国科技股短暂下跌。
开源与生态
- 开源策略:持续开源模型及代码库,包括V2、V3、Coder等,推动AI民主化。
- 行业认可:创始人梁文峰受邀参加中国国务院座谈会,公司技术被纳入高校课程及多地算力平台。
总结来看,DeepSeek以开源、高效、低成本为核心,通过技术创新和生态合作,迅速成为全球AI领域的重要参与者,尤其在代码生成和多模态任务中表现突出。