视频|阿里开源千问3模型 成本仅需DeepSeek-R1三分之一

21综合  
21视频   2025-04-29 10:22:31

4月29日凌晨,阿里巴巴开源新一代通义千问模型Qwen3,参数量仅为DeepSeek-R1的1/3,成本大幅下降,性能全面超越R1、OpenAI-o1等全球顶尖模型。

千问3是国内首个“混合推理模型”,“快思考”与“慢思考”集成进同一个模型,对简单需求可低算力“秒回”答案,对复杂问题可多步骤“深度思考”,大大节省算力消耗。

据了解,千问3采用混合专家架构,总参数量235B,激活仅需22B。千问3预训练数据量达36T ,并在后训练阶段多轮强化学习,将非思考模式无缝整合到思考模型中。

全站地图