首頁
影片
頻道
食衣住行
全部
34889
DIY
2238
衣著
631
妝扮
1086
車
4258
房屋
2189
社會
6321
政論
84
美食
5908
烹飪
10096
新聞
194
環保
402
點心
1482
休閒娛樂
全部
97764
ASMR
152
小說
3083
戶外
1496
日常
5408
卡通
1437
民俗
2168
休閒
1350
收藏
915
明星
5037
玩具
1495
美女
925
音樂
8651
旅遊
1229
神秘
2046
配音
594
偶戲
814
動漫
7238
開箱
735
新奇
938
運動
2771
遊戲
12092
電視劇
12234
電影
6391
漫畫
963
綜藝
6850
劇場
1127
廣播
517
趣味
4663
寵物
1946
魔術
2499
教學知識
全部
54490
3C
1880
人物
466
人際
153
心靈
2260
文化
1461
文學
869
生物
191
地理
793
宇宙
410
兒童
1416
兩性
1492
命理
1444
宗教
4362
法律
568
知識
2885
科學
2093
軍武
1418
財經
7069
健康
4963
動物
2265
教育
2887
軟體
1241
植物
348
園藝
3214
演講
368
綜合
1937
歷史
2238
職場
490
雜談
1101
藝術
1523
攝影
685
我要推薦
回上一頁
DeepSeek V4是怎么训练出来的?73页PPT深入解析
2,474
2026-04-24
49
花叔
DeepSeek V4 来了,一次发了两个模型:对标 Claude Opus 4.6 和 GPT-5.4 的 V4-Pro,以及价格只有同类 1/7 到 1/18 的 V4-Flash。两款都支持 100 万上下文,把长上下文拉进普惠时代。花叔读完 58 页技术文档,做了 73 页 PPT,一步步拆解 V4 的四个核心创新:MHC 残差连接让 1.6T 模型训练不崩、粗筛细筛让百万 token 成本只要 2%、Muon 优化器替代 AdamW、后训练改用「专家训练+全科蒸馏」新范式。但 V4 不是最强的模型,擅长做题(Codeforces 第 23 名、Putnam 满分),品位和长链工具调用上还差 Opus 4.7 一口气。这是一个本分诚实的产品。 ⏱️ 时间戳 00:00 V4 发布+73页PPT预告 ...
說明
DeepSeek V4 来了,一次发了两个模型:对标 Claude Opus 4.6 和 GPT-5.4 的 V4-Pro,以及价格只有同类 1/7 到 1/18 的 V4-Flash。两款都支持 100 万上下文,把长上下文拉进普惠时代。花叔读完 58 页技术文档,做了 73 页 PPT,一步步拆解 V4 的四个核心创新:MHC 残差连接让 1.6T 模型训练不崩、粗筛细筛让百万 token 成本只要 2%、Muon 优化器替代 AdamW、后训练改用「专家训练+全科蒸馏」新范式。但 V4 不是最强的模型,擅长做题(Codeforces 第 23 名、Putnam 满分),品位和长链工具调用上还差 Opus 4.7 一口气。这是一个本分诚实的产品。 ⏱️ 时间戳 00:00 V4 发布+73页PPT预告 02:03 Pro对标顶级,Flash是价格屠夫 05:00 擅长做题,品位差一截 07:25 1.6T MoE架构拆解 12:00 MHC残差连接防梯度爆炸 14:50 粗筛细筛读百万上下文 19:00 Muon优化器反向思路 23:00 专家训练+蒸馏新范式
00:59
你以为你在用AI?你只是在用一个很贵的搜索引擎! #shorts
59:02
【小貝】D4 聖騎士賽季能否"解救"比利?
03:03
2026最新Google账号教程,无需手机号验证,无需扫码,100%成功!
09:17
【上集】2025年度 300C1 區園遊會|獅友進場式+捐贈儀式|熱情開幕#C1區園遊會#獅子會#LionsClub#進場式#捐贈儀式#服務精神#公益活動#社會服務#WeServe#300C複合區
07:24
【保姆級教程】AI做可愛貓咪跳舞影片,免費工具,動作精準控制
༺ 資料蒐集來源:
YouTube
༻
本站不需註冊加入會員,保障個人隱私,完全不用Cookei