首頁
影片
頻道
食衣住行
全部
34889
DIY
2238
衣著
631
妝扮
1086
車
4258
房屋
2189
社會
6321
政論
84
美食
5908
烹飪
10096
新聞
194
環保
402
點心
1482
休閒娛樂
全部
97764
ASMR
152
小說
3083
戶外
1496
日常
5408
卡通
1437
民俗
2168
休閒
1350
收藏
915
明星
5037
玩具
1495
美女
925
音樂
8651
旅遊
1229
神秘
2046
配音
594
偶戲
814
動漫
7238
開箱
735
新奇
938
運動
2771
遊戲
12092
電視劇
12234
電影
6391
漫畫
963
綜藝
6850
劇場
1127
廣播
517
趣味
4663
寵物
1946
魔術
2499
教學知識
全部
54490
3C
1880
人物
466
人際
153
心靈
2260
文化
1461
文學
869
生物
191
地理
793
宇宙
410
兒童
1416
兩性
1492
命理
1444
宗教
4362
法律
568
知識
2885
科學
2093
軍武
1418
財經
7069
健康
4963
動物
2265
教育
2887
軟體
1241
植物
348
園藝
3214
演講
368
綜合
1937
歷史
2238
職場
490
雜談
1101
藝術
1523
攝影
685
我要推薦
回上一頁
DeepSeek V4是怎么训练出来的?73页PPT深入解析
2,474
2026-04-24
49
花叔
DeepSeek V4 来了,一次发了两个模型:对标 Claude Opus 4.6 和 GPT-5.4 的 V4-Pro,以及价格只有同类 1/7 到 1/18 的 V4-Flash。两款都支持 100 万上下文,把长上下文拉进普惠时代。花叔读完 58 页技术文档,做了 73 页 PPT,一步步拆解 V4 的四个核心创新:MHC 残差连接让 1.6T 模型训练不崩、粗筛细筛让百万 token 成本只要 2%、Muon 优化器替代 AdamW、后训练改用「专家训练+全科蒸馏」新范式。但 V4 不是最强的模型,擅长做题(Codeforces 第 23 名、Putnam 满分),品位和长链工具调用上还差 Opus 4.7 一口气。这是一个本分诚实的产品。 ⏱️ 时间戳 00:00 V4 发布+73页PPT预告 ...
說明
DeepSeek V4 来了,一次发了两个模型:对标 Claude Opus 4.6 和 GPT-5.4 的 V4-Pro,以及价格只有同类 1/7 到 1/18 的 V4-Flash。两款都支持 100 万上下文,把长上下文拉进普惠时代。花叔读完 58 页技术文档,做了 73 页 PPT,一步步拆解 V4 的四个核心创新:MHC 残差连接让 1.6T 模型训练不崩、粗筛细筛让百万 token 成本只要 2%、Muon 优化器替代 AdamW、后训练改用「专家训练+全科蒸馏」新范式。但 V4 不是最强的模型,擅长做题(Codeforces 第 23 名、Putnam 满分),品位和长链工具调用上还差 Opus 4.7 一口气。这是一个本分诚实的产品。 ⏱️ 时间戳 00:00 V4 发布+73页PPT预告 02:03 Pro对标顶级,Flash是价格屠夫 05:00 擅长做题,品位差一截 07:25 1.6T MoE架构拆解 12:00 MHC残差连接防梯度爆炸 14:50 粗筛细筛读百万上下文 19:00 Muon优化器反向思路 23:00 专家训练+蒸馏新范式
11:28
【影翎A1】全球首款全景无人机,会上瘾!(深度体验)
03:21
AI換裝神器實測!一張照片變20款商品圖,電商成本省80%
07:25
滿滿人潮仍不後悔的行程!班夫旅遊精選|翡翠湖・峽谷瀑布・壯觀Takakkaw・絕美隧道山
29:48
最新Gemini自動化批量內容工作流,1天產出3個月內容,比ChatGPT更好用,批量寫文案,生影片,數字人
08:10
2026 爆紅的AI 影片對嘴工具!真人、動畫秒殺搞定!feat. Dzine AI
༺ 資料蒐集來源:
YouTube
༻
本站不需註冊加入會員,保障個人隱私,完全不用Cookei