1周前
深度学习十年不变的老零件,终于被中国团队换掉了
2015年何恺明提出的残差连接,通过让信息跳过中间层直接传递,解决了深度神经网络的梯度消失问题,此后成为AI模型的标配。2025年DeepSeek团队推出mHC(流形约束超连接),成功突破了这个沿用十年的架构。mHC将单通道升级为多通道设计,并引入双随机矩阵约束,确保信号在不同通道间公平分配,避免了超连接中信号失控的问题。实验显示,60层叠加后信号放大倍数从3000倍降至1.6倍。通过合并操作等工程优化,DeepSeek解决了多通道带来的内存访问量激增问题,为深度学习架构创新提供了新方向。
3周前
GPT-5.1为何"起了个大早,赶了个晚集"?
2025年下半年,大模型竞争激烈,OpenAI的GPT-5.1在多项评测中落后于谷歌Gemini 3 Pro等对手。其落后原因在于战略调整:OpenAI为应对竞争压力,缩减了预训练计算投入,转而侧重后训练优化,并引入了创新的“推理时推理”机制以提升复杂任务表现。然而,这种策略导致模型基础“底子”相对薄弱,且在追求推理能力时可能牺牲了其他方面的表现。相比之下,竞争对手通过持续投入海量数据和扩大模型规模,在多模态和实时信息处理上建立了优势。
1月前
彩虹在网络世界的光谱:一场关于可见与隐匿的博弈
近年来,社交媒体上LGBTQ+内容显著增多,呈现“可见却受限”的矛盾状态。以Z世代为主的年轻群体积极创作和传播相关内容,推动了文化可见度。然而,全球主要社交平台在保护LGBTQ+用户方面普遍不及格:一方面对仇恨言论审核不力,另一方面却对正当内容过度限制,实施“粉色影子禁令”。在中国,相关表达通过耽美文化等亚文化形式进行“地下繁荣”,在严格审查下以隐晦方式生存。公众态度呈现代际分化,商业世界则在包容营销与规避风险间摇摆。这场围绕可见性、包容性与限制的博弈仍在持续。