03-大模型的非线性变化:从MLP到MOE,大模型2/3的参数都在这里
为什么需要非线性变化? 在前面的章节中,我们学习了注意力机制和位置编码。但如果仔细观察,你会发现一个问题: 注意力机制全是线性变换! 回顾注意力计算: $$ \\begin{aligned} Q &=
为什么需要非线性变化? 在前面的章节中,我们学习了注意力机制和位置编码。但如果仔细观察,你会发现一个问题: 注意力机制全是线性变换! 回顾注意力计算: $$ \\begin{aligned} Q &=
开篇:两个误解,一个真相 Nop平台(官网:https://nop-platform.github.io/) 是一个基于可逆计算理论从零开始构建的新一代低代码开发平台。它的核心理念是通过DSL(领域特
大家好,我是汤师爷,南京大学硕士,前华为、阿里 AI架构师。 全网10万粉AI博主,2本畅销书作家(第3本写作中)。 目前专注AI智能体,致力于帮助100W人用智能体创富~ GitHub史上增长最快的
在开发 AI Agent 时,AI 难免会“翻车”——比如在修改代码、编辑文件时写出错误的逻辑,或者直接把原本正常的代码改坏了。这时候,如果能有一个“后悔药”或者“时光机”,一键让文件恢复到 AI 修
深入解读 Claude HUD,一个为 Claude Code 设计的实时状态栏插件,在终端输入框下方常驻展示上下文用量、工具活动、子代理状态与 Todo 进度,无需额外窗口或 tmux
?2026年 「寻找年味」 沸点活动正式落幕啦! 这个春节,我们在沸点里看见了无数动人瞬间:有故乡的烟火,有团圆的温柔,也有坚守岗位的专注与光芒。 每一条沸点,都是最真实、最可爱、最有温度的新年风景。
淘天客户运营团队基于阿里云 Hologres 构建了一套融合向量检索与全文检索的一体化解决方案,并已在多个业务场景中取得显著成效。
我们正站在软件开发范式变革的关键节点。2026年,AI已从编程辅助工具演进为贯穿开发全链路的智能体系,从代码生成到安全审计的完整工具链正在重塑软件工程的面貌。这场变革不仅关乎效率提升,更涉及安全范式、
经常看我视频和文章的同学应该会发现,我偶尔会用动漫风格的插画来做配图,帮大家理解知识点。今天就来跟大家说说,这些图片怎么完成的吧!
LangChain是一个用于构建由 LLM 提供支持的代理和应用程序的框架。LangChain 是⼀个开源框架,它允许开发⼈员将像通义千问、DeepSeek这样的⼤语⾔模型与外部的系统和数据源结合起来
经过近期作者在本地PC上搭建和试用OpenClaw后有一些思考和改进的想法, 目前OpenClaw的能力较大范围的受限于当前的架构和设计。可以通过UI-TARS增强OpenClaw的能力,扩展其边界。
我们提出面向 Java Agent 的端到端在线训练方案,以 AgentScope Java + Trinity-RFT 为核心,构建一条高效、安全、可落地的持续优化路径。
学习通是常用的学习工具,可以随时进行学习,找到你需要的资源,跨平台就能在线学习,了解学习的进度,但是很多小伙伴找不到入口在哪,下面就分享给大家。学习通网页版登录
点击阅读