

蓝色布景,卡通虎鲸,配上“AgentHarness研发工程师”几个大字,看起来像是哪个二次元公司在招实习生。但如若你真这样想,就错过了一个时弊信号。
现时作念Harness的公司许多,比如Anthropic的ClaudeCode,以及OpenAI的Codex。
这两个居品有个共同性情,指引者皆是居品降生。
前者的首创东说念主是鲍里斯·切尔尼(BorisCherny),典型的居品司理,曾在Facebook作念过工程和居品指引。
Codex这边是亚历山大·安布利克斯(AlexanderEmbiricos),Dropbox的居品司理。
但是DeepSeek不一样,这边Harness的认真东说念主并不是什么居品司理,而是一个在JaneStreet干了9年、其后联创量化基金TSYCapital的往还系统大众——崔添翼。
这个礼聘很反学问。一般公司不管作念如何的居品,找的皆是懂用户体验、会画原型图、能趋奉需求的PM。
DeepSeek倒好,找了个会赢利的量化妙手。
但我却认为DeepSeek反而作念对了。
为什么?
因为量化往还和AIAgent的底层逻辑是一样的。
光有颖异的政策不赢利,确切把政策变成钱的,是扩充系统,是风控系统。
光有强模子也不够,确切把模子变成出产力的,是器用,是高下文。
DeepSeek不需要居品包装,也不需要进取措置,公司里面翻开天窗说亮话。
他们惟一需要的,即是跳过中间商,平直找个会赢利的东说念主,带着民众总共赢利。
01
崔添翼其东说念主
2008年,河南安阳一中的崔添翼凭借寰宇青少年信息学奥林匹克竞赛铜牌,被保送参预浙江大学筹画机学院。那一年,梁文锋还在浙大信息与通讯工程专科读研究生。
崔添翼在浙大的四年,简直是在ACM竞赛的测验和比赛中渡过的。他代表浙江大学参加ACM海外大学生递次缱绻竞赛亚洲区域赛,6次拿下金牌。
在阿谁年代,ACM竞赛圈里流传着一份课本《背包九讲》,作家恰是崔添翼。这份课本系统拆解了动态谋划中的背包问题,从01背包到富裕背包、多重背包、分组背包、依赖背包,一直到泛化物品。于今仍在GitHub上更新。

2013年毕业后,崔添翼被JaneStreetCapital香港分部聘为助理量化研究员,那时他的年薪就进取了百万东说念主民币。
JaneStreet是全球顶尖的量化往还公司,本事门槛高,口试历程严苛。
崔添翼在JaneStreet一待即是9年,从事股票和固定收益鸿沟的软件蛊惑与研究。这9年里,他构兵的不是单纯的算法题,还有真实的往还系统、风控系统、回测系统、往还管说念和畸形处理。
民众皆说量化往还即是政策,你有了政策就能赢利,但其实不是,光有政策是不成赢利的。
一个政策在回测里发扬再好,如若不成被安适扩充,价值接近于零。
确切把政策变成钱的,是扩充系统。
政策写出来以后,一般不会坐窝上真金白银,而是先放进历史行情里跑一遍,看它在昔日那些涨跌里会若何往还、临了赚不赢利。这叫回测。但回测仅仅过后模拟,跑得漂亮不等于实盘也能赢利。
系统得先看见价钱若何动,再判断要不要脱手,接着把交易提醒送出去,还得盯着往还所讲究的结尾。“成交了吗?”、“成交价是些许?”
阛阓会顿然暴涨暴跌,接口会延伸,数据会出错,政策也可能贯穿赔本。这时候系统必应知说念什么时候停手,什么时候报警,什么时候把往还割断。
阛阓没东说念主等你,延伸哪怕只须几毫秒,钱就没了。
这些东西不性感,也不会出现时学术论文里,但它们才是量化往还的中枢竞争力。
2022年,崔添翼离开JaneStreet,荟萃创办了量化往还机构TSYCapital,专注于全球股票阛阓的系统化量化往还政策。
从此以后,他就从打工东说念主变成了创业者,他不仅要懂本事,还要从零搭建整套往还系统、组建团队、措置风险、对接阛阓。
TSYCapital的团队成员相似来自各大名校,但创业的现实比在大公司打工要无情得多。2026年2月,有音信传出崔添翼离开了TSYCapital。
过了一段时候,他在LinkedIn上更新了我方的职位,加入DeepSeekHarness团队。
“又一个天才加入DeepSeek”这个事也曾没啥极新的了,因为DeepSeek根底就不缺天才。
DeepSeek找来崔添翼,自己也不是让他过来测验模子的,而是为了让他搭建Harness。
对DeepSeek来说,其实Harness即是他们的往还系统。AIAgent的底层逻辑和量化往还是一样的。
光有强模子不够,确切把模子变成出产力的,是高下文措置、器用调用、结尾扩充、测试反映、权限完毕、失败回滚。
在量化里,不成被安适扩充的政策价值即是0。在AI里,不成安全操作文献、敕令、代码的模子,也仅仅一个聊天框遣散。
崔添翼加入DeepSeekHarness团队真的切信号,是DeepSeek终于驱动补那套把“颖异”变成“扩充”的系统。
这是DeepSeek下半场的开局。
02
从模子后果到责任流进口
DeepSeek上半场的叙事,是模子后果。
V3、R1、开源、低资本、推理才略……
DeepSeek发挥了一件事,中国团队就算莫得那么多卡,也能作念出全球级模子。冲破了“只须好意思国大厂才智作念强模子”的固有融会。
但是对于用户来说,恒久皆是谁出了什么新模子,我就跑昔日用谁的模子。豆包进取DeepSeek的下载量,即是最佳的例子。
模子爆红不错带来强项的第一波流量,耐久用户鸿沟要靠居品、场景、运营和生态进口留下。字节的上风就在这里。
豆包有抖音、剪映、有SeeDance。DeepSeek虽说在模子社区里有声望,但在民众居品层面,它并莫得酿成豆包那种捏续分发和高频使用才略。
当下半场模子才略趋同期,确切的竞争会从“谁的模子更颖异”,转向“谁离用户的责任流更近”。
天然我们民风了ChatBot,然则对蛊惑者来说,聊天框并不是进口,剪辑器、结尾、代码库、CI、文档、任务系统,这些玩意才是。
ClaudeCode和Codex这类的居品,也不仅仅“帮你写代码”,而是把模子嵌进蛊惑者的浅薄操作旅途。
谁占住这个进口,谁就拿到了付费场景。
许多东说念主以为Harness的骨子是模子性能,性能越强越好。执行上迥然相异,开云足球世界杯(官方)APP下载Harness是让低廉token变得灵验的系统。
Agent烧token是事实。
几年前,言语模子处理的照旧很轻的任务,给它一段驳倒,让它判断情绪,几十个token,简直顷刻间复返。现时的编程Agent面临的是另一类任务,看竣工个代码库,找到bug,写补丁,跑测试,再考据结尾。
一次任务可能耗尽上千万token、捏续几很是钟,甚而几个小时,背后还得调用器用好几百次。
现时的GPT和Claude,骨子上是Agent开着豪车送外卖,能跑通,但资本太高了。
低廉如实不曲直常,问题是你至少得让我买得起,我才智舍得用吧?
而况哪怕是吞并个模子,换一套Harness,结尾就会富裕不同。
X上有位叫作念SayashKapoor的博主作念了一个测试。
以ClaudeOpus4.5为例,放进ClaudeCode的Harness,在CORE-BenchHard上能达到95%。换成一个朴素的HuggingFace建树,收货只剩42%。
滚球app(中国)官网下载相似的权重、相似的智能水平,单是Harness就拉开了53个百分点,这个差距照旧挺彰着的。
民众拼的也曾不是模子了,而是谁的Harness更好。一个更小、更低廉的模子,只须配上优秀缱绻的Harness,也可能击败一个大模子加鄙俚Harness。

这即是2026年通盘头部大厂皆在追求Harness的原因。你模子终究是要使用的。多买几张卡、多花点时候去测验模子,提高很小很小。但写好一个Harness,那简直是面庞全非。
AI编程也曾过了“模子会不会写代码”的阶段,现时哪还有不会写代码的模子?
确切拉开差距的处所,即是模子能不成在真实的代码库里安适干活。
Harness认真组织代码库、形貌规则、高下文选录,完毕迭代次数、重试政策,把模子的方案转成shell敕令、文献剪辑和测试扩充,再把测试失败、日记输出、浏览器截图重新喂回模子。
AIAgent是一个“念念考、手脚、反映、修正”的长轮回。这个轮回能不成跑稳,靠的即是Harness。
API价钱越低,单纯卖token赚的钱越少,这是无可争议的事实。
是以才要有Harness,去把廉价的模子包装进高价值场景。
相似100万token,用在聊天里仅仅问答,用在代码Agent里可能完成一个bug建筑、一次重构、一个功能原型。后者的付费意愿高得多。
DeepSeek需要从卖模子调用,转向卖责任流结尾。这是下半场的中枢逻辑。
03
DeepSeek的短板
DeepSeek网页端很火,APP下载量也很高,但对于模子调用这块,它是莫得蚁集渠说念的。别东说念主用它的模子跑agent,反映信息不回梁文锋那里。
这不是本事问题,这是机制问题,网页端和APP皆是ChatBot,并不成确切去跑责任流。
要想去作念Harness居品,你得有一个蚁集反映的通说念。用户在那处卡住了?哪些器用调用失败率最高?哪些场景下模子发扬不安适?
这就像一家量化公司把政策发出去了,但往还日记、成交陈述、风控记载皆在别东说念主手里。你知说念政策有东说念主用,却不知说念它到底若何赢利、若何亏钱。
蚁集不到这些信息,居品即是闭门觅句。
Harness最值钱的处所,正好就在失败日记上头。
它改错了哪一瞥?跑测试时挂在哪个报错?结尾敕令为什么失败?它有莫得重迭读吞并个文献?有莫得在高下文快满时驱动忘事?
拿到更多真实失败日记,谁就能更快知说念Agent到底差在那处。
ClaudeCode为什么能在短时候内占到GitHub公开提交量的4%?因为Anthropic不仅仅作念了一个器用,而是建立了一个竣工的反映轮回。
它把用户的每一次失败和重试,皆会变成居品迭代的数据。尤其是那些麇集失实,平直变成了ClaudeCode的新Harness。
DeepSeek现时要补的,不仅仅Harness自己,还有这套蚁集反映、快速迭代的机制。
量化里有个词叫滑点。你以为我方能在这个价钱成交,结尾真下单的时候,价钱也曾变了,中间差出来的即是滑点。
Agent里也有滑点。模子以为我方斡旋了形貌结构,结尾读错文献;以为一条敕令能跑通,结尾环境变量没配;以为补丁改好了,结尾测试挂了。
这些差距,即是模子从“想显着”到“作念成事”之间的滑点。Harness的价值,即是把这些滑点少许点压低。
还有少许,现时Agent有一个极端让东说念主头疼的问题即是“管不住”。
2026年4月,汽车租出SaaS公司PocketOS,让一个运行在Cursor里的ClaudeOpus4.6编码Agent,通过Railway调用一次API,结尾这个Agent在9秒内删除了公司的出产数据库和同卷备份,公司临了只可从三个月前的备份规复。
在量化公司,最怕的不是政策不赢利,而是政策失控。亏钱不错复盘,失控会把公司拖死。是以往还系统一定要有风控:亏到什么进度要停,出现畸形报价要停,接口延伸太高要停。
Agent也一样。它能读文献、改代码、跑敕令,才略越大,风险越大。什么敕令不成扩充,哪些目次不成碰,什么时候必须问东说念主,改坏了若何回滚。
崔添翼值钱的处所在于,他知说念什么时候该把模子摁住。

以前在居品体验这件事上,DeepSeek是不太需要费神的。模子够强,开源够快,社区天然会来。
现时不一样了。蛊惑者对编程器用的容忍度是极低的,因为他们有些东说念主会同期准备许多个编程器用,A器用不行就立时换B器用。
IvernAI在2026年4月蛊惑者打听中提到,73%的蛊惑者每每使用2个以上AI编码器用,只须27%只用一个器用。
除了居品体验之外,器用生态亦然一个大问题。
ClaudeCode背后有MCP条约、有插件系统,还有千般的Skills。这些东西不是一天建成的,是在多半次的真实使用场景里长出来的。
安适性是另一个痛点。DeepSeek爆红之后,就业器压力暴增,就比如5月28日,DeepSeek就又崩了。
对聊天用户来说,等几秒钟还能罗致。但对编程Agent来说,安适性即是人命线。任务跑到一半,你顿然告诉我说API超时了,那通盘责任皆前功尽弃了。

开云足球世界杯官方手机APP下载