梦晨 发自 凹非寺量子位 | 公众号 QbitAI开云(中国)kaiyun网页版登录入口开云体育
苹果&SpaceX前工程师共享o1使精心得,奥特曼、Brockman皆转发了。
划重心:
o1还是不是聊天模子了,需要全新的使用规范。


奥特曼还跑去挖坟作家Ben Hylak数天前的“自我打脸”探讨,称“不雅察o1的口碑变化、以及东谈主们学习怎样使用它很兴味”。

Ben Hylak曾任SpaceX软件工程师、VisionOS东谈主机交互筹办师,目下在创业为AI家具提供分析功绩。
具体来说,Ben在o1 pro推出满血$200/月版块的第一天就交钱了,整整测试了一天后得出论断:它的确很厄运!
每次发问皆要恭候5分钟会输出凿枘不入的建议莫得条目但老是会复兴架构图+上风/过失列表

Ben把厄运的体验发在网上后,许多东谈主示意同感。但兴味的是,也有东谈主锐利反对。
他开动与抓不同不雅点的征询,然后相识到正本是我方的规范全皆错了。
我还在把o1当聊天模子来用,但o1还是不是聊天模子了。
目下,Ben还是从愤激o1,转造成了每天皆在用它惩处最首要的问题。
像对待新职工相通对待o1
如若说o1不是聊天模子了,那它目下是什么?
Ben以为它就像一个“敷陈生成器”。如若你给它填塞的坎坷文,并告诉它你想要输出什么,它频繁会一次性找到惩处决策。
OpenAI官方其实给了一个简单的o1使用建议,但并不完善。

Ben的建议包括:
提供海量布景信息
岂论你目下是怎样看法“海量”的,再乘以10倍。
当使用GPT-4o或Claude 3.5等聊天模子时,频繁会从一个简单的问题和一些布景信息开动。如若模子需要更多布景信息,它频繁会条目你延续提供。
这等于聊天模子的骨子,从一来一趟的交互中束缚完善输出。
但o1只会从名义上回答你建议的问题,不会试图从你那儿取得布景信息。是以需要反过来将尽可能多的坎坷文主动发给它。
即使仅仅问一个简单的代码工程问题,应该提供:
阐扬通盘你尝试过但不起作用的决策一份竣工的数据库schemas阐扬一下你的公司是作念什么的,范围多大,界说里面术语
一言以蔽之,就像对待新职工相通对待o1。

形色你想要什么,而不是辅导它怎样作念
关于大大皆聊天模子,咱们皆会告诉模子但愿他怎样复兴步地,比如“饰演一位软件工程众人,请仔细想考”。
但在o1上灵验的规范正相背,告诉它你需要什么,而不是辅导它怎样去作念。
Ben把o1的教导词模板分红4部分:
宗旨放在最前边详备指定输出体式不错附加需要查验的小心事项海量关连的布景信息

终末,o1的输出有一种学术/买卖敷陈的作风。Ben以为太多的推理token让它很难开脱这种作风
他曾试图让o1来完成这篇著作,但流程屡次尝试,只可得到特殊平淡的学生功课。

One More Thing
在奥特曼的转发推文中,有东谈主套出了最新音书:
o3暂时还不会向用户盛开,o3-mini会先推出,何况技巧不远了。

o3-mini会先提供给Plus订阅用户使用,API的订价OpenAI里面还没敬佩,但不会很贵。

参考纠合:[1]https://www.latent.space/p/o1-skill-issue[2]https://x.com/sama/status/1877814065088663763[3]https://x.com/gdb/status/1878489681702310392