400 128 6709

行业新闻

李沐:创业一年,人间三年

发布时间:2024-08-15点击次数:

给小伙伴汇报一下 llm 创业第一年的进展、纠结和反思。在 amazon 呆到第五年的时候就想着创业了,但被疫情耽搁了。到第 7 年半的时候,觉得太痒了,就提了离职。现在想来,如果有什么事这一辈子总要试下的,就蹭早。因为真开始后会发现有太多新东西要学,总感叹为啥没能早点开始。名字:bosonai 的来源创业前做了一系列用 gluon 命名的项目。在量子物理里,gluon 是把夸克绑在一起的一种玻色子,象征这个项目一开始是 amazon 和 microsoft 的联合项目。当时项目经理拍拍脑袋名字就出来了,但取名对程序员来说很困难,我们每天都在纠结各种文件名和变量名。最后新公司干脆就用玻色子(boson)来命名了。希望大家能 get 到 “boson 和费米子组成了世界” 这个梗时会会心一笑。但没料到很多人会看成 boston。“我来波士顿了,找个时间碰碰?” “哈?可我在湾区呀?”融资:签字前一天领投方跑路22 年年底的时候想到两个用大语言模型(llm)做生产力工具的想法。碰巧遇到张一鸣,就向他请教。讨论之后他反问:为什么不做 llm 本身呢?我的下意识退缩:我们之前在 amazon 的团队做了好几年这个,得上万张卡,和 blabla 这么一大堆困难。一鸣呵呵表示:这些都是短期困难,眼光得看长远点。我的优点是听劝,真就去做 llm 了。凑齐了数据、预训练、后训练、和架构各方向负责人的创始团队,就去融资了。运气不错,很快拿到了种子投资。但钱还不够买卡,得去拿第二轮。这一轮领头是一家非常大的机构,做了几个月文档、商讨条款。但在签字前一天,领头说不投了,直接导致了跟投的几家退出。很感激剩下的投资方,还是做完了这一轮,拿到了做 llm 的入场券。今天反思的话,当时蹭着资本市场热情还在,其实可以继续融资,说不定也跟其他友商一样,现在十亿现金在手。当时担心融资太多,会不好退出,或者被架到天上去了。现在想来,创业就是想逆天改命,想什么退路呢?机器:第一批吃螃蟹的人有了钱后就去买 gpu。问各个供应商,统一回复是 h100 交货得一年以后了。灵机一动,直接给老黄写邮件。老黄秒回说他来看下。一个小时后超微的 ceo 就打电话过来了。多付了些钱,插了个队,20 天后拿到了机器。很荣幸早早的吃到了螃蟹。螃蟹吃到怀疑人生,遇到了各种匪夷所思的 bug。例如 gpu 供电不足导致不稳定,后来靠超微工程师修改 bios 代码打上补丁;例如光纤的切开角度不对,导致通讯不稳定;例如 nvidia 的推荐网络布局不是最优,我们重新做一个方案,后来 nvidia 自己也采用了这个方案。至今我都不理解,我们就买了不到一千张卡,算小买家吧。但我们遇到的这些问题,难道大买家没遇到吗,为啥需要我们的 debug?同时我们还租了同样多的 h100,一样是各种 bug,gpu 每天都出问题,甚至怀疑是不是这个云上就我们一个吃螃蟹的。后来看到 llama 3 的技术报告说他们改用 h100 后,训练一次模型被打断几百次,对字里行间的痛苦,很是共情。如果对比自建和租卡的话,租三年成本和自建成本差不多。租卡的好处是省心。自建的好处有两个。一是三年后如果 nvidia 技术还遥遥领先,那么它能控制价格使得 gpu 仍然保值?。另一个是自建的数据存储成本低。存储需要跟 gpu 比较近,不管是大云还是小 gpu 云,存储价格都高。但一次模型训练可以用几 tb 空间存 checkpoint,训练数据存储是 10pb 起跳。如果用 aws s3 的话,10pb 一年两百万。这钱用来自建的话,可以上 100pb。商业:感恩客户,第一年收支平衡非常幸运的,我们第一年收入和支出是打平的。我们支出主要在人力和算力上,感谢 openai 的财力和 nvidia 的遥遥领先,这两项支出都挺大的?。我们的收入来源是给大客户做定制的模型。很早就上 llm 的公司大都是因为 ceo 非常有决策力,他们没被高昂的算力和人力成本吓到,果断的去推动内部团队配合尝试新技术。非常感恩客户给了我们喘气的时间,不然这个几个月我又是奔波在各个投资人那里。接下来应该会有更多公司才尝试使用 llm,不论是自己产品的升级,还是降本增效。原因是一方面技术成本在降低,另一方面行业领先者(例如我们客户)会陆续放出基于 llm 的产品出来,把行业卷了起来。我们也在关注 llm 在 toc 上的落地。上一波顶流例如 c.ai 和 perplexity 还在找商业模式,但也有小十来家 llm 原生应用收入还不错。我们给一家做角色扮演的创业公司提供了模型,他们主打深度的玩家,打平了收入和支出,也是厉害的。模型能力还在进化,更多模态(语音、音乐、图片、视频)在融合,相信接下来还会有更有想象力的应用出现。整体来说行业和资本还是急躁的。今年好几家成立一年多但融资上十亿的公司选择退出。从技术到产品就是一个很长的过程,花 2、3 年实属正常。算上用户的需求的涌现,可能得花更长时间。我们专注当下在迷雾中探路,对未来保持乐观。技术:llm 认知的四个阶段对 llm 的认知经历了四个阶段。第一阶段是 bert 到 gpt3,感受是新架构,大数据,这个可以搞。我们在 amazon 的时候也是第一时间进去做了大规模的训练和在产品上的落地。第二阶段是刚创业的时候 gpt4 了放出来,大受震撼。大半原因来自技术不公开了。根据小道消息估算一次模型训练一个亿,标数据成本几千万。很多投资人问我复现 gpt4 成本得多少,我说 3-4 亿要把。后来他们中一家真一把投了大几亿出去。第三阶段是创业的第一个半年。我们做不动 gpt4,那就想着从具体的问题出发吧。于是开始找客户,有游戏的、教育的、销售的、金融的、保险的。针对具体的需求去训练模型。一开始市面上没有好的开源模型,我们就从头训练,后来很多很好的模型出来了,降低了我们成本。然后针对业务场景设计评估方法,标数据,去看模型哪些地方不行,针对性提升。23 年年底时,惊喜发现我们的 photon(boson 的一种)系列模型在客户应用上的效果都打赢 gpt4 了。定制模型的好处是推理成本是调用 api 的 1/10。虽然今天 api 已经便宜很多,但我们自己技术也同样在进步,仍然是 1/10 成本。另外,qps,延时等都更好控制。这个阶段的认知是对于具体应用,我们是可以打赢市面最好模型的。第四阶段是创业的第二个半年。虽然客户拿到了合同里要的模型,但还不是他们理想中的东西,因为 gpt4 还远不够。年初时发现针对单一应用训练,模型很难再次飞跃。回过头想,如果 agi 是达到普通人类水平,客户要的是专业人士的水平。游戏要专业策划和专业演员、教育要金牌老师、销售要金牌销售、金融保险要高级分析师。这都是 agi 加上行业专业能力。虽然当时我们内心对 agi 充满敬畏,但感觉是避不开的。年初我们设计了 higgs(上帝粒子,boson 的一种)系列模型。主打通用能力紧跟最好的模型,但在某个能力上突出。我们挑选的能力是角色扮演:扮演虚拟角色、扮演老师、扮演销售、扮演分析师等等。24 年年中的时候迭代到第二代,在测试通用能力的 arena-hard 和 alpacaeval 2.0 上,v2 跟最好的模型打得有来有回,在测试知识的 mmlu-pro 上也没差很远。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

李沐:创业一年,人间三年

1. Higgs-V2 是基于 Llama3 base,进行了完整的 post-training。
  1. 我们无法像 Meta 那样大量标注数据,因此 V2 比 Llama3 Instruct 更好,主要归功于算法创新。
  2. 随后,我们创建了一个角色扮演评估数据集,包含基于角色和场景的扮演。
  3. 令人惊讶的是,自己的模型在自己的排行榜上排名第一。然而,模型训练中未接触过评估数据。
  4. 此评估数据集最初是为自用而设计的,旨在真实反映模型能力,避免出现过度拟合。
  5. 尽管如此,负责评估的同学还是发布了技术报告。值得注意的是,角色扮演测试样本源自 c.ai,但其模型能力却垫底。

    李沐:创业一年,人间三年

    第四阶段认知

好的垂直模型通用能力也需较强,例如推理、指令遵循等垂直所需能力。长远来看,通用和垂直模型都朝着 AGI 发展。垂直模型可偏科较明显,专业突出,通用能力尚可,研发成本较低,研发方式亦有别。

第五阶段认识

目前正在进行中,期待尽快分享。

愿景:人类陪伴

我们追求愿景为“人类陪伴的智能体”,高情商、高智商,相当于一个专业团队。例如,它能陪伴玩耍(策划 + 演员)、运动(鼓励师 + 运动教练)、学习(辅导讲授)。模型陪伴长久,深入了解用户,可“真心为用户着想”。

Android 中文API合集 chm版 Android 中文API合集 chm版

Android 中文翻译组——Android中文API合集,API文档(Reference)是Android开发的基础,三年来(2007-2010)官方仍未出中文版的API,Android中文翻译组聚一批从事Android开发人员、论坛版主、大学生、研究生等利用业余时间对Android的API进行翻译,人数从1人到80+人不断壮大,发表的译文从1篇到50篇不断增多,为的只是多一份Android中文资料,欢迎更多朋友的加入。Android中文翻译组是一个非盈利性质的开

Android 中文API合集 chm版 19 查看详情 Android 中文API合集 chm版

团队:有挑战的事情得靠团队

创业后才真正体会到团队的重要性。团队成员如螺丝,构成整辆“车”,灵活应对各种情况,承载重任。公司成立初期团队人数较少,成员都很重要,没有冗余,一人不力即可能影响整体运作。我以前选项目会选自己能主导开发的,但这也意味着问题挑战性不大。创业选择了一个很大的问题去做,只能全靠团队。本文虽大量使用“我”,但工作都是团队完成的。

个人追求:名还是利?

我根据内心声音做决定,读博、做视频、创业皆是如此。创业需要强烈动机支撑,才能克服困难。我深层的动机来自对生命可能没有意义的恐惧。我选择“上进”,提升创造价值能力;选择录视频、写教材,创造教育价值;选择写工作、创业总结,创造事例价值;选择创业,团结力量创造更大价值。

最后广告下我司的招聘信息

(湾区和温哥华)https://jobs.lever.co/bosonai
有做出海应用的小伙伴也请联系我们 api@boson.ai

以上就是李沐:创业一年,人间三年的详细内容,更多请关注其它相关文章!


# 李沐  # 产业  # 合集  # 的是  # perplexity  # llama  # 夸克  # bosonai  # 苏州网站推广运营简历  # 沁阳百度seo网站优化报价单  # 临夏短视频营销推广排名  # 昆明网站优化方法  # 亚马逊如何营销推广  # 松江区网站建设论文  # 江门定制网站建设平台  # 河南省网站推广营销  # 网站seo优化策略研究  # 福州网站建设企业哪家好  # 太多  # 中东  # 会有  # 到第  # 自己的  # 五年  # 拿到了  # 还在 


相关栏目: 【 行业新闻62819 】 【 科技资讯67470


相关推荐: 赋能金融新生态,多家银行创新应用成果亮相世界人工智能大会  从医疗康复外骨骼到通用人形机器人,傅利叶智能推动核心技术升级  云南首例达芬奇机器人微创心脏手术成功开展  苹果在韩举办首届中小企业智能制造论坛,加速推动工业4.0发展  研究表明 GPT-4 模型具备自我纠错能力,有望推动 AI 代码进一步商业化  无人机自主巡检为高海拔输电线路运维添“新彩”  650亿参数,8块GPU就能全参数微调:邱锡鹏团队把大模型门槛打下来了  吴恩达、Hinton最新对话!AI不是随机鹦鹉,共识胜过一切,LeCun双手赞成  眼球反射解锁3D世界,黑镜成真!马里兰华人新作炸翻科幻迷  利好来了,AI再起一波?  人工智能框架生态峰会即将召开,聚焦AI大模型技术与科学智能探索!  无需标注数据,「3D理解」进入多模态预训练时代!ULIP系列全面开源,刷新SOTA  国宝级文物“铜兽驮跪坐人顶尊铜像”完成模拟拼接,腾讯AI立功  “黑科技”亮相大湾区轨交论坛 智慧交通迈向“强AI”  AI数字人业务频频获点赞,谦寻积极引领示范作用  Midjourney 5.2震撼发布!原画生成3D场景,无限缩放无垠宇宙  人工智能在重症监护室的未来  人工智能快速发展 打开就业新空间  电池比 Air 2S 大 20%,大疆 Air 3 无人机现身 FCC  AI赋能艺术 超现实达利奇幻之旅在沪开启  复盘MWC上海:AI大模型时代到来 通信网络将会怎样改变?  13万个注释神经元,5300万个突触,普林斯顿大学等发布首个完整「成年果蝇」大脑连接组  移远通信率先完成多场5G NTN技术外场验证,为卫星物联网应用落地提速  猿辅导发布最新SaaS业务进展公告:Motiff UI设计工具推出三项新的AI功能  推动企业数字化转型升级!“松江智造”摘世界人工智能大会重磅奖项  统信深度deepin成立 AI SIG 社区,共同提升 Linux 下 AI 体验  东软成立魔形科技研究院,积极布局大语言模型系统工程战略,迎接AI时代  人工智能时代 数字文明对话向“尼”走来  美图第二届影像节发布七款AI影像创作工具  城市在采用人工智能方面进展如何?  食品分销跨国企业Sysco CIDO:我们的增长秘诀是以IT为中心  苹果头显降临,AI虚拟人的救星还是流星?  微软最新推出的NaturalSpeech2语音合成模型:提供更准确的语音重构,避免棒读效果  生成式人工智能如何改变云安全的游戏规则  Zoom远程会议应用:AI培训需经用户授权  如何用Transformer BEV克服自动驾驶的极端情况?  全国青少年无人机大赛重庆市选拔赛开赛 1252名中小学生参加  2025智源大会AI安全话题备受关注,《人机对齐》新书首发  ChatGPT会成为你家新的语音助手吗?  XREAL发布新款硬件XREAL Beam投屏盒子:可悬停AR空间屏  通用医疗人工智能如何革新医疗行业?  AI行业盛会大咖云集!Sam Altam、“AI教父”......一文看懂最新观点  微软推出人工智能模型 CoDi,可互动和生成多模态内容  加速电网转型升级推进新型电力系统建设  调研海尔智家:AI名,家电命?  Midjourney创始人:AI应该成为人类思想的延伸  靠游戏更靠AI 英伟达成唯一首季度两位数增长的公司  500元一张的AI艺术二维码制作,详细教程来了!  奥比中光子公司和斯坦德机器人深度合作,共同推进新一代激光雷达的研发  百度文心一言App上架苹果商店,人工智能创作引发热议 

400 128 6709
E-mail

contact@tlftec.cn

扫一扫,添加微信

©  云南淘乐房科技有限公司 版权所有  滇ICP备2025071560号  

云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司