聊一聊国内大模型公司,大模型面试心得、经验、感受
有着过硬的技术却无处可用是不是很苦恼呢,大家在面试时是不是也积累了一些经验呢,本文详细总结了大佬在大模型面试时的一些经验及感悟,希望对大家面试找工作有所帮助。
2023年,大模型突然国内火了起来,笔者就面了一些公司,有大厂有初创。最近挺多朋友聊大模型相关的内容,对面试也感兴趣,想这里综合写一下,也希望能和各位同行交流下。
后边会大体总结下面试的经验感悟,以及我认为要注重的内容,一家之言仅供参考。
技术交流
技术要学会分享、交流,不建议闭门造车。一个人可以走的很快、一堆人可以走的更远。
面试相关资料及代码都已上传,均可加交流群获取,群友已超过2000人,添加时最好的备注方式为:来源+兴趣方向,方便找到志同道合的朋友。
方式①、添加微信号:dkl88194,备注:来自CSDN + 加群
方式②、微信搜索公众号:Python学习与数据挖掘,后台回复:加群
1. 智元机器人(Agibot)(拒)
稚晖君那个。当时面的很早,他们好像还在一边组建团队一边搞东西,一面就是稚晖君本人,问了一些简历的经历,然后问了transformer相关的比较常见的问题比如MHA,复杂度,BERT/GPT这种。然后后边就没有收到回复,应该是挂了。这家是我开始面试的第一家,所以印象还比较深刻。和大佬交流感觉也挺顺畅,很看好他家的以及具身智能这个方向。给稚晖君大佬点赞!
2. 面壁科技/面壁智能(offer)
记得一共两面,技术上问了大模型训练,transformer相关的内容和过往经历,第二面好像就聊offer了如果没有记错。团队很年轻,大部分清华背景。当时感觉是不是有点太年轻了虽然清华背景这样子。印象里他们有说funding还是很足的。PS:包是挺大的。
3. 光年之外 (简历拒)
三月份猎头帮忙推荐的,简历拒。
4. 北京智源人工智能研究院 (消失)
一共3-4面,面试官是不同team的人,有evaluation,训练等团队。面试时总体感觉他们想招偏evaluation这边的人。面到后面记得有一次面试官鸽了约好的面试,然后后面说从新安排时间,但是猎头或者HR就没有再给后续消息了,应该是默拒了。
5. 360(简历拒)
当时猎头说要高P,P8+
6. Minimax (口头offer):
这家面试轮次挺多,具体记不清但是起码4+轮。
前几轮都是考leetcode为主,问了很少很浅的大模型的内容,记得是其中一面是让手写MHA。最后一轮和主管聊完之后被分配到了框架组的offer,和猎头问了一下算法组是不是考虑,回答是不,就没再继续接触。
PS:他家的包还是挺大的(总包说肯定到得了X+),在几家初创里都算大的,但是面试时公司的前景,业务技术方向感觉面试官没有沟通很多。主管面也是20分钟就匆匆结束了,没有交流很多信息。
7. 昆仑万维 (offer)
面试好像问了之前训练大模型的内容,比如模型参数大小,训练一些细节之类的,印象里没有leetcode。面试官记得很乐呵的一个人。当时拿到的包裹相对低一些,比其他公司。不过后边接触到猎头都说他家给的还是很可以的,所以不确定是不是自己记错了或者交流有误。
8. 云从科技 (拒)
两轮面试被拒掉了,印象很深的是第二轮面试超级长,设定1个小时面试聊了2个多小时。面试官问了很多之前的经验,大模型训练的细节之类的,模型端,框架端,之前做的研究都聊到了。感觉聊的是挺开心的,不过后边就被拒了。
9. 阿里夸克(offer)
4论面试,2轮带leetcode,然后浅浅问了相关经验,第三轮主要问了大模型的内容,比较标准的问题(transformer,训练,分布式,如何处理训练一些问题比如loss spike啥的)。第四轮是cross面,推荐组的一个大佬,感觉是象征性面试,因为之前做过搜广推问了相关问题,问了probability和脑筋急转弯,最后问一些OS的问题我不会。
几天后收到offer,和HR接触时感觉不太礼貌,交流有些摩擦。
10. 衔远(offer)
3面左右,问的也比较中规中矩。最后一面是和周伯文老师聊。他家最后给了框架的岗位,但是我相对想做模型相关。包裹挺大的。
11. 潞晨科技(Colossal-AI)(拒)
他家是做框架为主的,一面问了很多框架内容,各种模型切分方式,问的比较深,好像也问了flash-attention的内容,感觉答得还凑合。
后来我表达了想做算法端,他们算法那边确实也在招人不过hc不多,二面是算法组的人面的,问的应用端比较多,感觉可能不做基座?然后面挂了。他家在圈子里感觉框架端名声挺大的,记得公司内部之前有人发他家新闻来着。
12. 蚂蚁(offer)
徐鹏老师团队。一面记不清了,二面是徐鹏老师本人。聊了之前很多经历,大模型,搜广推,本科实习时的前后端。印象深一点是徐鹏老师表达了团队人希望模型研究和工程都要做,research和engineering不分很细,这个和我的观点很像。接下来一轮HR面就发offer了,第一年算上签字 ** 这样子。
13. 腾讯(简历拒)
猎头说要phd。
14. 小红书(简历拒)
猎头说要phd。
15. 商汤(没消息了,被拒)
一共两面,一面记得是leetcode+写MHA,感觉面得不错。二面好像答得不太好,具体问的啥忘掉了。。。后来没消息了,被拒。
16. 百川智能(拒)
猎头推的,安排了面试,第一面过了之后,后面二面我记错了时间,晚了很久(在外边开车)。然后被HR拒掉了,不过理由说的是要3年以上经验的,不知道是不是给我点面子。
17. 百度文心(offer)
这边面了好多轮。一面是数据组的人,问了很多关于大模型数据处理的内容,感觉答得一般,表达了想去模型组,然后面试官应该是和HR交流了,第二组开始就是模型组的人来面试。有没有leetcode不记得了,面试内容也比较中规中矩,transformer,大模型训练这种内容。后边和leader还有HR聊得也比较通畅。和初创不一样他家组分得挺细的,模型,框架,数据啥的都是分开的。(包裹底薪* 万多,几个月忘了)
18. 科大讯飞(拒)
HR先聊的,觉得我不可能来合肥就拒了。
19. IDEA研究院(拒)
这家确实啥也不记得了,记得的就是一面就被拒了,很尴尬。
20. 好未来(offer)
他家感觉团队整体背景在众多公司中相对一般,一面问了一个简单的leetcode没答上来很尴尬,模型轮可能比较好最后还是给offer了。问题也比较中规中矩,包裹没聊。做的项目是数学相关的GPT模型,个人也不是很了解这个方向。
21. 零一万物(拒)
一面是之前阿里的推荐系统那边的大佬,问了leetcode和一些推荐系统的问题,感觉答得还可以。二面也是个大佬有搜广推,NLP相关很多经验,考了个需要动点脑子的leetcode,没答上来,挂了。没有走到很靠后,好奇他家后边面试会不会有大模型的大佬来面。
22. 月之暗面(moonshot)(拒)
这家感觉面试问的广度和深度是国内厂面的里边最相关也最专业的。一面是个大佬,之前Kaiming大神一些高引论文的共同作者。一开始问了包括一些基础的大模型训练的内容,transformer架构。然后开始问一些框架端的内容,分布式训练的切割和device之间交流,后面follow-up的问题问了不同device之间communication怎么做,底层communication算法有啥,我答案里有ring-reduce,然后再深入问了reduce底层如何实现,我就不会了。问了会不会用cuda写东西,我说了解很浅。最后给了比较难的leetcode,题目不记得了,没写出来,挂。看了下他家主页,感觉创始人和员工都很牛。这家虽然只有一面感觉在国内应该是背景很top的一家了。很可惜没有机会多聊一些。
23. 阿里达摩院(新达摩)(offer)
一面考了leetcode,浅问了大模型技术。第二面是团队大老板,海归,之前在北美连续创业成功,汇报行癫。聊了很多高层的对于大模型技术上的愿景和理解,大模型未来市场方向之类的,我其实听不特别懂,不过学到了很多。他家是纯研究方向,算力听意思挺nb的。主要做大语言模型和多模态大模型这两方面的。最后说我一面leetcode不太行,补了一面coding,然后收到了offer。
24. 边塞科技 (拒)
这家专门做RLHF,微调的。清华背景,创始人有openai的经验。聊了两面感觉在RLHF上积累特别多,学到了很多东西。楼主RL是个票友级别就无了。
总结
这段时间面试了很多家,也学到了超级多东西。楼主这边背景是做基座预训练算法端为主的,对框架端和RL的内容有一定了解(面试能凑合),对于后端的知识比如ML compiler,kernel,cuda相关的了解就比较浅了(问到觉大概率挂)。硬件几乎不太懂。感觉一圈聊下来几点感悟:
-
大模型这方向真的卷,面试时好多新模型,新paper疯狂出,东西出的比我读的快。
-
Research岗位对工程也有要求,工程端也需要了解模型。
-
感觉比较硬核的岗位,尤其初创公司都是对好几个点都有要求的(应用,模型,框架,底层后端,硬件)。
-
楼主目前是:模型 > 框架 > 底层 > 其他。下一步想不放下模型的前提下,发展底层这边的能力(kernel等)
-
目前市场还看不太清,楼主对市场之前不太关注,也不感兴趣,技术宅。
-
RLHF很有前景的方向,强化学习如果经历够的话也要深挖一下。
-
大模型包总体给的相对高一些(同P)。
-
目前大多数公司还是集中在语言模型,偏研究的方向会有多模态的预训练这意思。
考点
一些比较高频的东西(针对基座算法/框架岗位为主,大体按重要性排序):
-
多头注意力,频率太高了。coding轮,概念轮都考。复习的点包括:时间/空间复杂度,优化(kv-cache,MQA,GQA),手写多头代码。各种Norm,这个频率也不低,不过比较标准的内容,没有啥特意要说的,有的考手写,有的考概念和理解(为什么管用)。
-
框架相关内容,各种并行方式,优缺点。DeepSpeed,Megatron可以看看源代码,Flash-Attention等内容。这个点也经常考代码题。
-
BERT,GPT等比较主流大模型,一些细节,比如位置编码,训练loss,激活,架构些许不同这种。自回归重点。
-
大模型训练,这个可能主要是工作经验相关,经常问比如训练loss炸掉了,如何解决,一些技巧之类的。面试时有些面试官会问一些很细节的东西,感觉是在确认确实上手跑过基座训练不是吹水。
-
数据预处理,BPE,tokenization,mask相关概念和对模型/训练影响,数据配比(有paper)。
-
evaluation,如何评估大模型,安全性,有效性,公开数据,个别考过手写eval框架(多选,生成)。
-
根据投的岗位,多模态和RLHF内容可以适当看看。这俩感觉paper挺重要的,也大多研究岗位。楼主也少面了一些自动驾驶,RL啥的,不过结果不咋地。
PS:有些非基座相关的或者实在没啥印象的就没写。
还有几家背景和面试感觉特别好的公司,不过猎头特别说了要保密,不方便发,如果有朋友想了解的话可私信。
底层牛的小伙伴求留言给一些学习资料,编译器,cuda之类的,想有时间学起来。
相关文章:
聊一聊国内大模型公司,大模型面试心得、经验、感受
有着过硬的技术却无处可用是不是很苦恼呢,大家在面试时是不是也积累了一些经验呢,本文详细总结了大佬在大模型面试时的一些经验及感悟,希望对大家面试找工作有所帮助。 2023年,大模型突然国内火了起来,笔者就面了一些…...
【分布式微服务】feign 异步调用获取不到ServletRequestAttributes
公司调用接口的时候使用feign,但是服务之间还是使用了鉴权,需要通过RequestInterceptor 去传递uuid 概念 OpenFeign是一个声明式的Web服务客户端,它使得编写HTTP客户端变得更简单。在使用OpenFeign进行异步调用时,你可以通过配置来实现。但是,如果你在配置或调用过程中遇…...
c#编程里面最复杂的技术问题有哪些
C#编程中最复杂的技术问题通常涉及高级主题和复杂的应用场景。以下是一些可能被认为是C#编程中最复杂的技术问题: 1. **多线程和并发编程:** 处理多线程和并发问题涉及到锁定、线程同步、死锁避免、线程安全性和性能优化等方面的知识。编写高效且线程安…...
github代码提交过程详细介绍
1、下载github上面的代码 (1)在github网站上,找到想要下载的代码仓库界面,点击Code选项就可以看到仓库的git下载地址; (2)使用命令下载:git clone 地址; 2、配置本地git…...
Linux -- 使用多张gpu卡进行深度学习任务(以tensorflow为例)
在linux系统上进行多gpu卡的深度学习任务 确保已安装最新的 TensorFlow GPU 版本。 import tensorflow as tf print("Num GPUs Available: ", len(tf.config.list_physical_devices(GPU)))1、确保你已经正确安装了tensorflow和相关的GPU驱动,这里可以通…...
Mendix中的依赖管理:npm和Maven的应用
序言 在传统java开发项目中,我们可以利用maven来管理jar包依赖,但在mendix项目开发Custom Java Action时,由于目录结构有一些差异,我们需要自行配置。同样的,在mendix项目开发Custom JavaScript Action时,…...
自定义hooks之useLastState、useSafeState
自定义hooks之useLastState、useSafeState useLastState 在某些情况下,可能需要知道状态的历史值,例如,希望在状态变化时执行某些操作,但又需要访问上一个状态的值,以便进行比较或其他操作。自定义 React Hook 可以帮…...
前端判断: []+[], []+{}, {}+[], {}+{}
本质: 二元操作符规则 一般判断规则: 如果操作数是对象,则对象会转换为原始值如果其中一个操作数是字符串的话,另一个操作数也会转换成字符串,进行字符串拼接否则,两个操作数都将转换成数字或NaN,进行加法操作 转为原始数据类型的值的方法: Symbol.ToPrimitiveObject.protot…...
el-input-number/el-input 实现实时输入数字转换千分位(失焦时展示千分位)
el-input-number/el-input 实现实时输入数字转换千分位(失焦时展示千分位) 我把封装指令的代码放在了main.js,代码如下 // 金额展示千分位 Vue.directive("thousands", {inserted: function(el, binding) {// debugger// 获取input节点if (el.tagName.toLocaleUppe…...
一篇博客学会系列(2)—— C语言中的自定义类型 :结构体、位段、枚举、联合体
目录 前言 1、结构体 1.1、结构体类型的声明 1.2、特殊的结构体类型声明 1.3、结构体的自引用 1.4、结构体的定义和初始化 1.5、结构体成员变量的调用 1.6、结构体内存对齐 1.6.1、offsetof 1.6.2、结构体大小的计算 1.6.3、为什么存在内存对齐? 1.7、…...
KongA 任意用户登录漏洞分析
KongA 简介 KongA 介绍 KongA 是 Kong 的一个 GUI 工具。GitHub 地址是 https://github.com/pantsel/konga 。 KongA 概述 KongA 带来的一个最大的便利就是可以很好地通过UI观察到现在 Kong 的所有的配置,并且可以对于管理 Kong 节点 漏洞成因 未设置TOKEN_SECRE…...
吉力宝:智能科技鞋品牌步力宝引领传统产业创新思维
在现代经济环境下,市场经济下产品的竞争非常的激烈,如果没有营销,产品很可能不被大众认可,酒香也怕巷子深,许多传统产业不得不面临前所未有的挑战。而为了冲出这个“巷子”,许多企业需要采用创新思维&#…...
【IPC 通信】信号处理接口 Signal API(1)
收发信号思想是 Linux 程序设计特性之一,一个信号可以认为是一种软中断,通过用来向进程通知异步事件。 本文讲述的 信号处理内容源自 Linux man。本文主要对各 API 进行详细介绍,从而更好的理解信号编程。 信号概述 遵循 POSIX.1,…...
使用GDIView排查GDI对象泄漏导致的程序UI界面绘制异常问题
目录 1、问题说明 2、初步分析 3、查看任务管理器,并使用GDIView工具分析 4、GDIView可能对Win10兼容性不好,显示的GDI对象个数不太准确 5、采用历史版本比对法,确定初次出现问题的时间点,并查看前一天的代码修改记录 6、将…...
蓝桥等考Python组别一级001
第一部分:选择题 1、Python L1 (15分) 下面哪个不是Python的编程环境?( ) Python在线编程IDLEPyCharmScratch正确答案:D 2、Python L1(15分) 世界上第一台通用电子计算机ENIAC是在( )诞生的。 美国英国日本德国正确答案:A 3、Python L1(20分) 关于P…...
Unity之Hololens2开发 如何接入的MRTK OpenXR Plugin
一.前言 什么是Hololens? Hololens是由微软开发的一款混合现实头戴式设备,它将虚拟内容与现实世界相结合,为用户提供了沉浸式的AR体验。Hololens通过内置的传感器和摄像头,能够感知用户的环境,并在用户的视野中显示虚拟对象。这使得用户可以与虚拟内容进行互动,将数字信…...
Ubuntu系统Linux内核安装和使用
安装: 检查树莓派Linux版本,我的是6.1 uname -r 内核下载链接: Raspberry Pi GitHub 找对应版本下载 导入之后,解压安装即可 unzip linux-rpi-6.1.y.zip 其他内容 treee 指令安装 sudo apt-get install tree 使用这…...
数学术语之源——群同态的“核(kernel)”
1. “kernel”这个术语在群论中的起源 Ivar Fredholm 在 1903 年的第27期Acta Math 数学学报发表的一篇关于“积分方程(INTEGRAL EQUATIONS)”的著名论文(“关于一类函数方程(Sur une classe des quations fonctionnelles)”)中使用了法语“noyau(核)”(365-390页)。 David …...
defcon-quals 2023 crackme.tscript.dso wp
将dso文件放到data/ExampleModule目录下,编辑ExampleModule.tscript文件 function ExampleModule::onCreate(%this) { trace(true); exec("./crackme"); __main("aaaaaaaa"); quit(); } 然后点击主目录下的Torque3D-debug.bat就可以在生成的c…...
前端开发 vs. 后端开发:编程之路的选择
文章目录 前端开发:用户界面的创造者1. HTML/CSS/JavaScript:2. 用户体验设计:3. 响应式设计:4. 前端框架: 后端开发:数据和逻辑的构建者1. 服务器端编程:2. 数据库:3. 安全性&#…...
算法练习4——删除有序数组中的重复项 II
LeetCode 80 删除有序数组中的重复项 II 给你一个有序数组 nums ,请你 原地 删除重复出现的元素,使得出现次数超过两次的元素只出现两次 ,返回删除后数组的新长度。 不要使用额外的数组空间,你必须在 原地 修改输入数组 并在使用 …...
【C++进阶(六)】STL大法--栈和队列深度剖析优先级队列适配器原理
💓博主CSDN主页:杭电码农-NEO💓 ⏩专栏分类:C从入门到精通⏪ 🚚代码仓库:NEO的学习日记🚚 🌹关注我🫵带你学习C 🔝🔝 栈和队列 1. 前言2. 栈和队列的接口函数熟悉3. …...
linux opensuse使用mtk烧录工具flashtool
环境 linux发行版:opensuse leap 15.5 工具:SP_Flash_Tool_Selector_exe_Linux_v1.2316.00.100.rar 或其他版本 目标:mtk设备 下载链接 https://download.csdn.net/download/zmlovelx/88382784 或网络搜索。 使用 opensuse可直接解压后使…...
Visio如何对文本打下标、上标,以及插入公式编辑器等问题(已解决)
解决这个问题的本质问题,就是在Visio中插入公式编辑器(这不是visio的常用命令,需要添加)。 打开Visio--》文件--选项 点击选项,弹出对话框。在自定义功能区中,点击 常用命令,在下拉选项中&#…...
快速将iPhone大量照片快速传输到电脑的办法!
很多使用iPhone 的朋友要将照片传到电脑时,第一时间都只想到用iTunes 或iCloud,但这2个工具真的都非常难用,今天小编分享牛学长苹果数据管理工具的照片传输功能,他可以快速的将iPhone照片传输到电脑上,并且支持最新的i…...
TCP/IP协议簇包含的协议
应用层(Application Layer): HTTP(Hypertext Transfer Protocol):用于Web浏览器和Web服务器之间的通信。HTTPS(Hypertext Transfer Protocol Secure):安全的HTTP版本&…...
天地图绘制区域图层
背景: 业务方要求将 原效果图 参考效果图 最终实现效果 变更点: 1.将原有的高德地图改为天地图 2.呈现形式修改:加两层遮罩:半透明遮罩层mask区域覆盖物mask 实现过程: 1.更换地图引入源 <link rel"style…...
git权限不够:Ask a project Owner or Maintainer to create a default branch
新仓库还未创建任何分支时,Developer角色时首次提交代码,抛如下异常 remote: GitLab: remote: A default branch (e.g. master) does not yet exist for galaxy/apache-jspf-project remote: Ask a project Owner or Maintainer to cre…...
AI在材料科学中的应用
7 AI在材料科学中的应用 在这一部分,我们将讨论AI技术在材料科学中的应用。首先,我们将介绍晶体材料的概述,并详细定义晶体材料的物理对称性,具体在第7.1节中讨论。接下来,我们将在第7.2节和第7.3节中讨论两个常见且基…...
VSCode快速设置heder和main函数
快速设置header: 点击左侧的齿轮,选择User Snippets: 在出现的选择框中输入python,选择python.json 在最外层的{ }内部添加以下内容 "HEADER": {"prefix": "header","body": ["# -*- encoding:…...
那个网站做调查问卷能赚钱/北京seo公司工作
在工程目录下创那一个路径为:com.oid.internal.telephony.ITelephony.java的接口文件 ITelephony.java内空 package oid.internal.telephony; interface ITelephony { boolean endCall(); void answerRingingCall(); } 创建好后,系统会自动在…...
网站设计行业吃香么/营销型网站的特点
K线、订单簿 技术指标:均线MA、MACD、KDJ CAPM: alpha、beta, sharpe 回测 滑点、回撤 K线、订单簿转载于:https://www.cnblogs.com/captain-dl/p/10106500.html...
网站如何做滚动效果/郑州seo建站
第一招、MysqL服务的启动和停止net stop MysqLnet start MysqL第二招、登陆MysqL语法如下:键入命令 MysqL -uroot -p, 回车后提示你输入密码,输入12345,然后回车即可进入到MysqL中了,MysqL的提示符是:注意&…...
国家 住房城乡建设信用 网站/微信营销号
ylbtech-开发框架:目录1.返回顶部 1、https://adminlte.io2、2.返回顶部3.返回顶部4.返回顶部5.返回顶部 6.返回顶部作者:ylbtech出处:http://ylbtech.cnblogs.com/本文版权归作者和博客园共有,欢迎转载,但未经作者同意…...
有哪些做批发的网站/域名查询 站长查询
以织梦官方站为例,我们采集站长学院下的PHP教程栏目,打开列表地址http://www.dedecms.com/web-art/PHP_jiaocheng。 登录后台,进入“采集节点管理”,新建一个节点,选择内容模型为“普通文章”。1.设置节点基本信息先填…...
成品网站安装/最近新闻大事
SPI是一种总线协议。 总线,一个主设配(FPGA)只用三四个引脚和n个从设备进行通信。 例如FPGA通过SPI配置SI4133频综模块。 spi是一种通信协议。但是有时候我们看到对spi进行配置,配置什么时钟极性(cpol)时钟…...