Skip to content

2020级-AI-郑名哲(IIP PhD@HKUST)

基本背景

本科专业: 人工智能(计算机学院)

GPA: 86.49

语言: TOEFL 94 (R 24, L 26, S 24, W 20)

申请时的Extra BG: 4段RA,2段实习,10+ projects

Research Field: Generative Models, Cross-Modality Learning, Explainable human-centric 2D/3D/Video AIGC

申请方向: Computer Vision and Machine Learning (这也会是写在diploma上的内容)

最终去向: IIP PhD @ HKUST (港科茶园,新系,自定义学位名称)

Github: https://github.com/DuNGEOnmassster

LinkedIn: www.linkedin.com/in/NormanZheng

Email: normanzheng[at]gmail[dot]com

申请时间线

2023.01-2023.09 Sec.1 2023.01-2023.03 陶瓷HKUST Prof. C,简单交流 2023.05 拿口头offer 2023.09 正式面试后被鸽,理由AIGC方向无funding

2023.09-2024.03 Sec.2 2023.09-2023.10 9月底陶瓷UofT Prof. S,开始RA,铺垫理论 2023.10-2023.11 复现RA topic的baseline与简单实验,推导新理论 2023.11 提交UofT ML PhD申请,提交全部材料 2023.11-2023.12 根据Prof. S的要求,更换base,全部推倒重建 2023.12-2024.01 推导并实现理论并debuging 2024.01 通过UofT committee审核,进入Final Round close to Offer 2024.03 Quit

2024.03-2024.05 Sec.3 2024.03 海投业界机会,收获若干橄榄枝,选择其中与NTU合作的机会 2024.03-2024.05 remote research with NTU,准备RA材料并预备25spring PhD申请 2024.05 被鸽

2024.06-2024.11 Sec.4 2024.05-2024.06 5月底陶瓷HKUST Prof. H,进入pool 2024.07-2024.08 base cuhksz进行科研与project,完成一项project 2024.09 提交25spring PhD申请,完成所有材料 2024.09-2024.11 base office,持续on-site research & engineering,完成若干kpi 2024.11 CVPR之后收获firm offer

我的故事 / 探索时间线

我的申请故事非常跌宕起伏,兜兜转转最后又回到了学术界,回到了HKUST,相比于#申请时间线#,我更愿意在这一部分展开聊聊我个人科研探索经历的时间线:

2021.09-2023.05: 梦开始的地方,跟随本校计算机学院的Prof. Z开启了最早在CV领域的研究,不过比较偏向HCI;大二上跟着一位研究生学长玩脑电相关的探索(做了个脑控树莓派小车,别管准不准,能意念遥控它跑就对了),大二下跟着另一群研究生学长们一起做眼动相关的玩具(Gaming相关),期间帮忙了2个横向,搞了1个大创(EEG+Visual疲劳监测,已开源详细介绍)1个互联网+。期间因为嫌弃目前的眼动研究太过依赖双目眼动仪设备,自己搓了一个效果不错的单目的眼动跟踪算法(可以用笔记本电脑的摄像头眼控画图,已开源),然后弄了后续好多东西都参考了我这个算法(包括IEEE Fellow Jun You的毕设),算是开始整了点好玩的东西。

2022.06-2022.07: 回深圳开启了第一段实习,Shenzhen Qianhai Paisu Technology Co., Ltd.,简单来说就是一个月时间做完并交付了一个处理毫米波雷达数据的基于LightGBM的睡眠预测系统,具体的应用场景类似:我在床上睡午觉,床下放着毫米波雷达测我的心率和体动,然后我睡醒了以后用机器学习处理我这段时间睡觉的数据,然后得到一条睡眠预测曲线,反映这段时间里每个时间我分别处于深睡/浅睡/清醒等状态,类似小米手环的功能。与跟着赵老板时候做的东西也比较契合,我写的代码也用在了他们实际的产品SleepKnow中,不过感觉还是不太有挑战性,于是有了下一段实习⬇️

2022.07-2022.09: 至今依然很庆幸当时收到了HeyGen的邀请,这家如今虚拟人领域名副其实No.1的独角兽在那时还只是一家名不见经传的小公司(诗云科技)。被他们的团队阵容和故事吸引,我在Charly的带领下在这里度过了技术突飞猛进的两个月。我开始实习的时间正好赶上他们的产品1.0研发,我为初代产品(那时还叫Movio)贡献了Multilingual Force Alignment Algorithm,也在Video-driven和Audio-driven Talking Head方面做了一些研究(有意思的是,当时我们就实现了猫猫狗狗脸说话的驱动,而业内长期停留在人脸驱动上面 因为猫狗无法做人脸识别,直到24年下半年市面上才出现了同样能够对猫狗这些非人脸进行Talking Head驱动的solution)hhhh;;;; 当时9月份中下旬不得不回校上课了,所以结束了在HeyGen的实习,这段经历奠定了我的research interest and skills,我至今依然和Charly他们保持着联系。

2022.09-2023.05: HeyGen的经历奠定了我对生成式模型的兴趣,回学校了以后,顺势跟着计算机学院的Prof. W开启了我的第二段RA,做了一些目标为paper的科研探索,方向为Super Resolution。虽然最后因为各种原因并未成功发表paper,但是这段时间里我接触了Diffusion Model,这种将分布拟合建模在隐马尔可夫链上的新颖learning方法迅速吸引了我的注意,在做Super Resolution项目的同时,我与另外一个研究目标检测(Object Detectio, OD)的朋友开始了将Diffusion用于一阶段OD的尝试,我们最后提了一种很具有超前意义的一种,将Diffusion用于广泛的视觉感知任务的通用范式(横跨Classification,Object Detection,Segmentation,Tracking等),但是最后因为实验做的太少&没什么经验的writing惨遭NeurIPS拒稿。在半年后看到CMU,北理工,甚至Kaiming He都提了类似的东西出来,只能说没挂arxiv是我们当时最大的失误,错失了先机;;;; 这期间与合作者们也发生了些许摩擦,但我以今天的心态回望,只希望每个人都能得到更好的发展,自然一笑了之。不过在AutoRegressive (+ diffusion) 开始盛行的今天(24年下半年),结合perception/understanding和generation的尝试成为新的研究热潮,还是会感慨那个时候的research sense实在是有些独到。

2023.05-2024.06: 第三段RA,是跟随年轻老师Prof. S做的科研探索,做了一些Human-centric Generative model的探索,很大的收获是在给其他人讲slides的时候好好的补了一下自己的理论基础,当时总结的学习资料会附在下文;;; 这段经历拓宽了我在学术圈内外的视野与见闻,也给我带来了极大的心理承受能力的成长,预备了PhD期间的抗压能力,让我意识到自己必须在未来的research旅途中保持健康的身体,(不过不要熬夜+健身,否则你会得到一具健康的实体)同时也认识了一些朋友;;; 犹记得老师在毕设论文中文写作上的严格要求:),也庆幸借着一个毕设的机会对基于Score Distillation Sampling的Text-to-3D进行了一个相对全面的survey,对现有方法理论表述不足之处进行了理论重整,推导,与详细定义,对自己提出方法展开了详细深入的分析与展示,同时学习参考文献中的优秀图例窥见了一些科研绘图的技巧,让我对科研的展示方式有了更深刻的理解。也算是交出了一份超标但自我满意的本科毕业答卷吧。

2023.09-2024.03: 第四段RA,远程接收Univ. of Toronto的Prof. S的指导,进行了理论加速Text-to-3D的研究。说实话这是一个难度极大的proj,横跨经典Denoising Diffusion,Diffusion理论加速(SDE/ODE角度),3D modeling,还有连接2D和3D之间的bridge,而我当时只具备一定程度的经典Diffusion的知识,不过我当时希望通过这段经历从CV转型为ML,从更theoretical的角度来入手CV的问题,但是当时非常戏剧的是,我完成了背景基础的积累、基础的复现、新理论的推导、初步的实现(不work并持续debug)后,竟然在24年1月下旬发现有人不久前把类似的idea挂到了arxiv上。更戏剧性的是,此时我已经过了UofT的committee,距离offer已经走完99%的进程只差一步之遥,idea抢发这件事情就发生在系面的前一天,于是直接导致了我痛失了UofT的offer,当然也有CA今年政策突然收紧的缘故(以及我那时并不清楚过了committee以后可以找别的老师),让我失去了持续挣扎的动力。So Quit.

2024.03-2024.05: 迷茫期,其实从1月份开始就已经在质疑自己是否适合学术研究,接二连三的打击在此时将这种自我怀疑拉到了顶峰,于是尝试去业界找机会,幸运的是,虽然在学术界处处碰壁,但是在业界寒冬的这一年,我在国内外大中厂的大模型&AIGC岗位的体验可以用横扫来形容,最后挑选了一个相对最聊得来的业界机会。然而有趣的是,当时这位mentor知道我之前想读phd,于是告诉我他们和NTU一位老师有合作,问我感不感兴趣。一来二去又变成NTU的预备RA,等待25spring入学了;结果最后非常戏剧性的展现了信息的不对称,结局就是中途一直positive到最后学校催填毕业去向的时候,突然翻脸 (业界大佬甚至都以为我已经在新加坡两个月了) 于是这条路Quit;不过好在已经历练出了大心脏,并没有太多的情绪起伏,次日凌晨默默开启了下家的陶瓷,并在早上收到了⬇️的回信。

2024.06-2024.11: Prof. H.C.Y的机会,情绪价值和资源给足,首先两个月base港中深(感谢conn的馈赠)的访问学生临时工位,做AutoEncoder相关的一些东西;然后24年9月起迁移到深圳南山区的office,做了大大小小若干demo,投了paper,然后就领了offer了。非常幸运的是,在某次meeting上Prof. Qifeng也来旁听了,对我讲的工作很感兴趣,一来二去约了1v1meeting,非常幸运得到了很多宝贵的insight和paper修改建议,Qifeng也成为了我的co-advisor。CVPR投稿结束后收到了我的official firm offer,申请季完结

经验&建议

1. 不是所有人都适合读PhD,不是所有岗位都需要一个PhD degree;如果你想找教职当然需要PhD,但如果是去业界,即便很多时候业界会把本科&硕士与PhD区分放在不同池子,PhD会带来更高的上升空间与更specific的定位,但出于同样的原因,PhD对口的岗位会更少,更要求你的研究方向与企业的需求对口,而不像UG&MS更看重潜力,做的方向随着需求调整。因此读博可以看成一场豪赌,赌你沉浸着接受学术训练的这几年会让你在一个有希望的方向深耕,接受全身心的拷打与洗礼,但也可能只是一场虚度时光的游戏。因此,不要盲目读博,但当你经过深入的全局的评估与思考后,仍然选择攻读PhD,祝福你。 2.不要把鸡蛋放在一个篮子里,尽量多多申请。同时适用于MS和PhD的申请者。虽然10043限制了许多选择,但是仍然应该给自己留足更多的选择余地。注意我指的是offer,不是申请 虽然有的时候遇到心仪的老师你可能觉得非ta不可了,但是请你一定记住,千言万语也不及事实一分说服力,白纸黑字发到邮箱的来自学院的正式邮件才是最靠谱的结果。Anyway,愿更多的学生与Prof能够下定选择后坚定的双向选择,不咕咕。 3.不要让自己的大学生活停留在GPA的一亩三分地里。首先叠层甲,尊重每个人的个人选择,仅表达个人观点。身处崇山峻岭之间,瓜大学子感到闭塞的远不止是交通不便,更在一定程度限制了多样化信息的获取,或多或少导致了许多人目光纷纷瞄准了标化的独木桥,一如重读一遍高中般应试终日,日后回味但余嗟叹。可是谁规定了你只能有一种活法? 自然年年有人脱颖于GPA,但是我们会发现离校园越远,评价体系就越多元,这一点同样体现在留学申请中。人生应当是旷野,只要当你日后想起大学时光仍然能忆起许多可圈可点的细节,便足矣。

标化准备及建议

我考的是TOEFL,因为那会儿原来想去CMU的MSCV,后面意识到10043以后把重心放在加拿大,再遭遇加拿大GG以后调整到港新;建议大家直接考雅思

Tips:我没有报课,建议大家如果想省事的话可以报个课;我自己当时调了4个TOEFL GPT针对听说读写的evaluate,感觉协助效果挺不错的。


Diffusion简单上手入门建议(中文版)

先放一篇适合新手的宝宝读物:

AIGC综述宝宝百科:https://zhuanlan.zhihu.com/p/519415802 小学二年级就能读的10min Diffusion速通:https://zhuanlan.zhihu.com/p/599887666

再来一点深入的: 先感性地比较GAN、VAE、Diffusion等:https://zhuanlan.zhihu.com/p/591881660 再理性地比较GAN、VAE、Diffusion:https://www.zhihu.com/question/536012286/answer/2671001607

再来一些进阶的: 理论进阶:https://www.zhihu.com/question/536012286/answer/2533146567 大杂烩带coding:https://zhuanlan.zhihu.com/p/607117094

最推荐的生肉,很多中文解释都抄它:https://lilianweng.github.io/posts/2021-07-11-diffusion-models/