在第五届字节跳动奖学金颁奖典礼上,字节跳动技术副总裁杨震原分享了字节跳动自2014年以来在技术领域的一些探索历程。
杨震原表示自己是一个技术爱好者,2014年加入字节跳动之后,从最初负责搭建新的推荐系统开始,到现在已经有快12年了,他也一路参与了字节很多的技术探索。
多数人对字节跳动的了解集中在抖音、今日头条、TikTok等产品上,但杨震原分享了诸多外界不熟悉的技术探索。
以下为界面新闻整理的分享要点:
2014年:第一版机器学习与推荐系统就定了一个非常激进的目标
2014年,工业界最大规模的机器学习系统,是搜索广告中已经成熟使用的大规模离散LR(Logistic regression)。把这套原理用在推荐系统上,挑战可不小。那时同时熟悉大规模软硬件工程和机器学习的人不多,而且,除了能够挣到很多钱的搜索广告会使用;其他领域,大家都不愿意花这么大的硬件成本去做计算。
我们第一版就定了一个非常激进的目标:计划2014年做到万亿(T)级别的特征规模。这里有非常多的挑战,比如系统建模,处理好推荐的优化目标。工程上,存储和计算是最前期的门槛。另外我们也要做好算法的优化。
14年底,我们逐渐引入了FM类算法,后来演化成了更通用的deep learning体系。而且从我们上线的第一天,它就是一个streaming training的系统。
到今天,我们发现streaming更新(training only)的、较浅层的神经网络算法在推荐中依然有着不错的效果。它可能和现在test-time training中的一些问题相关,也许是更近似RNN的一个实现。
2020年:科学计算的探索
大概2019 年底到2020 年,我们讨论过一次,未来AI还能够怎么发展,如何在全社会发挥更加重要的价值?
当时的思考是,只有很大规模的有价值的数据,才能够产生足够有价值的模型和算法。线上世界,推荐、搜索、广告是主流应用。那么,还有什么场景能够产生很多有价值的数据呢?显而易见是现实世界。但现实世界的数据搜集与应用会比较复杂,涉及到无人车、机器人等领域。除了现实世界,我们还想到一点,那就是科学计算。
从2020年开始,我们在第一性原理计算上持续投入。这个领域早期代表性的工作是DeepMind的FermiNet等,2019 年我们几个人在会议室里就讨论过这项工作。这个领域叫做NNQMC(神经网络量子蒙特卡洛方法)。QMC 是量子蒙特卡洛,根据变分原理,任何试验波函数计算得到的系统能量总是大于或等于真实基态能量。于是,我们就可以用神经网络去表示一个波函数,然后,在这个波函数上进行采样并计算系统能量。然后,我们就可以按照能量更小方向的梯度去更新神经网络,最终得到一个更优的波函数表示。