量子位:介绍一下RockAI的创立背景吧,当时为什么选择做非Transformer架构?黑料不打烊 刘凡平:RockAI成立的工商登记的时间是2023年6月,但其实我们很多年前就在做这些事情了,当时ChatGPT还没有火。 我最早在2016、2017年研究Attention机制时就认识到Transformer存在很多问题。2022年初创业时,我们就坚定走非Transformer路线,主要是因为意识到Transformer又耗算力又耗数据。黑料 在此之前,我们其实也探索过Transformer架构的优化方向,做了线性Attention等改进,但发现这些都没有解决根本问题,所以索性放弃,直接走非Transformer这条路。
|