Page 1 of 1

是的我们发现我们的研究方向在某

Posted: Sun Feb 16, 2025 8:38 am
by samiul12
博士毕业后我做了一个很大的转变进入了 计算机视觉领域与我的同事们一起研究如何预测物体的 形状。后来我对通过 数据学习 结构的想法产生了浓厚的兴趣。 我们讨论数据时常会提到获取 数据很难但实际上 图像是 世界的投影这里有很多可以利用的数学结构。


即便你有大量的 数据你也可以通过这些数学结构推导出 世界的结构。 年是一个突破性时刻。我们的共同创始人 h 提出了 (神经辐射场)方法。 这是一种非常简单、清晰的方式可以通过 观测推导出 结构点燃了整个 计算机视觉领域。





与此同时 也开始崭露头角。很多语言建模的工作实际上在学术界已经发展 土耳其电话号码列表 了很长时间。即使在我的博士阶段我也与 j Kh 在 年进行了一些语言建模工作。 这其实是出现在 之前的事情但到了 - 的时代你在学术界已经很难再做这样的模型了因为它们需要的计算资源太大了。


然而有趣的是 提出的 方法只需要在单个 上训练几个小时。 这让很多学术研究者开始重新聚焦于这些问题因为可以在有限的计算资源下解决一些核心算法问题而且你可以在单个 上获得最先进的成果。


所以当时很多学术研究者都在思考:我们如何通过核心算法来推动这个领域的发展?我和-聊了很多我们都非常确信这一点。
种程度上正朝着相似的目标前进。


我还想讲述一个很有趣的技术问题或者说一个关于像素的技术故事。 很多从事语言研究的人可能不知道在生成 时代之前我们这些从事计算机视觉领域的人实际上有一个很长的历史叫做 重建的研究。


这可以追溯到上世纪年代你可以通过拍摄照片——因为人类有两只眼睛所以可以用立体照片来尝试三角测量构建 形状。然而这是一个非常难的问题至今尚未完全解决因为存在匹配问题等复杂情况。


这个领域有着长期的进展但是当 和生成方法结合尤其是在扩散模型的背景下 重建与生成突然开始融合。


在计算机视觉领域内我们突然发现如果我们看到某个东西或者想象某个东西二者都可以汇聚到生成它的方向。