大模型和深度学习的工作总结｜社区征文 - 文章 - 开发者社区

picture.image 前言

在 2023 年疫情早已结束的当下，时代也在飞速的发展和进步，越来越多的技术：深度学习、AI、大模型、虚拟现实VR等慢慢进入我们的生活。

基于大模型的图像去雾

在今年这个阶段，我的主要工作是研究基于深度学习的图像去雾工作。随着现代工业文明的发展进步，大气污染现象愈发严重，由此产生的雾霾天气困扰着人们的出行和工作。雾霾是导致图像模糊的最主要原因之一，受雾霾天气影响，专业的监控和遥感成像系统所拍摄的图像也无法满足相应的工作需求，并且也会有一些烟、尘、雾等漂浮颗粒影响室内图像。数字图像质量的恶化会影响各种视觉任务的执行与处理。因此需要对图像进行预处理，以降低雾霾对其成像质量的影响。有雾的图像存在对比度低、饱和度低、细节丢失、颜色偏差等问题，严重影响对图像的分析，如分类、定位、检测、分割等。所以在现在，研究图像去雾对所有研究人员有重大的意义，如何有效地将模糊环境下的退化图像还原成清晰图像已经成为了一个重要的研究工作。

大模型和深度学习技术的最新进展彻底改变了计算机视觉领域，许多领域都取得了重大进展，包括图像分类和对象检测。图像去雾也不例外，针对图像去雾开发了大量方法，并狠狠地推动了技术发展水平。比如基于大模型下的最新提出注意力机制，能够使模型能够自适应地为感兴趣的特征分配更多的权重。用浅显易懂的话来说就是对于图像去雾的效果更加理想了。一些模型引入与通道注意模块串联或并行的空间注意模块，使网络集中在雾霾难以去除的区域，能够更加彻底地去雾。

基于大模型的transformer

最近Transformer的文章看到让人眼花缭乱，但是精度和速度相较于神经网络而言还是差点意思，直到Swin Transformer的出现，让人感觉到了很大的震动，基于大模型的Swin Transformer可能是神经网络的完美替代方案。

基于大模型的Swin Transformer一经提出就轰动了整个计算机视觉领域，它将图像处理有带到了一个新的高度。可以说当今最流行的架构就是 Transformer了。 Transformer 专为序列建模和转导任务而设计，因其利用注意力来对数据中的远程依赖性进行建模而闻名。它在语言领域的巨大成功促使研究人员研究它对计算机视觉的适应，最近它在某些任务上展示了有希望的结果，特别是图像分类和联合视觉语言建模。与作为语言 Transformer 中处理的基本元素的单词标记不同，视觉元素在规模上可能存在很大差异，这一问题在对象检测等任务中受到关注。在现有的基于 Transformer 的模型中，图像都是固定规模的，这种属性不适合这些视觉应用。另一个区别是图像中像素的分辨率要高得多。存在许多视觉任务，例如语义分割，需要在像素级进行密集预测。

感受

经过2023一年的工作和学习，真是学到很多新的东西，2024继续加油！ infoq原文链接：https://xie.infoq.cn/article/becfc0bd240f6c02114c3fe1c