楼主: 山中物多

大模型流行之下,SN-Net给出一份独特的答卷

[复制链接]

4

主题

6

帖子

13

积分

新手上路

Rank: 1

积分
13
发表于 2023-7-2 15:41:39 | 显示全部楼层
把训练supernet的成本转嫁到了训练模型簇上
回复

使用道具 举报

0

主题

7

帖子

0

积分

新手上路

Rank: 1

积分
0
发表于 2023-7-2 15:41:57 | 显示全部楼层
看完论文感觉还是没太明白是如何讲一个stitching layer缝合进去,具体操作是什么,大佬能简单讲讲吗[可怜]
回复

使用道具 举报

3

主题

7

帖子

12

积分

新手上路

Rank: 1

积分
12
发表于 2023-7-2 15:42:13 | 显示全部楼层
简单来说就是,一个网络前向传播到某个位置之后,送给stitching layer做linear projection,再把出来的feature map给下一个网络继续向前传播。
回复

使用道具 举报

2

主题

4

帖子

7

积分

新手上路

Rank: 1

积分
7
发表于 2023-7-2 15:42:58 | 显示全部楼层
可以看看我们在neurips22的工作deep model reassembly。和这篇stitchable是姊妹篇[爱]code:https://github.com/Adamdad/DeRypaper:https://arxiv.org/abs/2210.17409
回复

使用道具 举报

1

主题

6

帖子

8

积分

新手上路

Rank: 1

积分
8
发表于 2023-7-2 15:43:20 | 显示全部楼层
请问下,在推理时如何根据当前计算资源动态切换子网络呢?
回复

使用道具 举报

3

主题

7

帖子

12

积分

新手上路

Rank: 1

积分
12
发表于 2023-7-2 15:43:55 | 显示全部楼层
这个的设定需要结合系统,根据软硬件信息变化来查表更换网络推理结构,就像用户手动切换视频分辨率一样。
回复

使用道具 举报

1

主题

8

帖子

4

积分

新手上路

Rank: 1

积分
4
发表于 2023-7-2 15:44:35 | 显示全部楼层
噢,所以是無法在網絡中做到實時自適應吧?還是需要手動預先設定?
回复

使用道具 举报

2

主题

4

帖子

7

积分

新手上路

Rank: 1

积分
7
发表于 2023-7-2 15:44:44 | 显示全部楼层
模型对底层硬件是解耦的,这种设计本身使得神经网络对硬件资源变化是不可知的,比如GPU算得快慢对网络理论复杂度不会有变化。SN-Net提供了实时自适应的能力,剩下的是工程上的配合。
回复

使用道具 举报

2

主题

8

帖子

12

积分

新手上路

Rank: 1

积分
12
发表于 2023-7-2 15:44:52 | 显示全部楼层
OK 那我理解得沒錯 感謝![红心]
回复

使用道具 举报

1

主题

8

帖子

6

积分

新手上路

Rank: 1

积分
6
发表于 2023-7-2 15:45:42 | 显示全部楼层
最后推理的时候是使用缝合后的所有预训练模型吗? 这样的话好像推理代价有点大
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表