我相信大部分人不仅没有参与税延型养老保险,甚至可能都不知道这是什么,今天蓝心就来做一次深入科普啦,内容分为:
1,个税递延型商业养老保险是什么?
2,个税递延型商业养老保险具体政策?
3,个税递延型商业养老保险面临的主要问题?
个税递延型商业养老保险是什么通俗的讲,个人税收递延型商业养老保险,就是可以帮我们省个人所得税的一种商业养老险。借鉴的是美国实施多年的“401K”计划,利用税收优惠,鼓励个人购买商业养老保险。
用来购买税延型养老保险的钱,会在计算个人所得税之前扣除,这样要交税的钱就少了,税自然也就少了。但领取养老金的时候要补税,只是税率比较低。所以叫“税收递延”。
目前上海获批销售税延型养老保险的保险公司约6家:太平洋人寿、中国人寿、泰康养老、新华人寿、平安养老、太平养老。
获批的产品大致可以分为3类:收益确定型(A款)、收益保底型(B款)、收益浮动型(C款)。
收益确定性:类似于商业养老年金,按照3.5%左右的利率复利滚存,适合风险偏好低的人群;收益保底型:类似于万能险,提供2.5%左右的保底利率,根据投资情况月结息/季结息(目前利率有4-5%),我比较喜欢这种;
收益浮动型:类似于投资连结险,根据实际投资情况结算收益,需要风险自担,我觉得这种产品形态不太适合做养老保障;
个税递延型商业养老保险具体政策我国目前的政策是:税延型养老保险抵扣金额=月工资*6%,最高可以税前列支1000元。也就是说如果你的月收入大于1000/0.06=16666,每个月可税前扣除1000;如果工资低于16666,那就是月工资*6%。
举个例子:在上海工作的王先生,月工资18000,五险一金是3150,征税起点=5000。假设没有其他专项扣除,买不买税延养老保险的区别为:
不买,应纳税所得额:18000-5000-3150=9850,
个税= 3000*3%+6850*10%-210= 565
买,应纳税所得额:18000-5000-3150-1000=8850,
个税= 3000*3%+5850*10%-210= 465
所以王先生购买税延型养老保险每个月可以少交100元个税,但买养老保险的1000元在退休拿养老金的时候还是要交税的,目前综合税率是7.5%。
所以等王先生退休时需要补交个税为:1000*7.5%=75元,综合下来,18000工资的王先生实际省下的个税是100-75=25元,优惠力度等于他的个税税率10%-7.5%的差额,即1000*(10%-7.5%)=25元。如果一个人的个税税率低于7.5%,那么他不仅享受不到税收优惠反而会多交税。哈哈,是不是突然觉得不香了?
但税延型养老保险的重点并不是省税,而是帮我们强制存钱买养老金。如果王先生从30岁开始,每个月存1000购买养老金,60岁退休时就能每个月拿到3992元的养老金,这才是重点!
税收优惠只是手段,通过国家层面的政策引导普及养老意识,帮助中国百姓建立商业养老金以应对老龄化的风险才是目的。国际劳工组织在《社会保障最低标准公约》规定,养老金的替代率最低要达到55%(即退休后的收入/退休前收入要≥55%),才能维持退休后的基本生活质量,55%被称为国际警戒线;世界银行建议养老金替代率要≥70%,这样才能拥有比较舒适的老年生活;
而我们国家基本养老保险目前的替代率只有45%左右,已经低于国际警戒线。随着老龄化的加剧,这个比例还会越来越低,如果仅依靠基本养老保险,很可能真的要终身劳动了......
所以商业养老保险未来一定是刚需。目前税延型养老保险虽然发展了3年,但由于各种原因实际效果并理想。从下图可以看到,由于规模太小,其在整个养老体系的占比为0.00%,基本可以忽略不计。
个税递延型商业养老保险面临的主要问题导致个税递递延型养老保险发展不理想的主要原因有几个:1,我国老百姓保险意识较差,哪怕是一线城市,民众的接受度也不高;
2,税延型养老保险受众人群太少:根据国家统计局的数据,2019年1月1日个税起征点从3500上调至5000后,需要缴纳个人所得税的人群只剩6400万左右,只占总人口的4.6%。
也就是说,全国工资收入超过5000的人只有6400万。而如果要享受税延型养老保险的税收优惠,工资要达到9697元/月(这样个人所得税税率才会超过7.5%),所以受众人群一定远远小于6400万。
3,税收制度的影响:我国是以间接税为主导的国家。国家财政收入的主要来源并不是个人所得税,而是增值税、企业税、消费税等间接税种,这种税制是影响税延型养老保险发展最主要的原因。个人所得税占我国税收的比例很低,2012年仅为5.8%,不仅覆盖人群少,而且收的就不多,可以做税收优惠的力度就很有限。而首创税延型养老保险的美国,是以直接税为主导的国家,个人所得税占联邦税收的50%左右,覆盖人群广,随便优惠几个点就能省不少钱,所以非常适合推广税延型养老保险。
但发展中国家基本都是采用的间接税制,主要是为了筹集收入发展基础设施建设。所以我们国家的国情就决定了间接税为主导的税制短期内不会发展根本性的改变,所以税制对税延型养老保险的抑制作用是长期存在的。
虽然税延型养老保险刚刚起步,还有较大的发展空间,但是由于税收体制本身的影响,第三支柱-税延型养老保险基本上不可能成为养老体制的主导。
未来很长时间里,税延型养老保险对普通的商业养老保险都不会有什么优势,甚至很可能没有性价比高的普通养老年金产品划算。
需要声明的是,本文涉及到的数字及运算均基于 8位bit下的值。
最高位为符号位,0代表正数,1代表负数,非符号位为该数字绝对值的二进制表示。
如:
127的原码为0111 1111
-127的原码为1111 1111
正数的反码与原码一致;
负数的反码是对原码按位取反,只是最高位(符号位)不变。
如:
127的反码为0111 1111
-127的反码为1000 0000
正数的补码与原码一致;
负数的补码是该数的反码加1。
如:
127的补码为0111 1111
-127的补码为1000 0001
总结一下就是:
下面就来探讨一下,为啥要用补码来表示数字。
如果计算机内部采用原码来表示数,那么在进行加法和减法运算的时候,需要转化为两个绝对值的加法和减法运算;
计算机既要实现加法器,又要实现减法器,代价有点大,那么可不可以只用一种类型的运算器来实现加和减的远算呢?
很容易想到的就是化减为加,举一个生活中的例子来说明这个问题:
时钟一圈是360度,当然也存在365度,但其实它和5度是一样的;
相同的道理,-30度表示逆时针旋转30度,其与顺时针旋转330度是一样的;
这里数字360表示时钟的一圈,在计算机里类似的概念叫模,它可以实现化减为加,本质上是将溢出的部分舍去而不改变结果。
易得,单字节(8位)运算的模为256=2^8。
在没有符号位的情况下,127+2=129,即:
这时,我们将最高位作为符号位,计算机数字均以补码来表示,则1000 0001的原码为减1后按位取反得1111 1111,也就是-127。
也就是说,计算机里的129即表示-127,相当于模256为一圈,顺时针的129则和逆时针127即-127是一样的。
故可以得到以下结论:
负数的补码为模减去该数的绝对值。
如-5的补码为:
-5=256-5=251=1111 1011(二进制)
同样的,临界值-128也可以表示出来:
-128=256-128=128=1000 0000(二进制)
但是正128就会溢出了,故单字节(8位)表示的数字范围为-128--127。
最后,我们来看一下,补码是如何通过模的溢出舍弃操作来完成化减为加的!
16-5=16+(-5)=11
1 0000 1011将溢出位舍去,得0000 1011(二进制)=11。
好的,本文分享就到这里,希望能够帮助到大家。
这是一场以误差(Error)为主导的反向传播(Back Propagation)运动,旨在得到最优的全局参数矩阵,进而将多层神经网络应用到分类或者回归任务中去。
前向传递输入信号直至输出产生误差,反向传播误差信息更新权重矩阵。这两句话很好的形容了信息的流动方向,权重得以在信息双向流动中得到优化,这让我想到了北京城的夜景,车辆川流不息,车水马龙,你来我往(*॑꒳॑*)⋆*。
至于为什么会提出反向传播算法,我直接应用梯度下降(Gradient Descent)不行吗?想必大家肯定有过这样的疑问。答案肯定是不行的,纵然梯度下降神通广大,但却不是万能的。梯度下降可以应对带有明确求导函数的情况,或者说可以应对那些可以求出误差的情况,比如逻辑回归(Logistic Regression),我们可以把它看做没有隐层的网络;但对于多隐层的神经网络,输出层可以直接求出误差来更新参数,但其中隐层的误差是不存在的,因此不能对它直接应用梯度下降,而是先将误差反向传播至隐层,然后再应用梯度下降,其中将误差从末层往前传递的过程需要链式法则(Chain Rule)的帮助,因此反向传播算法可以说是梯度下降在链式法则中的应用。
为了帮助较好的理解反向传播概念,对它有一个直观的理解,接下来就拿猜数字游戏举个栗子。
这一过程类比没有隐层的神经网络,比如逻辑回归,其中小黄帽代表输出层节点,左侧接受输入信号,右侧产生输出结果,小蓝猫则代表了误差,指导参数往更优的方向调整。由于小蓝猫可以直接将误差反馈给小黄帽,同时只有一个参数矩阵和小黄帽直接相连,所以可以直接通过误差进行参数优化(实纵线),迭代几轮,误差会降低到最小。
这一过程类比带有一个隐层的三层神经网络,其中小女孩代表隐藏层节点,小黄帽依然代表输出层节点,小女孩左侧接受输入信号,经过隐层节点产生输出结果,小蓝猫代表了误差,指导参数往更优的方向调整。由于小蓝猫可以直接将误差反馈给小黄帽,所以与小黄帽直接相连的左侧参数矩阵可以直接通过误差进行参数优化(实纵线);而与小女孩直接相连的左侧参数矩阵由于不能得到小蓝猫的直接反馈而不能直接被优化(虚棕线)。但由于反向传播算法使得小蓝猫的反馈可以被传递到小女孩那进而产生间接误差,所以与小女孩直接相连的左侧权重矩阵可以通过间接误差得到权重更新,迭代几轮,误差会降低到最小。
上边的栗子从直观角度了解了反向传播,接下来就详细的介绍其中两个流程前向传播与反向传播,在介绍之前先统一一下标记。
如何将输入层的信号传输至隐藏层呢,以隐藏层节点c为例,站在节点c上往后看(输入层的方向),可以看到有两个箭头指向节点c,因此a,b节点的信息将传递给c,同时每个箭头有一定的权重,因此对于c节点来说,输入信号为:
同理,节点d的输入信号为:
由于计算机善于做带有循环的任务,因此我们可以用矩阵相乘来表示:
所以,隐藏层节点经过非线性变换后的输出表示如下:
同理,输出层的输入信号表示为权重矩阵乘以上一层的输出:
同样,输出层节点经过非线性映射后的最终输出表示为:
输入信号在权重矩阵们的帮助下,得到每一层的输出,最终到达输出层。可见,权重矩阵在前向传播信号的过程中扮演着运输兵的作用,起到承上启下的功能。
既然梯度下降需要每一层都有明确的误差才能更新参数,所以接下来的重点是如何将输出层的误差反向传播给隐藏层。
其中输出层、隐藏层节点的误差如图所示,输出层误差已知,接下来对隐藏层第一个节点c作误差分析。还是站在节点c上,不同的是这次是往前看(输出层的方向),可以看到指向c节点的两个蓝色粗箭头是从节点e和节点f开始的,因此对于节点c的误差肯定是和输出层的节点e和f有关。
不难发现,输出层的节点e有箭头分别指向了隐藏层的节点c和d,因此对于隐藏节点e的误差不能被隐藏节点c霸为己有,而是要服从按劳分配的原则(按权重分配),同理节点f的误差也需服从这样的原则,因此对于隐藏层节点c的误差为:
同理,对于隐藏层节点d的误差为:
为了减少工作量,我们还是乐意写成矩阵相乘的形式:
你会发现这个矩阵比较繁琐,如果能够简化到前向传播那样的形式就更好了。实际上我们可以这么来做,只要不破坏它们的比例就好,因此我们可以忽略掉分母部分,所以重新成矩阵形式为:
仔细观察,你会发现这个权重矩阵,其实是前向传播时权重矩阵w的转置,因此简写形式如下:
不难发现,输出层误差在转置权重矩阵的帮助下,传递到了隐藏层,这样我们就可以利用间接误差来更新与隐藏层相连的权重矩阵。可见,权重矩阵在反向传播的过程中同样扮演着运输兵的作用,只不过这次是搬运的输出误差,而不是输入信号(我们不生产误差,只是误差的搬运工(っ̯-。))。
第三部分大致介绍了输入信息的前向传播与输出误差的后向传播,接下来就根据求得的误差来更新参数。
首先对隐藏层的w11进行参数更新,更新之前让我们从后往前推导,直到预见w11为止:
因此误差对w11求偏导如下:
求导得如下公式(所有值已知):
同理,误差对于w12的偏导如下:
同样,求导得w12的求值公式:
同理,误差对于偏置求偏导如下:
带入上述公式为:
接着对输入层的w11进行参数更新,更新之前我们依然从后往前推导,直到预见第一层的w11为止(只不过这次需要往前推的更久一些):
因此误差对输入层的w11求偏导如下:
同理,输入层的其他三个参数按照同样的方法即可求出各自的偏导,在这不再赘述。
在每个参数偏导数明确的情况下,带入梯度下降公式即可(不在重点介绍):
至此,利用链式法则来对每层参数进行更新的任务已经完成。
利用链式法则来更新权重你会发现其实这个方法简单,但过于冗长。由于更新的过程可以看做是从网络的输入层到输出层从前往后更新,每次更新的时候都需要重新计算节点的误差,因此会存在一些不必要的重复计算。其实对于已经计算完毕的节点我们完全可以直接拿来用,因此我们可以重新看待这个问题,从后往前更新。先更新后边的权重,之后再在此基础上利用更新后边的权重产生的中间值来更新较靠前的参数。这个中间变量就是下文要介绍的delta变量,一来简化公式,二来减少计算量,有点动态规划的赶脚。
接下来用事实说话,大家仔细观察一下在第四部分链式求导部分误差对于输出层的w11以及隐藏层的w11求偏导以及偏置的求偏导的过程,你会发现,三个公式存在相同的部分,同时隐藏层参数求偏导的过程会用到输出层参数求偏导的部分公式,这正是引入了中间变量delta的原因(其实红框的公式就是delta的定义)。
大家看一下经典书籍《神经网络与深度学习》中对于delta的描述为在第l层第j个神经元上的误差,定义为误差对于当前带权输入求偏导,数学公式如下:
因此输出层的误差可以表示为(上图红色框公式):
隐藏层的误差可以表示为(上图蓝色框公式):
同时对于权重更新的表示为(上图绿色框公式):
其实对于偏置的更新表示为(上图红色框):
上述4个公式其实就是《神经网络与深度学习》书中传说的反向传播4大公式(详细推导证明可移步此书):
仔细观察,你会发现BP1与BP2相结合就能发挥出最大功效,可以计算出任意层的误差,只要首先利用BP1公式计算出输出层误差,然后利用BP2层层传递,就无敌了,这也正是误差反向传播算法的缘由吧。同时对于权重w以及偏置b我们就可以通过BP3和BP4公式来计算了。
至此,我们介绍了反向传播的相关知识,一开始看反向传播资料的时候总觉得相对独立,这个教材这么讲,另一篇博客又换一个讲法,始终不能很好的理解其中的含义,到目前为止,思路相对清晰。我们先从大致流程上介绍了反向传播的来龙去脉,接着用链式求导法则来计算权重以及偏置的偏导,进而我们推出了跟经典著作一样样儿的结论,因此本人觉得较为详细,应该对初学者有一定的借鉴意义,希望对大家有所帮助。
Nielsen M A. Neural networks and deep learning[M]. 2015.
Rashid T. Make your own neural network[M]. CreateSpace IndependentPublishing Platform, 2016.