在之前的一篇文章《DS关系的建立》中我曾提到:
Dom真正需求的,除了对sub的完全掌控、绝对占有外,对sub的改良、治愈才是更大的“享受”。这个过程更像“雕刻”,就对Dom这个角色而言,看着自己的sub越来越好,无疑是对其人格最大的肯定。
这一阶段,Dom对sub调整、管教,进行一定程序上的行为指导。
Dom对sub所做的行为指导,也可以看作一种行为矫正。
行为矫正(Behavior Therapy/Behavior Treatment)是心理治疗的一种方法,是指通过学习心理学原理,特别是条件反射规律,如强化消退、示范等,帮助心理与行为异常者改变异常的行为,形成新的适应性行为的一种方法。
行为治疗专家认为人与其他动物相似,我们自从出生就具有学习能力,而且遵从着万物都相似的学习原理。适应性行为是通过强化和模仿而习得的。所以在心理障碍中表现出的异常行为是可以通过基本条件作用原理、学习原理及观察学习而得到矫正的。
在D/s关系中,由于Dom和sub之间存在权利上的交换,如果Dom懂得这一点,在其对sub的管教过程中,行为矫正训练法可以得到最有效的实行。

首先申明:
- 此篇文章只是一些理论方法在D/s关系中的实践应用,不会盲目推崇D/s在行为矫正方面的优势性,当然此文章也并非治疗心理疾病的医疗建议。如果sub有抑郁症、比较严重的精神问题,请前往医院或精神卫生中心就诊,让更专业的心理医生来制定解决方案。
- D/s关系中的行为矫正,对Dom的要求非常非常高,要Dom自身懂行为心理学,要了解精神分析,还需要有专业的督导经验,不是看几本基础心理学书籍就可以随便对sub进行行为指导的。但如果Dom有经验,控制欲又非常的强,这种方法对需要纠正、强化某些行为的sub来说,效果却是立竿见影的。
- 需要注意的是行为矫正中的“矫正”,并不是改变sub的特质、属性,而是改变和消除不好的行为习惯和心理状态,比如在建立亲密关系过程中sub可能会出现的回避型人格或缺乏安全感等。
在D/s关系中如何对sub进行行为矫正?
行为强化:
强化(Reinforcement),是行为心理学中的一个重要概念,它是关于理解和修正人的行为的一种学说。 心理学研究发现,人类或动物为达到某种目的,会于所处的环境下采取特定行为;当这种行为带来的某种反应或后果对他有利时,这种行为就会在以后重复出现,而该结果就称为“强化物”;当其行为会对他带来不利时,这种行为就自然减弱或消失,个体对行为结果所产生的后续反应,就是以操作性条件反射进行的。而由于“强化物”的适时出现,增加了个体以后在相同情形下重复这种行为的概率,这表示“强化物”对于个体的反应起了强化作用。此种强化作用,即称之为“强化”。
举一个简单的例子,在DS中,如果sub表现的很乖,她会得到Dom的呵护和疼爱,那么sub就会变得越来越乖,Dom给的正向反馈可以称之为“强化物”,会强化sub“乖”的行为。
下面我们对“强化”稍做深入研究:
正强化与负强化:
正强化,也称积极强化、正向强化发生于一件渴求中的事或物作为一种结果而呈现,这一结果刺激了这一渴求。在进行某个行为之后,增加对象喜爱的(通常是愉快的)刺激,并使该行为的出现频率增加。
我们刚刚举的例子就属于正强化,因为Dom给的呵护和关爱会令sub感到愉悦。
负强化,是指在进行某个行为之后,减少对象厌恶的(通常是不愉快的)刺激,并使该行为的出现频率增加(注意不是使该行为减少)。
举一个简单的例子,sub忘记给Dom报备某件重要的事情而让Dom担心和生气,sub以后为了避免前述情况的发生而记得时刻报备。此处,Dom的担心和生气是sub想要避免的事件,因而负强化了sub报备的行为。
负向强化有两种形式:第一种是逃脱制约,指令人厌恶的刺激出现,而作出行为去减少这些厌恶的刺激,例如阻止抓痒(TK爱好者除外)。另一种则叫回避制约,指在目标为了避免出现厌恶刺激的行为,比如上面的例子,为了避免Dom生气而记得时刻报备。
惩罚:
惩罚是指用来减少、减慢、移除不想要的某些行为,这类技巧叫做行为减少器(behavior decelerator),注意被惩罚的是某种行为而不是被惩罚者本身(这一点我在《规训的作用》中有详细说明)。
正向惩罚,又称第一型惩罚[1],实验者在环境中增加令人厌恶的刺激,以对行为进行惩罚。例如在某个行为之后,以sp作为刺激,造成该行为出现频率减少。
负向惩罚,又称第二型惩罚[2],也叫做omission,是将环境中的正向强化减少。例如在sub进行某个行为之后,以拿走sub经常搂着睡觉的毛绒玩具作为刺激,造成sub进行该行为频率的减少。
与强化一样,辨认一个惩罚不需要经常提到它的正向或负向。区分两种惩罚可以根据是否引入一个新的事物(第一型惩罚),如责骂、sp,或移除已有的东西事物(第二型惩罚),如拿走sub的小熊。另外,惩罚只是一个“短暂的压抑”(temporary suppression),某些行为心理学家认为惩罚是一个“初级过程”,也就是完全独立的学习现象,与强化有所区别。
关于负向强化和负向惩罚的区别,举一个例子,brat想通过皮来获得Dom的板子,对她来说“强化物”是被打板子后获得的刺激感受,负向强化就是不理她,随便她皮,Dom会忍耐她的小脾气,此刻brat就会因得不到惩罚而出现厌恶的刺激。而负向惩罚则是,皮的时候反而无缘无故的对她好(想要挨板子这种正强化逐渐减少),这两种方法都会降低brat皮的行为频率。
惩罚的缺点:
在行为改变上,虽然惩罚与强化一样有效[3],但是惩罚可能带来不少副作用:
惩罚首先会令到目标在情绪上表现出恐惧、生气,让其变得焦虑不堪[4]。
惩罚除了控制特定行为,也一并影响其他行为。例如,Dom因为sub没按规定的时间睡觉,决定对她进行sp惩罚,在惩罚的过程中sub得到了教训和疼痛。虽然Dom最初只想加强sub的时间观念,但是sp这种惩罚所带来的疼痛感,可能会影响到sub整个的心理状态。
比起强化,惩罚需要经常去监视目标行为。举一个日常的例子,小朋友因为帮忙做家务受到奖励,他会主动去做家务。而且他会主动让家长知道,换来父母给予他想要的奖励。若他因为不帮忙做家务而受到惩罚的话,家长就需要经常去和这个小朋友谈心需要沟通交流,因为小孩不会主动告诉父母自己没有做家务 (concealment) 而想受罚(这种行为对brat不成立)。
惩罚令到目标感到更加暴力。也易令惩罚使用者误用权力(在DS中表现为对Dom质量,包括品质、道德感、知识水平的高度需求)。
可能会造成惩罚的习惯化,而使得使用强度越来越大(存在阈值问题)。
代替惩罚:
避免反应(Response Blocking):改变环境令到目标不能作出反应(比如适当的kb)。
消弱(extinction):复杂行为的发生有时候是因为有正向强化物支持而导致的。例如在为什么有些小朋友喜欢调皮的研究中发现,他们作出行为失当是因为想得到家长的关注[5]。只要父母关心小孩(withdraw reinforcer)就可以减少上述问题。这种行为很像brat刻意调皮以获得Dom的关注和惩罚。在另一个研究中,比较老师如何训斥调皮学生的方法,发现老师如果偷偷细声地骂会比公开大声地斥责学生讨厌的行为,学生反而减少一半他们的不好的行为[6]。换言之,责骂其实是一种强化物。在其他研究治疗一些残慕行为中也发现病患不断重复伤害自己身体是因为怕失去了照顾者的陪伴[7]。
差别性强化(Differential Reinforcement):只对个别目标行为强化。好处是让目标知道他们除了不应做什么,也同时教导他们什么可以或应该去做。
不相容行为的差别性强化(DRI):在没有惩罚的情况下强化特殊的不相容行为,这种方法用来减少已经频繁出现的行为,例如奖励sub安静地坐一旁读书而减少其独自发呆胡思乱想的行为。
其他行为的差别性强化(DRO):强化欲消除行为之外的任何其他行为,例如想减少sub钻牛角尖的行为则可改为增加她去做其他的事情的鼓励(转换心态)。
交替行为的差别性强化(DRA):将强化物用在较为认可的行为,而不是欲消除的行为上。通常Dom想减少不想要行为,告诉sub什么不可以去做,但很少会教他们什么是可以做。DRA就是透过奖励目标一些其他好的行为,让更多好的行为去代替不好的。
无条件强化(Noncontingent reinforcement):不用要求要先做什么都能得到回报[8]。例如Dom不必特意强调先后顺序和规则性,只要能最终做到就可以。
暂停(Time-out/In-school suspension):类似负向惩罚,当目标出现不想要的行为,将其带离原本愉快的环境[9]。例如摸sub的头会让她处在满足、幸福的状态,这时她出现了一个你不喜欢的行为,比如看了一眼手机,暂停的意思就是需要Dom停下抚摸行为。
强化程序:
现在我们再次回到“强化”:
当sub所处环境中足够多的变动因素被减少或是被控制时,他们在强化后的行为型态将明显的能够被预测。甚至当强化的速率适应于特定方法时,非常复杂的行为也能够被预测。强化程序是用来测定被强化的反应。有两种极端情况,一种是连续强化,指强化所有反应;另一种没有反应被强化。
变动比率强化(Variable ratio schedule,VR):在不同的反应次数强化,有一个大约的平均值,例如玩老虎机不知道什么时候会中奖[10]。
固定比率强化(Fixed ratio schedule, FR):每固定次数反应都被强化,比如sub做了10件让Dom非常开心的事情(记在本子上)就可以得到一个比较大的奖励。
变动时距强化(Variable interval schedule,VI):在经过一段不固定的时间之后强化,有一个大约的平均值,并假设在这段期间至少有一次反应。例如sub知道自己会被Dom打一次sp,但她不知道自己具体何时会被打,因为无法预测,所以会产生一个稳定的检查行为。
固定时距强化(Fixed interval schedule,FI):从训练开始或先前一个强化之后经过特定时间长度之后强化,比如:sub在Dom的控制下养成了某个需要长时间培养的好习惯,像阅读、健身。

Schedule of reinforcement
在上图中,各种强化项目的不同反应行为比率,以支线表示各个特定强化物。由此我们可以看出,比率强化能够比间隔强化产生更高的反应频率。变化强化也比固定强化产生更高的反应频率。变化比率强化产生最高的反应频率,且对消弱有较大的抵抗力,赌博心态是变化比率强化最有代表性的例子。在固定比率强化中,强化之后会有一段反应暂停时间,称之为后强化暂停,在图表上呈阶梯状。固定间隔强化也有后强化暂停,但是在图表上呈现的是扇型。在已消逝的时间没有强化刺激,因此对象学会了平缓的速率反应。如果sub是一个被固定比率强化的对象,会有一个为获得强化行为次数的瞬间增加,然后sub会被观察到在强化来到之前有一段周期性的暂停。这种现象被称为比率弯曲,对照在图形上的顺序为后强化暂停、比率上升、强化。
间歇性强化:
比起每做一个行为就有奖励,与持续性强化(continous reinforcement)不同的是,间歇性强化(intermittent)指每一个反应都不一定有后果。与赌徒上瘾的逻辑相同,因为不能确定何时有回报,这种心态反而会鼓励赌徒,使该行为更难消失 (resistant to extinction)。目标会习惯了有时会没有奖励,但不是永远没有机会得到奖励。
换言之,持续性强化的效果虽然快,但是来得快去得也快,所习得的行为也很快。
影响强化程序因素:
某些因子的增加和减少,能够改变强化和惩罚刺激的效果,例如:
强化物的质与量:一般越多越容易强化某行为。给予1000人民币与1元要求别人做事,正常来说前者会吸引人(重赏之下必有勇夫)。其实改变效果的因子大多有生物学上的理由。生物个体体内恒定可以用来解释满足感,例如生物个体需要补充糖类的时候,糖的甜味会成为一个强化刺激,当生物体内的血糖浓度升高,甜味的刺激效果就会降低,甚至产生厌恶感。不同的强化物对不同目标亦有不同的效果,只有投其所好[11]才能令强化效果更显著。另外,对于控心型的Dom而言,不建议予一些实质的强化物,透过一些非物质(nontangible)的强化物会更好。
附带性:如果一个刺激并非总是伴随在行为之后,则刺激的效果将减弱;如果一个刺激附带在每一次行为之后,刺激的效果较强。例如sub习惯偷懒,而对于偷懒的处罚是偶然性的,并非每次偷懒都会处罚,则处罚的效果不如每次偷懒都处罚。加强目标反应则需要明确清楚做每件事情所带来的结果(explicit),例如Dom应说“你要安静地坐爸爸旁边”而不应该说“你要乖些”Dom应该说“这次考试你要考到超过70分”而不是“你要努力学习”[12]。
强化延迟:个体进行一个行为过后,刺激回馈的立即性[13],会影响刺激效果。行为与刺激的间隔愈短,效果愈好。比如sub做了让你讨厌的事情,过了一周你再对她惩罚,那效果肯定是不好的。这些叫做continous reinforcement,即指每当观察到目标有想要的行为,就要尽快立即给予相应的后果。
行为惯性(Behavioral momentum):当sub表现的很乖她会习惯的得到摸头顺毛这种回馈时,某一次即使她很乖没有得到Dom的顺毛,仍会较大机率继续乖下去。
规则化:事先的指示会影响sub如何回应[14][15]。
强化历史:由过去经验而对比到未来会如何(behavioural contrast)
满足感/厌腻感:个体对刺激的欲望愈强,刺激的效果也愈好;sub已经对某个刺激感到满足或是厌腻时,那么该刺激将不再有效果。
其中强调即刻性和附带性能够用神经化学来解释,当生物个体受到强化刺激时,大脑中的多巴胺通道将被活化,这些通道组成的网络释放短暂的多巴胺脉冲到许多树突,造成刚被活化的的突触对输出讯号的感应加强,因此又造成强化刺激行为的出现概率增加[16]。在统计学上显示对行为的强化刺激成功。
强化物的类型与作用:
类型:
初级强化物 (primary reinforcer):以天生固有 (inherited) 的强化,作为一个刺激或状态,通常具有生物学上的理由(如爱,食物,睡眠)。
实质强化物(concrete reinforcer):一种看得见摸得着的物件,如零食、玩具等。对较年幼的小朋友很有效[17]。
社交强化物(social reinforcer):透过一些手势或动作来回应目标行为。例如Dom给sub一个温和的表情、更多的关注或者称赞[18][19]。
活动强化物(activity reinforcer):指目标有机会做他们想做的事。详见普雷马克原理原则(Premack Principle)。
内在强化物(intrinsic reinforcer):指目标不需靠外在的鼓励,而是由心选择自己想做的某些行为。
作用:
这些强化物主要用来:
- 增加强化价值,使sub更渴求该奖赏而加强强化效果。
- 提供讯息,让sub知道某些回应是他们应该去做的。
- 标记(marking),突出回应的意义,例如给sub写:XX所有。
- 连结(bridging),让回应与奖励连结起来,让指令与行为连结起来。
塑型:
塑型(Shaping)是最后一步,可以说是Dom对sub的最终影响,是强化和惩罚对sub的共同作用,也是Dom精心雕刻的最终完成品。最终sub会改掉很多自身的缺点,变得更加适合自己的Dom。
[2]^ Ravi Soni. Learning theories. 2014-03-12 [2019-03-22].
[3]^ Holz, William C.; Azrin, Nathan H. Recovery during Punishment by Intense Noise. Psychological [4]^ Reports. 1962-12, 11 (3): 655–657. ISSN 0033-2941. doi:10.2466/pr0.1962.11.3.655.
Weems, Carl F.; Scott, Brandon G.; Graham, Rebecca A.; Banks, Donice M.; Russell, Justin D.; Taylor, Leslie K.; Cannon, Melinda F.; Varela, R. Enrique; Scheeringa, Michael A. Fitting Anxious Emotion-Focused Intervention into the Ecology of Schools: Results from a Test Anxiety Program Evaluation. Prevention Science. 2014-05-09, 16 (2): 200–210. ISSN 1389-4986. doi:10.1007/s11121-014-0491-1.
[5]^ Grawitch, Matt. Are We Stressing Out Our Kids?. PsycEXTRA Dataset. 2008 [2019-03-22].
[6]^ O’leary, K. Daniel; Kaufman, Kenneth F.; Kass, Ruth E.; Drabman, Ronald S.The Effects of Loud and Soft Reprimands on the Behavior of Disruptive Students. Exceptional Children. 1970-10, 37 (2): 145–155. ISSN 0014-4029. doi:10.1177/001440297003700208.
[7]^ Andreev, B. V. Sleep Therapy in the Neuroses. Sleep Therapy in the Neuroses. Boston, MA: Springer US. 1960: 43–93. ISBN 9781489948441.
[8]^ Lalli, J S; Casey, S D; Kates, K. Noncontingent reinforcement as treatment for severe problem behavior: some procedural variations.. Journal of Applied Behavior Analysis. 1997, 30 (1): 127–137. ISSN 0021-8855. PMC 1284026 . PMID 9103988. doi:10.1901/jaba.1997.30-127.
[9]^1897-1972.,Dreikurs,Rudolf,.Discipline without tears. Penguin http://worldcat.org/oclc/25269782. 1991, ©1974. ISBN 0525484175. OCLC 25269782.
[10]^ Horsley, Rachel R.; Osborne, Matthew; Norman, Christine; Wells, Timothy. High-frequency gamblers show increased resistance to extinction following partial reinforcement. Behavioural Brain Research. 2012-04, 229 (2): 438–442. ISSN 0166-4328. doi:10.1016/j.bbr.2012.01.024.
[11]^ Pfiffner, L J; Rosén, L A; O’Leary, S G. The efficacy of an all-positive approach to classroom management.. Journal of Applied Behavior Analysis. 1985, 18 (3): 257–261. ISSN 0021-8855. doi:10.1901/jaba.1985.18-257.
[12]^ 1917-, Homme, Lloyd E.,. How to use contingency contracting in the classroom. Research Press. 1970. ISBN 087822050X. OCLC 10596350.
[13]^ Haring, Marilyn J. Child Behavior Therapy: Principles, Procedures, and Empirical BasisChild Behavior Therapy: Principles, Procedures, and Empirical Basis, RossAlan O.McGraw-Hill, New York, 1981.BehavioralDisorders.1982-11, 8 (1): 73–74. ISSN 0198-7429. doi:10.1177/019874298200800109.
[14]^ Iwata, Brian A.; Bailey, Jon S. Reward versus cost token systems: an analysis of the effects on students and teacher. Journal of Applied Behavior Analysis. 1974, 7 (4): 567–576. ISSN 0021-8855. doi:10.1901/jaba.1974.7-567.
[15]^ Rapport, M D; Murphy, H A; Bailey, J S. Ritalin vs. response cost in the control of hyperactive children: a within-subject comparison.. Journal of Applied Behavior Analysis. 1982, 15 (2): 205–216. ISSN 0021-8855. doi:10.1901/jaba.1982.15-205.
[16]^ Schultz, Wolfram (1998). Predictive Reward Signal of Dopamine Neurons. The Journal of Neurophysiology, 80(1), 1-27.
[17]^ Rachman, S. Behavior therapy: Techniques and empirical findings. Behaviour Research and Therapy. 1975-02, 13 (1): 72. ISSN 0005-7967. doi:10.1016/0005-7967(75)90062-5.
[18]^ Schepis, M M; Reid, D H; Fitzgerald, J R. Group instruction with profoundly retarded persons: acquisition, generalization, and maintenance of a remunerative work skill.. Journal of Applied Behavior Analysis. 1987, 20 (1): 97–105. ISSN 0021-8855. doi:10.1901/jaba.1987.20-97.
[19]^ Kanfer, Frederick H.; Marston, Albert R. Human reinforcement: Vicarious and direct.. Journal of Experimental Psychology. 1963, 65 (3): 292–296. ISSN 0022-1015. doi:10.1037/h0045972.
