你喜欢什么样的装修设计？ – 武汉人因工程技术研究院

这是“神经工程管理”第71篇推送

内容来源：吴智勇

本期编辑：薛朋东

校对：郭晓彤

审核：王萌萌

仅用于学术交流，原文版权归原作者和原发刊所有

本文是针对论文《使用脑电图和长短期记忆网络识别用户对建筑设计方案的设计偏好（Use of electroencephalogram and long short-term memory networks to recognize design preferences of users toward architectural design alternatives）》的一篇研究导读，这篇论文旨在提出一个基于脑电图(EEG)的长短期记忆网络模型来识别用户对建筑设计图像的偏好。该篇论文于2020年发表在《Journal of Computational Design and Engineering》期刊，作者为Sunwoo Chang，Wonhyeok Dong，Hanjong Jun

摘要＆关键词

摘要：在本研究中，我们提出一个基于脑电图(EEG)的长短期记忆网络模型来识别用户对建筑设计图像的偏好。EEG是记录大脑活动的一种方法，基于EEG的情感识别是通过分析记录的信号来定量识别人类情感的一种技术。决策者对建筑设计方案的主观反应可能在建筑规划和设计阶段起着关键作用。在这方面，提出的模型能够定量识别他们的偏好，并在规划和设计阶段为建筑师提供支持。模型使用深度学习技术对记录的数据进行分类。为了建立模型，对18名被试进行了脑电实验，要求他们从8幅住宅设计图像中选择自己最喜欢或最不喜欢的图像。记录后，向被试分发了一份积极和消极情绪表问卷，以评估他们的情绪。采用谷歌TensorFlow和Keras构建模型，测试后，使用精度、召回率和f1评分指标来评估和验证模型，该模型可以帮助设计师在决策方面评估设计方案。在未来的研究中，可能会提出一个数据驱动的设计数据库，用于与以前的方法（如访谈和观察）进行交叉验证。

关键词：脑电图(EEG);长短期记忆网络(LSTM);深度学习;分类;建筑规划设计

引言

识别潜在用户的情感反应和偏好可以在建筑设计过程中发挥关键作用。许多研究指出，设计师、客户和其他参与者之间的沟通在建筑设计过程中起着至关重要的作用。然而，尽管它在这个过程中很重要，但在设计师与客户的互动方面仍然存在差距。这是由于客户处理建筑图纸的经验有限，以及他们无法想象施工后的建筑设计。此外，从设计师的角度来看，缺乏一个可以帮助他们监控用户的设计偏好和需求的模型，导致整个建筑设计过程效率低下，从而导致设计质量低下。建筑信息建模及其他相关技术已被用于促进建筑设计、施工和管理。然而，由于这些技术是基于建筑及其物理组件的定量数据，它们没有考虑到客户的主观因素和个人反应。因此，需要一种基于情感的方法或一种更以用户为中心的方法。在设计过程中，设计师可以根据用户的喜好来评估备选方案，同时允许用户表达他们对给定设计的喜爱或偏好。脑电图(EEG)是一种通过在被试头皮上安装传感器来放大和记录这些脉冲的方法。情感识别是利用脑电图(EEG)和分析技术识别特定情境下人类情绪反应的方法。神经科学和生理学领域对这种方法(被称为情感识别)进行了大量研究。例如，在20世纪70年代，施瓦茨，戴维森和梅尔提出了利用脑电图识别人类情感的可能性。开发了多种情绪模型(如维度模型和离散模型)、分析技术(相关分析、支持向量机、深度学习等)和问卷调查(积极和消极情绪表等)。这种方法可以在建筑设计领域中采用，以监控和跟踪偏好。然而，由于脑电图数据的复杂性和缺乏面向架构领域的分析模型，所以这是一个挑战。为了解决这一问题，本研究采用基于深度学习的长短期记忆网络(LSTM)对记录的脑电图数据进行分类。LSTM是一种递归神经网络模型，已被证明在预测和分类时间序列数据方面是有效的。为此，本文旨在提出一个LSTM模型，通过EEG识别对设计方案的偏好。

文献综述

脑电图在建筑领域的应用

在建筑中，EEG被用作在给定的建筑环境中物理测量居住者的舒适度和生产力的手段。Yao、Lian、Liu和Shen（2008）以及Yao、Lian、Liu、Jiang、Liu和Lu（2009）测量了被试的脑电图和其他生理信号，以研究被试的热舒适性。此外，一些研究侧重于使用脑电图操作CAD系统。这些研究旨在利用包括EEG在内的生理信号构建脑-机接口。Shankar和Rai（2014）以及Nanjundaswamy等人（2013）研究了EEG在CAD建模过程中的应用。此外，还开展了一些研究，以监测和记录参与者参与解决设计问题时的脑电图模式。尽管在神经科学和心理学领域已经进行了大量研究，记录被试的生物信号，并预测在呈现特定图像或视频的情况下人类的偏好，但在该领域只有少数研究采用了这种方法。在项目的早期阶段，用户对建筑师提出的备选方案的个人反应至关重要。在这种背景下，本研究提出了一个模型，使用情感识别技术可以定量测量用户对建筑空间图像的偏好。该示意图如图1所示，不同于建筑和维护阶段，在建筑规划和初始设计阶段，必须考虑参与者的情感评价。在过去，建筑师仅仅根据他们的经验来跟踪和回顾情感反应。在这项研究中，我们的目的是提出一种量化这种主观反应的方法。在这方面，进行了记录大脑信号的实验，并使用基于深度学习的方法对获取的数据进行分析。

图1.研究框架

基于脑电情感识别

脑电波是指神经元及其突触关节之间产生的电信号，EEG是一种记录、存储和分析信号的方法。此外，情感识别是一种采用脑电(EEG)技术，对数据进行结构化分析，有助于识别人类情感的概念。自从Schwartz、Davidson和Maer的研究揭示了右半球偏情感以来，进行了大量的研究。以往的研究大多是按以下顺序进行的:(1)情绪模型的选择;(2)进行测量被试生理信号的实验，并处理情绪模型对应的问卷;(3)分析EEG测量数据与问卷数据之间的相关性。在情感识别领域，主要讨论了两种类型的模型:Ekman理论中的离散模型和将情绪视为连续状态而不是离散状态的多维模型。Ekman的理论将人类的情感分为六种普遍的情感(快乐、惊讶、愤怒、厌恶、悲伤和恐惧)，情感的维度模型将情感描述为连续的状态组合。在众多的情绪维度模型中，David、Anna和Auke开发了积极和消极情绪量表(PANAS)，该量表由积极情绪(PA)和消极情绪(NA)组成，并指出这两种情绪是广泛、普遍和占优势的情绪维度。在情感识别过程中，选择好情绪模型后，下一步就是进行实验。在这个阶段，同时测量脑电图、心电图、眼动图和皮肤温度等生理信号，然后发放问卷。在实验中，为了刺激被试的情绪，一些研究人员使用了一些方法，如放映电影或图片，其中的内容可以诱发积极或消极的情绪。

关于分析模型，20世纪90年代左右进行的研究使用了观测方法，即在信号发出的头皮上标记一个点。21世纪后期，这些研究采用了一种计算机方法对获取的数据进行分类，以识别被试的情绪状态。对于分析模型，一些研究者采用了支持向量机、模糊C-均值聚类等技术。由于深度神经网络及其相关技术的发展在该领域已被证明是成功的，最近的研究正在尝试使用该技术对情感进行分类，这将在本文的后半部分讨论。研究过程如图2所示。

图2.基于EEG的情感识别过程

递归神经网络和长短期记忆网络

与其他类型的人工神经网络不同，循环神经网络（RNN）具有带循环的网络，允许信息的持续存在，并且这些可用于基于先前信息预测或分类时间序列数据。RNN和其他神经网络的区别是RNN包含隐藏状态(h_t),以及在时间t时的输入值(X_t)和输出值(Y_t)。t时刻的隐藏状态值是通过前一时刻(t−1)的隐藏状态值h_(t−1)和t时刻输入值X_t来计算的。该隐藏状态值在计算时间t处的Y_t值的过程中使用一次，并且在计算下一时间点（t+1）处的Y_t值的过程中再次使用。当迭代此结构时，上一次的信息将反映在当前时间的结果中。RNN有三组权重，包括W_hx、W_hh和W_hy，这些参数与序列一起共享。图3a显示出了一个RNN单元的内部结构和数据流，图3b示出了单个单元的展开结构。

图3.(a) 单个RNN (b) 展开的RNN

RNN在分析当前数据(t_n)时可能用到以前的数据(t₀, t₁, t₂，…t_n−1)，然而Bengio, Simard，和Frasconi指出，如果相关数据之间的间隔很长，导致梯度消失，RNN可能在实验上有困难。

在这种背景下，Hochreiter和Schmidhuber建议使用LSTM网络。与具有隐藏状态值的普通RNN不同，LSTM具有信息和单元状态值的“传送带”。单元状态值是来自过去的选择性信息，允许网络不仅考虑单元的总体状态，而且还选择关键信息来分类或预测当前任务。传送带由多个门单元控制，这些门单元能够打开和关闭以前的信息访问。图4a示出了一个LSTM单元的内部结构。在时间t-1，LSTM单元接收隐藏状态h_(t-1）和一种新的状态C_(t-1）。在遗忘门层中，决定从时间t−1传输的信息中哪些信息将被遗忘。在输入（更新门层）中，当前点（X_t）处输入的信息和隐藏状态值（h_t-1）在上一点上将连接以确定要添加的信息。最后，在输出门层，输出值（Y_t）被显示，并且隐藏状态值（h_t）被传输到下一个时间点。图4b显示了展开的形式。

图4.（a）单个LSTM单元（b）顺序的LSTM单元

之前的机器学习方法使用了从信号中手工提取的特征。但这是耗时和低效率的。近年来在生理信号处理和情感识别方面的研究都采用了LSTM网络技术，与以往的方法相比效果更好。这是因为偏好不仅是时变的，而且包括脑电图在内的生理信号也是时变的。为此，本研究提出基于EEG的LSTM网络模型来识别潜在用户对建筑设计方案的设计偏好。

方法

研究设计和实验程序

本实验的目的是分析被试在观看他们在前言中选择的最喜欢/最不喜欢的八个选项的图片时所测得的脑电图信号。这些材料是在网站上作为精心设计的小型住宅室内设计的例子介绍的图像中选择的，还有一些室内设计的图像是真实的大学生住宅。温度设置在20^◦C并且所有其他干扰都在控制之下。采用Emotiv EPOC + 14通道移动脑电图(EEG)记录脑电图数据，该脑电图包含14个脑电传感器(AF3、F7、F3、FC5、T7、P7、O1、O2、P8、T8、FC6、F4、F8、AF4)，每秒128hz。

此外，还分发了PANAS问卷，以识别积极-消极量表上的情感。在Crawford和Henry的一项研究中，PANAS问卷的可靠性和准确性在统计学上得到了证明。

为了避免实验过程中的干扰，为被试提供了单独的办公桌和50厘米高的隔离隔板。此外，在实验过程中，为了验证数据，还对光照、温度和噪声进行了控制。共有18名被试参加实验，年龄在20 – 30岁之间，身心健康的男性6名，女性12名。在录制之前,他们被提供了一个完整的实验解释和同意的协议。

实验过程描述如下:(1)图像暗示:提出8张小房子的图像;(2)图像选择:要求被试选择最喜欢/最不喜欢的图像。(3)校准和放松:使用EmotivPro完成记录装置校准，要求被试保持冷静和放松。在EmotivPro的指导下，被试闭上眼睛15秒，然后用EmotivPro界面盯着显示器15秒。(4)脑电图记录:使用Emotiv EPOC + 14通道移动脑电图记录脑电图数据，14个通道，每秒128个样本，被试观看自己选择的最喜欢的图像。(5) PANAS问卷:记录数据后，要求被试填写所选择的图像的问卷。对于最不喜欢的图像，重复(3)、(4)和(5)。实验的详细过程如图5所示，表1给出了8张图片中所建议的4张，这些图片是从大学生的实际住所中选择的。

图5.实验过程和材料

表1.向受试者展示的八幅图像中的四幅

记录脑电图信号

脑电记录的目的是采集信号数据，用于LSTM网络模型。本研究使用14个信号通道作为特征，并将被试回答的问卷结果作为标签。使用了8张图片作为情感刺激，图像显示在一个20英寸的屏幕上，屏幕(1600px × 900px，宽∗高)。由于以往的情感识别研究表明，可以利用图像、视频和电影来诱发人类情感，因此我们采用了这种方法。在实验中，展示给被试这些图片，并被要求选择他们最喜欢/最不喜欢的图片。选择两张单独的图像后，使用Emotiv EPOC + 14频道移动脑电图和EmotivPro记录数据20 s，在被试闭眼和睁眼分别15s和放松时进行30 s的校准。为了防止被试干扰数据的突然变化，我们控制了环境因素，如照明、室温和噪音。对每个受试者进行了两次测量，一次是对他们选择的最喜欢的图像进行测量，另一次是对最不喜欢的图像进行测量。图6a显示了佩戴该设备的被试的脑电图测量结果，图6b显示了从记录PC上捕获的EmotivPro软件图像。图7是显示耳机传感器位置的技术规格图。

图6.(a)被试佩戴“Emotiv EPOC + 14频道移动EEG”(b)“EmotivPro”

图7.Emotiv EPOC +耳机细节，使用国际10-20系统的EPOC +传感器位置

积极和消极情感量表

该过程的目的是使用PANAS定量测量被试的情绪。以往的研究表明，情感结构由两个主要维度组成:PA和NA。根据该理论，在记录被试脑电图后，将问卷发放给被试。被试被要求根据他们在观看他们在序言中选择的图像时的主观感受填写调查问卷。问卷包括20个问题:10个PA，10个NA。被试通过5个数字尺度来报告他们的主观感受，1:完全没有，5:非常强烈。在完成问卷后，根据理论给出的指导原则对两种情感进行评分。为了识别这两种情感，PA安排在在1、3、5、9、10、12、14、16、17和19，NA安排在在2、4、6、7、8、11、13、15、18和20。由于之前的研究也给出了检验的均值和标准差，验证了数据的规范性和可靠性，所以我们也采用均值和标准差作为影响的两个维度。PA的建议给定均值和标准差分别为29.7和7.9,NA的建议给定均值和标准差分别为14.8和5.4。

LSTM网络模型实现

PANAS问卷结果分析

本研究使用“评分说明”对分发的问卷进行评分。评定PA评分和NA评分。在本实验中，两种情感的计算平均值和标准差值分别为29.2和7.2（正面情感），27.4和7.4（负面情感）。观察结果表明，与之前的研究相比，参与者对NA分数的评价更高。表2显示了PANAS给定值与实验额定值之间的比较。更具体地说，在18名参与者中，17名被试的NA得分高于先前研究的平均值。这一结果似乎表明了一个假设，即在选择某些设计方案时，参与者倾向于避免最差的方案，而不是选择最喜欢的设计。图8显示了这一建议。图8a显示了PA分数的两张图，其中一条连续线表示基于先前研究的给定平均值和标准差的正态分布图，而另一张图表示实验的计算值。该图表明，实验计算的平均值低于PA的研究给定平均值。相比之下，图8b显示了两个图，其中一个图的值来自NA分数，另一个图的值是基于给定平均值和标准差的连续填充正态分布图，另一个图表是由圆圈组成的，圆圈上有被试的名字，这是本实验的计算结果。图表显示，与正态分布图相比，本实验的评分平均值更高。

表2.David、Anna和Auke与本实验的平均值和SD值比较

图8.（a）PA评分正态分布与计算PA评分的比较

（b）NA评分正态分布与计算NA评分的比较

EEG数据集

EEG数据集包括从记录实验中获得的EEG信号数据和回答PANAS问卷评分结果。为了防止模型的过度拟合或欠拟合，仅在被试对最喜欢/最不喜欢的图像的反应大于以往研究中给出的平均情感得分，将被试相应的脑电波数据作为模型的训练数据集。本研究构建的数据集有“积极”和“消极”两个标签，包括8名“积极”受试者和17名“消极”受试者20秒的脑波数据。记录的脑电波数据由14个频道中的每一个进行标准化，以便特定通道不会在结果输出中产生偏差。

LSTM网络模型结构

构建LSTM网络模型，定量分析用户对建筑空间图像的偏好。在此过程中，使用了Python版本3.6、Google的TensorFlow和Keras库，使用的开发环境是“Jetbrains PyCharm社区版2019.1.2”（Keras，2020；TensorFlow，2020年），模型构建、实验和评估硬件环境是使用“英特尔i9-9900k”CPU、16 GB RAM和“NVDIA GeForce RTX 2060”建立的。

在此模型中，将14个频道的EEG信号作为“X特征”值输入，将被试的问卷回答作为“y标签”值输入模型，模型每2Hz显示一次预测。在本研究中，由于LSTM模型的有限数据量及其对过度拟合或欠拟合的脆弱性，一些参数值受到限制。

“y标签”值使用机器学习API“sklearn”提供的“LabelEncoder”进行一次性编码，其形式为[0,1]表示“正”，[1,0]表示“负”。

LSTM模型可分为原始LSTM（具有单个LSTM层的形式）和堆叠LSTM模型（其中堆叠两个或更多LSTM层）。堆叠LSTM模型比原始LSTM模型需要更多的运算量和更高的计算成本；然而，在处理复杂数据时，它显示出比原始模型更高的精度。因此，在本研究中，我们通过多次预测试构建了一个具有2层LSTM结构的模型。

两层的LSTM模型包括LSTM层#1、漏层#1、LSTM层#2、漏层#2和密集层（输出层）。在构建LSTM模型时，使用了Keras的“cuDNNLSTM”。在“cuDNNLSTM”的情况下，一些参数值是预先固定的；但是，它在GPU环境下运行，比使用CPU的一般LSTM具有更快的计算速度。使用“softmax”作为激活函数的输出层。“softmax”函数除了表示概率分布外，还表示从分类模型输入的数据属于特定类别的概率，每个类别中的概率之和为1。对于在五层模型的训练过程中测量模型预测值和标签值之间误差的损失函数，使用了“分类交叉熵”，这通常用于二元或多类别分类问题。在二元分类问题中，也可以使用“二元交叉熵”；然而，在本研究中，“分类交叉熵”被用作损失函数，因为在实现“二元交叉熵”函数时，模型构建过程中过度拟合更为频繁。此外，采用“分类交叉熵”函数可能为今后研究多类偏好分类问题提供一种可能性。

在本研究中，对LSTM层1和LSTM层2的单元进行了设置测试。LSTM层1和LSTM层2的单元都在10-1000范围内，除了不同组合的单元外，使用相同的参数值进行了300次实验；测量每次实验的损失和准确度。试验结果表明，在LSTM层#1单元和LSTM层#2单元的组合中，（10,10）、（25,25）、（50,50）、（70,70）和（300，300）的五种组合出现过度拟合的情况较少；此外，随着实验的重复，损失减少，准确性提高。图9显示了300次实验中，层1单元和层2单元的五种组合的损失和精度值的变化。图9a显示了随着300次实验的进步，损耗的减少，图9b显示了精确度的提高。在这五种组合中，LSTM层#1单元和LSTM层#2单元的值均设置为300的组合（300，300）以蓝色表示，在完成300次实验后，损失程度最低，精确度最高。就负担成本而言，（300，300）模型花费了4096秒（最长时间），而（10,10）模型花费了3935秒（最短时间）。

图9.（a）损失图（b）精度图

为了评估所提出的模型，使用了三个指标，即精确度、召回率和f1分数。为此，使用从整个训练数据集中预分割的1980个测试数据点进行评估，并创建混淆矩阵。精确性是模型分类为真实与实际真实的比率，召回率是模型预测为真实与实际真实的比率，f1分数是精确性与召回率的调和平均值。图10显示了混淆矩阵，包括三个矩阵，可表示为精度=TP/（TP+FP）、召回=TP/（TP+FN）和f1分数=（2∗精确∗召回）/（精确+召回）。在本研究中，使用混淆矩阵对两个LSTM层单元的不同组合的五个模型进行了评估，结果如图11所示。从图11可以看出，LSTM层1和LSTM层2各有300个单元的模型在精确度、召回率和可识别性方面表现出最高值，f1得分最高。一般来说，度量值随着单位数量的增加而增加；然而，单元1和单元2组合的模型，如（100，100），（200，200）和（400，400）表现出过度拟合，并且这些模型仅反复呈现特定的分类值（过度拟合）。图12显示了用于评估（300，300）模型的实际混淆矩阵。

图10.混淆矩阵

图11.精确度、召回率和F1分数的比较

图12.使用混淆矩阵的模型评估

讨论

本研究旨在通过EEG识别受试者对小型住宅设计图像的情绪反应，使用PANAS问卷评估受试者的情绪，并构建基于深度学习的LSTM网络分类模型。在选择脑电刺激图像的过程中，本研究将其范围局限于特定的空间形式。因此，无法分析用户的情绪和脑波对各种建筑类型和变量的响应变化。得出以下结论：首先，PANAS问卷检测到消极情感的得分显著高于积极情感。在本实验中，NA评分的平均值和标准差分别为27.4和7.4，而PANAS问卷的建议值分别为14.8和5.4。相比之下，PA评分值分别为29.2和7.2，而先前研究中的值分别为29.7和7.9。这可能意味着潜在用户应尽量避免他们选择的最差设计。其次，EEG和基于LSTM网络的分类模型似乎能够可靠地区分受试者在给定的受限情境中的情感。由于EEG是时间序列数据，因此应进行进一步研究，以识别潜在用户对建议的备选方案的响应，不仅包括图像，还包括视频、VR和AR等。第三，记录EEG数据的概念是设计领域的一种定量方法。由于设计领域仍然是主观的，是个人解释的领域，因此采用脑电图和开发以下分析模型可以为设计提供更合格和客观的视角。第四，在设计中使用EEG也可以为设计师提供机会，在设计前言中重新思考他们的设计方案。以前，评估设计的传统方法完全依赖于建筑师的个人直觉和经验，这是有限的。因此，计算方法的使用提供了一种克服这个问题的方法。

目前，脑电系统操作困难，实验过程繁琐，信号对外界变量敏感。因此，这种方法不能完全应用于实际情况。需要进一步的研究来定量分析主体对建筑空间形式和室内环境变量的反应。经过分析，用户的情感反应可以与通过调查和访谈获得的先前设计知识相互交叉验证，并可以存储为设计数据库。这样，架构师就可以在设计过程中使用这样的设计知识数据库。这可能是今后工作的一个主题。

此外，该模型的可追溯性和可解释性可能在使用过程中发挥关键作用。换句话说，这些概念表明人工智能模型的决策过程得到了跟踪，人类参与者理解并分享了深度学习模型的操作。此外，人工智能中的因果性问题还需要进一步研究。这样一个过程对于在实践中使用该模型是必要的。这也需要在今后的研究中加以解决。

引用：Chang S, Dong W, Jun H. Use of electroencephalogram and long short-term memory networks to recognize design preferences of users toward architectural design alternatives[J]. JOURNAL OF COMPUTATIONAL DESIGN AND ENGINEERING, 2020, 7(5): 551-562.

扫码关注我们

道阻且长，行则将至；
行而不辍，未来可期。

神经工程管理联合发起人

李恒	教授	香港理工大学
叶贵	教授	重庆大学
卢昱杰	教授	同济大学
廖彬超	副教授	清华大学
陈嘉宇	副教授	香港城市大学
韩豫	教授	江苏大学
崇丹	副教授	上海大学
付汉良	副教授	西安建筑科技大学

西安建筑科技大学神经工程管理实验室成员

付汉良	副教授
侯彩霞	副教授
王萌萌	博士后
郭晓彤	博士后

本篇文章来源于微信公众号：神经工程管理

发表评论 取消回复

发表评论取消回复