1  案例介绍

1.1 引入 (Introduction)

在一些社科研究中, 「如何开展问卷调查」是一门学问. 在需要展开「问卷调查」的研究中, 我们可能面对以下问题

  1. 设计问卷阶段 (见 Chapter 2 )
    • 如何围绕一个主题, 不重不漏地设计问题
      • 如何快速找到问题 (头脑风暴)
      • 如何在找到的问题中筛选出重要的问题 (优先级排序)
    • 如何安排提问的先后顺序 (避免引导性提问)
    • 如何让提问简单易懂 (避免长难句)
  2. 部署/分发调查问卷阶段
  3. 分析数据阶段
    • 如果调查问卷中有简答题, 如何提取主要信息 / 文本概括
    • 如果已有的数据, 来自一份问题冗余 (问题之间有较强相关性) 的调查问卷, 如何度量这些问题之间的相似度. (以之为参考, 我们可以重新分配每个变量在后续分析中的权重.) (见 Chapter 4 )

对于上面例举的工作 (当然还有很多其他的工作), AIGC 都有潜力提供一些帮助. 本实践练习 以我正在的真实研究课题 「校园环境的可步行水平 (Walkability), 对心情的影响」 为基础背景, 模拟上面引述的 AIGC 的各种可能应用.

1.2 动机 (Motivation)

我正在参与的一项研究的课题是「校园环境的可步行水平 (Walkability), 对心情的影响」.

我面对的一个真实问题是: 用来收集数据的调查问卷存在「提问语义重复」的问题, 换言之, 「提问存在相关性」(参考 Example 1.1). 因此, 我希望研究

  • 在未来的问卷调查中, 如何避免设计出语义重复的提问?
  • 对于已有数据, (除了 主成分分析 (PCA) 等经典的 “数据降维” 方法) 自然语言处理 (NLP) 是否可以用于评估问题之间的相关性, 进而为”数据降维”提供参考 ?

Example 1.1 (调查问卷 - 提问节选)  

  • 非上学通勤时,在校园内步行,你感觉很「开心」么?(1=非常不同意,5=非常同意)
  • 非上学通勤时,在校园内步行,你感觉很「舒适」么?
  • 非上学通勤时,在校园内步行,你感觉很「安全」么?
  • 非上学通勤时,在校园内步行,你感觉很「享受」么?
  • 非上学通勤时,在校园内步行,你感觉很「平静」么?
  • 非上学通勤时,在校园内步行,你感觉很「放松」么?
  • 非上学通勤时,在校园内步行,你感觉很「无聊」么?
  • 非上学通勤时,在校园内步行,你感觉很「疲惫」么?
  • 非上学通勤时,在校园内步行,你感觉很「烦恼」么?
  • 非上学通勤时,在校园内步行,你感觉很「担忧」么?
  • 非上学通勤时,在校园内步行,你感觉很「有压力」么?
  • 非上学通勤时,在校园内步行,你感觉很「匆忙」么?