4  AI 辅助「分析数据」 (Unfinished)

在分析数据过程中可能用到 AIGC 工具的几种方式

  1. 参考 6月03日直播 (B站) 用 AIGC 辅助使用 Excel
    • 未来 微软会在Office 套件中直接集成 AIGC 工具 (Spataro 2023)
  2. 在编程中 (Python 等) 使用 GitHub Copilot (Dembovsky 2023)
  3. “自然语言处理” (2023) (NLP: Natural language processing) 分析 「问卷中的提问之间是否存在相关性」

下面关注 如何利用 NLP 分析 Example 1.1 中例举的问卷陈述之间的相似度.

4.1 用 NLP 分析 提问陈述的相似度

import os
OPENAI_API_KEY = os.environ.get("OPENAI_API_KEY")
import openai
# OPENAI_API_KEY = "填入专属的API key"
openai.api_key = OPENAI_API_KEY
from openai.embeddings_utils import get_embedding, cosine_similarity
text_01 = "非上学通勤时,在校园内步行,你感觉很「开心」么?"
text_02 = "非上学通勤时,在校园内步行,你感觉很「舒适」么?"
text_03 = "非上学通勤时,在校园内步行,你感觉很「安全」么?"
text_04 = "非上学通勤时,在校园内步行,你感觉很「享受」么?"
text_05 = "非上学通勤时,在校园内步行,你感觉很「平静」么?"
text_06 = "非上学通勤时,在校园内步行,你感觉很「放松」么?"
text_07 = "非上学通勤时,在校园内步行,你感觉很「无聊」么?"
text_08 = "非上学通勤时,在校园内步行,你感觉很「疲惫」么?"
text_09 = "非上学通勤时,在校园内步行,你感觉很「烦恼」么?"
text_10 = "非上学通勤时,在校园内步行,你感觉很「担忧」么?"
text_11 = "非上学通勤时,在校园内步行,你感觉很「有压力」么?"
text_12 = "非上学通勤时,在校园内步行,你感觉很「匆忙」么?"

emb_01 = get_embedding(text_01)
emb_02 = get_embedding(text_02)
emb_03 = get_embedding(text_03)
emb_04 = get_embedding(text_04)
emb_05 = get_embedding(text_05)
emb_06 = get_embedding(text_06)
emb_07 = get_embedding(text_07)
emb_08 = get_embedding(text_08)
emb_09 = get_embedding(text_09)
emb_10 = get_embedding(text_10)
emb_11 = get_embedding(text_11)
emb_12 = get_embedding(text_12)
cosine_similarity(emb1, emb2)
# etc.

# 两两比较的结果可以保存到一个结构对称的 "相似度矩阵" 中.
# 为了节省计算, 我们可以仅计算 (不包含对角线的) 下三角矩阵.

这部分是一个构想, 尚未应用于真实的研究项目.