import os
OPENAI_API_KEY = os.environ.get("OPENAI_API_KEY")4 AI 辅助「分析数据」 (Unfinished)
在分析数据过程中可能用到 AIGC 工具的几种方式
- 参考 6月03日直播 (B站) 用 AIGC 辅助使用 Excel
- 未来 微软会在Office 套件中直接集成 AIGC 工具 (Spataro 2023)
- 在编程中 (Python 等) 使用 GitHub Copilot (Dembovsky 2023)
- 用 “自然语言处理” (2023) (NLP: Natural language processing) 分析 「问卷中的提问之间是否存在相关性」
下面关注 如何利用 NLP 分析 Example 1.1 中例举的问卷陈述之间的相似度.
4.1 用 NLP 分析 提问陈述的相似度
参考
ChatGPT使用指南——相似匹配 from (HuggingLLM 2023)
import openai
# OPENAI_API_KEY = "填入专属的API key"
openai.api_key = OPENAI_API_KEYfrom openai.embeddings_utils import get_embedding, cosine_similaritytext_01 = "非上学通勤时,在校园内步行,你感觉很「开心」么?"
text_02 = "非上学通勤时,在校园内步行,你感觉很「舒适」么?"
text_03 = "非上学通勤时,在校园内步行,你感觉很「安全」么?"
text_04 = "非上学通勤时,在校园内步行,你感觉很「享受」么?"
text_05 = "非上学通勤时,在校园内步行,你感觉很「平静」么?"
text_06 = "非上学通勤时,在校园内步行,你感觉很「放松」么?"
text_07 = "非上学通勤时,在校园内步行,你感觉很「无聊」么?"
text_08 = "非上学通勤时,在校园内步行,你感觉很「疲惫」么?"
text_09 = "非上学通勤时,在校园内步行,你感觉很「烦恼」么?"
text_10 = "非上学通勤时,在校园内步行,你感觉很「担忧」么?"
text_11 = "非上学通勤时,在校园内步行,你感觉很「有压力」么?"
text_12 = "非上学通勤时,在校园内步行,你感觉很「匆忙」么?"
emb_01 = get_embedding(text_01)
emb_02 = get_embedding(text_02)
emb_03 = get_embedding(text_03)
emb_04 = get_embedding(text_04)
emb_05 = get_embedding(text_05)
emb_06 = get_embedding(text_06)
emb_07 = get_embedding(text_07)
emb_08 = get_embedding(text_08)
emb_09 = get_embedding(text_09)
emb_10 = get_embedding(text_10)
emb_11 = get_embedding(text_11)
emb_12 = get_embedding(text_12)cosine_similarity(emb1, emb2)
# etc.
# 两两比较的结果可以保存到一个结构对称的 "相似度矩阵" 中.
# 为了节省计算, 我们可以仅计算 (不包含对角线的) 下三角矩阵.这部分是一个构想, 尚未应用于真实的研究项目.