type
status
date
slug
summary
tags
category
icon
password
数据集:E_DAIC、DAIC
E_DAIC和DAIC都是同一组作者的成果,通常用于心理疾病等研究问题。数据集提供了多种模态的数据,但是其实音频有原始数据,视频的数据是作者给定的提取后的特征。前者被AVEC2019作为数据集。
申请数据集
‣
使用教育邮箱申请,填写准确且有效的个人信息,申请大概需要等一周时间,我是2024-3-20申请,2024-3-27收到回复
在申请数据集后,请注意申请时签的协议,仅作为本人研究使用。并且注意回执中,如果使用了他们的数据集,请务必引用它们的两篇文章。
数据集内容介绍
因为本人主要使用该数据集做文本、音频模态的任务,所以关于视频特征的部分会比较简略。
数据采集的形式是通过一个被控制的视频发出提问,这个提问的控制人,有两种一种是WoZ,一种是AI。
值得注意的一点是,E_DAIC和DAIC都对数据集指定了划分,划分出的数据集中,训练集:验证集:测试集大概为7:2:2。测试集的数据全是AI控制的,理论上主观成分更少一些。其它两个部分是人和AI控制混合的。
那么它的数据集结构也是比较清晰的,重点关注的是XXX_AUDIO.wav,这个是音频的原数据。其他数据都是处理过的数据,XXX_Transcript.csv是带时间错的转录文本的数据。
其他部分其实作者都做了说明。
其中BoW的技术用的比较多,主要是A Bag-of-Audio-Words Approach for Snore Sounds' Excitation Localisation这篇文章的技术。关于MFCC的部分,做了BoW的特征,维度已经和MFCC的不一致了,音频BoW MFCC的维度是100,每个0.1s记一个向量。
注意事项
请务必按照数据集中的数据集划分进行训练,因为大部分的文章都是按照这个划分,所以做同样的操作才能有对比性。
文本转录的数据非常不准,一是存在错误识别的词,二是因为在录制音频时,提问者离麦克风太远,所以问题识别不出,从而导致说的话大部分只有回答的部分,然而更抽象的是,有的回答只有“yeah”。
整个数据集非常大,数据预处理的过程会比较慢。
有的团队在使用该数据集时,会做一些重新音频转录,数据增强等内容。现在音频转录还是chatgpt4或者谷歌的whisper,这些工作确实对数据质量有所提升,如果计划要做这部分工作,建议提前开始。
数据集中,验证集和训练集都是比较详细的个人信息,对与PHQ-8量表,都有各小项的得分,然而对于测试集的部分,没有那么详细,所以这里会对设计模型有一个向下兼容,输出的结果要和测试集的标签形式对上。
- Author:Kecilimu
- URL:https://kecilimu-notion.vercel.app//article/20240704143817
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!