Post on: Jul 4, 2024Last edited: Jul 11, 2024Words 00 min

type
status
date
slug
summary
tags
category
icon
password
 

数据集:E_DAIC、DAIC

E_DAIC和DAIC都是同一组作者的成果,通常用于心理疾病等研究问题。数据集提供了多种模态的数据,但是其实音频有原始数据,视频的数据是作者给定的提取后的特征。前者被AVEC2019作为数据集。

申请数据集

使用教育邮箱申请,填写准确且有效的个人信息,申请大概需要等一周时间,我是2024-3-20申请,2024-3-27收到回复
notion image
在申请数据集后,请注意申请时签的协议,仅作为本人研究使用。并且注意回执中,如果使用了他们的数据集,请务必引用它们的两篇文章。
notion image

数据集内容介绍

因为本人主要使用该数据集做文本、音频模态的任务,所以关于视频特征的部分会比较简略。
数据采集的形式是通过一个被控制的视频发出提问,这个提问的控制人,有两种一种是WoZ,一种是AI。
值得注意的一点是,E_DAIC和DAIC都对数据集指定了划分,划分出的数据集中,训练集:验证集:测试集大概为7:2:2。测试集的数据全是AI控制的,理论上主观成分更少一些。其它两个部分是人和AI控制混合的。
notion image
那么它的数据集结构也是比较清晰的,重点关注的是XXX_AUDIO.wav,这个是音频的原数据。其他数据都是处理过的数据,XXX_Transcript.csv是带时间错的转录文本的数据。
notion image
notion image
其他部分其实作者都做了说明。
其中BoW的技术用的比较多,主要是A Bag-of-Audio-Words Approach for Snore Sounds' Excitation Localisation这篇文章的技术。关于MFCC的部分,做了BoW的特征,维度已经和MFCC的不一致了,音频BoW MFCC的维度是100,每个0.1s记一个向量。

注意事项

请务必按照数据集中的数据集划分进行训练,因为大部分的文章都是按照这个划分,所以做同样的操作才能有对比性。
文本转录的数据非常不准,一是存在错误识别的词,二是因为在录制音频时,提问者离麦克风太远,所以问题识别不出,从而导致说的话大部分只有回答的部分,然而更抽象的是,有的回答只有“yeah”。
整个数据集非常大,数据预处理的过程会比较慢。
有的团队在使用该数据集时,会做一些重新音频转录,数据增强等内容。现在音频转录还是chatgpt4或者谷歌的whisper,这些工作确实对数据质量有所提升,如果计划要做这部分工作,建议提前开始。
数据集中,验证集和训练集都是比较详细的个人信息,对与PHQ-8量表,都有各小项的得分,然而对于测试集的部分,没有那么详细,所以这里会对设计模型有一个向下兼容,输出的结果要和测试集的标签形式对上。
 
 

  • Twikoo
Pandas Data Frame Index 超出范围和存在unnamed, NaN

🗒️Pandas Data Frame Index 超出范围和存在unnamed, NaN

使用pandas读入数据时,然后时用df.iloc[]报错索引超出范围


Announcement
🎉欢迎来到我的博客🎉
👏欢迎更新体验👏