
Ementa:
Essa disciplina discute aspectos de gerência de dados de proveniência em larga escala gerados durante a execução de fluxos de dados. Serão discutidos modelos de representação de dados de proveniência prospectiva e retrospectiva. Os problemas envolvidos nas etapas de geração, estruturação, armazenamento, extração e consulta a dados de proveniência serão discutidos levando em consideração o acesso a dados brutos. Serão analisados diferentes formatos de dados brutos, como nos domínios de aplicação de aprendizado de máquina em áreas científicas.
A disciplina também aborda aspectos de gerência de dados gerados em experimentos de “ciência de dados”, com ênfase em aplicações científicas (“scientific machine learning”). Conceitos clássicos de gerência de dados distribuídos serão apresentados e mapeados para o contexto de ciência de dados em ambientes de processamento de alto desempenho.
Pré-requisito: ter cursado Bancos de Dados
Essa disciplina discute aspectos de gerência de dados de proveniência em larga escala gerados durante a execução de fluxos de dados. Serão discutidos modelos de representação de dados de proveniência prospectiva e retrospectiva. Os problemas envolvidos nas etapas de geração, estruturação, armazenamento, extração e consulta a dados de proveniência serão discutidos levando em consideração o acesso a dados brutos. Serão analisados diferentes formatos de dados brutos, como nos domínios de aplicação de aprendizado de máquina em áreas científicas.
A disciplina também aborda aspectos de gerência de dados gerados em experimentos de “ciência de dados”, com ênfase em aplicações científicas (“scientific machine learning”). Conceitos clássicos de gerência de dados distribuídos serão apresentados e mapeados para o contexto de ciência de dados em ambientes de processamento de alto desempenho.
Pré-requisito: ter cursado Bancos de Dados
- Teacher: Marta Mattoso
- Teacher: Debora Barbosa Pina