Programação
Segue a programação da Semest 2023!
Aqui você encontra informações sobre as palestras e minicursos.
Serão dois minicursos por dia, de forma simultânea. Veja os temas mais interessantes para você e se inscreva logo, os primeiros inscritos terão preferências nas escolhas do minicurso.
O Evento ocorrerá no Instituto de Matemática e Estatística, Blocos G e H da Universidade Federal Fluminense, campus Gragoatá.
- Credenciamente: Auditório do Bloco G – Térreo.
- Palestras: Auditório do Bloco G – Térreo.
- Minicursos: Laboratórios do IME, 2º andar do Bloco H: Ligre (sala 204) e LabMat (sala 206).
- Sessão Pôster: Térreo do Bloco G.
Confira a lista de inscritos por minicursos no Link.
Hora/Dia | Quarta, 18/10/23 | Quinta, 19/10/23 | Sexta, 20/10/23 |
08:30 – 09:00 | Credenciamento / Coffee Break | ||
09:00 – 10:00
|
Palestra de Abertura Marcos Magalhães (USP) |
Palestra 3 Alex Laier (IME-UFF) |
Minicurso 5 – Cibele Russo (ICMC) Minicurso 6 – Mariana Cúri (ICMC) |
10:00 – 11:00 |
Palestra 1 Antonio Augusto Rocha (IC-UFF) |
Palestra 4 Rafael Martins Silva (Globo) |
|
11:00 – 12:00 |
Palestra 2 Fernando Almeida Barbalho (BRA) |
Palestra 5 Equipe Rio em Dados (ENCE e UFRJ) |
|
12:00 – 14:00 | Almoço | Almoço | Almoço |
14:00 – 15:00 |
Minicurso 1 – Paula Maçaira (Puc-Rio) Minicurso 2 – Jony Arrais (IME-UFF) |
Minicurso 3 – Lucas Moura e Luiz Fernando Figueiredo (UFRJ) Minicurso 4 – Lyncoln Sousa de Oliveira e Daniel Santos (UFRJ) |
Palestra 6 Thais Cristina Oliveira da Fonseca (UFRJ) |
15:00 – 16:00 |
Palestra 7 Alexandra M. Schmidt (McGill-Canada) |
||
16:00 – 17:00 | Sessão Pôster | ||
17:00 – 18:00 | Encerramento |
Quarta – 18 de Outubro
09:00h
Auditório do IME - Bloco G
Atenção – por decisão da reitoria, a partir de hoje, o estudante só assistirá aula se acompanhado do seu respectivo cérebro
Marcos Magalhães (IME-USP)
Resumo (CLIQUE PARA ABRIR)
Em muitas situações, as aulas de Estatística transformam-se em listagem de procedimentos. Isto vale para cursos iniciais e também para cursos avançados. É como se os estudantes estivessem apenas memorizando um exercício físico que precisa ser repetido numa certa sessão de fisioterapia e, assim, o cérebro parece não precisar fazer muito esforço. As aulas podem ser muito mais que isso. Não há dúvida que procedimentos precisam ser conhecidos em Estatística, entretanto, a excessiva prioridade a eles, em detrimento de reflexões conceituais, leva os estudantes a perderem o senso crítico e a autonomia para enfrentarem novas situações. Nessa apresentação, vamos discutir algumas ideias para melhorar a compreensão conceitual nas disciplinas de Estatística.
10:00h
Auditório do IME - Bloco G
Predicting Customer Quality of Service and Classifying Customer Complaints of a Large Fixed Broadband Service Provider using Machine Learning
Antônio Guto Rocha (IC – UFF)
Resumo (CLIQUE PARA ABRIR)
As in many other organizations, broadband access providers use Active Network Measurements and Trouble Ticket Systems to identify, record and manage problems. However, in large internet access providers, the high number customers bring problems such as, (i) the difficulty to proactively identify the custumers’qualite of service though performing active network measurement; and (ii) given the high amount of complaints, automatically classifying customer complaints reported by trouble ticket systems. In one of my projects, I partner with TIM, one of the largest fixed cell companies and broadband service providers in Brazil, with the main objective of: (i) predicting customers’ Quality of Service (QoS) parameters; and, (ii) automatically classifying customer complaints related to fixed broadband service. To cope with objective (i), we build a framework using Error-Correcting Output Codes (ECOC) and H2O’s Automatic Machine Learning (AutoML) that accurately predicts the quality of service, particularly the download rate, achieved by the customers using features related to customer location, internet plan, and equipment. Our experiments demonstrate that our model achieves around 83% accuracy on average on our dataset. Our framework can be used by TIM to improve their fixed broadband services. To cope with objective (ii) we propose a methodology to automate the process of allocating a trouble ticket, registered in a call center, to the technical team with the necessary knowledge to solve it. Through a custom data preprocessing in conjunction with the application of Machine Learning algorithms, this work achieves accuracy of 89%, outperforming several similar works. Our work can assist TIM to improve their complaint resolution process. At the end of this talk, I will present some possible opportunities of collaborations with other research groups in this and other areas of interest.
11:00h
Auditório do IME - Bloco G
Explorando o Potencial: ChatGPT 3.5 e GPT-4.0 no Ensino de Estatística
Fernando Almeida Barbalho (STN/ENAP)
Resumo (CLIQUE PARA ABRIR)
Nesta palestra, abordaremos o uso do ChatGPT tanto na versão 3.5 quanto no potencial do GPT-4.0 com o beta do code interpreter no ensino de estatística para os alunos do curso de graduação da UFF. Exploraremos como o ChatGPT 3.5, sendo uma opção gratuita e mais acessível, já tem mostrado grande utilidade ao proporcionar interações dinâmicas e personalizadas, permitindo aos estudantes explorarem conceitos estatísticos com facilidade. Além disso, destacaremos o potencial do GPT-4.0 com o beta do code interpreter, apresentando como essa nova funcionalidade pode aprimorar ainda mais o aprendizado, possibilitando a prática em tempo real e resolução de problemas complexos. Mostraremos como ambas as versões do ChatGPT podem ser integradas ao ensino de estatística, incentivando o pensamento crítico e colaborativo, preparando os alunos para se tornarem profissionais preparados e analistas de dados habilidosos.
14:00h
Laboratório - Bloco H
Construindo seu primeiro dashboard interativo com o Shiny
Paula Medina Maçaira Louro (DEI – Puc-Rio)
Resumo (CLIQUE PARA ABRIR)
O Shiny é um framework para criar aplicativos web de maneira fácil usando código R, sem precisar de qualquer conhecimento de HTML, CSS ou JavaScript. Por outro lado, o Shiny possui componentes de interface de usuário que podem ser facilmente personalizadas ou estendidas, e seu servidor usa programação reativa para permitir que você crie qualquer tipo de lógica de back-end que desejar. Atualmente, o Shiny é usado em quase tantos nichos e indústrias quanto o próprio R. Na academia é usado como um meio chamativo para exibir novos resultados, métodos ou modelos estatísticos e em empresas para configurar painéis de métricas em tempo real que incorporam análises avançadas. Este minicurso foi projetado para levá-lo de não saber nada sobre Shiny para ser capaz de construir dashboards, onde você será capaz de expor seus resultados de maneira interativa que ainda são fáceis de manter e de alto desempenho.
14:00h
Laboratório - BLOCO H
Um Quarto para chamar de seu
Jony Arrais (IME – UFF)
Resumo (CLIQUE PARA ABRIR)
Neste minicurso, apresentaremos as principais características da ferramenta Quarto da Posit, que é uma versão de próxima geração do R Markdown e inclui dezenas de novos recursos. Com ela, seremos capazes de combinar texto narrativo e código para produzir saídas elegantemente formatadas em documentos, páginas da web, postagens de blog, livros e muito mais.
Quinta – 19 de Outubro
09:00h
Auditório do IME - Bloco G
Large Language Models – Uma breve introdução
Alex Laier Bordignon (IME-UFF)
Resumo (CLIQUE PARA ABRIR)
A palestra explora a evolução do processamento de linguagem, desde RNNs e LSTMs até a inovadora arquitetura apresentada no artigo ” Attention is All You Need”. Esse modelo transformador substitui a recorrência por atenção, permitindo relações globais entre palavras. Avanços como GPT e BERT são discutidos, destacando seu impacto em aplicações. A apresentação enfatiza o papel dos LLMs na remodelagem da compreensão e geração de linguagem natural, na interseção entre IA e comunicação.
10:00h
Auditório do IME - Bloco G
Recomendação nos produtos digitais da globo
Rafael Martins da Silva (Globo)
Resumo (CLIQUE PARA ABRIR)
Como utilizamos machine learning e AI para conseguir recomendar conteúdo dentro de todos os produtos digitais da globo, incluindo globoplay, g1, ge, gshow entre outros.
11:00h
Auditório do IME - Bloco G
Letramento estatístico nas redes sociais: a iniciativa Rio em Dados
Gustavo da Silva Ferreira (ENCE)
Resumo (CLIQUE PARA ABRIR)
O letramento estatístico é fundamental na formação cidadã e contribui para o desenvolvimento de uma visão crítica das informações estatísticas que fazem parte do cotidiano de uma sociedade. Em 2020, com a chegada da pandemia de COVID-19, o letramento estatístico da sociedade brasileira foi colocado à prova com a divulgação de inúmeros estudos e estatísticas associados à doença. Neste cenário nasceu o Rio em Dados, iniciativa de professores, alunos e ex-alunos de estatística da ENCE e da UFRJ visando explicar e divulgar conceitos e dados que auxiliassem na compreensão das informações estatísticas divulgadas nos meios de comunicação. Com o passar do tempo, a iniciativa se tornou um projeto de extensão e hoje conta com uma equipe de 6 docentes e mais de 20 alunos com o objetivo de divulgar nas redes sociais informações e curiosidades estatísticas, além de produzir tutoriais para a compreensão e realização de análises de dados. Nesta palestra serão apresentados mais detalhes da trajetória do projeto, exemplos de materiais produzidos e perspectivas futuras para expansão e consolidação desta iniciativa.
14:00h
Laboratório - BLOCO H
Construindo pacotes em R via RStudio
Lucas Moura (UFRJ) e Luiz Fernando (UFRJ)
Resumo (CLIQUE PARA ABRIR)
Montar scripts, escrever funções e automatizar processos fazem parte do repertório de todo cientista de dados. Com o intuito de reunir essas ferramentas e integrá-las ao dia a dia do usuário de maneira rápida e prática, bem como compartilhá-las com colegas ou publicar em fóruns de desenvolvimento, apresentamos a opção de construir pacotes na linguagem R. O minicurso será dividido em duas partes: Primeiramente, com exemplos reais, vamos introduzir os fundamentos da criação de um pacote em R via RStudio, da documentação e “?help” do pacote e abordaremos temas mais profundos, como classes de objeto e funções polimórficas. Em seguida, teremos uma seção prática onde montaremos conjuntamente um pacote exemplo, aplicando os conceitos abordados na primeira parte.
14:00h
Laboratório - BLOCO H
Raspagem de dados com R
Daniel Santos (UFRJ) e Lyncoln Sousa (UFRJ)
Resumo (CLIQUE PARA ABRIR)
A Internet é uma fonte rica de dados. Contudo, muitas vezes esses dados estão dispersos e fragmentados, tornando-os difíceis de serem aproveitados de forma eficiente. O web scraping, ou raspagem de dados, é a técnica que permite coletar automaticamente informações de páginas da web de forma estruturada. Com essa habilidade, é possível extrair dados relevantes de múltiplas fontes e transformá-los em conhecimento. Este minicurso se propõe a apresentar conceitos, técnicas e a ética por trás da raspagem de dados utilizando a linguagem de programação R, para acessar, extrair e estruturar dados de fontes da Internet. Através da prática, serão apresentados os conceitos básicos para raspagem de dados, como por exemplo, a utilização do css e o xpath. Ao final do minicurso será desenvolvido junto com os participantes um estudo de caso com um projeto aplicado de raspagem de dados em uma aplicação web.
Sexta – 20 de Outubro
09:00h
Laboratório - BLOCO H
Visualizações e análise exploratória de dados em Python
Cibele Russo (ICMC – USP)
Resumo (CLIQUE PARA ABRIR)
O interesse pela linguagem Python para análises de dados cresceu de forma considerável nos últimos anos, devido à ampla oferta de pacotes para a visualização e modelagem de dados e à popularização das técnicas estatísticas e de ciências de dados. Neste mini-curso, faremos uma introdução aos pacotes mais usados para fazer a visualização e análises exploratórias de dados, por exemplo numpy, pandas, matplotlib e seaborn. As técnicas serão aplicadas em conjuntos de dados disponíveis em repositórios github e servirão de base para análises mais avançadas de modelagem de dados. Não é necessário qualquer conhecimento da linguagem Python ou a instalação de pacotes ou software.
09:00h
Laboratório - BLOCO H
Aplicando a TRI a dados Educacionais
Mariana Cúri (ICMC – USP)
Resumo (CLIQUE PARA ABRIR)
Neste minicurso, iremos abordar os conceitos fundamentais da Teoria de Resposta ao Item (TRI) através da aplicação a dados do ENEM (Exame Nacional do Ensino Médio) utilizando o software R. Abordaremos os principais modelos da TRI, suas suposições, parâmetros, estimação e interpretações. Serão obtidos os resultados da aplicação do modelo, analisando-os sob o enfoque da área de Educação. Não é necessário nenhum conhecimento prévio sobre TRI, mas é desejável conhecimentos básicos sobre modelos de regressão, regressão logística e máxima verossimilhança, além do básico de R.
14:00h
Auditório do IME - Bloco G
A Bayesian Network Modelling of Digital Preservation Risks
Thais Cristina Oliveira da Fonseca (UFRJ)
Resumo (CLIQUE PARA ABRIR)
Digital records comprise primary sources which may be physical, born-digital or digitised. They are under threat from rapidly evolving technology, outdated policies and a skills gap across the archives sector. Thus, the preservation of digital material is a challenge for which many archives feel underprepared and ill-equipped. This talk presents the results of the Safeguarding the Nation’s Memory Project which aimed to help archivists manage digital preservation risks through the creation of a new quantitative risk management framework. This project has produced the web-based app DiAGRAM (the Digital Archiving Graphical Risk Assessment Model) which quantifies the effect on preservation risk of various actions and interventions. This work brings Bayesian Network methods into the digital heritage sphere for the first time through close collaboration with specialists in this field. Soft elicitation was used to identify the most likely elements contributing to digital preservation and their interrelations. Where good quality data was not available, expert elicitation based on the IDEA protocol was applied to define the unknown probability distributions. The result is a compact representation of reality, enabling the risk scores for various scenarios to be compared via expected utilities.
Joint work with Martine J. Barons (AS&RU, Department of Statistics, University of Warwick), Jim Q. Smith (AS&RU, Department of Statistics, University of Warwick), Hannah Merwood (Government Operational Research Service, UK), Alex Green (The National Archives, UK) and David H. Underdown (The National Archives, UK).
15:00h
Auditório do IME - Bloco G
Mapeando o nível sócio-econômico de setores censitários usando variáveis mistas: uma abordagem hierárquica bayesiana
Alexandra M. Schmidt (McGill Canada)
Resumo (CLIQUE PARA ABRIR)
Como mencionado no site da Wikipedia, análise fatorial é um método estatístico utilizado para descrever a variabilidade entre variáveis correlacionadas em termos de um número potencialmente menor de variáveis não observadas, denotadas fatores. Esta palestra fará uma breve revisão de modelos fatoriais para dados contínuos e discretos. Em seguida discutirá um modelo fatorial hierárquico bayesiano que considera simultaneamente observações contínuas e discretas, além de acomodar a estrutura hierárquica das observações (domicílios dentro de setores censitários). A inferência das quantidades desconhecidas do modelo segue o paradigma de Bayes; portanto, incerteza sobre as quantidades estimadas é naturalmente descrita. O modelo proposto foi usado na estimação do nível sócio-econômico dos setores censitários da área metropolitana de Accra, capital de Gana, a partir de uma amostra de 10% dos domicílios ao longo da região de interesse. Entre as 20 variáveis observadas em cada domicílio, o número de pessoas por quarto, acesso a água encanada e a disponibilidade de sanitários foram as que melhor discriminaram entre níveis sócio-econômicos altos e baixos.