-
Notifications
You must be signed in to change notification settings - Fork 6
Open
Description
Descrição do problema
Os representantes da Coleção relataram haver problema nos valores apresentados no filtro "ano de publicação" para alguns periódicos. Alguns documentos desses periódicos estavam com o ano de publicação errado, e isso já foi corrigido no ArticleMeta. Porém, no SciELO Analytics, esse problema persiste (vide figura a seguir).
Em resumo, constatou-se que é necessário executar o script loaddata.py, que está disponível em processing/loaddata.py na aplicação PublicationStats, para atualizar o índice que povoa os filtros do Analytics. Algo como publicationstats_loaddata na linha de comando do servidor da aplicação deverá resolver o problema.
Passos para reproduzir o problema
- Acesse a página ...
- Clique no link SciELO Analytics, no menu à direita (https://analytics.scielo.org/?journal=2007-5057&collection=mex)
- Observe, no barra vertical "Document filters", que o intervalo de datas vai de 2012 a 2250 (vide Figura na seção Anexos).
- Configure o valor máximo do filtro para qualquer ano anterior a 2250 (por exemplo, 2100 e clique em aplicar)
- Observe que o número de documentos foi reduzido de 685 para 684. Isso significa que ainda há um artigo na coleção México, cujo ano de publicação é 2250 - isso persistiu mesmo o SciELO ArticleMeta ter sido atualizado
Anexos
Artigos e periódicos afetados
- Tecnología y ciências del agua v12n1 - https://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S2007-24222021000100192. Antes 2026
- Tecnología y ciências del agua v12n2 - https://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S2007-24222021000200490 Antes 2026
- Tecnología y ciências del agua v12n3 - https://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S2007-24222021000300348 Antes 2026
- Acta médica Grupo Ángeles v21n4 - https://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S1870-72032023000400356 Antes 2027
- Investigación en educación médica v13n50 - https://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S2007-50572024000200089 Antes 2250
Procedimentos já analisados
- Investigou-se mais a fundo a aplicação SciELO Analytics e constatou-se que um cliente Thrift chamado PublicationStats é quem povoa os filtros das telas. Mais especificamente, há dois repositórios, a saber, https://github.com/scieloorg/publicationstatsapi e https://github.com/scieloorg/publication_stats, que representam, respectivamente, uma API de consulta baseada em pyramid e a aplicação PublicationStats, que adota um índice ElasticSearch. Acredita-se que este é o local do problema e que deve conter dados. Veja uma consulta à informação do filtro de anos:
from publicationstats.client import ThriftClient as PublicationStatsThriftClient
pst = PublicationStatsThriftClient()
pst.client.document_publication_years()
# Saída
[
aggs(key='2021', count=79259),
aggs(key='2022', count=73255),
aggs(key='2020', count=72064),
aggs(key='2023', count=69551),
...,
aggs(key='1920', count=6),
aggs(key='1925', count=6),
aggs(key='1923', count=4),
aggs(key='2029', count=4),
aggs(key='1921', count=2),
aggs(key='2028', count=2),
aggs(key='2032', count=2),
aggs(key='2323', count=2),
aggs(key='2923', count=2),
aggs(key='2120', count=1),
aggs(key='2211', count=1),
aggs(key='2250', count=1),
aggs(key='2320', count=1),
aggs(key='2921', count=1),
aggs(key='2924', count=1),
aggs(key='2925', count=1),
aggs(key='3023', count=1),
aggs(key='3035', count=1)
]- Observe que há o ano de publicação 2250 e outros inconsistentes. A partir deste ponto, seria necessário descobrir que procedimento faz a alteração dos valores retornados por essa aplicação (que código-fonte atualiza o índice ElasticSearch do PublicationStats). Constatou-se que é necessário executar o script loaddata.py, que está disponível em processing/loaddata.py, para atualizar no índice os dados que estão no ArticleMeta. Algo como
publicationstats_loaddatana linha de comando do servidor desta aplicação deveria resolver o problema.
Ambiente utilizado
N/A
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
No labels