Skip to content

Filtro de ano de publicação com valores errados - Coleção México #23

@pitangainnovare

Description

@pitangainnovare

Descrição do problema

Os representantes da Coleção relataram haver problema nos valores apresentados no filtro "ano de publicação" para alguns periódicos. Alguns documentos desses periódicos estavam com o ano de publicação errado, e isso já foi corrigido no ArticleMeta. Porém, no SciELO Analytics, esse problema persiste (vide figura a seguir).

Image

Em resumo, constatou-se que é necessário executar o script loaddata.py, que está disponível em processing/loaddata.py na aplicação PublicationStats, para atualizar o índice que povoa os filtros do Analytics. Algo como publicationstats_loaddata na linha de comando do servidor da aplicação deverá resolver o problema.

Passos para reproduzir o problema

  1. Acesse a página ...
  2. Clique no link SciELO Analytics, no menu à direita (https://analytics.scielo.org/?journal=2007-5057&collection=mex)
  3. Observe, no barra vertical "Document filters", que o intervalo de datas vai de 2012 a 2250 (vide Figura na seção Anexos).
  4. Configure o valor máximo do filtro para qualquer ano anterior a 2250 (por exemplo, 2100 e clique em aplicar)
  5. Observe que o número de documentos foi reduzido de 685 para 684. Isso significa que ainda há um artigo na coleção México, cujo ano de publicação é 2250 - isso persistiu mesmo o SciELO ArticleMeta ter sido atualizado

Anexos

Artigos e periódicos afetados

Procedimentos já analisados

  • Investigou-se mais a fundo a aplicação SciELO Analytics e constatou-se que um cliente Thrift chamado PublicationStats é quem povoa os filtros das telas. Mais especificamente, há dois repositórios, a saber, https://github.com/scieloorg/publicationstatsapi e https://github.com/scieloorg/publication_stats, que representam, respectivamente, uma API de consulta baseada em pyramid e a aplicação PublicationStats, que adota um índice ElasticSearch. Acredita-se que este é o local do problema e que deve conter dados. Veja uma consulta à informação do filtro de anos:
from publicationstats.client import ThriftClient as PublicationStatsThriftClient

pst = PublicationStatsThriftClient()
pst.client.document_publication_years()

# Saída
[
	aggs(key='2021', count=79259),
	aggs(key='2022', count=73255),
	aggs(key='2020', count=72064),
	aggs(key='2023', count=69551),
	...,
	aggs(key='1920', count=6),
	aggs(key='1925', count=6),
	aggs(key='1923', count=4),
	aggs(key='2029', count=4),
	aggs(key='1921', count=2),
	aggs(key='2028', count=2),
	aggs(key='2032', count=2),
	aggs(key='2323', count=2),
	aggs(key='2923', count=2),
	aggs(key='2120', count=1),
	aggs(key='2211', count=1),
	aggs(key='2250', count=1),
	aggs(key='2320', count=1),
	aggs(key='2921', count=1),
	aggs(key='2924', count=1),
	aggs(key='2925', count=1),
	aggs(key='3023', count=1),
	aggs(key='3035', count=1)
]
  • Observe que há o ano de publicação 2250 e outros inconsistentes. A partir deste ponto, seria necessário descobrir que procedimento faz a alteração dos valores retornados por essa aplicação (que código-fonte atualiza o índice ElasticSearch do PublicationStats). Constatou-se que é necessário executar o script loaddata.py, que está disponível em processing/loaddata.py, para atualizar no índice os dados que estão no ArticleMeta. Algo como publicationstats_loaddata na linha de comando do servidor desta aplicação deveria resolver o problema.

Ambiente utilizado

N/A

Metadata

Metadata

Assignees

Labels

No labels
No labels

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions