Como fazer uma Revisão da Literatura?

Resumo

Saudações pessoal. A ideia deste post é apresentar a metodologia e os resultados obtidos ao explorar dados sobre publicações científicas recentes (2008-2018) sobre a utilização de Business Intelligence (BI) e Data Warehouse (DW) no setor agrário, em nível internacional. Este trabalho foi previamente publicado em um artigo completo na revista Journal of Agricultural Science (BRUM; CAMARGO; LAMPERT, 2019).

Obtenção dos dados

Os dados obtidos foram de artigos que tratam o tema de BI e DW através de bases de dados da área do conhecimento de Ciências Agrárias do portal de periódicos da CAPES (Coordenação de Aperfeiçoamento de Pessoal de Ensino Superior).

Metodologia

As seguintes ferramentas e linguagens foram utilizadas para a coleta dos dados, realização das análises e geração dos gráficos:

  • R (R, 2019): Linguagem de Programação utilizada para Ciência de Dados. Em nosso caso, utilizada específicamente para as etapas de importação, organização, limpeza e visualização de dados;

  • Excel versão 2013 (MICROSOFT EXCEL, 2019): Programa de planilhas eletrônicas para armazenamento, manipulação e visualização de dados. No nosso caso, foi utilizado para armazenar as informações obtidas da internet sobre os artigos, autores e revistas mais relevantes sobre o tema, para posterior utilização nas análises;

  • Github (GITHUB, 2019): Plataforma com comunidades de desenvolvedores para descoberta, compartilhamento e criação de códigos e soluções de software com controle de versão. O Github foi utilizado para compartilhar o código utilizado em partes deste trabalho para garantir a reprodutibilidade dos experimentos e isenção na realização das análises dos dados. Os códigos do projeto podem ser acessados neste link.

  • Mendeley (ELSEVIER, 2019): Gerenciador bibliográfico e rede social acadêmica que permite organizar as pesquisas realizadas, colaborar com os pares e realizar descoberta de artigos recentes, entre diversas outras funções. O Mendeley online, a versão Desktop e o plugin para browsers foram utilizados para realizar o download dos metadados dos artigos nos repositórios de dados científicos.

  • WordArt (WORDART, 2019): Ferramenta de geração de nuvens de palavras online, foi utilizada para geração de um dos gráficos necessários.

O método utilizado para desenvolver esta pesquisa foi o seguinte:

(1) Coleta de dados

a. O Mendeley foi utilizado para buscar informações nas seguintes bases de dados: AGRIS, BDPA, EBSCO, Google Scholar, ProQuest, SciELO, ScienceDirect, SCOPUS, SpringerLink, Taylor & Francis Online, Web of Science and Wiley Online Library.

b. As seguintes restrições foram aplicadas para filtragem dos artigos: (i) artigos publicados em revistas e conferências; (ii) artigos publicados em determinado escopo temporal (2008-2018); (iii) poucas palavras-chave utilizadas e uma única busca em cada base de dados; (iv) bases de dados e mecanismos de busca disponíveis no site da CAPES Periódicos com acesso gratuito aos artigos de Ciências Agrárias; (v) alinhamento dos artigos ao tema de acordo com a percepção do próprio autor.

c. Foi utilizada a seguinte combinação de palavras-chave para a busca dos artigos: (“business intelligence” OR “inteligencia de negocio” OR “data warehouse” OR “data warehousing” OR “armazem de dados” OR “almacen de datos”) AND (agricultur* OR livestock OR pecuaria OR ganaderia OR agribusiness OR agronegocio OR agroindustria). A busca foi realizada nos campos título, resumo e palavra-chave, simultaneamente, nos casos em que tal operação fosse permitida.

(2) Armazenamento dos dados: os dados e metadados dos artigos, que fora obtidos com o Mendeley, foram armazenados manualmente em planilhas do Excel para posterior realização de análises. Cabe ressaltar que foram salvas apenas as informações de artigos a partir da quarta filtragem (análise de citações e ano de publicação).

(3) Organização dos dados: foram realizados cinco níveis de filtragem nos artigos obtidos. Para cada nível de filtragem foi criada uma nova aba na planilha com as informações filtradas (as informações específicas dos artigos foram salvas a partir da quarta filtragem).

(4) Análise dos dados: em casos simples, o próprio Excel foi utilizado para geração de gráficos, e em casos onde era necessário gerar gráficos mais sofisticados, foi utilizada a ferramenta RStudio conjuntamente com a linguagem R.

Descrição e Análise dos Resultados

Filtragem de Artigos

Na Figura abaixo é apresentada a quantidade de publicações encontradas por base de dados com as palavras-chave definidas anteriormente sem a aplicação de filtros.

Número de publicações/artigos sobre BI e DW aplicados no setor agrário encontrados em cada bases de dados da CAPES em um gráfico de barras

No total, foram encontrados 1435 trabalhos. No Google Scholar, foram encontrados 20200 resultados com as palavras-chave definidas, mas a ferramenta apresenta apenas as primeiras 100 páginas com resultados. Portanto, somente os trabalhos das primeiras 10 páginas foram importados, ordenados por relevância.

1° filtragem:

Na sequência foram eliminados os artigos redundantes utilizando uma funcionalidade do próprio Mendeley. Neste processo foram removidos 166 trabalhos (11.57% do total), restando 1269 publicações. A Figura abaixo apresenta a quantidade de trabalhos resultantes por ano de publicação.

Número de publicações/artigos por ano em um gráfico de barras

2° filtragem:

A próxima filtragem realizada foi a remoção de trabalhos não relacionados com o tema de pesquisa, evidenciada através da leitura dos títulos e resumos dos trabalhos. Os trabalhos sem resumo disponível foram eliminados das análises. Tal filtragem foi a mais significativa, com 1112 trabalhos eliminados (87.63% dos trabalhos restantes eliminados), restando 157 trabalhos.

3° filtragem:

Trabalhos em idiomas diferentes do inglês, português e espanhol, ou indisponíveis na versão gratuita, ou duplicados (através de detecção manual) foram eliminados das análises. Neste processo foram removidos 51 trabalhos (32.48% dos restantes, restando 106 trabalhos).

4° filtragem:

A próxima filtragem foi a análise das citações e do ano de publicação dos artigos. O Google Scholar foi utilizado para a contagem das citações dos trabalhos. Artigos com pelo menos uma citação avançam para a próxima filtragem. Neste processo foram removidos 25 trabalhos, porém 8 destes foram reinseridos por serem muito recentes (2017 e 2018), não tendo tido ainda muitas oportunidades de serem citados. Portanto, 17 trabalhos foram removidos (16.04% dos restantes, restando 89 trabalhos).

5° filtragem:

O último filtro aplicado foi a leitura completa dos 89 artigos restantes. 60 artigos foram eliminados da análise (67.42% dos restantes). Portanto, 29 artigos serão analisados em detalhes na sequência.

Análise dos Artigos Selecionados

Os seguintes artigos foram selecionados para a análise de citações, autores, referências bibliográficas e análise temporal (em resumo, uma análise bibliométrica, que pode ser conferida na íntegra aqui).

Título Periódico / Conferência Autores Citações Ano
[1] An integrated approach for agricultural ecosystem management IEEE Transactions on Systems, Man, and Cybernetics, Part C Xu, L.; Liang, N.; Gao, Q. 114 2008
[2] Dimensional issues in agricultural data warehouse designs Computers and Eletronics in Agriculture Nilakanta, S.; Scheibe, K.; Rai, A. 60 2008
[3] Analysis of mealybug incidence on the cotton crop using ADSS-OLAP (Online Analytical Processing) tool Computers and Eletronics in Agriculture Abdullah, A. 29 2009
[4] The use of UML to design agricultural data warehouses Agricultural Engineering Pinet, F. et al. 27 2010
[5] Precise design of environmental data warehouses Operational Research Pinet, F. & Schneider, M. 24 2010
[6] EIS Pesticides: An environmental information system to characterize agricultural activities and calculate agro-environmental indicators at embedded watershed scales Agricultural Systems Vernier, F. et al. 21 2013
[7] Multidimensional modeling and analysis of large and complex watercourse data: An OLAP-based solution Ecological Informatics Boulil, K.; Le Ber, F.; Bimonte, S.; Grac, C.; Cernesson, F. 20 2014
[8] Design and development of data mart for animal resources Computers and Eletronics in Agriculture Rai, A.; Dubey, V.; Chaturvedi, K. K.; Malhotra, P. K. 20 2008
[9] A data warehouse of muscle characteristics and beef quality in France and a demonstration of potential applications Italian Journal of Animal Science Chriki, S. et al. 14 2013
[10] Definition and analysis of new agricultural farm energetic indicators using spatial OLAP Lecture Notes in Computer Science Bimonte, S.; Boulil, K.; Chanet, J.; Pradel, M. 13 2012
[11] A quality-aware spatial data warehouse for querying hydroecological data Computers & Geosciences Berrahou, L. et al. 11 2015
[12] On-line Analytical Processing in Agriculture using Multidimensional Cubes J. of the Indian Society of Agricultural Statistics Chaturvedi, K. K.; Rai, A.; Dubey, V.; Malhotra, P. K. 11 2008
[13] Guaranteeing the quality of multidimensional analysis in data warehouses of simulation results: Application to pesticide transfer data produced by the MACRO model Ecological Informatics Boulil, K. et al. 9 2013
[14] Spatial OLAP integrity constraints: From UML-based specification to automatic implementation: Application to energetic data in agriculture Journal of Decision Systems Boulil, K.; Bimonte, S.; Pinet, F. 9 2014
[15] Data integration as the key to building a decision support system for groundwater Management: Case of Saiss aquifers, Morocco Groundwater for Sustainable Development Laraichi, S.; Hammani, A.; Bouignane, A. 8 2016
[16] Multidimensional Schema for Agricultural Data Warehouse Int. J. of Research in Engineering and Technology Gupta, A. K. & Mazumdar, B. D. 7 2013
[17] Spatial Online Analytical Processing for Hotspots Distribution Based on Socio-economic Factors in Riau Province Indonesia Procedia Environmental Sciences Thariqa, P. & Sitanggang, I. S. 5 2015
[18] The data storage and analysis system of the Swiss National Forest Inventory Computers and Eletronics in Agriculture Traub, B.; Meile, R.; Speich, S.; Rösler, E. 5 2017
[19] Multidimensional analysis model for highly pathogenic avian influenza using data cube and data mining techniques Biosystems Engineering Xu, Z.; Lee, J.; Park, D.; Chung, Y 4 2017
[20] Integrated modeling of agricultural scenarios (IMAS) to support pesticide action plans: the case of the Coulonge drinking water catchment area (SW France) Environmental Science and Pollution Research Vernier, F. et al. 3 2016
[21] BovReveals: uma plataforma OLAP e data mining para tomada de decisão na pecuária de corte Brazilian Congress of Agroinformatics Mota, F. M.; Souza, K.; Ishii, R.; Gomes, R. D. C. 2 2017
[22] A data warehouse to explore multidimensional simulated data from a spatially distributed agro-hydrological model to improve catchment nitrogen management Environmental Modelling & Software Bouadi, T. et al. 1 2017
[23] A system for the rapid design and implementation of Personalized Agricultural Key Performance Indicators issued from sensor data Computers and Eletronics in Agriculture Bimonte, S.; Naoufal, E.; Gineste, L. 1 2016
[24] An Online Analytical Processing (OLAP) Database for Agricultural Policy Data: a Greek Case Study CEUR Workshop Proc. Maliappis, M. & Kremmydas, D. 1 2015
[25] Aplicação de Business Intelligence nos dados de diagnóstico de unidades familiares de produção na Paraíba: um estudo de caso na EMATER-PB InterScientia Junior, N. M. C. & Farias, T. M. T. 1 2017
[26] Data Cubes Integration in Spatial OLAP for Agricultural Commodities Earth and Environmental Science Putri, A. I. & Sitanggang, I. S. 1 2017
[27] A new decision-support system for the historical analysis of integrated pest management activities on olive crops based on climatic data Computers and Eletronics in Agriculture Zazaa, C. et al 0 2018
[28] An Efficient Data Warehouse for Crop Yield Prediction Int. Conference on Precision Agriculture Ngo, V. M.; Le-Khac, N. A.; Kechadi, M. T. 0 2018
[29] Investigating Factors that Influence Rice Yields of Bangladesh using Data Warehousing, Machine Learning, and Visualization Int. J. on Modern Education and Computer Science Ahmed, F.; Nandi, D.; Rahman, M.; Hasan, K. T. 0 2017

A Figura abaixo, em ordem decrescente, apresenta o número de citações de cada um dos artigos selecionados, assim como o acumulado de citações destes trabalhos.

Número de citações e acumulado de citações por publicação/artigo em um gráfico com barras (para as citações), uma linha curva(representando o acumulado de citações) e linha pontilhada (representando o limiar dos 13 artigos representando 89% do total das citações)

É importante observar que 13 artigos (45% do total) concentram 89% do total acumulado de citações aos 29 trabalhos selecionados.

No gráfico abaixo é apresentado o número de artigos e o acumulado de citações por ano.

Número de publicações/artigos e total de citações dos mesmos por ano em um gráfico de barras e uma linha

Observa-se que artigos mais recentes possuem menos citações que trabalhos mais antigos. Tal comportamento já era esperado, já que trabalhos mais antigos tiveram mais tempo e oportunidades de serem citados do que os trabalhos mais recentes.

Na figura abaixo, é apresentada a quantidade de trabalhos publicados por autor. Foram considerados apenas autores que publicaram no mínimo dois artigos.

Número de publicações/artigos por autor.

Na Figura abaixo, desenvolvida com a linguagem R, é apresentada a rede de colaboração entre os autores dos 29 artigos mais relevantes selecionados. A cor representa o país de filiação do primeiro autor, os nós representam os autores, as arestas representam uma publicação conjunta dos autores representados pelos nós conectados e o tamanho do nó representa a quantidade de colaborações do autor em questão.

Gráfico apresentando uma rede de colaboração entre autores, com nós representando o autor, arestas representando uma publicação conjunta entre autores, cor representando país de filiação do primeiro autor e tamanho do nó representando o número de colaborações.

É possível observar o destaque da França e da Índia em publicações sobre BI e DW aplicados no setor agrário de uma forma geral. Também observa-se uma forte rede de colaboração em torno dos autores Bimonte, Miralles, Vernier e Molla, todos de instituições da França. As publicações da Índia e demais paises aparentemente possuem menos colaborações com instituições de outros paises. Claro que uma análise mais aprofundada, incluindo uma amostra maior de artigos, é necessária para revelar tendências e possíveis considerações sobre este fenômeno.

Análise das Referências Bibliográficas dos Artigos Selecionados

A Figura abaixo apresenta a distribuição temporal dos trabalhos citados nas referências bibliográficas dos artigos selecionados. Não foram verificadas as possíveis repetições de referências entre os trabalhos ou referências que não eram trabalhos científicos.

Número de publicações/artigos nas referências dos artigos selecionados por ano em um gráfico de barras.

É possível verificar uma grande concentração de publicações entre os anos 2000 e 2010. Também verifica-se um número muito pequeno de citações em trabalhos publicados antes de 1995.

A Figura abaixo, desenvolvida com a linguagem R, apresenta a relação entre a quantidade de citações de cada artigo selecionado e o número de citações aos autores destes mesmos artigos nas referências bibliográficas (os mais citados).

Citações aos artigos selecionados e citações aos autores mais citados nas referências dos artigos em um gráfico de pontos.

Para exemplificar a informação da coordenada X, segue um exemplo abaixo:

  • O artigo A tem os autores 1, 2 e 3 e o artigo B tem os autores 4, 5 e 6.
  • O artigo A possui referências aos seguintes grupos de autores: {1, 2, 5}, {3}, {1, 2} e {1, 5}.
  • O artigo B possui referências aos seguintes grupos de autores: {4, 5}, {3, 4} e {1, 6}.
  • O autor mais citado do artigo A tem 4 citações nas referências dos artigos A e B (autor 1 é mais citado).
  • O autor mais citado do artigo B tem 3 citações nas referências dos artigos A e B (autor 5 é mais citado).

Foi utilizado o Princípio de Pareto, ou regra do 80/20, para definir as retas que separam os grupos de citações dos artigos e dos autores das referências. O Princípio de Pareto diz que aproximadamente 80% dos efeitos vêm de 20% das causas. Neste caso, optou-se por destacar as causas (ou variáveis) 20% mais relevantes. O gráfico acima, portanto, apresenta os grupos de artigos que possuem mais citações, os que possuem mais citações aos autores nas referências, os que são mais relevantes em ambos os aspectos e os que possuem poucas ou nenhuma citação tanto aos artigos como aos autores nas referências.

A Figura abaixo, também desenvolvida com a linguagem R, apresenta a relação entre o número de artigos por revista/periódico e o número de citações a artigos destes periódicos nas referências bibliográficas dos trabalhos selecionados. Também foi destacado o fator de impacto de cada periódico através do tamanho de cada shape no gráfico.

Número de publicações/artigos por periódico e número de publicações nas referências dos artigos, por periódico, com destaque para o tamanho dos círculos no gráfico representando o fator de impacto de cada periódico.

Visualmente observa-se que a revista Computers and Eletronics in Agriculture possui não só uma maior quantidade de artigos sobre o tema como também um maior número de citações nas referências dos trabalhos selecionados. Já a Environmental Modelling and Software se destacou apenas nas referências, pois apenas um artigo do conjunto final selecionado era deste periódico (revista com maior fator de impacto das destacadas). A Ecological Informatics se destacou por ter dois trabalhos presentes no conjunto final selecionado. Os periódicos restantes foram agrupados no conjunto sem destaque relevante neste tipo de análise.

A Figura a seguir apresenta uma nuvem de palavras (Word Cloud) em que foram utilizadas as palavras-chave dos 29 artigos. A Figura foi gerada com o auxílio da ferramenta online WordArt.

Nuvem de palavras gerada com as palavras-chave dos artigos selecionados.

Cabe destacar palavras como multidimensional e OLAP, extremamente relevantes no contexto de BI e que não foram incluídas no conjunto de termos de busca. Esta é uma sugestão de melhoria no processo de análise da literatura, em que podem ser ajustados os termos de busca com base nas palavras-chave dos artigos inicialmente selecionados.

A Figura abaixo apresenta um compilado das tecnologias que foram mencionadas ou aplicadas nos artigos selecionados.

Tecnologias open-source e proprietárias utilizadas como soluções em trabalhos envolvendo a temática BI e DW no setor agrário, em um gráfico de barras com cores distintas para tecnologias open e proprietárias.

É interessante observar que as tecnologias gratuitas e de código aberto tem maior predominância em comparação com soluções proprietárias nos trabalhos de BI e DW aplicados no setor agrário selecionados. É claro que tal afirmação é válida apenas para este caso, e não engloba, por exemplo, soluções desenvolvidas fora do ambiente acadêmico, como em setores governamentais ou empresas privadas.

Por fim, a última Figura apresenta as principais áreas de estudo dos artigos selecionados.

Tecnologias open-source e proprietárias utilizadas como soluções em trabalhos envolvendo a temática BI e DW no setor agrário, em um gráfico de barras com cores distintas para tecnologias open e proprietárias.

Observa-se uma predominância maior de soluções de BI e DW para análise de culturas, pecuária de corte, gerenciamento de pesticidas e análises da qualidade da água.

Considerações Finais

Bom pessoal, a ideia deste post foi apresentar de forma sucinta um exemplo objetivo de processo de revisão da literatura. Foi apresentada a forma de obtenção dos dados, orientação no uso das ferramentas necessárias, metodologia completa e apresentação e análise dos resultados. Outros resultados, trabalhos referenciados e as teorias que embasaram o estudo podem ser verificadas no link deste artigo. Abaixo cito as referências utilizadas para estas análises. Obrigado e até o próximo post !!

Referências Bibliográficas

BRUM, L. M. da L.; LAMPERT, V. do N.; CAMARGO, S. da S. Business intelligence and data warehouse in agrarian sector: a bibliometric study. Journal of Agricultural Science, Richmond Hill, v. 11, n. 2, p. 353-368, 2019. Acesso em: 17 set. 2019.

ELSEVIER. About Mendeley. Acesso em: Acesso em: 17 set. 2019.

GITHUB. Built for developers. Acesso em: 17 set. 2019.

MICROSOFT EXCEL. Excel. Acesso em: 17 set. 2019.

R. The R Project for Statistical Computing. Acesso em: 17 set. 2019.

WORDART. WordArt. Acesso em: 18 set. 2019.