Mining the COVID-19 Open Research Dataset using T etralogie - Preliminary analysis - IRIT

La page est créée Sabrina Dumas
 
CONTINUER À LIRE
Mining the COVID-19 Open Research Dataset using T etralogie - Preliminary analysis - IRIT
Mining the COVID-19 Open Research Dataset
       using Tétralogie - Preliminary analysis
Fouille de la collection de recherche ouverte COVID-19 avec Tétralogie -
                            Analyse préliminaire

                          Bernard Dousset, Josiane Mothe

               (1) IRIT, UMR5505, CNRS & Univ. Toulouse, France

      Abstract. This paper reports a very short time and brief analysis of a
      large data collection of scientific papers on COVID-19. The objective of
      this analysis was to get a very quick overview of a domain we did not
      know at all apart from the pieces of news that were looped on TV:the
      COVID-19. We considered first the meta data file from the open data set
      that the Allen Institute for AI and collaborators announced (CORD-19).
      We then consider the PubMed subpart only, but with more information
      in terms of meta-data. Less than 1 day was devoted to make the analyse
      and write the report on this data set for which we present the results
      here. We aim at publishing these first results while we will now check
      and analyse deeper since quick analyse is also subject to potential errors.
      We also will complete the analysis base on textual document contents.

      Abstract. Ce document rapporte une analyse réalisée en très peu de
      temps sur une vaste collection d’articles scientifiques. L’objectif de cette
      analyse était d’obtenir un aperçu très rapide d’un domaine que nous ne
      connaissions pas du tout, à part les informations en boucle à la télévision
      : le COVID-19. Nous avons d’abord considéré l’ensemble des données
      ouvertes que l’Institut Allen pour l’IA et ses collaborateurs ont annoncé
      (CORD-19). Nous avons ensuite considéré la sous-partie Medline avec
      un peu plus de meta-données. Moins d’une journée a été consacrée à
      l’analyse et à la rédaction du rapport sur cet ensembles de données dont
      nous présentons ici les résultats. Nous avons pour objectif de publier ces
      premiers résultats rapidement, mais nous allons maintenant vérifier et
      analyser plus en profondeur, car une analyse rapide est également sujette
      à des erreurs potentielles. Par ailleurs, nous complèterons l’analyse en
      prenant en compte les contenus des documents.

Keywords: Information retrieval, COVID-19, COVID-19 Open Research Dataset,
Domain overview, Mining scientific papers

1    Introduction
COVID-19 is certainly one of the most important topic these days. While news
are looped on TV, a very few people know deeply on it. A lot of fake news started
Mining the COVID-19 Open Research Dataset using T etralogie - Preliminary analysis - IRIT
to circulate and speard as fast as the virus it-self. In such situation, scientific
papers are reliable sources that could be used for helping people knowing more
about it and being informed in an reliable and accurate way.
    Mining scientific resources is also a mean to know the main institutes or
groups working in the field, what countries collaborate, what the sub-topics are,
etc... Such overview on a large quantity of research papers can help decision
makers to take decisions based on the educated views of the state of the art.
It can also help new comers in the COVID-19 research field by providing an
overview first.
    Recently the COVID-19 Open Research Dataset (CORD-19), a free resource
of over 44,000 scholarly articles has been made available thanks to the effort of
the Allen Institute for AI and partners, including Medline. Part of this data set
is the resource for the analysis presented in this paper.

Introduction

COVID-19 est certainement l’un des sujets les plus importants de nos jours. Bien
que les informations soient diffusées en boucle à la télévision, très peu de gens
en savent beaucoup sur ce sujet. Beaucoup de fausses nouvelles ont commencé
à circuler et à se propager aussi vite que le virus lui-même. Dans une telle
situation, les articles scientifiques sont des sources fiables qui pourraient être
utilisées pour aider les gens à en savoir plus et à être informés de manière fiable
et précise. L’exploitation des ressources scientifiques est également un moyen
de connaı̂tre les principaux instituts ou groupes travaillant dans ce domaine,
les pays qui collaborent, les sous-sujets, etc. Une telle vue d’ensemble sur une
grande quantité de documents de recherche peut aider les décideurs à prendre
des décisions basées sur les vues éclairées de l’état de l’art. Elle peut également
aider les nouveaux venus dans le domaine de la recherche sur le COVID-19 en
leur fournissant une vue d’ensemble comme point de départ.
    Récemment, la base de données de recherche ouverte COVID-19 (CORD-19),
une ressource gratuite de plus de 44 000 articles scientifiques, a été mise à dis-
position grâce aux efforts de l’Institut Allen pour l’IA et de ses partenaires. Une
partie de cet ensemble de données constitue la ressource pour l’analyse présentée
dans ce document.

2     Processing sequence

2.1   Genesis

I checked my emails this morning (March 25, 2020) where I read an email men-
tioning the release of the COVID-19 Open Research Dataset. I went to the
associated page and find out the Meta data file that fits with the type of data
file our system Tétralogie can analyse. With a colleague we thus decided to make
a brief analysis of it.
Mining the COVID-19 Open Research Dataset using T etralogie - Preliminary analysis - IRIT
2.2    Tasks
My collegue and I decided to conduced a quick analysis of the data collection
using Tétralogie1 ; this software allows data analysis and visualization of semi-
structured data. Its development started more than a decade ago and is mainly
used to analyse publications and patents to get a view of a specific domain.
Examples of such studies are the analysis of strategic alliance networks in the
field of monoclonal antibodies[2], the analysis of the collaboration of a research
lab like in [5]. It relies on a variety of tools that are interactively combined during
the analysis [3, 4, 1].
    We chose some analysis objectives that need as less as possible manual check-
ing to be reliable enough.
    This paper does no mention other tools that could have been used to conduce
the analysis. It does not consider other analysis made on the same domain either.

Séquence de traitement
Génèse J’ai consulté mes e-mails à 9h55 ce matin (25 mars 2020) où j’ai lu
un e-mail mentionnant la publication de l’ensemble de données de recherche ou-
vert COVID-19. Je suis allé sur la page associée et j’ai trouvé le fichier de
métadonnées qui correspond parfaitement au type de fichier de données que
Tétralogie peut analyser. Avec un collègue, nous avons donc décidé de réaliser
une brève analyse sur cette base.

Tâche Mon collègue et moi avons décidé de procéder à une analyse rapide de
la collection de données en utilisant Tétralogie2 ; ce logiciel permet l’analyse et
la visualisation de données semi-structurées. Son développement a commencé il
y a plus de dix ans et il est principalement utilisé pour analyser les publications
et les brevets afin d’obtenir une vue d’un domaine spécifique. Des exemples de
telles études sont l’analyse des réseaux d’alliance stratégique dans le domaine
des anticorps monoclonaux[2], l’analyse de la collaboration d’un laboratoire de
recherche comme dans [5]. Il s’appuie sur une variété d’outils qui sont combinés
de manière interactive lors de l’analyse [3, 4, 1].
    Nous avons choisi des objectifs d’analyse qui nécessitent le moins possible de
contrôles manuels pour être suffisamment fiables.
    Ce document ne mentionne pas d’autres outils qui auraient pu être utilisés
pour mener l’analyse. Il ne prend pas non plus en considération d’autres analyses
effectuées sur le même domaine.

3     Data set
The CORD-19 data set is available at https://pages.semanticscholar.org/
coronavirus-research. This data set consists of multiple files.
1
    https://atlas.irit.fr/PIE/Outils/Tetralogie.html
2
    https://atlas.irit.fr/PIE/Outils/Tetralogie.html
Mining the COVID-19 Open Research Dataset using T etralogie - Preliminary analysis - IRIT
Among them, the Metadata file (60Mb) is a CSV file corresponding to 44,270
research articles with links to PubMed, Microsoft Academic and the WHO
COVID-19 database of publications. The fields of the structure of the records
are as follows: title, doi, abstract, date of publication, authors, journal, as well
as internal document ids (PMC ID, PUBMED ID, Microsoft Academic Paper
ID, WHO ID) and information whether the full text is available or not.
     While the meta file is a rich source of information, other information can
be very useful such as the affiliation of the authors. For this reason we also
considered a more complete set regarding the attributes that are provided, also
if it does not contains all the 44k scientific papers but about 25k papers. We
focused on the documents from PubMed only.
     The query used to query the collection is
”COVID-19” OR Coronavirus OR ”Corona virus” OR ”2019-nCoV” OR ”SARS-
CoV” OR ”MERS-CoV” OR “Severe Acute Respiratory Syndrome” OR “Middle
East Respiratory Syndrome”

Données
L’ensemble de données CORD-19 est disponible sur
https: // pages. semanticscholar. org/ coronavirus-research . Cet ensem-
ble de données est constitué de plusieurs fichiers. Parmi eux, le fichier de
métadonnées (60Mb) est un fichier CSV correspondant à 44 270 articles de
recherche avec des liens vers PubMed, Microsoft Academic et la base de données
de publications COVID-19 de l’OMS. Les champs de la structure des enreg-
istrements sont les suivants : titre, doi, résumé, date de publication, auteurs,
revue, ainsi que les ID de documents internes (PMC ID, PUBMED ID, Mi-
crosoft Academic Paper ID, WHO ID) et des informations indiquant si le texte
intégral est disponible ou non.
    Bien que le métafichier soit une source d’information très riche, d’autres in-
formations peuvent être très utiles, comme l’affiliation des auteurs. C’est pourquoi
nous avons également étudié un ensemble plus complet vis à vis des champs de
données disponibles, même s’il ne contient pas l’ensemble des 44 000 articles
scientifiques mais environ 25 000 articles. Nous nous sommes concentrés sur les
documents de PubMed uniquement. La requête utilisée pour collecter la collec-
tion est:
”COVID-19” OR Coronavirus OR ”Corona virus” OR ”2019-nCoV” OR ”SARS-
CoV” OR ”MERS-CoV” OR “Severe Acute Respiratory Syndrome” OR “Middle
East Respiratory Syndrome”

4   Preliminary comment
The information we use is raw data and for this reason the conclusions drawn
have to be handle with caution because in this rapid analysis, we did not solved
content anomalies such as variants of entities spelling (e.g. author names). There
are also missing values that we did not consider either.
Mining the COVID-19 Open Research Dataset using T etralogie - Preliminary analysis - IRIT
Authors                        Venues
131 BARIC, RALPH S.            2537 JOURNAL OF VIROLOGY
125 PERLMAN, STANLEY 1560 PLOS ONE
123 YUEN, KWOK-YUNG 749 EMERGING INFECTIOUS DISEASES
116 DROSTEN, CHRISTIAN 559 VIRUSES
111 JIANG, SHIBO               509 ARCHIVES OF VIROLOGY
91 ENJUANES, LUIS              488 SCIENTIFIC REPORTS
90 SNIJDER, ERIC J.            474 JOURNAL OF CLINICAL MICROBIOLOGY
75 DU, LANYING                 421 PROC. OF THE NAT. ACADEMY OF SCIENCES OF THE USA
72 WEISS, SUSAN R.             359 PLOS PATHOGENS
72 WANG, LIN-FA                354 VIROLOGY JOURNAL
Table 1. 10 top authors (full author names), venues and the number of times they are
associated to a publication within the analysed data base.

    As an illustration, without making any treatment on possible variants in the
journal names nor in the full authors names (different spelling and/or abbrevi-
ations), the 10 most frequent journals and authors that are mentioned in this
data set are as presented in Table 1 (the number corresponds to the number of
papers published in that journal or by that author among the 25k papers):
    Despite its undeniable merits, the data base contains indeed some misspellings
and various writings of entities (which is a well known problem in data analysis)
that can make difficult to conclude on some points. For example, while PERL-
MAN (the first author in Table 1) has only two spellings in the file, DROSREN
has 5 and BARIC, Ralph Steven has potentially 8 as follows (with their fre-
quency):
131 BARIC, RALPH S.
31 BARIC, RALPH
11 BARIC, R S
8 BARIC, RALPH S
2 BARIC, R. S.
1 BARIC, RALPH STEVEN
1 BARIC., RALPH
1 BARIC, RALPH A.

    Considering now the various spellings of the first four authors the rank of the
more occurring authors changes slightly but also the number of papers associated
to each author changes. There are 108,890 author occurrences (an author may
occurs in different publications) in this collection. The number of occurrences of
the 4 first authors from Table 1 are presented in Table 2 when variants in name
spelling are conflated into a single one.
    This can be considered as a minor problem in some cases, specifically for fast
analysis but can be a more important problem in deeper analysis. Moreover, in
the collection, not all the publications are described both by the full name of the
authors and their short names. Specifically, the oldest publications seem not to
contain full author names.
Mining the COVID-19 Open Research Dataset using T etralogie - Preliminary analysis - IRIT
Authors                  without variants with variants
             BARIC, RALPH S.                185              131
             PERLMAN, STANLEY               132              125
             YUEN, KWOK-YUNG                149              123
             DROSTEN, CHRISTIAN             118              116
   Table 2. 4 top authors from Table 1 when solving different spelling problems.

    The same type of unsolved different spelling and missing data occur for the
other fields as well. In the rest of the document, we consider raw data for which
we did not solve the problem of missing values, nor the one of variants in name
entities because even if we have some automatic treatment to do so, manual
checking remains necessarely which is time consuming and not applicable for a
rapid analysis.

Commentaires préliminaires
Les informations que nous utilisons sont des données brutes et, pour cette raison,
les conclusions tirées doivent être manipulées avec des précaution. En effet, dans
cette analyse rapide, nous n’avons pas résolu les anomalies de contenu telles que
les variantes orthographiques des entités (par exemple les noms d’auteurs). Il y
a également des valeurs manquantes que nous n’avons pas non plus prises en
compte.
    À titre d’illustration, sans faire de traitement sur les variantes possibles dans
les noms des revues ni dans les noms complets des auteurs (orthographe différente
et/ou abréviations), les 10 revues et auteurs les plus fréquents qui sont men-
tionnés dans cet ensemble de données sont présentés dans le tableau 1 (le nom-
bre correspond au nombre d’articles publiés dans cette revue ou par cet auteur
parmi les 25k articles) :
    Malgré ses mérites indéniables, la base de données contient en effet quelques
fautes d’orthographe et diverses écritures d’entités (ce qui est un problème
bien connu dans l’analyse des données) qui peuvent rendre difficile la conclu-
sion sur certains points. Par exemple, alors que PERLMAN (le premier auteur
du tableau 1) n’a que deux orthographes dans le fichier, DROSREN en a 5 et
BARIC, Ralph Steven en a potentiellement 8 comme suit (avec leur fréquence):
131 BARIC, RALPH S.
31 BARIC, RALPH
11 BARIC, R S
8 BARIC, RALPH S
2 BARIC, R. S.
1 BARIC, RALPH STEVEN
1 BARIC., RALPH
1 BARIC, RALPH A.

   En considérant maintenant les différentes orthographes des quatre premiers
auteurs, le rang des auteurs les plus présents change légèrement mais également
Mining the COVID-19 Open Research Dataset using T etralogie - Preliminary analysis - IRIT
Fig. 1. Number of publications - Evolution (Nombre de publications - Evolution)
.

le nombre d’articles associés à chaque auteur change. Il y a 108 890 occurrences
d’auteurs (un auteur peut se trouver dans différentes publications). Le nombre
d’occurrences des 4 premiers auteurs du tableau 1 est présenté dans le tableau 2
lorsque les variantes de l’orthographe du nom sont ramenées à une seule.
    Cela peut être considéré comme un problème mineur dans certains cas, en
particulier pour une analyse rapide, mais peut constituer un problème plus cru-
cial dans le cadre d’une analyse plus approfondie. En outre, dans la collection,
toutes les publications ne sont pas décrites à la fois par le nom complet des au-
teurs et par leur nom abrégé. Plus précisément, les publications les plus anciennes
ne contiennent pas les noms complets des auteurs.
    Le même type d’orthographe différente non résolue et de données manquantes
se produisent également pour les autres champs de données. Dans le reste du
document, nous considérons les données brutes sans résoudre ces problèmes qui
nécessite des interventions humaines de vérification et qui n’est donc pas appro-
prié pour une analyse rapide.

5     Number of publications

Figure 1 shows the evolution of the number of publications over time. There are
finally classical curves that are common to various topics with a rapid increase
in recent years and a large number of publications in USA and China although
it would be worth looking at the European case as a unit.
Mining the COVID-19 Open Research Dataset using T etralogie - Preliminary analysis - IRIT
Fig. 2. Baric’s network (considering publications where the full author name occur)
.

Nombre de publications

La figure 1 présente l’évolution du nombre de publications au cours du temps.
Ce sont des courbes finalement classiques dans de nombreux domaines avec une
augmentation des publications dans les années récentes et une part importante
des publications signées par les USA et la Chine. Il pourrait être intéressant de
prendre en compte l’Europe comme une unité.

6       Collaborations at the author level

Figure 2 displays BARIC, RALPH S.’s direct network (co-authors). This net-
works considers the publications from the dataset where the full author names
are included. Notice that the other most occurring authors (See Table 2) are in
this network.
    In a similar way, Figure 3 displays BARIC, RALPH S.’s direct network with
journals. This networks considers the publications from the dataset where the
full author names are included as well as the journal; journals in which a single
publication of the author occurs have been removed. Combined with the most
frequent venues, it provides an additional information on venues.

   Finally, Figure 4 displays the strongest communities based on co-authorship.
This network considers the publications from the dataset where the full author
names are included and for which co-authoring occurs in at least 20 publications.
Mining the COVID-19 Open Research Dataset using T etralogie - Preliminary analysis - IRIT
Fig. 3. Baric’s network with journals
.

Fig. 4. Strongest author networks (considering publications where the full author name
occur)
.

Collaboration au niveau des auteurs

La Figure 2 affiche le réseau direct de BARIC, RALPH S. (co-auteurs). Ce
réseau prend en compte les publications de l’ensemble de données où les noms
complets des auteurs sont inclus. Les autres auteurs les plus fréquents (Voir
Table 2) se trouvent dans ce réseau.
     De façon similaire, la Figure 3 affiche le réseau direct de BARIC, RALPH
S. avec les journaux. Ce réseau prend en compte les publications de l’ensemble
de données dans lesquelles les noms complets des auteurs sont inclus et lorsque
la revue est mentionnée ; les revues dans lesquelles l’auteur n’apparait qu’une
seule fois ont été supprimées. Combinée avec les lieux les plus fréquents, cette
vue fournit une information supplémentaire sur les journaux.
Fig. 5. Geographic overview of the contributions - the brighter, the larger
.

   La Figure 4 affiche les communautés les plus fortes sur la base des co-auteurs.
Ce réseau prend en compte les publications de l’ensemble de données où les noms
complets des auteurs sont inclus et pour lesquelles la co-publication est présente
dans au moins 20 publications.

7   Collaboration and engagement at the geographic level

In this section, we consider the authors’ affiliation when mentioned in the data
collection. We made a focus on China and USA with two different perspectives
as presented below.
    In Figure 5, we can see the contribution of the different countries to the
collection. Not surprisingly USA and China are dominating. We are then giving
two different types of focus in what follows.
    Figure 6 presents the network of the collaborations between the various parts
of China (in red) and the other countries (in blue) based on the authors’ affili-
ations. The weights on the links correspond to the number of publications that
are mentioned as being written by authors from both linked locations. For ex-
ample, one of the strongest is between USA and Beijing institutions. Another
important one is with Guang Dong. A deeper analysis could be made at the
institution level.
    In Figure 7 we can observe the collaborations that are mentioned with USA.
For garnet-colored parts, there are no collaboration with other countries men-
tioned. In orange, there are collaborations, but not with USA, in various levels
of green, the collaboration with USA are mentioned.
    With regard to USA, we looked at another dimension which is related to the
effort each state put according to various criteria. Rather than observing the
Fig. 6. Focus on China collaborations
.

absolute values of the number of publications, the maps represent the ratio with
either the population or the gross national income (See Figure 8).

Collaboration et engagement au niveau géographique

Dans cette section, nous considérons l’affiliation des auteurs lorsqu’elle est men-
tionnée dans la collection de données. Nous avons mis l’accent sur la Chine et
les États-Unis avec deux perspectives différentes, présentées ci-dessous.
    La figure 6 présente le réseau des collaborations entre les différentes parties
de la Chine (en rouge) et les autres pays (en bleu) en fonction des affiliations
des auteurs. Les poids sur les liens correspondent au nombre de publications
mentionnées comme étant écrites par des auteurs des deux endroits liés. Par ex-
emple, l’un des liens les plus forts est celui entre les États-Unis et les institutions
de Pékin. Un autre lien important est celui avec Guang Dong. Une analyse plus
approfondie pourrait être faite au niveau des institutions.
Fig. 7. Focus on China-USA collaborations.

Fig. 8. Contribution of the different states relatively to the population (left side part)
and relatively to the gross national income (right side part).

    Dans la figure 7, nous pouvons observer les collaborations qui sont men-
tionnées avec les États-Unis. Pour les pièces de couleur grenat, il n’y a pas de
collaboration avec les autres pays mentionnés. En orange, il y a des collabora-
tions, mais pas avec les États-Unis. En vert, nous voyons la collaboration avec
les États-Unis à différents niveaux.
    En ce qui concerne les États-Unis, nous avons examiné une autre dimension
qui est liée à l’effort que chaque État déploie selon divers critères. Plutôt que
d’observer les valeurs absolues du nombre de publications, les cartes représentent
le rapport avec la population ou le produit national brut (See Figure 8).

8    Textual analysis

We considered the title only in this analysis while abstracts would be much
appropriate to consider because they are more complete. Authors’ or editor’s
key-words were not available thus were not used.
Fig. 9. Examples of phrases that have been generated from titles and extracted.

                 Fig. 10. Examples of clusters of phrases from titles.

    Figure 9 presents some of the phrases we automatically extracted from the
titles. Some phrases are used together in titles. When considering the phrase
co-occurrences larger than 1, it is then possible to extract phrase clusters as the
one presented in Figure 10. As one can see, some of these phrases are deeply
connected with population concerns about the COVID-19 such as ”Early stage
infection” or ”factor associated with severity” or ”wearable proximity”. These are
very interesting starting point for deeper analysis. These key phrases extracted
from free text are also a very good way to detect topical subjects of interest that
can be difficult to extract from keywords fields when provided.

Analyse textuelle

Nous n’avons tenu compte que du titre dans cette analyse, alors que les résumés
seraient tout à fait appropriés à considérer car ils sont plus complets. Les mots-
clés des auteurs ou des éditeurs n’étant pas disponibles, ils n’ont pas été utilisés
ici.
La figure 9 présente certains des groupes de mots que nous avons automa-
tiquement extraits des titres. Certains groupes de mots sont utilisés ensemble
dans les titres. Si l’on ne considère que les cooccurrences de phrases supérieures
à 1, il est alors possible d’extraire des groupes de phrases comme celui présenté
dans la figure 10. Comme on peut le voir, certaines de ces expressions sont
étroitement liées aux préoccupations de la population concernant la COVID-19,
telles que ”infection à un stade précoce” ou ”facteur associé à la gravité” ou
”proximité de la personne”. Ce sont des points de départ très intéressants pour
une analyse plus approfondie. Ces phrases clés extraites de textes libres sont
également un très bon moyen de détecter des sujets d’actualité intéressants qui
peuvent être difficiles à extraire des champs de mots clés lorsqu’ils sont fournis.

9    Conclusion
The purpose of this short report was to present a quick overview of a set of
scientific documents collected on the topic of COVID-19. We focused on the
simplest metadata to analyse. This study should be extended by a more detailed
study at the level of institutions for example. The European effort as a unit could
also be included. Finally, the analysis of the content of the paper abstracts would
be a particularly interesting contribution. We do believe that this analysis will
be also useful for the coming COVIDSearch task https://dmice.ohsu.edu/
hersh/COVIDSearch.html.
    It is important to mention that this document and the analysis it presents
were completed in less than 24 hours. There are necessarily some details missing
and certainly important ones.

Conclusion
Cet article avait pour objectif de présenter une vue rapide d’un ensemble de
documents scientifiques collectés sur le thème du COVID-19. Nous nous sommes
focalisés sur les méta-données les plus simples à analyser. Cette étude devrait être
prolongée par une étude plus fine au niveau des institutions par exemple. L’effort
de l’Europe considérée comme une unité pourrait également être inclue. Enfin,
l’analyse du contenu des résumés serait un apport particulièrement intéressant.
Nous pensons que cette analyse sera également utile pour la tâche COVIDSearch
à venir https: // dmice. ohsu. edu/ hersh/ COVIDSearch. html .
    Enfin, ce document et l’analyse qui y est présenté ont été réalisés en moins
de 24 heures. Il manque forcément alors des détails et certainement importants.
    Nous nous sommes appuyés sur DeepL pour certaines traductions dans ce
document www. DeepL. com/ Translator( versiongratuite) .

References
1. Z. Boulouard, L. Koutti, N. Chouati, A. El Haddadi, B. Dousset, A. El Haddadi,
   and F. Bouhafer. Visualizing large graphs out of unstructured data for competitive
intelligence purposes. In Proceedings of SAI Intelligent Systems Conference, pages
     605–626. Springer, 2016.
2.   B. Gay and B. Dousset. Les réseaux d’alliances stratégiques dans le domaine
     des anticorps monoclonaux: étude longitudinale. In Journées sur les systèmes
     d’information élaborée, 2005.
3.   I. Ghalamallah, A. Grimeh, and B. Dousset. Processing data stream by relational
     analysis. Dans: REVUE MODULAD, pages 67–70, 2007.
4.   J. Mothe, C. Chrisment, T. Dkaki, B. Dousset, and S. Karouach. Combining mining
     and visualization tools to discover the geographic structure of a domain. Computers,
     environment and urban systems, 30(4):460–484, 2006.
5.   J.-L. MULTON, G. BRANCA-LACOMBE, and B. DOUSSET. Analyse bib-
     liométrique des collaborations internationales de l’inra. In VSST’2001: veille
     stratégique scientifique & technologique: systèmes d’information élaborée, bib-
     liométrie, linguistique intelligence économique (Barcelone, 15-19 octobre 2001),
     pages Vol1–261, 2001.
Vous pouvez aussi lire