Corpus de journaux en français sur la sécurité alimentaire au Burkina Faso et Sénégal annotés en entités nommées et analyse de sentiment

DOI

Ce jeu de données contient 1094 articles de presse en français (405 concernant le Burkina Faso et 689 concernant le Sénégal) relatifs à la sécurité alimentaire, ainsi que des informations extraites automatiquement et le code utilisé pour l'extraction et la visualisation. Dans le but d'expliquer la situation de vulnérabilité à une possible crise alimentaire, ou l’intensification d’une crise déjà présente, nous proposons de relever les mentions des facteurs associés à l’insécurité alimentaire dans les thématiques d’agriculture (e.g. rendement de récolte), environnement-météorologie (e.g. sécheresse), économie (e.g. prix des aliments) et la situation sociopolitique (e.g. attaques armés).

Pour y parvenir, nous avons proposé une annotation par entités nommées thématiques et spatio-temporelles (date, durée, village, pays, etc.), ainsi qu'une analyse de sentiment des phrases contenant des mots clés neutres (e.g. “prix”, “coût”, “intrants”, “stock”, etc.) afin de repérer si ces mentions décrivent une situation qui favorise l’accès aux aliments et leur disponibilité (sentiment = positif) ou si, a contrario, ne les favorise pas (sentiment négatif) ou n'est pas liée (sentiment neutre).

Le jeu de données comprend les éléments suivants :

“01_Expert_Thematic_Lexicon_Food_Insecurity” en format XSLX présente le lexique thématique expert construit par notre équipe de recherche à partir d’une révision bibliographique sur l’insécurité alimentaire et les vulnérabilités du système agro-alimentaire. Ce classeur contient 43 concepts (colonne 'concept') des causes et facteurs associés à l'insécurité alimentaire, groupées en 6 domaines thématique (colonne ‘theme’), chaque catégorie contient plusieurs mots ou des phrases nominales (colonne ‘terms’) associés aux concepts par des relations non-explicitées de variance lexicale, synonymie, hyponymie (concepts plus spécifiques) et co-hyponymie, ainsi qu'une colonne (‘neutral’) qui représente si le concept est neutre (valeur ‘1’) ou polarisé (valeur ‘0’).

Les fichiers TAB "02_Corpus_BurkinaFaso_Source_Links" et "03_Corpus_Senegal_Source_Links" présentent un tableau avec les identifiants uniques des articles de presse constituant notre corpus et l'URL d'accès en ligne à leur source : Le Faso, Burkina 24, Dakar Actu, Le Quotidien et APS.

Les fichiers JSONL "04_Corpus_BurkinaFaso_Extracted_EntitiesAndSentences" et "05_Corpus_Senegal_Extracted_EntitiesAndSentences" présentent les informations extraites automatiquement à partir du contenu des articles : entités spatiales, organisations et du lexique expert (spaCy), entités temporelles (HeidelTime) et phrases analysées en sentiment (positives, négatives, neutres) avec le modèle Codestral.

Les fichiers TAB "06_List_Explanation_Features_BurkinaFaso" et "07_List_Explanation_Features_Senegal" présentent les listes des segments du texte que le grand modèle de langue (Codestral) utilise pour justifier la prédiction de polarité.

"08_Visualization_BurkinaFaso_Sample20" et "09_Visualization_Senegal_Sample20" présentent un échantillon de la visualisation des annotations supervisées sur une vingtaine de documents en format HTML.

"10_Code_FoodSecurity_AnnotationPipeline" en format IPYNB contient le code utilisé pour l'extraction d'entités thématiques, spatio-temporelles et l'analyse de sentiment.

"11_Corpus_Contenu_BurkinaFaso405" et “12_Corpus_Contenu_Senegal689” présentent le contenu des articles de presse, y compris leurs titres, et l’identifiant unique correspondant. Diffusion restreinte.

Le dossier compressé ZIP "13_Annotations_Manuelles_Analyse_Sentiment_Phrases" contient 270 phrases du corpus de journaux burkinabés et le sentiment (positif = 1, négatif = -1, neutre = 0) annoté manuellement, sous format JSONL, et le code Python en format IPYNB pour évaluer les performances des modèles d’analyse de sentiment.

Le fichier TAB“14_Annotations_Manuelles_Phase_Geo_Scope” contient les annotations au niveau du document de 405 articles de presse burkinabés issues de deux tâches: la phase d'apparition de la crise (colonne 'phase') qui dénote si l'article décrit une situation qui se passe avant (1), durant (2) ou après (3) une crise alimentaire, ou si l'article n'est pas pertinent pour le domaine de sécurité alimentaire (0). Nous avons aussi annoté la portée géographique (colonne 'geo') qui dénote si l'article mentionne le niveau plus petit des types d'entités spatiales trouvées dans l'article. Par exemple, si un article contient des entités de province, de pays et de villes, on a annoté "commune".

Le fichier "README" présente une introduction à l’utilisation du code d’extraction d’informations et la description technique et spécifique des différentes méthodes d’extraction et leur visualisation.

Le code de notre méthode d'extraction est également disponible sur le repositoire GitHub de notre laboratoire UMR Tetis https://github.com/tetis-nlp/food-insecurity-risk-mining

This dataset contains 1094 press articles in French (405 concerning Burkina Faso and 689 concerning Senegal) concerning food security, as well as automatically extracted information and the code used for extraction and visualization. In order to explain the vulnerability to a potential food crisis or the intensification of an existing crisis, we propose to identify mentions of factors associated with food insecurity in the themes of agriculture (e.g., crop yield), environment-meteorology (e.g., drought), economy (e.g., food prices), and socio-political situation (e.g., armed attacks).

To achieve this, we have proposed an annotation of thematic and spatio-temporal named entities (date, duration, village, country, etc.), as well as a sentiment analysis of sentences containing neutral keywords (e.g., “price,” “cost,” “inputs,” “stock,” etc.) to determine whether these mentions describe a situation that favors food access and availability (positive sentiment) or, conversely, does not favor it (negative sentiment) or is unrelated (neutral sentiment).

The dataset includes the following elements:

The XSLX file ‘01_Expert_Thematic_Lexicon_Food_Insecurity’ presents the expert thematic lexicon built by our research team from a literature review on food insecurity and vulnerabilities of the agri-food system. This expert lexicon contains 43 concepts (column ‘concept’) of causes and factors associated with food insecurity, grouped into 6 thematic domains (column ‘theme’). Each category contains several words or noun phrases (column ‘terms’) associated with the concepts by unexpressed relationships of lexical variance, synonymy, hyponymy (narrower concepts), co-hyponymy; as well as a column (‘neutral’) representing whether the concept is neutral (‘1’) or polarised (‘0’).

"02_Corpus_BurkinaFaso_Source_Links" and "03_Corpus_Senegal_Source_Links" present a table (in TAB extension) with the unique identifiers of the news articles and the online access URLs to their sources: Le Faso, Burkina 24, Dakar Actu, Le Quotidien, and APS.

The JSONL files "04_Corpus_BurkinaFaso_Extracted_EntitiesAndSentences" and "05_Corpus_Senegal_Extracted_EntitiesAndSentences" present the information automatically extracted from the content of the articles: spatial entities, organizations, and the expert lexicon (spaCy), temporal entities (HeidelTime), and sentences analyzed for sentiment (positive, negative, neutral) with the Codestral model.

The TAB files "06_List_Explanation_Features_BurkinaFaso" and "07_List_Explanation_Features_Senegal" present the lists of text segments that the large language model (Codestral) uses to justify the polarity prediction.

"08_Visualization_BurkinaFaso_Sample20" and "09_Visualization_Senegal_Sample20" present a sample visualization of the supervised annotations on about twenty documents in HTML format.

The Jupyter notebook (IPYNB) file "10_Code_FoodSecurity_AnnotationPipeline" contains the code used for the extraction of thematic, spatio-temporal entities, and sentiment analysis.

"11_Corpus_Contenu_BurkinaFaso405" and “12_Corpus_Contenu_Senegal689” present the content of the news articles, including their titles and corresponding unique identifiers. The access to this content is restricted.

The ZIP folder comprises a JSON file "13_Annotations_Manuelles_Analyse_Sentiment_Phrases" with 270 sentences from the Burkinabé news corpus and the sentiment (positive = 1, negative = -1, neutral = 0) manually annotated, along with the Python code (IPYNB) to evaluate the performance of sentiment analysis models.

The TAB file‘14_Manual_Annotations_Phase_Geo_Scope’ contains the document-level annotations of 405 press articles from Burkina Faso derived from two annotation tasks: the crisis onset phase (‘phase’ column) which denotes whether the article describes a situation that occurs before (1), during (2) or after (3) a food crisis; or whether the article is not relevant to the food security domain (0). We also annotated the geographical scope (column ‘geo’) which denotes whether the article mentions the smallest level of spatial entity types found in the article; for example, if an article contains province, country and city entities, we annotated ‘commune’. The "README" file provides an introduction to using the information extraction code and a technical and specific description of the various extraction methods and their visualization.

The code for our extraction method is also available on the GitHub repository of our UMR Tetis laboratory: https://github.com/tetis-nlp/food-insecurity-risk-mining

Identifier
DOI https://doi.org/10.57745/1PISWK
Metadata Access https://entrepot.recherche.data.gouv.fr/oai?verb=GetRecord&metadataPrefix=oai_datacite&identifier=doi:10.57745/1PISWK
Provenance
Creator Jaimes-Quintero, Nelson ORCID logo; Teisseire, Maguelonne ORCID logo; Valentin, Sarah (ORCID: 0000-0002-9028-681X)
Publisher Recherche Data Gouv
Contributor Teisseire, Maguelonne
Publication Year 2024
Funding Reference Agence nationale de la recherche
Rights etalab 2.0; info:eu-repo/semantics/restrictedAccess; https://spdx.org/licenses/etalab-2.0.html
OpenAccess false
Contact Teisseire, Maguelonne (INRAE)
Representation
Resource Type Dataset
Format text/tab-separated-values; application/octet-stream; text/html; application/x-ipynb+json; application/zip; application/pdf
Size 10102; 51292; 85831; 2979283; 2421862; 74871; 53431; 1274827; 882863; 645077; 2205793; 2606363; 28448; 12323; 426062
Version 1.0
Discipline Agriculture, Forestry, Horticulture; Computer Science; Agricultural Sciences; Agriculture, Forestry, Horticulture, Aquaculture; Agriculture, Forestry, Horticulture, Aquaculture and Veterinary Medicine; Life Sciences