Distribution mondiale des langues incluses dans la version CLICS3, identifiés par famille de langues. Crédit :S. J. Greenhill
Chaque langue a des cas dans lesquels deux ou plusieurs concepts sont exprimés par le même mot, comme le mot anglais "fly, " qui se réfère à la fois à l'acte de voler et à l'insecte. En comparant les modèles dans ces cas, que les linguistes appellent colexifications, à travers les langues, les chercheurs peuvent acquérir des connaissances sur un large éventail de questions, y compris la perception humaine, évolution de la langue et contact linguistique. Le troisième volet de la base de données CLICS augmente considérablement le nombre de langues, notions, et sources de données disponibles dans les versions antérieures, permettant aux chercheurs d'étudier les colexifications à l'échelle mondiale avec des détails et une profondeur sans précédent.
Avec des workflows détaillés assistés par ordinateur, CLICS facilite la normalisation des ensembles de données linguistiques et fournit des solutions à de nombreux défis persistants dans la recherche linguistique. « Alors que l'agrégation des données était généralement basée sur des procédures ad hoc dans le passé, nos nouveaux workflows et guides de bonnes pratiques sont une étape importante pour garantir la reproductibilité de la recherche linguistique, " dit Tiago Tresoldi.
Efficacité des CLICS démontrée dans les applications de recherche
La capacité de CLICS à fournir de nouvelles preuves pour répondre à des questions de pointe en psychologie et en cognition a déjà été illustrée dans une étude récente publiée dans Science , qui se concentrait sur le codage mondial des concepts émotionnels. L'étude a comparé des réseaux de colexification de mots pour des concepts émotionnels à partir d'un échantillon global de langues, et a révélé que la signification des émotions varie considérablement d'une famille linguistique à l'autre.
"Dans cette étude, CLICS a été utilisé pour étudier les différences dans le codage lexical des émotions dans les langues du monde entier, mais le potentiel de la base de données ne se limite pas aux concepts d'émotion. De nombreuses autres questions intéressantes peuvent être abordées à l'avenir, " dit Johann-Mattis List.
Réseau de colexification centré sur les concepts « main » et « bras ». Crédit :J.-M. Lister, T. Tresoldi
De nouvelles normes et de nouveaux flux de travail permettent la récolte reproductible de données lexicales mondiales
S'appuyant sur les nouvelles lignes directrices pour les formats de données standardisés dans la recherche interlinguistique, qui ont été présentés pour la première fois en 2018, l'équipe CLICS a pu augmenter la quantité de données de 300 variétés de langues et 1200 concepts dans la base de données d'origine à 3156 variétés de langues et 2906 concepts dans l'installation actuelle. La nouvelle version garantit également la reproductibilité du processus d'agrégation des données, se conformer aux meilleures pratiques en matière de gestion des données de recherche. "Grâce aux nouvelles normes et workflows que nous avons développés, nos données ne sont pas seulement JUSTES (trouvables, accessible, interopérable, et reproductible), mais le processus d'élévation des données linguistiques de leurs formes originales à nos normes interlinguistiques est également beaucoup plus efficace que par le passé, " dit Robert Forkel.
L'efficacité du flux de travail développé pour CLICS a été testée et confirmée dans diverses expériences de validation impliquant un large éventail d'universitaires et d'étudiants. Deux tâches étudiantes différentes ont été menées, résultant en la création de nouveaux jeux de données et l'amélioration progressive des données existantes. Les étudiants ont été chargés de suivre les différentes étapes de la création d'un ensemble de données décrites dans l'étude, par exemple. extraction de données, mappage de données (vers des catalogues de référence), et l'identification des sources. « Le fait que des personnes extérieures à l'équipe de base utilisent et testent vos outils est essentiel et aide énormément à affiner tous les processus, " dit Christoph Rzymski.
Avec CLICS et son workflow accessibles à un public plus large, les universitaires ne peuvent pas seulement contribuer directement à la base de données à l'avenir; ils peuvent également profiter des machines établies et démarrer leurs propres collections ciblées. "Le nombre de linguistes qui utilisent activement nos standards et workflows est en constante augmentation. Nous espérons que la sortie de cette nouvelle version de CLICS les propagera davantage, " dit Simon Greenhill.