Plagiat et Impact de l'Information Textuelle recHerchée
dans un contexte InterlinguE
17-18 novembre 2008
Le projet PIITHIE a été présenté dans le cadre du « Paris Région Innovation Tour » organisé par Cap Digital les 17 et 18 novembre 2008. Ces journées avaient pour but de réunir les acteurs et décideurs européens de l’innovation.
Pour plus d'informations sur le projet Piithie, veuillez contacter le

Projet financé par l'Agence Nationale de la Recherche.
Dans un contexte sociétal où le domaine de l’information est non seulement un pouvoir économique de premier ordre mais aussi un pouvoir (tout court) de première importance, les notions de propriété, de diffusion et d’impact de l’information sont fondamentales.
D'une part, la notion de propriété intellectuelle et de droit d'auteur souffre actuellement d'attaques répétées du fait des nouvelles technologies de l'information et de la communication. Si l'on parle très souvent de la diffusion illégale d’œuvres (en particulier musicales et cinématographiques), il est un problème d'une autre nature mais tout aussi important : le plagiat. La réutilisation non consentie d'un texte sans citer la source a toujours existé mais a pris une autre dimension avec l'avènement du Web où la perception de la propriété par les internautes est sensiblement affaiblie par la facilité de copie sans coût des contenus digitaux. Les utilisateurs et producteurs d'information ont souvent tendance à croire (ou feignent de croire) que tout ce qui se trouve sur Internet est libre de droit.
D'autre part, l’une des problématiques des diffuseurs d’information (que ce soit les industries du domaine ou les personnes et organismes qui utilisent ces media pour diffuser un message) est d’évaluer l’impact de leurs propos. Un politique voudra savoir quel a été l’impact de sa dernière déclaration. Un journaliste voudra savoir si son dernier article exclusif a eu un retentissement ailleurs dans la Presse, une entreprise diffusant un nouveau produit voudra savoir comment son message publicitaire a été perçu, etc. L’ensemble de ces besoins se résume à l’évaluation et au suivi d’impact.
Le projet Piithie s'inscrit dans cette thématique de la maîtrise de l'information et vise deux objectifs :
Ces deux applications sont novatrices. La détection de plagiat est en pleine expansion mais peu d’acteurs sérieux sont à même de proposer des solutions innovantes et le suivi d’impact automatique est un nouveau concept puisque ce travail ne se fait actuellement que par une étude manuelle (même si des moteurs et des agents de veille sont utilisés, c’est l’humain qui choisit les termes à rechercher). Les traitements nécessaires à ces deux applications sont les mêmes. Mais leur mise en place et leur paramétrage diffère selon que l’on chercher une copie illégale de l’information ou une utilisation parfaitement légale et dont le contenu peut être très divergent (opinion différente, compléments d’information, etc.).
Les enjeux économiques et industriels sont donc très importants. Il y a aussi de nombreux enjeux scientifiques. Plusieurs verrous scientifiques et technologiques devront être levés avec l’aide du Laboratoire Informatique d’Avignon (LIA) et du Laboratoire d’Informatique de Nantes Atlantique (LINA):
Le projet s'appuiera sur l'expertise et les besoins du partenaire valideur TNS Media Intelligence.
Les objectifs de ce projet sont donc l’utilisation de techniques de Traitement Automatique des Langues (TAL) à la détection de plagiat et au suivi d’impact d’une information. L’évaluation de l’apport de ces techniques est fondamentale. Globalement, l’évaluation est un élément essentiel du projet et une grande part de l’effort y est consacrée. Les méthodologies d’évaluation ainsi que les corpus associés seront diffusés à la communauté à la fin du projet (avec éventuellement une période de carence d’un an).
© 2007 Syllabs