fren

IV – Comment comparer deux logiciels de détection ?

Publication 11.04.2016

Le tableau ci-dessous a été établi par notre collaboratrice scientifique.

Nous remercions les deux éditeurs de logiciels – Compilatio et Urkund – qui ont bien voulu se prêter au jeu.

Si vous utilisez un autre logiciel et souhaitez partager votre expérience avec tous les abonnés à notre « newsletter », nous vous en serions reconnaissants.

Compilatio Urkund
Description générale du logiciel

Compilatio est un  logiciel français. 

« En 2005, des enseignants en France ont fait part de leurs besoins en matière de contrôle du plagiat aux responsables de la société Six Degrés, spécialisée dans le design web. Les développeurs et le corps enseignant ont réfléchi ensemble sur les solutions à envisager. Frédéric Agnès, l’un des deux associés de Six degrés, a alors décidé de porter le projet. La première version de Compilatio est sortie en 2008. En 2009, l’équipe travaillant sur Compilatio a créé une nouvelle société du même nom, intégrée à la holding Six Degrés. » (Source: http://cursus.edu/article/17669/comment-utiliser-logiciel-anti-plagiat/#.VrS2tlLz8cs).

Urkund est un logiciel suédois.

« URKUND est né dans le monde universitaire. Une équipe de chercheurs a eu l’idée d’un service en réseau susceptible de les aider à détecter et décourager le plagiat, d’où la naissance de URKUND à l’automne 2000… URKUND a continué à croître et à se développer au cours des ans et est devenu le principal service suédois de lutte contre le plagiat…. URKUND est détenu et développé par PrioInfo AB. PrioInfo est une société qui répond depuis plus de 25 ans aux exigences et aux besoins des entreprises fortement consommatrices d’informations. » (Source:  http://www.urkund.com/fr/about-urkund/350-about-urkund).

Ergonomie Avantages

Intuitif  et aisé d’utilisation

Inconvénients

Propose moins de fonctionnalités (par exemple l’accès simultané à d’autres sources où il y a similitudes) qu’Urkund.

Avantages

Permet, sur une même page, d’accéder simultanément à de nombreuses fonctionnalités.

Inconvénients

Moins intuitif que Compilatio car la présentation est plus complexe et sophistiquée

Affichage des similitudes Avantages

Le texte du document analysé et celui de la source apparaissent dans leur intégralité : Les similitudes non reconnues par le logiciel et qui ne sont pas signalées en couleur, peuvent être détectées par l’enseignant lors de son analyse. La détection des paraphrases ou du plagiat sophistiqué est également facilitée puisque les 2 textes apparaissent en regard.

Les mots en gras (couleur rouge) signifient que les similitudes sont exactes.

Inconvénients

Tous les morceaux de phrases relevant du verbatim n’apparaissent pas en couleur : l’analyse exige plus de temps. Par ailleurs, certains mots présentés en couleur ne relèvent pas du plagiat verbatim

Avantages

L’affichage permet d’accéder simultanément à d’autres sources où ont été détectées les mêmes similitudes dans une même phrase. “Urkund montre toujours la meilleure source sur la page, celle qui est le plus près du texte. Mais renvoie aussi à 5 autres sources. Ces autres sources sont considérées comme alternatives et sont indiquées dans la marge gauche.” ( Traduction de “URKUND Administrator Guide”).

Inconvénients

Le texte du document analysé apparaît dans son intégralité mais, en regard, n’apparaissent, pour le texte source, que les similarités détectées dans la source. C’est seulement la partie de la source qui est aussi dans le document examiné qui est présentée dans le côté source (pas le texte dans son intégralité).

Il n’est donc pas possible de savoir ce qui n’a pas été reconnu par le logiciel ou ce qui relève de la paraphrase : il est nécessaire de cliquer sur le lien de la source pour consulter l’article original. L’analyse est donc plus longue, d’autant, qu’en procédant ainsi, les 2 textes ne sont plus en regard.

L’analyse est aussi moins aisée car Urkund convertit tous les caractères en Verdana (c’est le cas, par exemple, pour la détection des titres de chapitres) : “Pendant le processus d’analyse, tous les italiques, surlignages et le « gras » (bold) ont leur police remplacée par Verdana pour faciliter l’examen d’un écran unique. Toutes les images et tableaux qui ne peuvent pas être convertis en texte ont aussi été enlevés.” (Traduction de “URKUND Administrator Guide”.)

Pourcentages de similitude Le document soumis à l’analyse est découpé en « parties » plus ou moins nombreuses selon la longueur du texte soumis.

 

Compilatio présente un % global de similitudes pour l’ensemble du texte mais aussi un % par « parties ».

 

Les % sont indiqués par rapport au document analysé : 28% de similitudes, par exemple, signifie que 28% du texte contenu dans le document soumis à l’analyse a été reconnu comme similaire avec les sources.

Pour chaque source, un pourcentage spécifique est annoncé, qui signifie que le document analysé contient X% de texte similaire avec cette source.

L’ensemble des similitudes d’un document analysé est composé des similitudes additionnées pour chacune des sources. Il est possible d’ignorer les sources que l’on ne souhaite pas prendre en compte afin qu’elles ne soient plus prises en compte dans le calcul du % de similitude (pour cela, il suffit de cocher la case de sélection à côté de la source souhaitée, puis de cliquer sur le bouton « ignorer »)

Toutes les autres sources, qu’elles soient « très probables » ou « peu probables », seront prises en compte dans le calcul du pourcentage de similitude (les zones de textes qui présentent les mêmes similitudes avec plusieurs sources ne sont prises en compte qu’une fois)

On obtient alors :

– un pourcentage de similitude, pour chaque partie

– un pourcentage de similitude, pour l’ensemble du document

Avantages

 

– Les sélections opérées pour affiner l’analyse (retrait de sources ou non) ne disparaissent pas après la fermeture du logiciel. Elles sont néanmoins modifiables, à tout moment, par un simple « click ».

– Les passages entre guillemets peuvent facilement ne pas être pris en compte pour le calcul des pourcentages : il suffit de répondre à la question: “ Exclure les textes entre guillemets du % de similitude. ” 

Urkund donne:

« 1)     un % global de similitudes :  : 12% de similitudes, par exemple, dans un texte de 700 pages signifie que 12% du document, soumis à l’analyse, est identique à l’ensemble des sources trouvées par Urkund

2)     Un pourcentage pour chaque source où le logiciel a détecté des similitudes

3)    Au sein d’une même source, un % lié à chaque extrait de texte où ont été détectées des similitudes

Dans ce dernier cas : “Le % représente le degré de similarité en détail que le texte partage avec l’extrait provenant de la source. Ce chiffre aide à détailler le processus d’examen :

  • 100% = signifie que le texte est identique à l’extrait venant de la source
  • 50% = signifie que la moitié des mots, dans le texte, diffère d’une quelconque façon de l’extrait provenant de la source.
  • Des similitudes en-dessous de 30% ne sont pas, en principe, surlignées. »

“Si un éclairage est considéré comme non pertinent, il peut être facilement désactivé. Le surlignage inactif tourne au gris” (Traduction de “ URKUND Administrator Guide”) : le surlignage global sera modifié en conséquence.

Avantages

Le % global peut être affiné en ignorant des morceaux de texte détectés comme similarités au sein d’une même source.

Inconvénients

– Bien que le résultat des sélections opérées (retrait ou non de certains passages) puisse être envoyé par email, ces sélections disparaissent à la fermeture du logiciel.

Astuce : conserver le lien Internet permet de revenir aux sélections faites.

– Les passages entre guillemets apparaissent en couleur si on le souhaite mais, dans un même passage incluant, à la fois, verbatim et passages bien cités, il n’est pas possible d’ôter les parties entre guillemets pour que celles-ci ne soient plus prises dans le calcul des pourcentages. 

Limites de la signification des pourcentages: remarque générale Les % , hormis dans les cas de plagiat verbatim, ne sont pas révélateurs de l’ampleur du plagiat. Ils ne sont que des pistes pour une analyse ultérieure – nécessaire – puisque la paraphrase, le verbatim sophistiqué, la traduction verbatim ainsi que les graphiques, images et données non textuelles, dans l’ensemble, ne sont pas détectables par les logiciels. Les %, hormis dans les cas de plagiat verbatim, ne sont pas révélateurs de l’ampleur du plagiat. Ils ne sont que des pistes pour une analyse ultérieure – nécessaire – puisque la paraphrase, le verbatim sophistiqué, la traduction verbatim ainsi que les graphiques, images et données non textuelles, dans l’ensemble, ne sont pas détectables par les logiciels.

Il est cependant à noter qu’Urkund fait apparaître les mots qui diffèrent entre les deux textes où le logiciel a détecté des similarités. (Voir infra : “Spécificités”).

Détection de tentatives de manipulations pour que le logiciel ne reconnaisse pas les similitudes Compilatio peut détecter des tentatives de manipulations qui sont indiquées par un pictogramme.

Le « Support Compilatio » nous a précisé que : « De nouvelles implémentations ont été faites pour éviter de contourner notre logiciel notamment la détection de texte non-analysable (pictogramme triangle avec point d’exclamation qui signifie qu’une partie du document peut potentiellement avoir été modifiée pour ne pas détecter une source).

« L’année 2016 verra également de nouvelles fonctionnalités de recherche s’implémenter au logiciel, notamment pour la détection des reformulations qui sera grandement amélioré. »

URKUND peut détecter des tentatives de manipulations. C’est indiqué par « Warnings ».

Les warnings détectent également la manipulation des espaces (avec l’ajout d’une lettre en “blanc”, par exemple). “ Nous faisons également des tests pour une nouvelle fonction” pour pouvoir faire apparaître ce qui est entre parenthèses dans les textes analysés.

Limites de la détection des plagiats  – Ne prend pas en compte les traductions

– Ne reconnaît pas les tableaux / graphiques / images

– Toutes les sources ne sont pas accessibles (par exemple si l’auteur de l’analyse choisit de retirer un document de la “Bibliothèque de référence”: “cette action correspond à le supprimer entièrement de votre base de données et de celle de Compilatio.net” (Source: Magister by compilatio.net))

– Les documents nécessitant un accès payant ne sont pas accessibles.

– Ne prend pas en compte les traductions

– Ne reconnaît pas les tableaux / graphiques  /images

– Toutes les sources soumises à l’analyse d’Urkund ne sont pas accessibles (par exemple si l’utilisateur ou si l’étudiant a choisi l’option : “anonymat” dans le cadre du respect des droits d’auteurs) L’option “auto-delete” permet aussi de supprimer en totalité le texte soumis à l’analyse.

– Les documents nécessitant un accès payant ne sont pas accessibles Néanmoins, Urkund développe de nombreux partenariats (journaux scientifiques, encyclopédies …) afin d’élargir sa base de données.

 

Les rapports d’analyse Compilatio propose “3 degrés de précision de votre rapport :

1. L’onglet « synthèse » du rapport : un aperçu global de votre document, avec le top des sources (principales sources trouvées) et les passages similaires correspondants. Vous accédez directement au site Web en cliquant sur la source.

2. L’onglet « Texte Complet » : votre document en intégralité avec les similitudes trouvées.

3. L’onglet « Sources » du rapport : la totalité des sources similaires à votre document, classées par % et par degrés de pertinence.”

Compilatio permet de “décrypter les catégories de sources :

– Les sources « très probables » : liste des sources les plus facilement copiables par l’élève (sites les plus fréquentés) et où le logiciel a détecté un taux de similitudes anormalement élevé.

– Les sources « peu probables » : liste des sources assez facilement copiables par l’élève et où le logiciel a détecté quelques similitudes suspectes.

– Les sources « accidentelles » : liste des sources où le logiciel a détecté un très faible taux de similitudes avec le document de l’élève.” (Source: Compilatio Magister “Aide au démarrage”)

Le rapport présente le texte du document soumis à l’analyse, avec retranscription, en couleur, des similitudes et des références des sources à l’endroit même du texte où ces similitudes sont détectées par Urkund. Les % correspondants sont également indiqués.

 

Spécificités Certaines sources sont indiquées comme appartenant “à un autre utilisateur » : il s’agit de sources soumises par des auteurs qui ont opté pour l’anonymat ou encore de “sources externes” , c’est-à-dire venant d’un utilisateur de Compilatio extérieur à votre Université.

Pour préserver l’anonymat souhaité, les données sont cryptées mais Compilatio fait cependant apparaître les parties de textes similaires. Cet affichage est une aide précieuse dans le cas de plagiat conséquent.

D’autant qu’il est possible d’obtenir, via les services de Compilatio, l’accès au document.

La démarche à suivre est la suivante:

– transmettre à Compilatio certaines informations –(Nom du compte / Nom du dossier / Nom du document /Source concernée)

– attendre que la personne accepte de transmettre la source en question puis prenne contact avec vous, après que les services de Compilatio lui aie communiqué vos coordonnées.

 

Lorsque deux échantillons de textes similaires apparaissent  en regard, le logiciel donne la  possibilité de visualiser, en détail, les différences présentes dans les 2 textes. C’est le cas, par exemple, pour des mots absents de l’un des 2 textes ou des différences de temps ou encore des synonymes, par exemple.

« Quand le bouton « Show detailed text differences » est « on », les différences sont signalées côté source sous la forme de rectangles colorés (surlignages) sur les mots qui diffèrent du document examiné.

  • ex. d’un mot absent de la source mais présent dans le document : dans ce cas, le rectangle coloré est vide.
  • Il y a une ou plusieurs phrases dans le document examiné qui ne sont pas présentes dans la source
  • Il y a un ou plusieurs mots dans la source qui ne sont pas présents dans le document examiné
  • Il y a un mot dans la source qui figure aussi dans le document examiné mais sous une autre forme : un synonyme, un temps changé, mot mal orthographié ou similaire. Ex : « In some cases… » devient « in some circumstances »

(Traduction de “URKUND Administrator Guide”)

Analyse des langues Compilatio peut analyser tous les documents rédigés en alphabet latin, dans toutes les langues. URKUND peut analyser les documents en toutes les langues d’alphabet latin « et a la possibilité d’analyser l’arabique, le mandarine, l’hébreu entre autres ». (Source : Support Urkund).
La base de données

 

La réponse du « support Compilatio »
« Notre service réalise une comparaison à trois niveaux :
– internet en libre accès
– les documents déposés dans votre   université
– les documents déposés par l’ensemble des utilisateurs Compilatio (respect de la confidentialité des documents).Nous pouvons ajouter les archives de travaux des années précédentes, ou des collections de documents que vous pouvez  nous transmettre. Chaque utilisateur peut également enrichir sa propre « bibliothèque de références » de tout document à sa disposition, à tout moment. »
La réponse du « support Urkund »

« 1. L’ensemble des sources disponibles sur l’Internet, 45 milliards de sites internet.

2. Les documents qu’URKUND a déjà reçu, dans les archives, environ 17 millions documents (2016-02-15).

3. Les publications accessibles sur les bases de données de nos partenaires. 4.000 sources d’informations, une base de données de plus de 1.000.000 journaux ».

Le stockage La réponse du « support Compilatio »
« Pas de restriction sur le nombre de documents dont le contenu est en « bibliothèque de références ».Un quota de stockage pour les fichiers originaux des documents analysés par les utilisateurs selon les offres commerciales choisies.
Vous pouvez analyser autant de documents que vous souhaitez, sans restriction dans le cadre d’une utilisation individuelle dans un contexte universitaire normal ».
La réponse du « support Urkund »

« Pour utiliser URKUND, l’université ou l’école doit avoir une licence et un contrat avec nous. Avec cette licence, on peut analyser autant de documents que l’on souhaite  et on peut avoir autant d’utilisateurs (professeurs) que l’on  souhaite.Nous n’avons pas une limite par an ou par étudiant. Même si on utilise la boîte Web d’URKUND, on peut stocker un nombre illimité des documents. La taille des documents qui peuvent être analysés est sans limite.

 

Confidentialité et propriété intellectuelle des documents :

  URKUND permet d’assurer la confidentialité de certains documents: suppression totale du document, sans le partage ou d’accès extérieur. En choisissant de garder le contenu de travaux d’étudiants confidentiel, URKUND ne donne pas des copies des documents aux autres. URKUND peut, en fin de contrat, retourner l’ensemble de données de l’université et procéder à la destruction de tous fichiers stockant ».

Aide à l’apprentissage La réponse du « support Compilatio »

 

« Compilatio accompagne l’établissement à différents niveaux :

– formation du référent utilisateur dans l’établissement

– mise en place d’un plan d’action « prévention du plagiat » dans l’établissement, incluant :

– la réalisation d’un cadre réglementaire

– la mise en place d’action de formation / d’information auprès des enseignants et des étudiants

– les procédures de contrôle et de traitement des situations

– communication auprès des enseignants /étudiants sur l’ensemble des actions menées
Du côté de l’utilisateur, vous disposez de guides dans votre compte vous aidant lors de l’utilisation du service.

Nous proposons également des formations sur site.

 

Service support

Pour les utilisateurs du service : le support est accessible depuis votre compte Magister (envoi par formulaire)

Notre équipe vous apporte une réponse dans un délai de 48 heures (jours ouvrables) » .

 

La réponse du « support Urkund » 

 

« Urkund met à la disposition des utilisateurs plusieurs manuels téléchargeables à partir de son site. Ils sont en anglais, hormis le « quick start » qui existe en français ». Cependant, il nous a été précisé que :

 

« Si vous écrivez en français votre mail sera transmis à une personne qui peut répondre en français.

 

Le support par téléphone existe en anglais et en français.

 

Notre service « Help Desk » peut aider les clients par mail ou téléphone en langue française.

 

Le service apporte une réponse rapide, en moins moins de 24 heures (lundi-vendredi).

 

Tous types d’assistance sont fournis par URKUND: l’assistance utilisateur et l’assistance technique.

 

Nous proposons aussi le « Manuel sur le plagiat » et des conseils pour les étudiants ».