Studienarbeit 2 – Plagiatfinder – R
Texte enthalten Buchstaben, Interpunktionszeichen, Wörter, Sätze, Abschnitte, usw. Die Möglichkeiten zur Kombination von Buchstaben, Zeichen, Wörtern, Sätzen sind unermesslich. Deshalb ist die Analyse von Texten ein spannendes Forschungsfeld. Beispielweise hat die Analyse von Texten gezeigt, mit welcher Wahrscheinlichkeit die einzelnen Buchstaben des Alphabets im Durchschnitt auftreten. Diese Erkenntnisse haben es früher erlaubt, verschlüsselte Texte ohne Kenntnis des Schlüssels zu dechiffrieren. Heute sind auf allen Mail-Servern Anti-Spam-Programme im Einsatz, welche die ausgetauschten Mitteilungstexte analysieren, um unerwünschte Nachrichten (Spam) von den korrekten Mails unterscheiden zu können. Ein anderer Bereich der Textanalyse befasst sich mit dem Erkennen von Plagiaten, d.h. mit dem Erkennen von Texten (beispielweise von Studierenden), die aus irgendwelchen Quellen (z.B. im Web) kopiert wurden.
Das Gebiet der Textanalyse ist riesig. Jeder Teil dieses Gebiets ist interessant und bietet eine Vielzahl von Vertiefungsmöglichkeiten. Das Thema, welches uns am meisten interessiert hat, ist das Erkennen von Plagiaten. Wir finden diese sei ein sehr aktuelles und komplexes Thema.

Plagiatfinder
In dieser Semesterarbeit mussten wir das Programm R benutzen. Dieses Programm eignet sich zum Analysieren graphischer Darstellung von Daten. Die Idee war, dass die Studierenden sich in den Stoff (Programm R) einarbeiteten. Sie sollten im Internet recherchieren und die Quellen mit den gefundenen Informationen sollten angegeben werden. Am Schluss konnte man Algorithmen im Internet suchen um die selber erfundene Daten analysieren.
Da wir schon Erfahrung mit Programmieren hatten, haben wir schnell festgestellt dass das Programm R ähnlich aufgebaut ist wie andere Programmiersprachen (z.B. Java, c++). Es gab die Möglichkeit, ein eigener Algorithmus zu kreieren. Wir haben das Recherchieren von Literatur über R ein bisschen vernachlässigt, um uns über das Programm (Plagiatfinder haben wir es benannt) zu konzentrieren. Wir haben uns oft getroffen, um zu diskutieren, was das Programm machen sollte, welchen Typ von Plagiat musste es erkennen, wie sollte das Programm die Plagiate finden und wie sollte es schlussendlich die Resultate graphisch darstellen.
Nach dieser Phase haben wir mit dem Programmieren begonnen. Wir programmierten Plagiatfinder sorgfältig. Auch wenn das Programm schon funktionierte, änderten wir manchmal noch Kleinigkeiten, um das Programm zu perfektionieren. Auch in die Ästhetik haben wir Zeit investiert. Die Variablen und Konstanten haben nach einem
ersten Entwurf nachvollziehbare Namen erhalten so, dass auch eine dritte Person das Programm schnell versteht und eventuell auch erweitern könnte.
Das Programm bietet eigentlich zwei Verfahren:
Verfahren 1: ganze Sätze Dieser Verfahren eignet sich nur für Sätze, die eins zu eins vom Internet kopiert worden sind.
Verfahren 2: modifizierte Sätze Dieser Verfahren ist langsamer, kann aber auch Sätze die leicht verändert worden sind, erkennen.
Hier ist der ganze Artikel zu finden.
Quellcode: Plagiatfinder
Autoren: Marco Costa und Mario Lanfranchi
Tags: eth, HTW, programmieren, programmiersprachen, r, statistik, studienarbeit









