{"id":474,"date":"2013-09-10T09:32:36","date_gmt":"2013-09-10T07:32:36","guid":{"rendered":"http:\/\/www.epischel.de\/wordpress\/?p=474"},"modified":"2013-09-10T10:40:15","modified_gmt":"2013-09-10T08:40:15","slug":"doubletten-im-internet-finden","status":"publish","type":"post","link":"https:\/\/www.epischel.de\/wordpress\/2013\/09\/doubletten-im-internet-finden\/","title":{"rendered":"Doubletten im Internet finden"},"content":{"rendered":"<p>Ich habe auf meiner Homepage eine kleine HTML-Seite \/ &#8222;Web-App&#8220; wiederentdeckt. Sie soll &#8222;Doubletten&#8220; (Plagiate, doppelter Content ect.) eines vorgegeben Textes im Internet finden.<\/p>\n<p>Das geht ganz einfach: auf der <a title=\"Doubletten-Finder\" href=\"http:\/\/epischel.de\/misc\/doublettenfinder.html\" target=\"_blank\">Doublettenfinder Seite<\/a> einfach den Vorgabe-Text in die Textbox kopieren und auf &#8222;pr\u00fcfen&#8220; klicken. Dann werden bestimmte W\u00f6rter aus dem Text ausgew\u00e4hlt (die Anzahl kann in der Drop-Down-Box eingestellt werden) und eine Google-Suche wird vorgenommen. Die &#8222;exakt&#8220;-Checkbox bestimmt, ob alle Suchbegriffe in den Treffern vorkommen sollen. In meinem Experimenten ist es meist besser, sie aktiviert zu lassen, wenn jedoch kein oder kein gew\u00fcnchster Treffer angezeigt wird, dann mal deaktiviert probieren.<\/p>\n<p>Der dahinter liegende Algorithmus zur Auswahl ist einfach: es sortiert die in der Textbox enthaltenen W\u00f6rter nach ihrer H\u00e4ufigkeit und Wortl\u00e4nge. Dann werden die seltesten, l\u00e4ngsten W\u00f6rter ausgew\u00e4hlt und als Suchbegriff ausgew\u00e4hlt. Die Idee ist, dass diese dann spezifische Fachbegriffe sind. Das klappt im Deutschen \u00fcbrigens besser als im Englischen, Stichwort: zusammengesetzte Substantive.<\/p>\n<p>Obwohl dieser Ansatz recht naiv ist, funktioniert er jedoch erstaunlich gut. Wenn man per Hand noch ein zwei themen-relevante Such-W\u00f6rter hinzuf\u00fcgt, greift man der Sache unter die Arme.<\/p>\n<p><strong>Update:\u00a0<\/strong>Ich werde mal probieren, erst nach der Wortl\u00e4nge und dann nach der H\u00e4ufigkeit zu sortieren. Mal sehen, wie dann die Ergebnisse sind.<\/p>\n<p><strong>Update 2:<\/strong> Ich habe das mal eingearbeitet. Die Unterschiede sind nicht so gro\u00df. Aber trotzdem interessant, da mal ein bisschen rumzuprobieren.<\/p>\n<p><strong>Andere Ans\u00e4tze:<\/strong> (frei und ohne zus\u00e4tzliche Software)<\/p>\n<ul>\n<li><a href=\"http:\/\/www.plagiatefinder.de\/\">plagiatefinder.de<\/a> zerlegt den Text in Wortgruppen und sucht diese im Internet. Dabei entstehen wesentlich mehr Google-suchen, die man &#8222;bewerten&#8220; muss.<\/li>\n<li><a href=\"http:\/\/www.plagscan.com\/seesources\/\">SeeSources.com<\/a> erl\u00e4utert die Vorgehensweise nicht. Spuckt aber relevante Links und \u00e4hnliche Textstellen aus<\/li>\n<li><a href=\"http:\/\/www.plagaware.de\/\">PlagAware<\/a> deutsprachig, Einschr\u00e4nkung auf 25 Abfragen pro Monat und IP<\/li>\n<\/ul>\n<div class=\"syndication-links\"><\/div>","protected":false},"excerpt":{"rendered":"<p>Ich habe auf meiner Homepage eine kleine HTML-Seite \/ &#8222;Web-App&#8220; wiederentdeckt. Sie soll &#8222;Doubletten&#8220; (Plagiate, doppelter Content ect.) eines vorgegeben Textes im Internet finden. Das geht ganz einfach: auf der Doublettenfinder Seite einfach den Vorgabe-Text in die Textbox kopieren und auf &#8222;pr\u00fcfen&#8220; klicken. Dann werden bestimmte W\u00f6rter aus dem Text ausgew\u00e4hlt (die Anzahl kann in&hellip;<\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"mf2_syndication":[],"webmentions_disabled_pings":false,"webmentions_disabled":false,"footnotes":""},"categories":[2,7],"tags":[50,52,49,29,31,51,48],"series":[],"class_list":["post-474","post","type-post","status-publish","format-standard","hentry","category-entwicklung","category-web","tag-algorithmus","tag-doublette","tag-google","tag-internet","tag-javascript","tag-plagiat","tag-suche","kind-"],"kind":false,"_links":{"self":[{"href":"https:\/\/www.epischel.de\/wordpress\/wp-json\/wp\/v2\/posts\/474","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.epischel.de\/wordpress\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.epischel.de\/wordpress\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.epischel.de\/wordpress\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/www.epischel.de\/wordpress\/wp-json\/wp\/v2\/comments?post=474"}],"version-history":[{"count":8,"href":"https:\/\/www.epischel.de\/wordpress\/wp-json\/wp\/v2\/posts\/474\/revisions"}],"predecessor-version":[{"id":482,"href":"https:\/\/www.epischel.de\/wordpress\/wp-json\/wp\/v2\/posts\/474\/revisions\/482"}],"wp:attachment":[{"href":"https:\/\/www.epischel.de\/wordpress\/wp-json\/wp\/v2\/media?parent=474"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.epischel.de\/wordpress\/wp-json\/wp\/v2\/categories?post=474"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.epischel.de\/wordpress\/wp-json\/wp\/v2\/tags?post=474"},{"taxonomy":"series","embeddable":true,"href":"https:\/\/www.epischel.de\/wordpress\/wp-json\/wp\/v2\/series?post=474"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}