Wednesday, October 5, 2016

Jaccard Ähnlichkeit Binäre Optionen

Aus der Enzyklopädie der statistischen Wissenschaften verstehe ich, dass bei gegebener p dichotome (Binär: 1present 0absent) Attribute (Variablen) eine Kontingenztabelle für zwei Objekte i und j eines Beispiels gebildet werden kann: Wir können aus diesen Werten Ähnlichkeitskoeffizienten zwischen jedem Paar berechnen Von Objekten, insbesondere dem Jaccard-Koeffizienten frac und dem Russell - und Rao-Koeffizienten frac frac. Bei der Berechnung dieser Koeffizienten gibt es unterschiedliche Werte, aber ich kann nicht finden alle Ressourcen, die erklären, warum ich eine über die andere wählen sollte. Ist es nur, weil für einige Datensätze, die gleichzeitige Abwesenheit beider Attribute (d) vermittelt keine Informationen, die es gibt viele solche Koeffizienten (die meisten sind hier ausgedrückt). Nur versuchen zu meditieren, was sind die Konsequenzen der Unterschiede in Formeln, vor allem, wenn Sie eine Matrix von Koeffizienten zu berechnen. Stellen wir uns zum Beispiel vor, dass die Objekte 1 und 2 ähnlich sind wie die Objekte 3 und 4. Aber 1 und 2 haben viele der Attribute auf der Liste, während 3 und 4 nur wenige Attribute haben. In diesem Fall ist Russell-Rao (Anteil der Co-Attribute an der Gesamtzahl der betrachteten Attribute) für Paar 1-2 hoch und für Paar 3-4 niedrig. Aber Jaccard (Anteil der Co-Attribute auf die kombinierte Anzahl von Attributen beide Objekte haben Wahrscheinlichkeit, dass wenn beide Objekte ein Attribut haben, dann haben sie beide) für beide Paare 1-2 und 3-4 hoch sein. Diese Einstellung für die Basisebene der Sättigung durch Attribute macht Jaccard so beliebt und nützlicher als Russell-Rao. z. B. In der Clusteranalyse oder der mehrdimensionalen Skalierung. Sie könnten in gewisser Weise die obige Einstellung weiter verfeinern, indem Sie die Kulczynski-2-Messung auswählen, die die arithmetische mittlere Wahrscheinlichkeit ist, dass, wenn ein Objekt ein Attribut hat, das andere Objekt es auch hat: (frac frac) / 2 Hier ist die Basis (oder Feld) von Attributen für die beiden Objekte ist nicht wie in Jaccard, sondern ist für jedes der beiden Objekte gepoolt. Wenn also die Objekte sich stark von der Anzahl der Attribute unterscheiden, die sie haben, und all ihre Attribute, die das ärmere Objekt mit dem reicheren teilen, wird Kulczynski hoch sein, während Jaccard moderat sein wird. Oder Sie könnten es vorziehen, geometrische mittlere Wahrscheinlichkeit zu berechnen, dass, wenn ein Objekt ein Attribut hat, das andere Objekt es auch hat, was Ochiai-Maß ergibt: sqrt frac Da das Produkt schwächer wird als Summe, wenn nur einer der Begriffe wächst, wird Ochiai wirklich hoch sein Nur wenn beide der beiden Proportionen (Wahrscheinlichkeiten) hoch sind, was impliziert, daß, um von Ochiai als ähnlich angesehen zu werden, die Objekte die großen Anteile ihrer Attribute teilen müssen. Kurz, Ochiai bändigt Ähnlichkeit, wenn b und c ungleich sind. Ochiai ist tatsächlich das Kosinus-Ähnlichkeitsmaß (und Russell-Rao ist die Ähnlichkeit des Punktprodukts). Ist es nur, weil für einige Datensätze, die gleichzeitige Abwesenheit beider Attribute (d) vermittelt keine Informationen Apropos Ähnlichkeit Maßnahmen, sollte man nicht mischen nominal dichotomous Attribute (z. B. weiblich, männlich) mit binären Attributen (Gegenwart vs abwesend). Binäres Attribut ist nicht symmetrisch (im Allgemeinen), - wenn Sie und ich ein Merkmal teilen, ist es die Basis, uns ähnlich zu nennen, wenn Sie und ich beide das Merkmal vermissen, es kann oder auch nicht als Beweis für Ähnlichkeit angesehen werden Rahmen der Studie. Daher ist die divergierende Behandlung von d möglich. Beachten Sie auch, dass, wenn Sie Ähnlichkeit zwischen Objekten auf der Grundlage von nominalen Attributen (dichotomous oder polytomous) berechnen wollen, recode jede diese Variable in die Menge der Dummy-Binär-Variablen. Dann wird die empfohlene Ähnlichkeitsmaß zu berechnen Dice (die, wenn für Dummy-Variablen berechnet, ist äquivalent zu Ochiai und Kulczynski-2). Die Nützlichkeit des Tanimoto-Koeffizienten gegenüber der herkömmlichen Genauigkeit (d. h. Russell-Rao) ist bei der Bildanalyse offensichtlich, wenn man eine Segmentierung mit einem Goldstandard vergleicht. Betrachten wir diese beiden Bilder: In jedem dieser Bilder, die binäre Masken sind, haben wir zwei Objekte der gleichen Größe, die aber an etwas anderen Stellen platziert sind, und wir wollen auswerten, inwieweit diese Objekte in ihrer Form und Position identisch sind, indem sie ihre Überlappung bewerten . Üblicherweise ist eine (z. B. die lila Maske) eine Segmentierung (erzeugt durch einen Computeralgorithmus), z. B. Könnte dies ein Versuch sein, das Herz aus einem medizinischen Bild zu lokalisieren. Der andere, (z. B. Grün) ist der Goldstandard (d. h. das Herz, wie durch einen Fachkliniker identifiziert). Wo weiße Farbe vorliegt, überlappen sich die beiden Formen. Schwarze Pixel sind Hintergrund. Die beiden Bilder sind identisch (dh das Ergebnis des Segmentierungsalgorithmus, sowie der Goldstandard sind in beiden Bildern identisch), mit Ausnahme vieler Hintergrundpolsterungen im zweiten Bild (zB könnte dies zwei Experimente mit zwei unterschiedlichen Darstellungen darstellen Wobei die zweite Maschine einen breiteren Strahl hatte, der mehr Körperfläche bedeckte, aber ansonsten ist die Größe des Herzens in beiden Bildsätzen gleich). Da die Segmentierung und der Goldstandard bei beiden Bildern identisch sind, würden wir, wenn wir die Segmentierungsgenauigkeit gegenüber dem Goldstandard bewerten, unsere Metrik in beiden Experimenten das gleiche Genauigkeitsergebnis liefern. Wenn wir jedoch versuchen, die Qualität der Segmentierung mit dem Russel-Rao-Ansatz zu beurteilen, würden wir eine irreführend hohe Genauigkeit für das richtige Bild (nahe bei 100) erhalten, da Hintergrundpixel, die korrekt als Hintergrundpixel erkannt werden, zur Gesamtgenauigkeit beitragen Die Sätze und Hintergrundpixel in dem zweiten Satz unverhältnismäßig dargestellt werden. Die Objekte, deren Überschneidung wir in der medizinischen Segmentierung bewerten wollen, sind oft winzige Flecken in einem massiven Hintergrund, so dass dies nicht sehr nützlich für uns. Darüber hinaus würde dies zu Problemen führen, wenn wir versuchen würden, die Genauigkeit eines Segmentierungsalgorithmus mit einem anderen zu vergleichen, und die beiden wurden auf Bildern unterschiedlicher Größe (oder äquivalent in verschiedenen Skalen) ausgewertet. Die Skalierung / Größe des Einbettungsbildes sollte bei der Bewertung einer Segmentierung gegenüber einem Goldstandard nicht unterscheiden. Im Gegensatz dazu kümmert sich der tanimoto-Koeffizient nicht um die Hintergrundpixel, wodurch er invariant skaliert wird. So weit wie der tanimoto Koeffizient betroffen ist, ist die Ähnlichkeit dieser beiden Sätze identisch, so dass es eine weit nützlichere Ähnlichkeit Metrik für uns zu verwenden, um die Qualität eines Segmentierungsalgorithmus zu bewerten. Die Jaccard-Ähnlichkeit (Jaccard 1902, Jaccard 1912) ist ein gemeinsamer Index für binäre Variablen. Sie wird als der Quotient zwischen der Kreuzung und der Vereinigung der paarweise verglichenen Variablen zwischen zwei Objekten definiert. Gleichung In der Gleichung d JAD ist die Jaccard-Distanz zwischen den Objekten i und j. Für zwei Datensätze mit n binären Variablen y variiert der variable Index k von 0 bis n -1. Es lassen sich vier verschiedene Kombinationen zwischen y i, k und y j, k unterscheiden, wenn binäre Variablen verglichen werden. Diese Kombinationen sind (0/0), (0/1), (1/0) und (1/1). Die Summen dieser Kombinationen können gruppiert werden durch: Da jede gepaarte Variable zu einer dieser Gruppen gehört, kann man leicht erkennen, dass: Da die Jaccard-Ähnlichkeit auf der gemeinsamen Anwesenheit beruht, wird J 00 verworfen. Die Jaccard-Unähnlichkeit ist definiert als d JAD 1- d JAS. In einigen Fällen wird die Jaccard-Ähnlichkeit als d JAS 2 d BCD / (1 d BCD) berechnet. Wo d BCD ist die BrayCurtis Unähnlichkeit. Diese Gleichung reduziert die Werte nicht in binäre Zustände. Somit sind die Ergebnisse unterschiedlich, wenn einerseits eine Anwesenheits - / Abwesenheitsmatrix und andererseits eine Zählmatrix verwendet werden. Die Ergebnisse sind die gleichen, wenn die Zählmatrix vorher in eine binäre Matrix umgewandelt wird. Synonyme Der Jaccard Ähnlichkeit oder Jaccard Ähnlichkeitskoeffizient wird oft als Jaccard-Index. Jedenfalls wird der Begriff Jaccard-Index manchmal für die Jaccard-Unähnlichkeit verwendet, während die Jaccard-Unähnlichkeit manchmal Jaccard-Distanz genannt wird. Man kann beobachten, dass die Ausdrücke Jaccard-Ähnlichkeit und Jaccard-Unähnlichkeit nicht genau getrennt sind und manchmal synonymisch oder verwirrt verwendet werden, obwohl die Ergebnisse entgegengesetzte Bedeutungen darstellen. Daher sollte man die Absicht der Analyse genau untersuchen. Verwendung Die Jaccard-Ähnlichkeit kann verwendet werden, wenn intersted in binäre Unterschiede zwischen zwei oder mehr Objekten. Vor allem in der ökologischen Forschung konzentrieren sich Untersuchungen häufig auf die Präsenz / Abwesenheit zwischen mehreren Standorten. Bei Interesse an der Charakterisierung von verglichenen Standorten durch die Möglichkeit der Arten, sich dort niederzulassen, sind Häufigkeiten oft vernachlässigbar. Algorithmus Der Algorithmus steuert, ob die Dateneingabematrix rechteckig ist oder nicht. Wenn nicht, gibt die Funktion FALSE und eine definierte, aber leere Ausgabematrix zurück. Wenn die Matrix rechteckig ist, wird die Ähnlichkeit von Jaccard berechnet. Daher werden die Dimensionen der jeweiligen Arrays der Ausgangsmatrix gesetzt und die Titel für die Zeilen und Spalten gesetzt. Als Ergebnis ergibt sich eine quadratische Matrix, die entlang der diagonalen Werte für einen dreieckigen Teil gespiegelt wird und die Diagonale berechnet werden. Wenn Fehler während der Berechnung auftreten, gibt die Funktion FALSE zurück. Aus praktischen Gründen braucht die Implementierung des Algorithmus nicht notwendigerweise echte Binärdaten. Es unterscheidet, ob ein Wert 0 oder innerhalb einer bestimmten Schwelle in der Nähe ist. In diesem Fall wird er als logisch FALSE interpretiert. z. B. Abwesenheit. Werte, die größer als der vorgegebene Schwellenwert sind, werden als logisch TRUE interpretiert. z. B. Gegenwart. Somit ist es ohne weitere Vorbereitung möglich, eine Zählmatrix an die Funktion zu übergeben. Da der gegebene Grenzwert alle Werte gleichermaßen beeinflusst, ändert er seine metrische Kennlinie nicht. Um die Jaccard-Unähnlichkeit zu berechnen, wird die Jaccard-Ähnlichkeitsmatrix zuerst berechnet und danach transformiert. Quellbeispiel Für eine Datenmatrix aInputMatrix vom Typ t2dVariantArrayDouble. Besetzt mit: Wir wissen, dass Jaccard (berechnet zwischen zwei Spalten der binären Daten bf) frac ist, während Rogers-Tanimoto frac ist, wobei a - Anzahl der Zeilen, in denen beide Spalten 1 b sind - Anzahl der Zeilen, wo diese und nicht die andere Spalte ist 1 c - Anzahl der Zeilen, in denen der andere und nicht diese Spalte 1 d ist - Anzahl der Zeilen, bei denen beide Spalten 0 abcdn sind, ist die Anzahl der Zeilen in bf bf XXA die quadratische symmetrische Matrix von a zwischen allen Spalten. Bf (nicht X) (nicht X) D ist die quadratische symmetrische Matrix von d zwischen allen Spalten (nicht X konvertiert 1-0 und 0-1 in X). Also ist frac die quadratische symmetrische Matrix von Jaccard zwischen allen Spalten. Frac frac ist die quadratische symmetrische Matrix von Rogers-Tanimoto zwischen allen Spalten. Ich überprüfte numerisch, wenn diese Formeln korrektes Resultat geben. Tun sie. Aktualisieren. Sie können auch Matrizen bf B und bf C: bf B 1X-A erhalten, wobei 1 eine Matrix von Eins bedeutet, die als bf X dimensioniert ist. Bf B ist die quadratische asymmetrische Matrix von b zwischen allen Spalten ihr Element ij ist die Anzahl der Zeilen in Bf X mit 0 in Spalte i und 1 in Spalte j. Folglich ist bf CB. Matrix bf D kann natürlich auch so berechnet werden: n bf - A-B-C. Wenn Sie die Matrizen bf A, B, C, D kennen, können Sie eine Matrix eines beliebigen paarweisen (dis) Ähnlichkeitskoeffizienten berechnen, der für binäre Daten erfunden wurde. Fraktionen machen keinen Sinn für Matrizen, es sei denn, sie pendeln: Multiplikation auf der rechten Seite mit einer Inverse wird sonst geben ein anderes Ergebnis als Multiplikation auf der linken Seite. Darüber hinaus ist es in der Regel nicht der Fall, dass ein Produkt aus zwei symmetrischen Matrizen symmetrisch ist. Machen Sie vielleicht Teil-für-Komponenten-Division Könnten Sie fix Ihre Notation zu reflektieren, was Sie beabsichtigen, ist die richtige Formel ndash whuber Ich don39t Verwendung Inversion und Multiplikation von quadratischen symmetrischen Matrizen. X ist die binäre Datenmatrix und X39X ist ihre SSCP-Matrix. Nicht X für X steht, wobei 1-gt0, 0-gt1 ist. Und jede Division hier ist elementare Division. Bitte korrigieren Sie meine Notation, wenn Sie sehen, dass es nicht angemessen ist. Ndash ttnphns Die oben genannte Lösung ist nicht sehr gut, wenn X spärlich ist. Da unter X wird eine dichte Matrix, wobei riesige Menge an Speicher und Berechnung. Eine bessere Lösung ist die Verwendung der Formel Jaccardi, j common / (i j - common). Mit spärlichen Matrizen können Sie es wie folgt (beachten Sie, dass der Code auch für nicht-spärliche Matrizen funktioniert): Dies kann oder nicht für Sie nützlich sein, je nachdem, was Ihre Bedürfnisse sind. Angenommen, Sie interessieren sich für Ähnlichkeit zwischen Clustering-Aufgaben: Der Jaccard Similarity Coefficient oder Jaccard Index kann verwendet werden, um die Ähnlichkeit von zwei Clustering-Zuweisungen zu berechnen. Angesichts der Beschriftungen L1 und L2. Ben-Hur, Elisseeff und Guyon (2002) haben gezeigt, dass der Jaccard-Index unter Verwendung von Punktprodukten einer Zwischenmatrix berechnet werden kann. Der Code unten dient zur schnellen Berechnung des Jaccard-Index, ohne die Zwischenmatrizen im Speicher zu speichern. Der Code wird in C geschrieben, kann aber mit dem Befehl sourceCpp in R geladen werden. Antwort # 2 am: Mai 23, 2010, 09:10:49 pm »Antwort # 1 am: Mai 23, 2010, 05:39:49 pm» Ihre Antwort 2016 Stack Exchange, IncSimilarity Metriken Einführung Data Mining ist über die Suche nach Mustern in Daten. Um Muster zu finden, benötigen wir eine Metrik, um sagen zu können, dass dieses Datenobjekt wie dieses Datenobjekt ist oder dass dieses Datenelement anders ist als ein anderes Datenelement. Mit anderen Worten, wir brauchen eine Metrik, um Ähnlichkeit oder Unähnlichkeit oder Datenobjekte zu bestimmen. Das ist das Thema dieser Seite. Ich bespreche fünf Ähnlichkeitsmetriken: Euklidische Distanz, Pearson-Korrelation, den Jaccard-Ähnlichkeitskoeffizienten und den einfachen Anpassungskoeffizienten. Eine Ähnlichkeitsmetrik ist ein mathematischer Algorithmus, der ein mathematisches Maß der Ähnlichkeit zurückgibt. Diese Metriken sind eine wichtige Grundlage, auf der die Clustering-Algorithmen, die ich im nächsten Abschnitt besprechen werde, aufgebaut werden. Euklidischer Abstand Euklidischer Abstand ist der gewöhnliche Abstand zwischen zwei Objekten. Dies ist der Abstand, den man bekommen würde, indem man ein Lineal nimmt und den Abstand zwischen zwei Objekten misst. Bei Datenobjekten wird davon ausgegangen, dass die Objekte im zweidimensionalen Raum in einem Graphen gezeichnet werden. Euklidischer Abstand wäre die Länge der Linie zwischen diesen beiden Parzellen. Diese Distanz wird mit dem pythagoreischen Theorem entdeckt. Da die Koordinaten jedes Punktes auf dem Graphen bekannt sind, können der X - und Y-Abstand zwischen den beiden Punkten bestimmt werden, was zu bekannten Werten für zwei Beine eines rechten Dreiecks führt. Der Abstand zwischen den beiden Datenpunkten ist die Hypotenuse dieses Dreiecks und wird entdeckt, indem man die Quadratwurzel der Summe der Quadrate jedes Beins findet. Die Formel für das Finden des euklidischen Abstandes zwischen zwei Punkten, p und q, im euklidischen N-dimensionalen Raum kann prägnant mit dem Ausdruck dargestellt werden: Für ein praktisches Beispiel wird der nachfolgende Code untersucht. Dieser Code setzt zwei Personen mit Filmrezensionen voraus. Jeder Benutzer bewertete die Filme, die sie auf einer Skala von 1 bis 5 sahen. Der folgende Code erstellt zunächst ein Array, das die Bewertungen für alle Filme enthält, die beide gesehen haben, und verwendet dann Euklidische Distanz, um zu bestimmen, wie ähnlich ihre Filmeinstellungen sind. Das Berechnen von 1 geteilt durch 1 plus der Quadratwurzel der Summe der Differenzen quadriert veranlaßt den Algorithmus zu einer Rückkehr einen Wert zwischen 1 und 0. Ein Wert von 1 gibt eine perfekte Übereinstimmung an, während 0 überhaupt keine Übereinstimmung anzeigt. Pearson-Korrelation Die Pearson-Korrelation ist der euklidischen Distanz sehr ähnlich. Stellen Sie sich den obigen Fall vor, in dem die Ähnlichkeit der Filmvorliebe berechnet wird. Wenn ein Benutzer nie eine Bewertung erhielt, die höher als ein 3 ist und ein anderer Benutzer nie eine Bewertung unter einer 3 gab, dann annehmen, dass sie ein vollkommenes Gleiches auf jedem möglichem Film waren, den sie beide eine 3 auch gab, wäre ein Trugschluss. Stattdessen liebte der User diesen Film, während der User 2 ihn hasste. Euklidischen Abstand kann nicht für solche Inflation und Deflation in Ratings, aber Pearson Korrelation können. Pearson-Korrelation berücksichtigt die Veränderung der Werte in jedem Satz, die die Wirkung der Normalisierung der Inflation hat. Sie kann prägnant mit folgendem Ausdruck definiert werden: Der Pearson-Korrelationskoeffizient zwischen zwei Datenpunkten ist definiert als die Kovarianz der beiden Punkte geteilt durch das Produkt ihrer Standardabweichungen. Wiederum kann unter Verwendung des Beispiels von Datenpunkten, die auf einem zweidimensionalen Graphen aufgetragen sind, die Pearson-Korrelation als die Linie der besten Übereinstimmung zwischen den Punkten eines gegebenen Satzes angesehen werden. Zum Beispiel, stellen Sie sich die beiden Benutzer in den Filmbewertungen Beispiel beide ihre Ratings auf einem Diagramm mit Filmen auf der X-Achse und die Bewertung auf der Y-Achse gezeichnet. Anstelle des Vergleichs der tatsächlichen Werte für jede ihrer Ratings, werden die Nutzer statt dessen verglichen, wo die Linie der besten fit für alle ihre Ratings geht durch einen bestimmten Film. Dies hat die Wirkung der Normalisierung für die Inflation, und würde in der Lage zu erkennen, dass unsere Beispiel-Nutzer, während beide eine 3 für einen bestimmten Film, waren in der Tat kein Spiel überhaupt. Unter Verwendung desselben Beispiels von Filmempfehlungen wie im obigen Code würde der folgende Algorithmus einen Wert zwischen 1 und -1 zurückgeben, der das Maß der Ähnlichkeit in der Filmpräferenz zwischen zwei Benutzern anzeigt. A 1 stellt eine starke positive Korrelation oder eine gute Übereinstimmung dar, während eine -1 eine starke negative Korrelation darstellt, was in diesem Fall eine schlechte Übereinstimmung bedeuten würde. Ein Wert von 0 gibt keine Korrelation an, was in diesem Fall bedeutet, daß die Benutzer keine der gleichen Filme sahen und daher nicht für eine Ähnlichkeit der Präferenz verglichen werden können. Jaccard und SMC (Simple Matching Coefficient) Der Jaccard-Ähnlichkeitskoeffizient und der einfache Anpassungskoeffizient werden für die Messung der Ähnlichkeit zwischen Sätzen von binären Daten verwendet. In binären Daten sind Werte entweder nicht vorhanden. Ein gutes Beispiel für binäre Daten sind Marktkorbdaten. Wenn beispielsweise ein Vergleich zwischen den Inhalten zweier Kundeneinkaufswagen gewünscht wurde, könnte für jeden Kunden ein Datensatz angelegt werden. Dieser Datensatz würde Spalten für jedes Element in beiden Korb enthalten und würde dann eine 0 oder 1 in der Zeile für den jeweiligen Kunden enthalten, wenn er das Element in seinem Warenkorb hatte. Diese beiden Datensätze könnten dann mit Jaccard oder SMC verglichen werden, um die Ähnlichkeit dieser Kunden Einkaufsgewohnheiten zu bestimmen. Dies könnte nützlich sein ist, Produkte auf Kunden, oder stellen Sie sicher, dass häufig zusammen gekaufte Artikel sind nah aneinander in der Filiale platziert. Jaccard ist besser für asymmetrische Daten, denn es ignoriert 00 Übereinstimmungen, in denen das Objekt in keinem Datensatz erscheint. Wenn zum Beispiel keine der Kunden Äpfel gekauft haben, würden Äpfel bei der Berechnung der Ähnlichkeit zwischen den Kundenkarren ignoriert. Die Gleichung für den Jaccard-Ähnlichkeitskoeffizienten kann folgendermaßen ausgedrückt werden: Fortsetzung des Warenkorb-Beispiels: Hier ist ein Algorithmus, der den Jaccard-Ähnlichkeitskoeffizienten zwischen zwei Kunden berechnet. Es nimmt zwei Instanzvariablen an, die Arrays sind, die eine 0 in jeder Spalte für ein Element enthalten, das der Kunde nicht gekauft hat, und eine 1 für Elemente, die er gekauft hat. Der einfache Anpassungskoeffizient dagegen umfasst 00 Übereinstimmungen. So, im Warenkorb Beispiel, würde der einfache Matching-Koeffizienten die Artikel weder Kunde gekauft haben. Die Gleichung zur Bestimmung des einfachen Anpassungskoeffizienten kann wie folgt ausgedrückt werden: Hier ist ein Algorithmus, der den einfachen Anpassungskoeffizienten berechnet. Es erfordert die gleichen Instanzvariablen wie der vorhergehende Jaccard-Algorithmus. Ausgedehnte Jaccard-Ähnlichkeit Der binäre Jaccard-Koeffizient misst den Grad der Überlappung zwischen zwei Sätzen und wird als Verhältnis der Anzahl der gemeinsamen Attribute (Worte) von AND zu der Anzahl von OR berechnet . Wenn beispielsweise zwei Sätze binärer Indikatorvektoren vorliegen und die Kardinalität ihres Schnittpunktes 1 ist und die Kardinalität ihrer Vereinigung 3 ist, was ihren Jaccard-Koeffizienten 1/3 ergibt. Der binäre Jaccard-Koeffizient Es wird oft in Retail-Marktkorbanwendungen verwendet. In Kapitel 3 haben wir die binäre Definition des Jaccard-Koeffizienten auf kontinuierliche oder diskrete nichtnegative Funktionen erweitert. Der erweiterte Jaccard wird so berechnet, wie er der binären Version entspricht, wenn die Merkmalvektoreinträge binär sind. Erweiterte Jaccard-Ähnlichkeit SG00c behält die Sparsity-Eigenschaft des Cosinus bei, während die Diskriminierung von kollinearen Vektoren ermöglicht wird, wie wir im folgenden Unterabschnitt zeigen werden. Ein weiteres Ähnlichkeitsmaß, das stark mit dem erweiterten Jaccard zusammenhängt, ist der Dice-Koeffizient (). Der Dice-Koeffizient kann aus dem erweiterten Jaccard-Koeffizienten durch Addition von sowohl dem Zähler als auch dem Nenner erhalten werden. Es wird hier weggelassen, da es sich sehr ähnlich dem erweiterten Jaccard-Koeffizienten verhält.


No comments:

Post a Comment