uzabase
/

UBKE-LUKE

 - 各次元のlogit値は，入力文章における各entityの関連度を表現しています．
 ### 4. entity_logits(entityの埋め込み表現)
+- entityの一覧は，tokenizerがentity_vocabに辞書形式で持つ．
+```
+tokenizer.entity_vocab # => {"": 0, ... ,"AGC": 48, ....
+tokenizer.entity_vocab["味の素"] # => 8469(味の素のentity_id)
+```
+- entity_spans及びentitties引数をtokenizerに渡し，tokenをencodeすることで，entityの埋め込み表現を得る．
+```
+model.eval()
+tokens = tokenizer("味の素", entities=["味の素"], entity_spans=[(0, 3)], truncation=True, max_length=512, return_tensors="pt")
+print(tokens["entity_ids"]) # => tensor([[8469]])
+with torch.no_grad():
+    outputs = model(**tokens)
+outputs.entity_logits.shape # 味の素のentity_vector
+```
+- entityの埋め込み表現の内積(やコサイン類似度)を計算することで，entity同士の類似度を計算可能
+```
+def encode(entity_text):
+    model.eval()
+    tokens = tokenizer(entity_text, entities=[entity_text], entity_spans=[(0, len(entity_text))],
+                       truncation=True, max_length=512, return_tensors="pt")
+    with torch.no_grad():
+        outputs = model(**tokens)
+    return outputs.entity_logits[0][0]
+azinomoto = encode("味の素")
+nisshin = encode("日清食品ホールディングス")
+kameda = encode("亀田製菓")
+sony = encode("ソニーホールディングス")
+print(azinomoto @ nisshin) # => tensor(24834.6836)
+print(azinomoto @ kameda) # => tensor(17547.6895)
+print(azinomoto @ sony) # => tensor(8699.2871)
+```