

Negative Sampling Nce Loss





現在、NCEが舞台に立っています。膨大な量の計算を回避するために、NCEのアイデアは ソフトマックスのパラメータ推定問題は2つの分類に変換されます。 2種類のサンプルは、実際のサンプルとノイズサンプルです。正のサンプルは経験的に分布しています。

生成された(つまり、真の分布)ラベルD = 0であり、負のサンプルは、ラベルD = 1に対応するq(w)によって生成されたノイズです。 cがコンテキストを表すと仮定すると、k個のノイズサンプルがノイズ分布から抽出され、wはサンプル全体(実際のサンプル+ノイズサンプル)で予測されるターゲット単語を表します。

上記の式から取得することは難しくありません:サンプル全体でP(w / c)= p(d = 0、w / c)+ p(d = 1、w / c)

ヒント:Pは、正と負のサンプルの全体的な分布を指します。これは、前の正のサンプルの経験的分布と同じです。 画像異なる

条件付き同時確率式に従って続行すると、次のようになります。p(d = 0 / w、c)= p(d = 0、w / c)/ p(w / c)

p(d = 1 / w、c)類似



NCE利用モデルの分布 画像
経験の分配の代わりに 画像この時点で、冒頭で述べたソフトマックスに接続され、尤度を最大化することで最適なパラメータシータが得られます。しかし、問題はまだここでは解決されていません。 画像最初の式と同様に、分配関数Z©を計算するには、すべてのVをトラバースする必要があります。

  1. 分配関数Z(c)は、Vをトラバースすることによって取得する必要はありませんが、パラメーターZcによって推定されます。
  2. ニューラルネットワークには多くのパラメータがあるため、Zcは固定値Zc = 1に設定できます。この設定は、すべてのcに有効です([Mnih and Teh2012])



第2項は、kを含むため、まだ計算が困難です。 期待値(E)、 したがって、ここではモンテカルロ近似を使用してモンテカルロ近似を推定し、kの代わりにk個のサンプルを取得します。 期待する:



NCEの確率式の場合:k = | V |の場合qが一様分布している場合、k * q = 1であり、2つの確率式は同じです。




ネガティブサンプリングによってk個のネガティブサンプルが取得された後、各サンプルについて、ポジティブサンプルラベル= 1またはネガティブサンプルラベル= 0のいずれかです。上記の最後のNCE損失の最大ログを最小化ログに変更すると、NCEの損失関数は2クラスのロジスティクス損失(クロスエントロピー)として表すことができます。

  1. x =ロジットは、上記のu(w、c)を意味します。これは、最後の層(単語wに対応)のネットワークパラメーターとcの単語ベクトルの積です。
  2. z =正のサンプル= 1、負のサンプル= 0のラベル
  3. 上記のロジットとラベルは、すべてのサンプル(正のサンプルとサンプリングされた負のサンプルを含む)を表すベクトルと行列です。

    L = z * -log(sigmoid(x))+(1-z)* -log(1-sigmoid(x))
 z * -log(sigmoid(x)) + (1 - z) * -log(1 - sigmoid(x)) = z * -log(1 / (1 + exp(-x))) + (1 - z) * -log(exp(-x) / (1 + exp(-x))) = z * log(1 + exp(-x)) + (1 - z) * (-log(exp(-x)) + log(1 + exp(-x))) = z * log(1 + exp(-x)) + (1 - z) * (x + log(1 + exp(-x)) = (1 - z) * x + log(1 + exp(-x)) = x - x * z + log(1 + exp(-x)) When x<0: For x 0 and x<0, the following formula is obtained: Hence, to ensure stability and avoid overflow, the implementation uses this equivalent formulation max(x, 0) - x * z + log(1 + exp(-abs(x))) 


ラベルとロジットに基づいて損失を計算するためのコード: def sigmoid_cross_entropy_with_logits( # pylint: disable=invalid-name _sentinel=None, labels=None, logits=None, name=None): '''Computes sigmoid cross entropy given `logits`. Args: _sentinel: Used to prevent positional parameters. Internal, do not use. labels: A `Tensor` of the same type and shape as `logits`. logits: A `Tensor` of type `float32` or `float64`. name: A name for the operation (optional). Returns: A `Tensor` of the same shape as `logits` with the componentwise logistic losses. nn_ops._ensure_xent_args('sigmoid_cross_entropy_with_logits', _sentinel, labels, logits) # pylint: enable=protected-access with ops.name_scope(name, 'logistic_loss', [logits, labels]) as name: logits = ops.convert_to_tensor(logits, name='logits') labels = ops.convert_to_tensor(labels, name='labels') try: labels.get_shape().merge_with(logits.get_shape()) except ValueError: raise ValueError('logits and labels must have the same shape (%s vs %s)' % (logits.get_shape(), labels.get_shape())) # The logistic loss formula from above is # x - x * z + log(1 + exp(-x)) # For x <0, a more numerically stable formula is # -x * z + log(1 + exp(x)) # Note that these two expressions can be combined into the following: # max(x, 0) - x * z + log(1 + exp(-abs(x))) # To allow computing gradients at zero, we define custom versions of max and # abs functions. zeros = array_ops.zeros_like(logits, dtype=logits.dtype) cond = (logits>= zeros) relu_logits = array_ops.where(cond, logits, zeros) neg_abs_logits = array_ops.where(cond, -logits, logits) return math_ops.add( relu_logits - logits * labels, math_ops.log1p(math_ops.exp(neg_abs_logits)), name=name)



nn.log_uniform_candidate_samplerは、この式を使用して、P(class)=(log(class + 2)-log(class + 1))/ log(range_max + 1)、クラスの値をサンプリングします。であるため、頻度でソートされていない場合、このメソッドは使用できません。

  1. ロジット:最後の層の重み行列の重みのサンプルに対応するベクトル*入力
  2. ラベル:(1)サンプリングされた負のサンプルは0です(2)デフォルトでは、入力は正のサンプルとlabel = 1にのみ対応しますが、num_true> 0の場合、各正のサンプルのlabel = 1 / num_true
def _compute_sampled_logits(weights, biases, labels, inputs, num_sampled, num_classes, num_true=1, sampled_values=None, subtract_log_q=True, remove_accidental_hits=False, partition_strategy='mod', name=None, seed=None): '''Helper function for nce_loss and sampled_softmax_loss functions. Computes sampled output training logits and labels suitable for implementing e.g. noise-contrastive estimation (see nce_loss) or sampled softmax (see sampled_softmax_loss). Note: In the case where num_true > 1, we assign to each target class the target probability 1 / num_true so that the target probabilities sum to 1 per-example. Args: weights: A `Tensor` of shape `[num_classes, dim]`, or a list of `Tensor` objects whose concatenation along dimension 0 has shape `[num_classes, dim]`. The (possibly-partitioned) class embeddings. biases: A `Tensor` of shape `[num_classes]`. The (possibly-partitioned) class biases. labels: A `Tensor` of type `int64` and shape `[batch_size, num_true]`. The target classes. Note that this format differs from the `labels` argument of `nn.softmax_cross_entropy_with_logits_v2`. inputs: A `Tensor` of shape `[batch_size, dim]`. The forward activations of the input network. num_sampled: An `int`. The number of classes to randomly sample per batch. num_classes: An `int`. The number of possible classes. num_true: An `int`. The number of target classes per training example. sampled_values: a tuple of (`sampled_candidates`, `true_expected_count`, `sampled_expected_count`) returned by a `*_candidate_sampler` function. (if None, we default to `log_uniform_candidate_sampler`) subtract_log_q: A `bool`. whether to subtract the log expected count of the labels in the sample to get the logits of the true labels. Default is True. Turn off for Negative Sampling. remove_accidental_hits: A `bool`. whether to remove 'accidental hits' where a sampled class equals one of the target classes. Default is False. partition_strategy: A string specifying the partitioning strategy, relevant if `len(weights) > 1`. Currently `'div'` and `'mod'` are supported. Default is `'mod'`. See `tf.nn.embedding_lookup` for more details. name: A name for the operation (optional). seed: random seed for candidate sampling. Default to None, which doesn't set the op-level random seed for candidate sampling. Returns: out_logits: `Tensor` object with shape `[batch_size, num_true + num_sampled]`, for passing to either `nn.sigmoid_cross_entropy_with_logits` (NCE) or `nn.softmax_cross_entropy_with_logits_v2` (sampled softmax). out_labels: A Tensor object with the same shape as `out_logits`. '''


上記の2つの部分を組み合わせると、NCE損失を直接計算できます。最初にすべてのサンプルのロジットとラベルを計算し(3番目のステップ)、次にクロスエントロピー損失を計算します(2番目のステップ)。def nce_loss(weights, biases, labels, inputs, num_sampled, num_classes, num_true=1, sampled_values=None, remove_accidental_hits=False, partition_strategy='mod', name='nce_loss'): '''Computes and returns the noise-contrastive estimation training loss. See [Noise-contrastive estimation: A new estimation principle for unnormalized statistical models]( Also see our [Candidate Sampling Algorithms Reference]( A common use case is to use this method for training, and calculate the full sigmoid loss for evaluation or inference. In this case, you must set `partition_strategy='div'` for the two losses to be consistent, as in the Note: In the case where `num_true` > 1, we assign to each target class the target probability 1 / `num_true` so that the target probabilities sum to 1 per-example. Note: It would be useful to allow a variable number of target classes per example. We hope to provide this functionality in a future release. For now, if you have a variable number of target classes, you can pad them out to a constant number by either repeating them or by padding with an otherwise unused class. Args: weights: A `Tensor` of shape `[num_classes, dim]`, or a list of `Tensor` objects whose concatenation along dimension 0 has shape [num_classes, dim]. The (possibly-partitioned) class embeddings. biases: A `Tensor` of shape `[num_classes]`. The class biases. labels: A `Tensor` of type `int64` and shape `[batch_size, num_true]`. The target classes. inputs: A `Tensor` of shape `[batch_size, dim]`. The forward activations of the input network. num_sampled: An `int`. The number of negative classes to randomly sample per batch. This single sample of negative classes is evaluated for each element in the batch. num_classes: An `int`. The number of possible classes. num_true: An `int`. The number of target classes per training example. sampled_values: a tuple of (`sampled_candidates`, `true_expected_count`, `sampled_expected_count`) returned by a `*_candidate_sampler` function. (if None, we default to `log_uniform_candidate_sampler`) remove_accidental_hits: A `bool`. Whether to remove 'accidental hits' where a sampled class equals one of the target classes. If set to `True`, this is a 'Sampled Logistic' loss instead of NCE, and we are learning to generate log-odds instead of log probabilities. See our [Candidate Sampling Algorithms Reference] ( Default is False. partition_strategy: A string specifying the partitioning strategy, relevant if `len(weights) > 1`. Currently `'div'` and `'mod'` are supported. Default is `'mod'`. See `tf.nn.embedding_lookup` for more details. name: A name for the operation (optional). Returns: A `batch_size` 1-D tensor of per-example NCE losses. ''' logits, labels = _compute_sampled_logits( weights=weights, biases=biases, labels=labels, inputs=inputs, num_sampled=num_sampled, num_classes=num_classes, num_true=num_true, sampled_values=sampled_values, subtract_log_q=True, remove_accidental_hits=remove_accidental_hits, partition_strategy=partition_strategy, name=name) sampled_losses = sigmoid_cross_entropy_with_logits( labels=labels, logits=logits, name='sampled_losses') # sampled_losses is batch_size x {true_loss, sampled_losses...} # We sum out true and sampled losses. return _sum_rows(sampled_losses)


[Mnih and Teh2012] AndriyMnihとYeeWhyeTeh。 2012.ニューラル確率言語モデルをトレーニングするための高速でシンプルなアルゴリズム。 Proc。 ICML。
