Completions API 中發(fā)現(xiàn)的頻率和存在懲罰可用于降低對令牌重復序列進行采樣的可能性。他們通過添加貢獻直接修改 logits(非標準化對數(shù)概率)來工作。
mu[j] -> mu[j] - c[j] * alpha_frequency - float(c[j] > 0) * alpha_presence
Where:
mu[j] 是第 j 個標記的對數(shù)
c[j] 是在當前位置之前對該令牌進行采樣的頻率
如果 c[j] > 0,則 float(c[j] > 0) 為 1,否則為 0
alpha_frequency 是頻率懲罰系數(shù)
alpha_presence 是存在懲罰系數(shù)
正如我們所見,存在懲罰是一種一次性的加性貢獻,適用于所有至少被采樣過一次的標記,而頻率懲罰是與特定標記被采樣的頻率成正比的貢獻。
如果目標只是稍微減少重復樣本,則懲罰系數(shù)的合理值約為 0.1 到 1。如果目標是強烈抑制重復,那么可以將系數(shù)增加到 2,但這會顯著降低樣本質量。負值可用于增加重復的可能性。
更多建議: