Influence function

http://arxiv.org/abs/2402.04333

Purpose
Given just a a handful of examples embodying a specific capability, how can we effectively select relevant fine-tuning data from a large collection of instruction datasets?
Influence function with Adam(LESS)
- Tayor expansion
  $ℓ (z^{'}; θ^{t + 1}) \approx ℓ (z^{'}; θ^{t}) + ⟨ \nabla ℓ (z^{'}; θ^{t}), θ^{t + 1} - θ^{t} ⟩$ $θ^{t + 1} - θ^{t} = - η_{t} \nabla ℓ (z; θ^{t})$ $ℓ (z^{'}; θ^{t + 1}) - ℓ (z^{'}; θ^{t}) \approx - η_{t} ⟨ \nabla ℓ (z; θ^{t}), \nabla ℓ (z^{'}; θ^{t}) ⟩$
- Trajectory influence
  ${Inf}_{SGD} (z, z^{'}) ≜ \sum_{i = 1}^{N} {\bar{η}}_{i} ⟨ \nabla ℓ (z^{'}; θ_{i}), \nabla ℓ (z; θ_{i}) ⟩$
- Extension to Adam
  $\begin{matrix} θ^{t + 1} - θ^{t} = - η_{t} Γ (z, θ^{t}) \\ Γ (z, θ^{t}) ≜ \frac{m^{t + 1}}{\sqrt{v^{t + 1} + ϵ}} \\ m^{t + 1} = (β_{1} m^{t} + (1 - β_{1}) \nabla ℓ (z; θ^{t})) / (1 - β_{1}^{t}) \\ v^{t + 1} = (β_{2} v^{t} + (1 - β_{2}) \nabla ℓ {(z; θ^{t})}^{2}) / (1 - β_{2}^{t}) \end{matrix}$
- Adam Influence
  ${Inf}_{Adam} (z, z^{'}) ≜ \sum_{i = 1}^{N} {\bar{η}}_{i} \frac{⟨ \nabla ℓ (z^{'}; θ_{i}), Γ (z, θ_{i}) ⟩}{‖ \nabla ℓ (z^{'}; θ_{i}) ‖ ‖ Γ (z, θ_{i}) ‖}$
Problems&Improvements
- Random Projection (JL lemma)
- Lora

Influence function ​