o
     …›inR  ã                #   @   s<  d dl mZ d dlZd dlmZ ddlmZmZmZmZm	Z	m
Z
mZmZmZmZmZmZmZ ddgZG dd„ deƒZd	d
e› de› de› de› d	 e_							d)dee dee dee dee dedB dedB dedB dededB dedededededededdf"d d„Zd!d"„ Zdee dee dee dee dedB dedB dededededededededdfd#d$„Zdee dee dee dee dedB dedB dededededededededdfd%d&„Zdee dee dee dee dedB dedB dededededededededdfd'd(„ZdS )*é    )ÚcastN)ÚTensoré   )Ú_default_to_fused_or_foreachÚ_device_dtype_check_for_fusedÚ_differentiable_docÚ_foreach_docÚ_get_scalar_dtypeÚ
_get_valueÚ_maximize_docÚ_params_docÚ
_to_scalarÚ_use_grad_for_differentiableÚ_view_as_realÚ	OptimizerÚParamsTÚAdagradÚadagradc                       sš   e Zd Z						dddddœdedeeB d	ed
ededededB dedededB ddf‡ fdd„Z‡ fdd„Zddd„Z	dd„ Z
eddd„ƒZ‡  ZS )r   ç{®Gáz„?r   ç»½×Ùß|Û=NF)ÚmaximizeÚdifferentiableÚfusedÚparamsÚlrÚlr_decayÚweight_decayÚinitial_accumulator_valueÚepsÚforeachr   r   r   Úreturnc             
      sb  t |tƒr| ¡ dkrtdƒ‚d|kstd|› ƒ‚d|ks%td|› ƒ‚d|ks0td|› ƒ‚d|ks;td|› ƒ‚d|ksFtd|› ƒ‚||||||||	|
d	œ	}tƒ  ||¡ |
rj|	ratd
ƒ‚|rgtdƒ‚d| _| jD ]A}|d D ]:}| j	| }|d rŒt
jdt|d d|jdnt
jdtƒ d|d< t
 |¡r t||ƒn|}t
j||t
jd|d< qsqmd S )Nr   zTensor lr must be 1-elementg        zInvalid learning rate: zInvalid lr_decay value: zInvalid weight_decay value: z)Invalid initial_accumulator_value value: zInvalid epsilon value: )	r   r   r   r   r   r   r   r   r   z)`fused` does not support `differentiable`z0`fused` and `foreach` cannot be `True` together.Tr   r   © ©Úis_fused)ÚdtypeÚdevice©r$   Ústep)Úmemory_formatÚsum)Ú
isinstancer   ÚnumelÚ
ValueErrorÚsuperÚ__init__ÚRuntimeErrorÚ"_need_device_dtype_check_for_fusedÚparam_groupsÚstateÚtorchÚzerosr	   r%   ÚtensorÚ
is_complexÚcomplexÚ	full_likeÚpreserve_format)Úselfr   r   r   r   r   r   r   r   r   r   ÚdefaultsÚgroupÚpr2   Ú
init_value©Ú	__class__r!   úU/sda-disk/www/egybert/egybert_env/lib/python3.10/site-packages/torch/optim/adagrad.pyr.      sf   ÿ÷

ûýùÿýÿðÿzAdagrad.__init__c                    s®   t ƒ  |¡ d }| jD ]}| dd ¡ | dd¡ | dd¡ | dd ¡}qt| j ¡ ƒ}t|ƒdko;t 	|d d ¡}|sS|D ]}tj
t|d ƒt|dd	|d< q@d S d S )
Nr   r   Fr   r   r   r'   r"   r&   )r-   Ú__setstate__r1   Ú
setdefaultÚlistr2   ÚvaluesÚlenr3   Ú	is_tensorr5   Úfloatr	   )r:   r2   r   r<   Ústate_valuesÚstep_is_tensorÚsr?   r!   rA   rB   b   s$   

ÿÿþzAdagrad.__setstate__c                 C   s4   | j D ]}|d D ]}| j| }|d  ¡  q	qdS )z6Calls tensor.share_memory_() on the state sum tensors.r   r)   N)r1   r2   Úshare_memory_)r:   r<   r=   r2   r!   r!   rA   Úshare_memoryw   s   

þÿzAdagrad.share_memoryc           
      C   s¤   d\}}|d D ]E}|j d urM|d r"t| ddƒr"t|dd d| _||j jO }|t |¡O }| |¡ | |j ¡ | j| }	| |	d ¡ | |	d	 ¡ q||fS )
N)FFr   r   r0   T)Úcuda_unsupportedFr)   r'   )	ÚgradÚgetattrr   r0   Ú	is_sparser3   r6   Úappendr2   )
r:   r<   Úparams_with_gradÚgradsÚ
state_sumsÚstate_stepsÚhas_sparse_gradÚhas_complexr=   r2   r!   r!   rA   Ú_init_group~   s&   

ý

€zAdagrad._init_groupc           
      C   sÈ   d}|durt  ¡  |ƒ }W d  ƒ n1 sw   Y  | jD ]A}g }g }g }g }|  |||||¡\}}	t|||||d |d |d |d ||d |d |d |	|d	 t| d
dƒt| ddƒd q |S )z°Perform a single optimization step.

        Args:
            closure (Callable, optional): A closure that reevaluates the model
                and returns the loss.
        Nr   r   r   r   r   r   r   r   Ú
grad_scaleÚ	found_inf)r   r   r   r   rW   r   r   r   rX   r   rZ   r[   )r3   Úenable_gradr1   rY   r   rP   )
r:   ÚclosureÚlossr<   rS   rT   rU   rV   rW   rX   r!   r!   rA   r'   “   s@   
ÿ

ÿ

ðzAdagrad.step)r   r   r   r   r   N)r    N©N)Ú__name__Ú
__module__Ú__qualname__r   rH   r   Úboolr.   rB   rM   rY   r   r'   Ú__classcell__r!   r!   r?   rA   r      sN    ø
ôþýüûúùø
öõôóF
a[  Implements Adagrad algorithm.

    .. math::
       \begin{aligned}
            &\rule{110mm}{0.4pt}                                                                 \\
            &\textbf{input}      : \gamma \text{ (lr)}, \: \theta_0 \text{ (params)}, \: f(\theta)
                \text{ (objective)}, \: \lambda \text{ (weight decay)},                          \\
            &\hspace{12mm}    \tau \text{ (initial accumulator value)}, \: \eta\text{ (lr decay)}\\
            &\textbf{initialize} :  state\_sum_0 \leftarrow \tau                          \\[-1.ex]
            &\rule{110mm}{0.4pt}                                                                 \\
            &\textbf{for} \: t=1 \: \textbf{to} \: \ldots \: \textbf{do}                         \\
            &\hspace{5mm}g_t           \leftarrow   \nabla_{\theta} f_t (\theta_{t-1})           \\
            &\hspace{5mm} \tilde{\gamma}    \leftarrow \gamma / (1 +(t-1) \eta)                  \\
            &\hspace{5mm} \textbf{if} \: \lambda \neq 0                                          \\
            &\hspace{10mm} g_t \leftarrow g_t + \lambda \theta_{t-1}                             \\
            &\hspace{5mm}state\_sum_t  \leftarrow  state\_sum_{t-1} + g^2_t                      \\
            &\hspace{5mm}\theta_t \leftarrow
                \theta_{t-1}- \tilde{\gamma} \frac{g_t}{\sqrt{state\_sum_t}+\epsilon}            \\
            &\rule{110mm}{0.4pt}                                                          \\[-1.ex]
            &\bf{return} \:  \theta_t                                                     \\[-1.ex]
            &\rule{110mm}{0.4pt}                                                          \\[-1.ex]
       \end{aligned}

    For further details regarding the algorithm we refer to `Adaptive Subgradient Methods for Online Learning
    and Stochastic Optimization`_.
    z
    Args:
        aÙ  
        lr (float, Tensor, optional): learning rate (default: 1e-2)
        lr_decay (float, optional): learning rate decay (default: 0)
        weight_decay (float, optional): weight decay (L2 penalty) (default: 0)
        initial_accumulator_value (float, optional): initial value of the
            sum of squares of gradients (default: 0)
        eps (float, optional): term added to the denominator to improve
            numerical stability (default: 1e-10)
        z	
        aÒ  
        fused (bool, optional): whether the fused implementation (CPU only) is used.
            Currently, `torch.float64`, `torch.float32`, `torch.float16`, and `torch.bfloat16`
            are supported. (default: None). Please note that the fused implementations does not
            support sparse or complex gradients.
    .. _Adaptive Subgradient Methods for Online Learning and Stochastic
        Optimization: http://jmlr.org/papers/v12/duchi11a.html

    Fr   rT   rU   rV   r   rZ   r[   rW   r   r   rX   r   r   r   r   r   r    c                C   sÔ   t dd„ |D ƒƒstdƒ‚|du r|du rt| |	dd\}}|du r$d}|du r*d}|r5tj ¡ r5tdƒ‚|r@tj ¡ r@tdƒ‚|rJtj ¡ sJt}n|rTtj ¡ sTt}nt}|| ||||||||||	|
||d	 dS )
ztFunctional API that performs Adagrad algorithm computation.

    See :class:`~torch.optim.Adagrad` for details.
    c                 s   s    | ]	}t |tjƒV  qd S r_   )r*   r3   r   )Ú.0Útr!   r!   rA   Ú	<genexpr>  s   € zadagrad.<locals>.<genexpr>zPAPI has changed, `state_steps` argument must contain a list of singleton tensorsNF)Ú	use_fusedz6torch.jit.script not supported with foreach optimizersz4torch.jit.script not supported with fused optimizers©
r   r   r   r   rW   r   r   rX   rZ   r[   )	Úallr/   r   r3   ÚjitÚis_scriptingÚ_fused_adagradÚ_multi_tensor_adagradÚ_single_tensor_adagrad)r   rT   rU   rV   r   rZ   r[   rW   r   r   rX   r   r   r   r   r   Ú_Úfuncr!   r!   rA   r   ô   sJ   ÿ
ÿ
òc                 C   s   |   ¡ }t |||¡S r_   )Úsizer3   Úsparse_coo_tensor)rO   Úgrad_indicesrE   rr   r!   r!   rA   Ú_make_sparse>  s   ru   c             	   C   sš  |d us|d urt dƒ‚tj ¡ st|ƒ}t| |||ddD ]¬\}}}}|d7 }t|ƒ}|s0|n| }|dkrE|jr>tdƒ‚|j	||d}|d|d |   }|jr‡| 
¡ }| ¡ }| ¡ }| t||| d¡ƒ¡ | |¡}| ¡  ¡  |	¡}|jt|||| ƒ| d qt |¡}|rt |¡}t |¡}t |¡}|j||dd	 |r®| ¡ |	 }n| ¡  |	¡}|j||| d	 |rÊt |¡}t |¡}qd S )
Nú,Expected grad_scale and found_inf to be NoneT)Ústrictr   r   z;weight_decay option is not compatible with sparse gradients©Úalphaé   ©Úvalue)ÚAssertionErrorr3   rk   rl   r   Úzipr
   rQ   r/   ÚaddÚcoalesceÚ_indicesÚ_valuesÚadd_ru   ÚpowÚsparse_maskÚsqrt_r6   Úview_as_realÚaddcmul_ÚsqrtÚaddcdiv_Úview_as_complex)r   rT   rU   rV   rZ   r[   r   r   r   r   rW   r   r   rX   ÚparamrO   Ú	state_sumÚstep_tr'   Úclrrt   Úgrad_valuesÚstdÚ
std_valuesr6   r!   r!   rA   ro   C  sT   

ÿÿ
ÿ




€Öro   c                   sà  |rt dƒ‚|d us|d urt dƒ‚t| ƒdkrd S tˆ ƒ‰ t | |||g¡}| ¡ D ]Â\\}}}}}ttt |ƒ}ttt |ƒ}ttt |ƒ}ttt |ƒ}|
oYt	dd„ |D ƒƒ}|rot
||||ˆ |ˆ|	d|||||d q+|rwt|||ƒ |r~t |¡}tj ¡ s–|d jr–tj|tjdd	d
dd nt |d¡ |dkr³|r«tj|||d ntj|||d}‡ ‡fdd„|D ƒ}tj|||dd t |¡}t ||	¡ |dks×|ràt ||¡ |}nt ||¡}t |||¡ q+d S )Nz#_foreach ops don't support autogradrv   r   c                 s   s    | ]}|j V  qd S r_   )rQ   )re   rO   r!   r!   rA   rg   ±  s   € 
ÿz(_multi_tensor_adagrad.<locals>.<genexpr>Tri   g      ð?Úcpu)r%   rx   r   c                    s&   g | ]}ˆ  d t |ƒd  ˆ   ‘qS )r   )r
   )re   r'   ©r   r   r!   rA   Ú
<listcomp>ã  s    ÿz)_multi_tensor_adagrad.<locals>.<listcomp>r{   )r}   rF   r   r   Ú"_group_tensors_by_device_and_dtyperE   r   rD   r   Úanyro   r   r3   Ú_foreach_negÚcompilerÚis_compilingÚis_cpuÚ_foreach_add_r5   Ú_foreach_addÚ_foreach_addcmul_Ú_foreach_sqrtÚ_foreach_mul_Ú_foreach_mulÚ_foreach_addcdiv_)r   rT   rU   rV   rZ   r[   r   r   r   r   rW   r   r   rX   Úgrouped_tensorlistsÚdevice_params_Údevice_grads_Údevice_state_sums_Údevice_state_steps_rp   Údevice_paramsÚdevice_gradsÚdevice_state_sumsÚdevice_state_stepsÚdevice_has_sparse_gradÚ	minus_clrr‘   Ú	numeratorr!   r”   rA   rn   ‡  sŠ   
ÿûÿò
ÿÿÿ
³rn   c                C   s~  | sd S |
s|rt dƒ‚|rt dƒ‚t|ƒ}|d ur|j|ind }|d ur*|j|ind }t | |||g¡}| ¡ D ]ƒ\\}}\\}}}}}ttt |ƒ}ttt |ƒ}ttt |ƒ}ttt |ƒ}d\}}|d ur~|d ur~||vrz|j	|dd||< || }|d ur—|d ur—||vr“|j	|dd||< || }t
 |d¡ t
j||||||||	|||d |d ur¼t
 ||gt|ƒ ¡ q9d S )Nz5`fused` does not support sparse grad or complex paramz<adagrad with fused=True does not support differentiable=True)NNT)Únon_blockingr   )r   r   r   r   r   rZ   r[   )r/   r   r%   r   r–   Úitemsr   rD   r   Útor3   rœ   Ú_fused_adagrad_Ú_foreach_sub_rF   )r   rT   rU   rV   rZ   r[   r   r   r   r   rW   r   r   rX   Úgrad_scale_dictÚfound_inf_dictÚgrouped_tensorsr%   rp   r¤   r¥   r¦   r§   r¨   r©   rª   r«   Údevice_grad_scaleÚdevice_found_infr!   r!   rA   rm   ö  sp   ÿÿ
ÿøõÿ€Úrm   )NNNFNFF)Útypingr   r3   r   Ú	optimizerr   r   r   r   r	   r
   r   r   r   r   r   r   r   Ú__all__r   Ú__doc__rD   rc   rH   r   ru   ro   rn   rm   r!   r!   r!   rA   Ú<module>   s6  < (þ
öõôæÿ8óÿþýüûúù
öõôóñðïîí
ìJÿþýüûúø	÷
öõôóòñ
ðDÿþýüûúø	÷
öõôóòñ
ðoÿþýüûúø	÷
öõôóòñð