7.9 KiB
7.9 KiB
| 1 | layer | module | loss | damp | time |
|---|---|---|---|---|---|
| 2 | 0 | self_attn.k_proj | 0.00492 | 0.01000 | 0.988 |
| 3 | 0 | self_attn.v_proj | 0.00013 | 0.01000 | 0.606 |
| 4 | 0 | self_attn.q_proj | 0.00857 | 0.01000 | 0.632 |
| 5 | 0 | self_attn.o_proj | 0.00001 | 0.01000 | 0.676 |
| 6 | 0 | mlp.up_proj | 0.00566 | 0.01000 | 0.702 |
| 7 | 0 | mlp.gate_proj | 0.00634 | 0.01000 | 0.621 |
| 8 | 0 | mlp.down_proj | 0.00008 | 0.01000 | 1.867 |
| 9 | 1 | self_attn.k_proj | 0.00454 | 0.01000 | 0.713 |
| 10 | 1 | self_attn.v_proj | 0.00039 | 0.01000 | 0.591 |
| 11 | 1 | self_attn.q_proj | 0.00758 | 0.01000 | 0.585 |
| 12 | 1 | self_attn.o_proj | 0.00004 | 0.01000 | 0.665 |
| 13 | 1 | mlp.up_proj | 0.00745 | 0.01000 | 0.690 |
| 14 | 1 | mlp.gate_proj | 0.00848 | 0.01000 | 0.596 |
| 15 | 1 | mlp.down_proj | 0.00088 | 0.01000 | 1.865 |
| 16 | 2 | self_attn.k_proj | 0.02247 | 0.01000 | 0.714 |
| 17 | 2 | self_attn.v_proj | 0.00188 | 0.01000 | 0.591 |
| 18 | 2 | self_attn.q_proj | 0.03480 | 0.01000 | 0.594 |
| 19 | 2 | self_attn.o_proj | 0.00005 | 0.01000 | 0.666 |
| 20 | 2 | mlp.up_proj | 0.01189 | 0.01000 | 0.691 |
| 21 | 2 | mlp.gate_proj | 0.01393 | 0.01000 | 0.606 |
| 22 | 2 | mlp.down_proj | 0.00023 | 0.01000 | 1.854 |
| 23 | 3 | self_attn.k_proj | 0.01629 | 0.01000 | 0.718 |
| 24 | 3 | self_attn.v_proj | 0.00280 | 0.01000 | 0.603 |
| 25 | 3 | self_attn.q_proj | 0.02945 | 0.01000 | 0.594 |
| 26 | 3 | self_attn.o_proj | 0.00009 | 0.01000 | 0.669 |
| 27 | 3 | mlp.up_proj | 0.01539 | 0.01000 | 0.692 |
| 28 | 3 | mlp.gate_proj | 0.02018 | 0.01000 | 0.790 |
| 29 | 3 | mlp.down_proj | 0.00035 | 0.01000 | 1.852 |
| 30 | 4 | self_attn.k_proj | 0.01446 | 0.01000 | 0.714 |
| 31 | 4 | self_attn.v_proj | 0.00258 | 0.01000 | 0.601 |
| 32 | 4 | self_attn.q_proj | 0.02753 | 0.01000 | 0.599 |
| 33 | 4 | self_attn.o_proj | 0.00016 | 0.01000 | 0.795 |
| 34 | 4 | mlp.up_proj | 0.01831 | 0.01000 | 0.903 |
| 35 | 4 | mlp.gate_proj | 0.02698 | 0.01000 | 0.596 |
| 36 | 4 | mlp.down_proj | 0.00051 | 0.01000 | 2.028 |
| 37 | 5 | self_attn.k_proj | 0.02399 | 0.01000 | 0.714 |
| 38 | 5 | self_attn.v_proj | 0.00246 | 0.01000 | 0.592 |
| 39 | 5 | self_attn.q_proj | 0.03819 | 0.01000 | 0.592 |
| 40 | 5 | self_attn.o_proj | 0.00019 | 0.01000 | 0.658 |
| 41 | 5 | mlp.up_proj | 0.02186 | 0.01000 | 0.686 |
| 42 | 5 | mlp.gate_proj | 0.03038 | 0.01000 | 0.593 |
| 43 | 5 | mlp.down_proj | 0.00070 | 0.01000 | 2.023 |
| 44 | 6 | self_attn.k_proj | 0.01911 | 0.01000 | 0.711 |
| 45 | 6 | self_attn.v_proj | 0.00268 | 0.01000 | 0.591 |
| 46 | 6 | self_attn.q_proj | 0.03526 | 0.01000 | 0.589 |
| 47 | 6 | self_attn.o_proj | 0.00027 | 0.01000 | 0.752 |
| 48 | 6 | mlp.up_proj | 0.02338 | 0.01000 | 0.705 |
| 49 | 6 | mlp.gate_proj | 0.03217 | 0.01000 | 0.588 |
| 50 | 6 | mlp.down_proj | 0.00082 | 0.01000 | 1.958 |
| 51 | 7 | self_attn.k_proj | 0.01870 | 0.01000 | 0.703 |
| 52 | 7 | self_attn.v_proj | 0.00263 | 0.01000 | 0.595 |
| 53 | 7 | self_attn.q_proj | 0.03133 | 0.01000 | 0.591 |
| 54 | 7 | self_attn.o_proj | 0.00039 | 0.01000 | 0.658 |
| 55 | 7 | mlp.up_proj | 0.02524 | 0.01000 | 0.686 |
| 56 | 7 | mlp.gate_proj | 0.03204 | 0.01000 | 0.594 |
| 57 | 7 | mlp.down_proj | 0.00095 | 0.01000 | 1.821 |
| 58 | 8 | self_attn.k_proj | 0.02325 | 0.01000 | 0.711 |
| 59 | 8 | self_attn.v_proj | 0.00323 | 0.01000 | 0.595 |
| 60 | 8 | self_attn.q_proj | 0.03917 | 0.01000 | 0.592 |
| 61 | 8 | self_attn.o_proj | 0.00049 | 0.01000 | 0.658 |
| 62 | 8 | mlp.up_proj | 0.02657 | 0.01000 | 0.691 |
| 63 | 8 | mlp.gate_proj | 0.03434 | 0.01000 | 0.592 |
| 64 | 8 | mlp.down_proj | 0.00103 | 0.01000 | 1.832 |
| 65 | 9 | self_attn.k_proj | 0.02297 | 0.01000 | 0.711 |
| 66 | 9 | self_attn.v_proj | 0.00412 | 0.01000 | 0.593 |
| 67 | 9 | self_attn.q_proj | 0.03884 | 0.01000 | 0.596 |
| 68 | 9 | self_attn.o_proj | 0.00058 | 0.01000 | 0.665 |
| 69 | 9 | mlp.up_proj | 0.02708 | 0.01000 | 0.686 |
| 70 | 9 | mlp.gate_proj | 0.03375 | 0.01000 | 0.591 |
| 71 | 9 | mlp.down_proj | 0.00104 | 0.01000 | 1.832 |
| 72 | 10 | self_attn.k_proj | 0.02378 | 0.01000 | 0.711 |
| 73 | 10 | self_attn.v_proj | 0.00322 | 0.01000 | 0.593 |
| 74 | 10 | self_attn.q_proj | 0.03907 | 0.01000 | 0.588 |
| 75 | 10 | self_attn.o_proj | 0.00048 | 0.01000 | 0.660 |
| 76 | 10 | mlp.up_proj | 0.02872 | 0.01000 | 0.682 |
| 77 | 10 | mlp.gate_proj | 0.03349 | 0.01000 | 0.594 |
| 78 | 10 | mlp.down_proj | 0.00114 | 0.01000 | 1.838 |
| 79 | 11 | self_attn.k_proj | 0.01896 | 0.01000 | 0.819 |
| 80 | 11 | self_attn.v_proj | 0.00400 | 0.01000 | 0.594 |
| 81 | 11 | self_attn.q_proj | 0.03398 | 0.01000 | 0.588 |
| 82 | 11 | self_attn.o_proj | 0.00062 | 0.01000 | 0.651 |
| 83 | 11 | mlp.up_proj | 0.03075 | 0.01000 | 0.681 |
| 84 | 11 | mlp.gate_proj | 0.03419 | 0.01000 | 0.597 |
| 85 | 11 | mlp.down_proj | 0.00131 | 0.01000 | 1.842 |
| 86 | 12 | self_attn.k_proj | 0.02746 | 0.01000 | 0.721 |
| 87 | 12 | self_attn.v_proj | 0.00425 | 0.01000 | 0.592 |
| 88 | 12 | self_attn.q_proj | 0.04649 | 0.01000 | 0.597 |
| 89 | 12 | self_attn.o_proj | 0.00078 | 0.01000 | 0.660 |
| 90 | 12 | mlp.up_proj | 0.03298 | 0.01000 | 0.915 |
| 91 | 12 | mlp.gate_proj | 0.03604 | 0.01000 | 0.605 |
| 92 | 12 | mlp.down_proj | 0.00151 | 0.01000 | 1.828 |
| 93 | 13 | self_attn.k_proj | 0.02951 | 0.01000 | 0.712 |
| 94 | 13 | self_attn.v_proj | 0.00474 | 0.01000 | 0.772 |
| 95 | 13 | self_attn.q_proj | 0.04644 | 0.01000 | 0.604 |
| 96 | 13 | self_attn.o_proj | 0.00097 | 0.01000 | 0.658 |
| 97 | 13 | mlp.up_proj | 0.03625 | 0.01000 | 0.684 |
| 98 | 13 | mlp.gate_proj | 0.04115 | 0.01000 | 0.589 |
| 99 | 13 | mlp.down_proj | 0.00190 | 0.01000 | 1.824 |
| 100 | 14 | self_attn.k_proj | 0.02592 | 0.01000 | 0.882 |
| 101 | 14 | self_attn.v_proj | 0.00574 | 0.01000 | 0.610 |
| 102 | 14 | self_attn.q_proj | 0.05315 | 0.01000 | 0.591 |
| 103 | 14 | self_attn.o_proj | 0.00114 | 0.01000 | 0.668 |
| 104 | 14 | mlp.up_proj | 0.03979 | 0.01000 | 0.774 |
| 105 | 14 | mlp.gate_proj | 0.04587 | 0.01000 | 0.649 |
| 106 | 14 | mlp.down_proj | 0.00234 | 0.01000 | 1.837 |
| 107 | 15 | self_attn.k_proj | 0.03013 | 0.01000 | 0.714 |
| 108 | 15 | self_attn.v_proj | 0.00584 | 0.01000 | 0.597 |
| 109 | 15 | self_attn.q_proj | 0.05586 | 0.01000 | 0.584 |
| 110 | 15 | self_attn.o_proj | 0.00078 | 0.01000 | 0.665 |
| 111 | 15 | mlp.up_proj | 0.04097 | 0.01000 | 0.686 |
| 112 | 15 | mlp.gate_proj | 0.05158 | 0.01000 | 0.597 |
| 113 | 15 | mlp.down_proj | 0.00249 | 0.01000 | 1.823 |
| 114 | 16 | self_attn.k_proj | 0.03388 | 0.01000 | 0.713 |
| 115 | 16 | self_attn.v_proj | 0.00642 | 0.01000 | 0.593 |
| 116 | 16 | self_attn.q_proj | 0.05719 | 0.01000 | 0.583 |
| 117 | 16 | self_attn.o_proj | 0.00052 | 0.01000 | 0.658 |
| 118 | 16 | mlp.up_proj | 0.04162 | 0.01000 | 0.687 |
| 119 | 16 | mlp.gate_proj | 0.05441 | 0.01000 | 0.588 |
| 120 | 16 | mlp.down_proj | 0.00239 | 0.01000 | 1.835 |
| 121 | 17 | self_attn.k_proj | 0.03119 | 0.01000 | 0.717 |
| 122 | 17 | self_attn.v_proj | 0.00635 | 0.01000 | 0.597 |
| 123 | 17 | self_attn.q_proj | 0.05598 | 0.01000 | 0.596 |
| 124 | 17 | self_attn.o_proj | 0.00049 | 0.01000 | 0.667 |
| 125 | 17 | mlp.up_proj | 0.04332 | 0.01000 | 0.681 |
| 126 | 17 | mlp.gate_proj | 0.05766 | 0.01000 | 0.600 |
| 127 | 17 | mlp.down_proj | 0.00255 | 0.01000 | 1.820 |
| 128 | 18 | self_attn.k_proj | 0.03518 | 0.01000 | 0.716 |
| 129 | 18 | self_attn.v_proj | 0.00752 | 0.01000 | 0.711 |
| 130 | 18 | self_attn.q_proj | 0.06074 | 0.01000 | 0.696 |
| 131 | 18 | self_attn.o_proj | 0.00060 | 0.01000 | 0.664 |
| 132 | 18 | mlp.up_proj | 0.04720 | 0.01000 | 0.693 |
| 133 | 18 | mlp.gate_proj | 0.06175 | 0.01000 | 0.605 |
| 134 | 18 | mlp.down_proj | 0.00280 | 0.01000 | 2.011 |
| 135 | 19 | self_attn.k_proj | 0.03650 | 0.01000 | 0.725 |
| 136 | 19 | self_attn.v_proj | 0.00793 | 0.01000 | 0.599 |
| 137 | 19 | self_attn.q_proj | 0.05829 | 0.01000 | 0.591 |
| 138 | 19 | self_attn.o_proj | 0.00079 | 0.01000 | 0.659 |
| 139 | 19 | mlp.up_proj | 0.05115 | 0.01000 | 0.683 |
| 140 | 19 | mlp.gate_proj | 0.06564 | 0.01000 | 0.617 |
| 141 | 19 | mlp.down_proj | 0.00335 | 0.01000 | 2.026 |
| 142 | 20 | self_attn.k_proj | 0.03698 | 0.01000 | 0.707 |
| 143 | 20 | self_attn.v_proj | 0.00968 | 0.01000 | 0.591 |
| 144 | 20 | self_attn.q_proj | 0.06097 | 0.01000 | 0.608 |
| 145 | 20 | self_attn.o_proj | 0.00060 | 0.01000 | 0.662 |
| 146 | 20 | mlp.up_proj | 0.05315 | 0.01000 | 0.796 |
| 147 | 20 | mlp.gate_proj | 0.06568 | 0.01000 | 0.599 |
| 148 | 20 | mlp.down_proj | 0.00337 | 0.01000 | 1.832 |
| 149 | 21 | self_attn.k_proj | 0.03651 | 0.01000 | 0.800 |
| 150 | 21 | self_attn.v_proj | 0.01240 | 0.01000 | 0.681 |
| 151 | 21 | self_attn.q_proj | 0.06071 | 0.01000 | 0.594 |
| 152 | 21 | self_attn.o_proj | 0.00070 | 0.01000 | 0.659 |
| 153 | 21 | mlp.up_proj | 0.05718 | 0.01000 | 0.823 |
| 154 | 21 | mlp.gate_proj | 0.07113 | 0.01000 | 0.720 |
| 155 | 21 | mlp.down_proj | 0.00357 | 0.01000 | 2.004 |
| 156 | 22 | self_attn.k_proj | 0.03448 | 0.01000 | 0.710 |
| 157 | 22 | self_attn.v_proj | 0.01272 | 0.01000 | 0.679 |
| 158 | 22 | self_attn.q_proj | 0.06173 | 0.01000 | 0.687 |
| 159 | 22 | self_attn.o_proj | 0.00060 | 0.01000 | 0.659 |
| 160 | 22 | mlp.up_proj | 0.06175 | 0.01000 | 0.693 |
| 161 | 22 | mlp.gate_proj | 0.07729 | 0.01000 | 0.600 |
| 162 | 22 | mlp.down_proj | 0.00403 | 0.01000 | 1.825 |
| 163 | 23 | self_attn.k_proj | 0.03840 | 0.01000 | 0.703 |
| 164 | 23 | self_attn.v_proj | 0.01170 | 0.01000 | 0.585 |
| 165 | 23 | self_attn.q_proj | 0.06099 | 0.01000 | 0.758 |
| 166 | 23 | self_attn.o_proj | 0.00093 | 0.01000 | 0.663 |
| 167 | 23 | mlp.up_proj | 0.06775 | 0.01000 | 0.686 |
| 168 | 23 | mlp.gate_proj | 0.08832 | 0.01000 | 0.594 |
| 169 | 23 | mlp.down_proj | 0.00459 | 0.01000 | 1.829 |
| 170 | 24 | self_attn.k_proj | 0.04202 | 0.01000 | 0.789 |
| 171 | 24 | self_attn.v_proj | 0.01762 | 0.01000 | 0.602 |
| 172 | 24 | self_attn.q_proj | 0.06620 | 0.01000 | 0.592 |
| 173 | 24 | self_attn.o_proj | 0.00143 | 0.01000 | 0.743 |
| 174 | 24 | mlp.up_proj | 0.07604 | 0.01000 | 0.684 |
| 175 | 24 | mlp.gate_proj | 0.10110 | 0.01000 | 0.592 |
| 176 | 24 | mlp.down_proj | 0.00545 | 0.01000 | 1.949 |
| 177 | 25 | self_attn.k_proj | 0.03398 | 0.01000 | 0.714 |
| 178 | 25 | self_attn.v_proj | 0.01647 | 0.01000 | 0.591 |
| 179 | 25 | self_attn.q_proj | 0.06667 | 0.01000 | 0.590 |
| 180 | 25 | self_attn.o_proj | 0.00123 | 0.01000 | 0.661 |
| 181 | 25 | mlp.up_proj | 0.08287 | 0.01000 | 0.698 |
| 182 | 25 | mlp.gate_proj | 0.10945 | 0.01000 | 0.724 |
| 183 | 25 | mlp.down_proj | 0.00673 | 0.01000 | 1.947 |
| 184 | 26 | self_attn.k_proj | 0.03643 | 0.01000 | 0.713 |
| 185 | 26 | self_attn.v_proj | 0.02137 | 0.01000 | 0.718 |
| 186 | 26 | self_attn.q_proj | 0.06157 | 0.01000 | 0.709 |
| 187 | 26 | self_attn.o_proj | 0.00276 | 0.01000 | 0.666 |
| 188 | 26 | mlp.up_proj | 0.08697 | 0.01000 | 0.689 |
| 189 | 26 | mlp.gate_proj | 0.11678 | 0.01000 | 0.597 |
| 190 | 26 | mlp.down_proj | 0.00841 | 0.01000 | 1.851 |
| 191 | 27 | self_attn.k_proj | 0.02694 | 0.01000 | 0.729 |
| 192 | 27 | self_attn.v_proj | 0.01448 | 0.01000 | 0.666 |
| 193 | 27 | self_attn.q_proj | 0.05014 | 0.01000 | 0.680 |
| 194 | 27 | self_attn.o_proj | 0.00507 | 0.01000 | 0.813 |
| 195 | 27 | mlp.up_proj | 0.09256 | 0.01000 | 0.749 |
| 196 | 27 | mlp.gate_proj | 0.11142 | 0.01000 | 0.640 |
| 197 | 27 | mlp.down_proj | 0.01908 | 0.01000 | 1.888 |