Kaj je zakuhal Intel?
Po dobrem letu dni čedalje pogostejših pritožb uporabnikov, da so Intelovi procesorji 13. in 14. generacije Raptor Lake »nestabilni«, je zgodba vendarle dobila epilog. V podjetju so priznali, da je vzrok napaka v mikrokodi, a so posledice hujše od optimističnih napovedi – prizadeti sistemi imajo nepovratno okvarjene procesorje, ki jih bo treba zamenjati. A to je le ena izmed treh napak, ki so Intel pestile v zadnjem letu.
Intelovi procesorji Core i9-14900K so med najbolj ogroženimi, a niso edini.
Oktobra 2022 je Intel predstavil 13. generacijo procesorjev Raptor Lake za namizne računalnike, ki so nadomestili starejše, z razvojnim imenom Alder Lake. Približno istočasno so bili na voljo tudi v zmogljivejših prenosnih računalnikih, celotno družino pa so predstavili januarja 2023 na sejmu CES. Na voljo so v več družinah, in sicer T (majhna poraba), F (brez grafičnega dela), K (odklenjeni množilnik), KF (kombinacija K in F), KS (posebna različica K), HX (za prenosne računalnike), H, PX, P in U. Ponujali so do 24 jeder (osem hitrih, 16 varčnih), 32 niti in delovno frekvence do 6,2 GHz za hitra jedra.
V primerjavi s prejšnjo generacijo, ki je proizvedena z istim proizvodnim procesom Intel 7, je Raptor Lake prinesel več jeder, večjo učinkovitost (varčnost) in boljšo zmogljivost. Intel se je pohvalil s 15 odstotkov hitrejšim delovanjem z eno nitjo in z 41-odstotno izboljšavo v večnitnih aplikacijah. Cene so ostale enake, prav tako ležišča na ploščah (LGA 1700, BGA 1744, BGA 1964). Ena izmed pomembnih sprememb je bila prestavljena krivulja V/F, ki je procesorjem omogočila primerljivo hitro delovanje pri nižjih napetostih.
Prve pritožbe
Na internetu so se decembra 2022 pojavili prvi zapisi lastnikov novih procesorjev, v katerih so tarnali zaradi nestabilnosti računalnikov. Vzrokov za nestabilnost sistema je lahko zelo veliko in diagnostika nikakor ni preprosto opravilo. Lomijo ga lahko napajalnik, pomnilniški moduli, grafična kartica, matična plošča oziroma kondenzatorji ali kakšne povezave, različni gonilniki in celo električna napeljava itd. Defekten procesor je v resnici zelo na koncu seznama osumljencev, zato prvih poročil o nestabilnosti nihče ni pripisoval Intelu.
Kaj določa napetost na procesorju
Že več generacij procesorji ne tečejo pri konstantni napetosti, temveč se ta prilagaja več dejavnikom, med katerimi sta poglavitna obremenitev in temperatura. O natančnem algoritmu in vseh dejavnikih Intel molči, a okvirni obrisi so znani.
Vsak procesor ima tabelo VID in ta v odvisnosti od frekvence določa najvišjo napetost, ki je dopustna za stabilno delovanje. Pri novih Intelovih procesorjih pri tej isti napetosti tečejo jedra P, E in povezave med njimi (ring bus). Nekatere izmed zgodnjih teorij so predpostavljale, da je problem prav to, saj so nova jedra P zahtevala tako visoke napetosti, da preostale komponente na isti liniji (rail) tega niso zdržale.
Poleg VID obstajata še dve pomembni nastavitvi. Vdroop (imenovan tudi load line droop) je znižanje napetosti pod obremenitvijo, kar preprečuje previsoke konice oziroma kratkotrajna nihanja nad VID pri razbremenitvi. VRM (voltage regulator module) namreč skrbi, da ima procesor primerno napetost glede na obremenitev, a se ne more odzivati takoj, temveč z (zelo) kratko zakasnitvijo. Brez Vdroop bi takoj po razbremenitvi napetost poskočila prek VID, dokler se ne bi VRM odzval.
Druga pomembna količina pa je Voffset, ki predstavlja znižanje dobavljene napetosti v primerjavi z VID (torej tudi brez obremenitve). Njen namen je še en sloj zaščite procesorja, da konice ne bi presegle VID.
Moderne plošče in procesorji imajo še druge nastavitve, denimo LLC (load line calibration). Zelo poenostavljeno rečeno je glavni razlog za vse čaranje z napetostmi Ohmov zakon, saj nobena izmed komponent (zlasti električne povezave) ni idealna brezuporna niti nima takojšnjega odziva. Upad napetosti se dogaja povsod in je premo sorazmeren s tokom, torej porabo energije. Pod obremenitvijo bi zato napetost na procesorju pri enaki izhodni napetosti na plošči upadla bolj, kar je lahko problematično. LLC to upošteva in pod obremenitvijo dostavi višjo napetost, ki se kompenzira z večjim upadom zaradi večjega toka. LLC je pomemben zlasti v navijalskih krogih: brez LLC sistemi niso stabilni, previsoki LLC pa kvarijo procesor.
Medtem ko je LLC arbitrarna nastavitev, je AC_LL (AC load line) dejanska impedanca med VRM in jedrom procesorja ter je namenjena zagotavljanju pravilne napetosti na jedru. Še ena sorodna nastavitev je DC_LL (DC load line), ki pa je namenjena meritvam.
Napetost na procesorju je torej kompleksna materija. Ni odvisna le od kopice nastavitev in tehničnih karakteristik, temveč tudi od frekvence in obremenitve, zato velja uporabljati proizvajalčeve konservativne nastavitve, v konkretnem primeru pa namestiti še vse popravke BIOS-a in mikrokode v procesorju. Situacijo pa še zapleta dejstvo, da je merjenje napetosti zahteven problem. Dejanski odčitki uporabnikom tudi ob uporabi specializirane programske opreme običajno niso na voljo, zato se morajo zadovoljiti s podatkom o napetosti na ležišču (socket) ali vezju (PCB) – ki pa je obremenjen s pogreškom.
Naslednje leto je število poročil o sesuvanju sistemov raslo in decembra 2023 doseglo že skorajda epidemični obseg. Tudi naslednja, 14. generacija procesorjev, ki jo je Intel izdal oktobra 2023, je imela enake tegobe. Sistemi so običajno klecnili ob igranju iger, a na različne načine. Včasih je vse skupaj zamrznilo, pogosto pa se je sesula le aktivna igra, skupaj z obvestilom o prekoračenem pomnilniškem obsegu, redki niso bili niti modri zasloni. Skorajda vedno se je napaka pri prizadetih procesorjih pojavila ob igranju iger na pogonu Unreal Engine 5. Sporočila o napaki v grafičnem pomnilniku so za kratek čas med osumljence postavila tudi Nvidio, ki pa je kmalu ugotovila, da so njihove grafične kartice brezhibne. Dejali so, da težava očitno tiči v 13. generaciji Intelovih procesorjev. A nihče ni vedel zares, kaj je razlog. Kazalo pa je, da ima Intel velik problem v tovarni v Arizoni.
Prizadeti procesorji Raptor Lake imajo oznako Revision B0.
Intel previdno dvigne roko
Februarja letos, ko so napake uspešno reproducirali tudi novinarji, denimo pri spletnem portalu Tom's Hardware, se je Intel uradno odzval. Dejali so, da so seznanjeni s poročili o težavah procesorjev Intel Core 13. in 14. generacije pod nekaterimi obremenitvami in da težave preiskujejo. To je bil prvi uradni znak, da ne gre za nedolžno sesuvanje računalnika iz nezdružljivih komponent ali s programskimi težavami. Kopičili so se bolj ali manj uspešni triki, s katerimi so uporabniki lajšali težave, ki so imele isto rdečo nit. Nvidia je priporočila, naj igralci iger procesorje »odvijejo« (beri: upočasnijo) za kakšnih 200 MHz – zakaj to lahko deluje, pojasnjuje že omenjena krivulja V/F. Tudi drugi zunanji strokovnjaki so ugotavljali, da je sesuvanje bržčas povezano s frekvencami, z napetostmi in s tokovi. Roko na srce je pri procesorjih kaj drugega že težko krivo, razen če bi jih Intel fizično napačno izdelal. (Zgodilo se je v resnici oboje!) A februarja smo brez razumevanja vzrokov ugotavljali, da postanejo procesorji stabilnejši, če jim omejimo porabo in limitne tokove. V nekaterih primerih je pomagala tudi nastavitev nižje napetosti (undervolting), medtem ko so drugi zagovarjali povišanje napetosti s spreminjanjem nastavitev ACLL. Tudi to ni tako iz trte izvito, saj degradirani procesorji za stabilno delovanje potrebujejo višjo napetost, ki jih še hitreje kvari, in krog je sklenjen.
Aprila letos je imel proizvajalec matičnih plošč Asus dovolj, zato je izdal popravek BIOS-a, s katerim je uvedel funkcijo Intel Baseline Profile. Ta je nastavitve procesorja spremenila s privzetih po novih Intelovih priporočilih, ki naj bi vsaj omilila sesuvanje. Učinek je bil skromen. Zanimivo je, da je Intel še maja zatrjeval, da uporabe teh nastavitev sploh ne priporočajo, temveč zgolj podpirajo to možnost v BIOS-u, če bi se slučajno pokazale težave s stabilnostjo. Še vedno so priporočali uporabo Intel Default Settings, za sesuvanje pa so interno krivili proizvajalce matičnih plošč. Ti naj bi ignorirali varovalke, ki omejujejo porabo in segrevanje procesorjev. Proizvajalci naj bi izklopili Current Excursion Protection in Thermal Velocity Boost, kar je povzročalo sesuvanje procesorjev. Javno tega niso nikoli izrekli.
Prizadeti procesorji
Nestabilno delovanje opažajo pri procesorjih Raptor Lake in Raptor Lake Refresh, torej 13. in 14. generacije, ki imajo hitra jedra Raptor Cove (P-jedra). Večjo verjetnost za nestabilnost in degradacijo imajo najzmogljivejši procesorji. Prizadeti so lahko vsi, posebej pazljivi pa moramo biti pri modelih:
• Intel Core i9-14900K/KF/KS/T,
• Intel Core i7-14700K/KF,
• Intel Core i5-14600K/KF/T,
• Intel Core i9-13900K/KF/KS/T,
• Intel Core i7-13700K/KF,
• Intel Core i3-13600K/KF
• in drugih s toplotnim odtisom (TDP) 65 W ali več.
Šibkejši modeli so ogroženi le, če imajo jedra Raptor Cove. Model procesorja lahko preverimo s programom CPU-Z v Windows, kjer je problematična oznaka Revision B0.
V naslednjih tednih je nezadovoljstvo med uporabniki raslo, negotovost in frustracija v javnosti pa sta se krepili. Večkrat so zakrožile govorice, da je Intel identificiral vzrok, a so se vedno izkazale za preuranjene. Jasno je bilo le, da so prizadeti procesorji 13. in 14. generacije serij K, KF in KS ter tudi nekateri drugi (ne K) z veliko porabo energije (nad 65 W) na arhitekturi Raptor Lake. Procesorji za prenosne računalnike niso imeli težav.
Neuradna krivulja V/F (potrebna napetost glede na frekvenco) za jedra Raptor Cove in Redwood Cove.
Intel je junija letos izdal seznam priporočljivih nastavitev procesorjev v BIOS-u, ki bi naj zagotovile zanesljivejše delovanje. Priporočili so vklop več varovalk (CEP, eTVB, TVB) in striktno nastavitev najvišjih dopustnih tokov (ICCMAX in ICCMAX_App) ter porabe energije (Power Limit 1 in Power Limit 2). Proizvajalci matičnih plošč so začeli izdajati popravke BIOS-a, ki so te omejitve striktno upoštevali, kar je prineslo le neznatne upočasnitve. Intel je uporabnikom, ki nimajo dostopa do novega BIOS-a, priporočil ročni vnos večine nastavitev. A tudi to ni pomagalo.
Sredi julija je programski studio Alderon Games kot prvi izrecno obtožil Intel, da proizvaja defektne procesorje. Dejali so, da imajo s problematičnimi procesorji neprestane težave, ki se pojavljajo na strežnikih, v razvojnih sistemih in pri končnih uporabnikih, torej igralcih. Bodisi je bila to kaplja čez rob bodisi zgolj naključje, ki je sovpadlo, a Intel je teden dni pozneje sporočil, da je odkril vzrok za težave. Popravek so obljubili kmalu.
Hladna prha
Intel je 22. julija sporočil, da je težava previsoka napetost, ki jo procesor zahteva in tudi dobi od matične plošče, kar se kaže v nestabilnem delovanju. V sporočilu za javnost – ki so ga začuda najprej objavili na svojem forumu – so pojasnili, da bo sesuvanje odpravil popravek mikrokode. Lastniki procesorjev ga prejmejo prek posodobitve BIOS-a matične plošče, vendar s(m)o kmalu doživeli mrzlo prho. Še preden je Intel splavil avgustovski popravek, je bilo jasno, da ne bo popravil ničesar, le preprečil bo nove težave. Procesorji, ki se že sesuvajo, so nepovratno poškodovani. Načela jih je previsoka napetost, ki je bila med velikimi obremenitvami pritisnjena na procesor, običajno le v kratkih nekajdesetmikrosekundnih pulzih, kot so pokazale meritve z osciloskopom. A bilo je dovolj, da se je degradacija stopnjevala.
Napetost ob povečani obremenitvi upade (Vdroop), medtem ko je brez obremenitve namenoma nekoliko nižja (Voffset) od nazivne, da preprečimo konice nad dovoljenimi mejami ob razbremenitvi procesorja.
Popravek preprečuje nadaljnje nastajanje škode in bo verjetno obvaroval procesorje, ki ga še niso začeli lomiti, dasiravno o tem ne moremo biti prepričani. Intel je pojasnil, da se lahko simptomi pojavijo tudi z zakasnitvijo, torej so lahko nekateri procesorji že okvarjeni, pa tega še ne vidimo. To bo razkril le čas. Intel serije sicer ne bo vpoklical, bodo pa menjali (RMA) prizadete procesorje ob pojavu simptomov.
Francoski Les Numeriques je konec julija, še preden je bil popravek na voljo, objavil statistiko vračil procesorjev. Leta 2020 je bil prodajalcem (retail) vrnjen odstotek procesorjev AMD, Intelovih pa le za spoznanje več. Pri 13. generaciji (Raptor Lake) je ta delež poskočil na 4–7 odstotkov, pri 14. generaciji (Raptor Lake Refresh) pa na 3–5 odstotkov. Številke ne vključujejo neposrednih reklamacij pri proizvajalcu (Intel ali AMD). Če procesor kupimo samostojno, ga namreč vračamo Intelu, sicer pa RMA ureja proizvajalec računalnika.
Tretja napaka
Ob podrobnem branju Intelovih izjav za javnost smo lahko prešteli, da je težava v mikrokodi že tretja (!) težava procesorjev Raptor Lake. Od marca do julija 2023 so namreč opazili fizične defekte pri proizvodnji procesorjev v tovarni v Arizoni, ki so se pokazali kot prekomerna oksidacija prevodnih povezav med različnimi plastmi na tiskanih vezjih. S tujko se te povezave imenujejo via in so nujno potrebne za delovanje tiskanih vezij, saj omogočajo prenos signala med različnimi sloji v večslojnih dizajnih. V proizvodnem postopku se via umesti drugače od preostalih komponent, predvsem pa so zahtevane tolerance izredno majhne. Gre dobesedno za luknje skozi tiskano vezje, ki morajo biti natančno pozicionirane, sicer sklenejo napačne povezave in čip ne deluje po načrtu. Hkrati predstavljajo nezveznost v sloju, zaradi drugačne impedance vplivajo na kakovost signala in – to se je zgodilo Intelu – lahko oksidirajo. To pomanjkljivost v proizvodnem postopku so odpravili v drugi polovici lanskega leta in ni bila glavni vzrok za sesuvanje procesorjev, so dejali. Lahko jim verjamemo, saj so se poročila o nestabilnem delovanju razširila za tem, ko so oksidacijo odpravili. Povedno pa je, da Intel uradno tega defekta ni potrdil vse do julija letos, ko so ga dodali kot pripis po razjasnitvi, kaj je narobe z napetostjo. Skorajda se zdi, kot da bi želeli proizvodni defekt čim bolje skriti.
Še en hrošč, ki je takisto pestil procesorje Raptor Lake in ga je Intel že odpravil, pa je tičal v eTVB (enhanced Thermal Velocity Boost). Ker gre za tehnologijo, ki jo je Intel premierno predstavil v procesorjih Raptor Lake S, in sicer Core i9, kjer pomaga iz čipa iztisniti še zadnje megaherce moči, je bil logični osumljenec. Sistem z eTVB samodejno navije procesor prek najvišje frekvence, če to dopuščajo poraba električne energije (posredno torej napetosti in tokovi) in temperature. Intel je dejansko odkril, da so imeli ti procesorji napačne nastavitve v eTVB, ki so jim omogočale delovanje pri povišani frekvenci, tudi kadar temperature in toplotne obremenitve tega niso dovoljevale. Tudi ko je bil ta hrošč odpravljen, so se procesorji še vedno sesuvali.
Napaka v mikrokodi, zaradi katere je procesor zahteval in dobil previsoko napetost, je torej tretji – in po trenutnem razumevanju tisti pravi hrošč, ki je povzročal nestabilno delovanje.
Kaj sledi
Čeprav Intel očitno ne bo odpoklical procesorjev, saj naj bi popravek mikrokode težavo odpravil, že storjeno škodo pa bodo zamenjali, bodo posledice občutne. To je največji fiasko v proizvodnji procesorjev po letu 1994, ko so v prvih pentiumih odkrili hrošča FDIV – takrat je procesor zaradi manjkajočih tabel v zelo redkih primerih procesor nápak delil. Intel je moral tedaj zamenjati vse procesorje, kar ga je stalo skoraj pol milijarde dolarjev. Popravek pa je bil sorazmerno preprost, saj so v naslednji različici (stepping) procesorja preprosto dopolnili tabelo (look-up table), ki se uporablja pri deljenju števil s plavajočo vejico. Kasneje so imeli še nekaj manjših spodrsljajev, denimo defekten tranzistor (MOSFET) v veznem naboru Cougar Point za procesorje Sandy Bridge leta 2011, ki bi lahko povzročil odpoved priključkov SATA, ter nestabilnost zaradi ukazov TSX v procesorjih Haswell in Broadwell leta 2014.
red izidom popravka je Intel podal obsežen seznam priporočenih nastavitev v BIOS-u za različne procesorje, ki pa je zgolj lajšal simptome.
To pot jo bodo očitno odnesli še lažje, grozeče napovedi o uničenem ugledu podjetja, pa bodo bržkone ostale zgolj to – strašljive zgodbe. Intel je preživel že marsikateri spodrsljaj, pa se je še vsakokrat vrnil. Zaplet pa je vendarle tudi ironičen. Intel je višje napetosti in porabo energije dovoljeval, da so zmogljiva jedra P (Raptor Cove) dosegala frekvence prek 5,5 GHz vse do 6,2. Pri nižjih frekvencah so se jedra počutila povsem dobro tudi z napetostmi pod 1,2 V, ki so povsem neškodljive. Razlika med 5,2 in 6,2 GHz pa je pri običajni uporabi povsem neopazna, vidi se le pri sintetičnih testih – in v oglasih ter specifikacijah. Intel bo torej moral zamenjati precej procesorjev, verjetno pa se bosta 13. in 14. generacija prodajali tako slabo, da bodo pohiteli s 15. generacijo – a ne preveč, saj je bil eden izmed glavnih očitkov prav preveliko hitenje z generacijo Raptor Lake. Mi pa iz previdnosti ne bomo kupovali procesorjev 13. in 14. generacije, temveč raje 12.