]> git.kernelconcepts.de Git - karo-tx-linux.git/blob - net/ipv4/tcp_output.c
Merge branches 'pm-domains', 'pm-cpuidle', 'pm-sleep' and 'powercap'
[karo-tx-linux.git] / net / ipv4 / tcp_output.c
1 /*
2  * INET         An implementation of the TCP/IP protocol suite for the LINUX
3  *              operating system.  INET is implemented using the  BSD Socket
4  *              interface as the means of communication with the user level.
5  *
6  *              Implementation of the Transmission Control Protocol(TCP).
7  *
8  * Authors:     Ross Biro
9  *              Fred N. van Kempen, <waltje@uWalt.NL.Mugnet.ORG>
10  *              Mark Evans, <evansmp@uhura.aston.ac.uk>
11  *              Corey Minyard <wf-rch!minyard@relay.EU.net>
12  *              Florian La Roche, <flla@stud.uni-sb.de>
13  *              Charles Hedrick, <hedrick@klinzhai.rutgers.edu>
14  *              Linus Torvalds, <torvalds@cs.helsinki.fi>
15  *              Alan Cox, <gw4pts@gw4pts.ampr.org>
16  *              Matthew Dillon, <dillon@apollo.west.oic.com>
17  *              Arnt Gulbrandsen, <agulbra@nvg.unit.no>
18  *              Jorge Cwik, <jorge@laser.satlink.net>
19  */
20
21 /*
22  * Changes:     Pedro Roque     :       Retransmit queue handled by TCP.
23  *                              :       Fragmentation on mtu decrease
24  *                              :       Segment collapse on retransmit
25  *                              :       AF independence
26  *
27  *              Linus Torvalds  :       send_delayed_ack
28  *              David S. Miller :       Charge memory using the right skb
29  *                                      during syn/ack processing.
30  *              David S. Miller :       Output engine completely rewritten.
31  *              Andrea Arcangeli:       SYNACK carry ts_recent in tsecr.
32  *              Cacophonix Gaul :       draft-minshall-nagle-01
33  *              J Hadi Salim    :       ECN support
34  *
35  */
36
37 #define pr_fmt(fmt) "TCP: " fmt
38
39 #include <net/tcp.h>
40
41 #include <linux/compiler.h>
42 #include <linux/gfp.h>
43 #include <linux/module.h>
44
45 /* People can turn this off for buggy TCP's found in printers etc. */
46 int sysctl_tcp_retrans_collapse __read_mostly = 1;
47
48 /* People can turn this on to work with those rare, broken TCPs that
49  * interpret the window field as a signed quantity.
50  */
51 int sysctl_tcp_workaround_signed_windows __read_mostly = 0;
52
53 /* Default TSQ limit of four TSO segments */
54 int sysctl_tcp_limit_output_bytes __read_mostly = 262144;
55
56 /* This limits the percentage of the congestion window which we
57  * will allow a single TSO frame to consume.  Building TSO frames
58  * which are too large can cause TCP streams to be bursty.
59  */
60 int sysctl_tcp_tso_win_divisor __read_mostly = 3;
61
62 /* By default, RFC2861 behavior.  */
63 int sysctl_tcp_slow_start_after_idle __read_mostly = 1;
64
65 static bool tcp_write_xmit(struct sock *sk, unsigned int mss_now, int nonagle,
66                            int push_one, gfp_t gfp);
67
68 /* Account for new data that has been sent to the network. */
69 static void tcp_event_new_data_sent(struct sock *sk, const struct sk_buff *skb)
70 {
71         struct inet_connection_sock *icsk = inet_csk(sk);
72         struct tcp_sock *tp = tcp_sk(sk);
73         unsigned int prior_packets = tp->packets_out;
74
75         tcp_advance_send_head(sk, skb);
76         tp->snd_nxt = TCP_SKB_CB(skb)->end_seq;
77
78         tp->packets_out += tcp_skb_pcount(skb);
79         if (!prior_packets || icsk->icsk_pending == ICSK_TIME_LOSS_PROBE)
80                 tcp_rearm_rto(sk);
81
82         NET_ADD_STATS(sock_net(sk), LINUX_MIB_TCPORIGDATASENT,
83                       tcp_skb_pcount(skb));
84 }
85
86 /* SND.NXT, if window was not shrunk or the amount of shrunk was less than one
87  * window scaling factor due to loss of precision.
88  * If window has been shrunk, what should we make? It is not clear at all.
89  * Using SND.UNA we will fail to open window, SND.NXT is out of window. :-(
90  * Anything in between SND.UNA...SND.UNA+SND.WND also can be already
91  * invalid. OK, let's make this for now:
92  */
93 static inline __u32 tcp_acceptable_seq(const struct sock *sk)
94 {
95         const struct tcp_sock *tp = tcp_sk(sk);
96
97         if (!before(tcp_wnd_end(tp), tp->snd_nxt) ||
98             (tp->rx_opt.wscale_ok &&
99              ((tp->snd_nxt - tcp_wnd_end(tp)) < (1 << tp->rx_opt.rcv_wscale))))
100                 return tp->snd_nxt;
101         else
102                 return tcp_wnd_end(tp);
103 }
104
105 /* Calculate mss to advertise in SYN segment.
106  * RFC1122, RFC1063, draft-ietf-tcpimpl-pmtud-01 state that:
107  *
108  * 1. It is independent of path mtu.
109  * 2. Ideally, it is maximal possible segment size i.e. 65535-40.
110  * 3. For IPv4 it is reasonable to calculate it from maximal MTU of
111  *    attached devices, because some buggy hosts are confused by
112  *    large MSS.
113  * 4. We do not make 3, we advertise MSS, calculated from first
114  *    hop device mtu, but allow to raise it to ip_rt_min_advmss.
115  *    This may be overridden via information stored in routing table.
116  * 5. Value 65535 for MSS is valid in IPv6 and means "as large as possible,
117  *    probably even Jumbo".
118  */
119 static __u16 tcp_advertise_mss(struct sock *sk)
120 {
121         struct tcp_sock *tp = tcp_sk(sk);
122         const struct dst_entry *dst = __sk_dst_get(sk);
123         int mss = tp->advmss;
124
125         if (dst) {
126                 unsigned int metric = dst_metric_advmss(dst);
127
128                 if (metric < mss) {
129                         mss = metric;
130                         tp->advmss = mss;
131                 }
132         }
133
134         return (__u16)mss;
135 }
136
137 /* RFC2861. Reset CWND after idle period longer RTO to "restart window".
138  * This is the first part of cwnd validation mechanism.
139  */
140 void tcp_cwnd_restart(struct sock *sk, s32 delta)
141 {
142         struct tcp_sock *tp = tcp_sk(sk);
143         u32 restart_cwnd = tcp_init_cwnd(tp, __sk_dst_get(sk));
144         u32 cwnd = tp->snd_cwnd;
145
146         tcp_ca_event(sk, CA_EVENT_CWND_RESTART);
147
148         tp->snd_ssthresh = tcp_current_ssthresh(sk);
149         restart_cwnd = min(restart_cwnd, cwnd);
150
151         while ((delta -= inet_csk(sk)->icsk_rto) > 0 && cwnd > restart_cwnd)
152                 cwnd >>= 1;
153         tp->snd_cwnd = max(cwnd, restart_cwnd);
154         tp->snd_cwnd_stamp = tcp_time_stamp;
155         tp->snd_cwnd_used = 0;
156 }
157
158 /* Congestion state accounting after a packet has been sent. */
159 static void tcp_event_data_sent(struct tcp_sock *tp,
160                                 struct sock *sk)
161 {
162         struct inet_connection_sock *icsk = inet_csk(sk);
163         const u32 now = tcp_time_stamp;
164
165         if (tcp_packets_in_flight(tp) == 0)
166                 tcp_ca_event(sk, CA_EVENT_TX_START);
167
168         tp->lsndtime = now;
169
170         /* If it is a reply for ato after last received
171          * packet, enter pingpong mode.
172          */
173         if ((u32)(now - icsk->icsk_ack.lrcvtime) < icsk->icsk_ack.ato)
174                 icsk->icsk_ack.pingpong = 1;
175 }
176
177 /* Account for an ACK we sent. */
178 static inline void tcp_event_ack_sent(struct sock *sk, unsigned int pkts)
179 {
180         tcp_dec_quickack_mode(sk, pkts);
181         inet_csk_clear_xmit_timer(sk, ICSK_TIME_DACK);
182 }
183
184
185 u32 tcp_default_init_rwnd(u32 mss)
186 {
187         /* Initial receive window should be twice of TCP_INIT_CWND to
188          * enable proper sending of new unsent data during fast recovery
189          * (RFC 3517, Section 4, NextSeg() rule (2)). Further place a
190          * limit when mss is larger than 1460.
191          */
192         u32 init_rwnd = TCP_INIT_CWND * 2;
193
194         if (mss > 1460)
195                 init_rwnd = max((1460 * init_rwnd) / mss, 2U);
196         return init_rwnd;
197 }
198
199 /* Determine a window scaling and initial window to offer.
200  * Based on the assumption that the given amount of space
201  * will be offered. Store the results in the tp structure.
202  * NOTE: for smooth operation initial space offering should
203  * be a multiple of mss if possible. We assume here that mss >= 1.
204  * This MUST be enforced by all callers.
205  */
206 void tcp_select_initial_window(int __space, __u32 mss,
207                                __u32 *rcv_wnd, __u32 *window_clamp,
208                                int wscale_ok, __u8 *rcv_wscale,
209                                __u32 init_rcv_wnd)
210 {
211         unsigned int space = (__space < 0 ? 0 : __space);
212
213         /* If no clamp set the clamp to the max possible scaled window */
214         if (*window_clamp == 0)
215                 (*window_clamp) = (65535 << 14);
216         space = min(*window_clamp, space);
217
218         /* Quantize space offering to a multiple of mss if possible. */
219         if (space > mss)
220                 space = (space / mss) * mss;
221
222         /* NOTE: offering an initial window larger than 32767
223          * will break some buggy TCP stacks. If the admin tells us
224          * it is likely we could be speaking with such a buggy stack
225          * we will truncate our initial window offering to 32K-1
226          * unless the remote has sent us a window scaling option,
227          * which we interpret as a sign the remote TCP is not
228          * misinterpreting the window field as a signed quantity.
229          */
230         if (sysctl_tcp_workaround_signed_windows)
231                 (*rcv_wnd) = min(space, MAX_TCP_WINDOW);
232         else
233                 (*rcv_wnd) = space;
234
235         (*rcv_wscale) = 0;
236         if (wscale_ok) {
237                 /* Set window scaling on max possible window
238                  * See RFC1323 for an explanation of the limit to 14
239                  */
240                 space = max_t(u32, space, sysctl_tcp_rmem[2]);
241                 space = max_t(u32, space, sysctl_rmem_max);
242                 space = min_t(u32, space, *window_clamp);
243                 while (space > 65535 && (*rcv_wscale) < 14) {
244                         space >>= 1;
245                         (*rcv_wscale)++;
246                 }
247         }
248
249         if (mss > (1 << *rcv_wscale)) {
250                 if (!init_rcv_wnd) /* Use default unless specified otherwise */
251                         init_rcv_wnd = tcp_default_init_rwnd(mss);
252                 *rcv_wnd = min(*rcv_wnd, init_rcv_wnd * mss);
253         }
254
255         /* Set the clamp no higher than max representable value */
256         (*window_clamp) = min(65535U << (*rcv_wscale), *window_clamp);
257 }
258 EXPORT_SYMBOL(tcp_select_initial_window);
259
260 /* Chose a new window to advertise, update state in tcp_sock for the
261  * socket, and return result with RFC1323 scaling applied.  The return
262  * value can be stuffed directly into th->window for an outgoing
263  * frame.
264  */
265 static u16 tcp_select_window(struct sock *sk)
266 {
267         struct tcp_sock *tp = tcp_sk(sk);
268         u32 old_win = tp->rcv_wnd;
269         u32 cur_win = tcp_receive_window(tp);
270         u32 new_win = __tcp_select_window(sk);
271
272         /* Never shrink the offered window */
273         if (new_win < cur_win) {
274                 /* Danger Will Robinson!
275                  * Don't update rcv_wup/rcv_wnd here or else
276                  * we will not be able to advertise a zero
277                  * window in time.  --DaveM
278                  *
279                  * Relax Will Robinson.
280                  */
281                 if (new_win == 0)
282                         NET_INC_STATS(sock_net(sk),
283                                       LINUX_MIB_TCPWANTZEROWINDOWADV);
284                 new_win = ALIGN(cur_win, 1 << tp->rx_opt.rcv_wscale);
285         }
286         tp->rcv_wnd = new_win;
287         tp->rcv_wup = tp->rcv_nxt;
288
289         /* Make sure we do not exceed the maximum possible
290          * scaled window.
291          */
292         if (!tp->rx_opt.rcv_wscale && sysctl_tcp_workaround_signed_windows)
293                 new_win = min(new_win, MAX_TCP_WINDOW);
294         else
295                 new_win = min(new_win, (65535U << tp->rx_opt.rcv_wscale));
296
297         /* RFC1323 scaling applied */
298         new_win >>= tp->rx_opt.rcv_wscale;
299
300         /* If we advertise zero window, disable fast path. */
301         if (new_win == 0) {
302                 tp->pred_flags = 0;
303                 if (old_win)
304                         NET_INC_STATS(sock_net(sk),
305                                       LINUX_MIB_TCPTOZEROWINDOWADV);
306         } else if (old_win == 0) {
307                 NET_INC_STATS(sock_net(sk), LINUX_MIB_TCPFROMZEROWINDOWADV);
308         }
309
310         return new_win;
311 }
312
313 /* Packet ECN state for a SYN-ACK */
314 static void tcp_ecn_send_synack(struct sock *sk, struct sk_buff *skb)
315 {
316         const struct tcp_sock *tp = tcp_sk(sk);
317
318         TCP_SKB_CB(skb)->tcp_flags &= ~TCPHDR_CWR;
319         if (!(tp->ecn_flags & TCP_ECN_OK))
320                 TCP_SKB_CB(skb)->tcp_flags &= ~TCPHDR_ECE;
321         else if (tcp_ca_needs_ecn(sk))
322                 INET_ECN_xmit(sk);
323 }
324
325 /* Packet ECN state for a SYN.  */
326 static void tcp_ecn_send_syn(struct sock *sk, struct sk_buff *skb)
327 {
328         struct tcp_sock *tp = tcp_sk(sk);
329         bool use_ecn = sock_net(sk)->ipv4.sysctl_tcp_ecn == 1 ||
330                        tcp_ca_needs_ecn(sk);
331
332         if (!use_ecn) {
333                 const struct dst_entry *dst = __sk_dst_get(sk);
334
335                 if (dst && dst_feature(dst, RTAX_FEATURE_ECN))
336                         use_ecn = true;
337         }
338
339         tp->ecn_flags = 0;
340
341         if (use_ecn) {
342                 TCP_SKB_CB(skb)->tcp_flags |= TCPHDR_ECE | TCPHDR_CWR;
343                 tp->ecn_flags = TCP_ECN_OK;
344                 if (tcp_ca_needs_ecn(sk))
345                         INET_ECN_xmit(sk);
346         }
347 }
348
349 static void tcp_ecn_clear_syn(struct sock *sk, struct sk_buff *skb)
350 {
351         if (sock_net(sk)->ipv4.sysctl_tcp_ecn_fallback)
352                 /* tp->ecn_flags are cleared at a later point in time when
353                  * SYN ACK is ultimatively being received.
354                  */
355                 TCP_SKB_CB(skb)->tcp_flags &= ~(TCPHDR_ECE | TCPHDR_CWR);
356 }
357
358 static void
359 tcp_ecn_make_synack(const struct request_sock *req, struct tcphdr *th)
360 {
361         if (inet_rsk(req)->ecn_ok)
362                 th->ece = 1;
363 }
364
365 /* Set up ECN state for a packet on a ESTABLISHED socket that is about to
366  * be sent.
367  */
368 static void tcp_ecn_send(struct sock *sk, struct sk_buff *skb,
369                          struct tcphdr *th, int tcp_header_len)
370 {
371         struct tcp_sock *tp = tcp_sk(sk);
372
373         if (tp->ecn_flags & TCP_ECN_OK) {
374                 /* Not-retransmitted data segment: set ECT and inject CWR. */
375                 if (skb->len != tcp_header_len &&
376                     !before(TCP_SKB_CB(skb)->seq, tp->snd_nxt)) {
377                         INET_ECN_xmit(sk);
378                         if (tp->ecn_flags & TCP_ECN_QUEUE_CWR) {
379                                 tp->ecn_flags &= ~TCP_ECN_QUEUE_CWR;
380                                 th->cwr = 1;
381                                 skb_shinfo(skb)->gso_type |= SKB_GSO_TCP_ECN;
382                         }
383                 } else if (!tcp_ca_needs_ecn(sk)) {
384                         /* ACK or retransmitted segment: clear ECT|CE */
385                         INET_ECN_dontxmit(sk);
386                 }
387                 if (tp->ecn_flags & TCP_ECN_DEMAND_CWR)
388                         th->ece = 1;
389         }
390 }
391
392 /* Constructs common control bits of non-data skb. If SYN/FIN is present,
393  * auto increment end seqno.
394  */
395 static void tcp_init_nondata_skb(struct sk_buff *skb, u32 seq, u8 flags)
396 {
397         skb->ip_summed = CHECKSUM_PARTIAL;
398         skb->csum = 0;
399
400         TCP_SKB_CB(skb)->tcp_flags = flags;
401         TCP_SKB_CB(skb)->sacked = 0;
402
403         tcp_skb_pcount_set(skb, 1);
404
405         TCP_SKB_CB(skb)->seq = seq;
406         if (flags & (TCPHDR_SYN | TCPHDR_FIN))
407                 seq++;
408         TCP_SKB_CB(skb)->end_seq = seq;
409 }
410
411 static inline bool tcp_urg_mode(const struct tcp_sock *tp)
412 {
413         return tp->snd_una != tp->snd_up;
414 }
415
416 #define OPTION_SACK_ADVERTISE   (1 << 0)
417 #define OPTION_TS               (1 << 1)
418 #define OPTION_MD5              (1 << 2)
419 #define OPTION_WSCALE           (1 << 3)
420 #define OPTION_FAST_OPEN_COOKIE (1 << 8)
421
422 struct tcp_out_options {
423         u16 options;            /* bit field of OPTION_* */
424         u16 mss;                /* 0 to disable */
425         u8 ws;                  /* window scale, 0 to disable */
426         u8 num_sack_blocks;     /* number of SACK blocks to include */
427         u8 hash_size;           /* bytes in hash_location */
428         __u8 *hash_location;    /* temporary pointer, overloaded */
429         __u32 tsval, tsecr;     /* need to include OPTION_TS */
430         struct tcp_fastopen_cookie *fastopen_cookie;    /* Fast open cookie */
431 };
432
433 /* Write previously computed TCP options to the packet.
434  *
435  * Beware: Something in the Internet is very sensitive to the ordering of
436  * TCP options, we learned this through the hard way, so be careful here.
437  * Luckily we can at least blame others for their non-compliance but from
438  * inter-operability perspective it seems that we're somewhat stuck with
439  * the ordering which we have been using if we want to keep working with
440  * those broken things (not that it currently hurts anybody as there isn't
441  * particular reason why the ordering would need to be changed).
442  *
443  * At least SACK_PERM as the first option is known to lead to a disaster
444  * (but it may well be that other scenarios fail similarly).
445  */
446 static void tcp_options_write(__be32 *ptr, struct tcp_sock *tp,
447                               struct tcp_out_options *opts)
448 {
449         u16 options = opts->options;    /* mungable copy */
450
451         if (unlikely(OPTION_MD5 & options)) {
452                 *ptr++ = htonl((TCPOPT_NOP << 24) | (TCPOPT_NOP << 16) |
453                                (TCPOPT_MD5SIG << 8) | TCPOLEN_MD5SIG);
454                 /* overload cookie hash location */
455                 opts->hash_location = (__u8 *)ptr;
456                 ptr += 4;
457         }
458
459         if (unlikely(opts->mss)) {
460                 *ptr++ = htonl((TCPOPT_MSS << 24) |
461                                (TCPOLEN_MSS << 16) |
462                                opts->mss);
463         }
464
465         if (likely(OPTION_TS & options)) {
466                 if (unlikely(OPTION_SACK_ADVERTISE & options)) {
467                         *ptr++ = htonl((TCPOPT_SACK_PERM << 24) |
468                                        (TCPOLEN_SACK_PERM << 16) |
469                                        (TCPOPT_TIMESTAMP << 8) |
470                                        TCPOLEN_TIMESTAMP);
471                         options &= ~OPTION_SACK_ADVERTISE;
472                 } else {
473                         *ptr++ = htonl((TCPOPT_NOP << 24) |
474                                        (TCPOPT_NOP << 16) |
475                                        (TCPOPT_TIMESTAMP << 8) |
476                                        TCPOLEN_TIMESTAMP);
477                 }
478                 *ptr++ = htonl(opts->tsval);
479                 *ptr++ = htonl(opts->tsecr);
480         }
481
482         if (unlikely(OPTION_SACK_ADVERTISE & options)) {
483                 *ptr++ = htonl((TCPOPT_NOP << 24) |
484                                (TCPOPT_NOP << 16) |
485                                (TCPOPT_SACK_PERM << 8) |
486                                TCPOLEN_SACK_PERM);
487         }
488
489         if (unlikely(OPTION_WSCALE & options)) {
490                 *ptr++ = htonl((TCPOPT_NOP << 24) |
491                                (TCPOPT_WINDOW << 16) |
492                                (TCPOLEN_WINDOW << 8) |
493                                opts->ws);
494         }
495
496         if (unlikely(opts->num_sack_blocks)) {
497                 struct tcp_sack_block *sp = tp->rx_opt.dsack ?
498                         tp->duplicate_sack : tp->selective_acks;
499                 int this_sack;
500
501                 *ptr++ = htonl((TCPOPT_NOP  << 24) |
502                                (TCPOPT_NOP  << 16) |
503                                (TCPOPT_SACK <<  8) |
504                                (TCPOLEN_SACK_BASE + (opts->num_sack_blocks *
505                                                      TCPOLEN_SACK_PERBLOCK)));
506
507                 for (this_sack = 0; this_sack < opts->num_sack_blocks;
508                      ++this_sack) {
509                         *ptr++ = htonl(sp[this_sack].start_seq);
510                         *ptr++ = htonl(sp[this_sack].end_seq);
511                 }
512
513                 tp->rx_opt.dsack = 0;
514         }
515
516         if (unlikely(OPTION_FAST_OPEN_COOKIE & options)) {
517                 struct tcp_fastopen_cookie *foc = opts->fastopen_cookie;
518                 u8 *p = (u8 *)ptr;
519                 u32 len; /* Fast Open option length */
520
521                 if (foc->exp) {
522                         len = TCPOLEN_EXP_FASTOPEN_BASE + foc->len;
523                         *ptr = htonl((TCPOPT_EXP << 24) | (len << 16) |
524                                      TCPOPT_FASTOPEN_MAGIC);
525                         p += TCPOLEN_EXP_FASTOPEN_BASE;
526                 } else {
527                         len = TCPOLEN_FASTOPEN_BASE + foc->len;
528                         *p++ = TCPOPT_FASTOPEN;
529                         *p++ = len;
530                 }
531
532                 memcpy(p, foc->val, foc->len);
533                 if ((len & 3) == 2) {
534                         p[foc->len] = TCPOPT_NOP;
535                         p[foc->len + 1] = TCPOPT_NOP;
536                 }
537                 ptr += (len + 3) >> 2;
538         }
539 }
540
541 /* Compute TCP options for SYN packets. This is not the final
542  * network wire format yet.
543  */
544 static unsigned int tcp_syn_options(struct sock *sk, struct sk_buff *skb,
545                                 struct tcp_out_options *opts,
546                                 struct tcp_md5sig_key **md5)
547 {
548         struct tcp_sock *tp = tcp_sk(sk);
549         unsigned int remaining = MAX_TCP_OPTION_SPACE;
550         struct tcp_fastopen_request *fastopen = tp->fastopen_req;
551
552 #ifdef CONFIG_TCP_MD5SIG
553         *md5 = tp->af_specific->md5_lookup(sk, sk);
554         if (*md5) {
555                 opts->options |= OPTION_MD5;
556                 remaining -= TCPOLEN_MD5SIG_ALIGNED;
557         }
558 #else
559         *md5 = NULL;
560 #endif
561
562         /* We always get an MSS option.  The option bytes which will be seen in
563          * normal data packets should timestamps be used, must be in the MSS
564          * advertised.  But we subtract them from tp->mss_cache so that
565          * calculations in tcp_sendmsg are simpler etc.  So account for this
566          * fact here if necessary.  If we don't do this correctly, as a
567          * receiver we won't recognize data packets as being full sized when we
568          * should, and thus we won't abide by the delayed ACK rules correctly.
569          * SACKs don't matter, we never delay an ACK when we have any of those
570          * going out.  */
571         opts->mss = tcp_advertise_mss(sk);
572         remaining -= TCPOLEN_MSS_ALIGNED;
573
574         if (likely(sysctl_tcp_timestamps && !*md5)) {
575                 opts->options |= OPTION_TS;
576                 opts->tsval = tcp_skb_timestamp(skb) + tp->tsoffset;
577                 opts->tsecr = tp->rx_opt.ts_recent;
578                 remaining -= TCPOLEN_TSTAMP_ALIGNED;
579         }
580         if (likely(sysctl_tcp_window_scaling)) {
581                 opts->ws = tp->rx_opt.rcv_wscale;
582                 opts->options |= OPTION_WSCALE;
583                 remaining -= TCPOLEN_WSCALE_ALIGNED;
584         }
585         if (likely(sysctl_tcp_sack)) {
586                 opts->options |= OPTION_SACK_ADVERTISE;
587                 if (unlikely(!(OPTION_TS & opts->options)))
588                         remaining -= TCPOLEN_SACKPERM_ALIGNED;
589         }
590
591         if (fastopen && fastopen->cookie.len >= 0) {
592                 u32 need = fastopen->cookie.len;
593
594                 need += fastopen->cookie.exp ? TCPOLEN_EXP_FASTOPEN_BASE :
595                                                TCPOLEN_FASTOPEN_BASE;
596                 need = (need + 3) & ~3U;  /* Align to 32 bits */
597                 if (remaining >= need) {
598                         opts->options |= OPTION_FAST_OPEN_COOKIE;
599                         opts->fastopen_cookie = &fastopen->cookie;
600                         remaining -= need;
601                         tp->syn_fastopen = 1;
602                         tp->syn_fastopen_exp = fastopen->cookie.exp ? 1 : 0;
603                 }
604         }
605
606         return MAX_TCP_OPTION_SPACE - remaining;
607 }
608
609 /* Set up TCP options for SYN-ACKs. */
610 static unsigned int tcp_synack_options(struct request_sock *req,
611                                        unsigned int mss, struct sk_buff *skb,
612                                        struct tcp_out_options *opts,
613                                        const struct tcp_md5sig_key *md5,
614                                        struct tcp_fastopen_cookie *foc)
615 {
616         struct inet_request_sock *ireq = inet_rsk(req);
617         unsigned int remaining = MAX_TCP_OPTION_SPACE;
618
619 #ifdef CONFIG_TCP_MD5SIG
620         if (md5) {
621                 opts->options |= OPTION_MD5;
622                 remaining -= TCPOLEN_MD5SIG_ALIGNED;
623
624                 /* We can't fit any SACK blocks in a packet with MD5 + TS
625                  * options. There was discussion about disabling SACK
626                  * rather than TS in order to fit in better with old,
627                  * buggy kernels, but that was deemed to be unnecessary.
628                  */
629                 ireq->tstamp_ok &= !ireq->sack_ok;
630         }
631 #endif
632
633         /* We always send an MSS option. */
634         opts->mss = mss;
635         remaining -= TCPOLEN_MSS_ALIGNED;
636
637         if (likely(ireq->wscale_ok)) {
638                 opts->ws = ireq->rcv_wscale;
639                 opts->options |= OPTION_WSCALE;
640                 remaining -= TCPOLEN_WSCALE_ALIGNED;
641         }
642         if (likely(ireq->tstamp_ok)) {
643                 opts->options |= OPTION_TS;
644                 opts->tsval = tcp_skb_timestamp(skb) + tcp_rsk(req)->ts_off;
645                 opts->tsecr = req->ts_recent;
646                 remaining -= TCPOLEN_TSTAMP_ALIGNED;
647         }
648         if (likely(ireq->sack_ok)) {
649                 opts->options |= OPTION_SACK_ADVERTISE;
650                 if (unlikely(!ireq->tstamp_ok))
651                         remaining -= TCPOLEN_SACKPERM_ALIGNED;
652         }
653         if (foc != NULL && foc->len >= 0) {
654                 u32 need = foc->len;
655
656                 need += foc->exp ? TCPOLEN_EXP_FASTOPEN_BASE :
657                                    TCPOLEN_FASTOPEN_BASE;
658                 need = (need + 3) & ~3U;  /* Align to 32 bits */
659                 if (remaining >= need) {
660                         opts->options |= OPTION_FAST_OPEN_COOKIE;
661                         opts->fastopen_cookie = foc;
662                         remaining -= need;
663                 }
664         }
665
666         return MAX_TCP_OPTION_SPACE - remaining;
667 }
668
669 /* Compute TCP options for ESTABLISHED sockets. This is not the
670  * final wire format yet.
671  */
672 static unsigned int tcp_established_options(struct sock *sk, struct sk_buff *skb,
673                                         struct tcp_out_options *opts,
674                                         struct tcp_md5sig_key **md5)
675 {
676         struct tcp_sock *tp = tcp_sk(sk);
677         unsigned int size = 0;
678         unsigned int eff_sacks;
679
680         opts->options = 0;
681
682 #ifdef CONFIG_TCP_MD5SIG
683         *md5 = tp->af_specific->md5_lookup(sk, sk);
684         if (unlikely(*md5)) {
685                 opts->options |= OPTION_MD5;
686                 size += TCPOLEN_MD5SIG_ALIGNED;
687         }
688 #else
689         *md5 = NULL;
690 #endif
691
692         if (likely(tp->rx_opt.tstamp_ok)) {
693                 opts->options |= OPTION_TS;
694                 opts->tsval = skb ? tcp_skb_timestamp(skb) + tp->tsoffset : 0;
695                 opts->tsecr = tp->rx_opt.ts_recent;
696                 size += TCPOLEN_TSTAMP_ALIGNED;
697         }
698
699         eff_sacks = tp->rx_opt.num_sacks + tp->rx_opt.dsack;
700         if (unlikely(eff_sacks)) {
701                 const unsigned int remaining = MAX_TCP_OPTION_SPACE - size;
702                 opts->num_sack_blocks =
703                         min_t(unsigned int, eff_sacks,
704                               (remaining - TCPOLEN_SACK_BASE_ALIGNED) /
705                               TCPOLEN_SACK_PERBLOCK);
706                 size += TCPOLEN_SACK_BASE_ALIGNED +
707                         opts->num_sack_blocks * TCPOLEN_SACK_PERBLOCK;
708         }
709
710         return size;
711 }
712
713
714 /* TCP SMALL QUEUES (TSQ)
715  *
716  * TSQ goal is to keep small amount of skbs per tcp flow in tx queues (qdisc+dev)
717  * to reduce RTT and bufferbloat.
718  * We do this using a special skb destructor (tcp_wfree).
719  *
720  * Its important tcp_wfree() can be replaced by sock_wfree() in the event skb
721  * needs to be reallocated in a driver.
722  * The invariant being skb->truesize subtracted from sk->sk_wmem_alloc
723  *
724  * Since transmit from skb destructor is forbidden, we use a tasklet
725  * to process all sockets that eventually need to send more skbs.
726  * We use one tasklet per cpu, with its own queue of sockets.
727  */
728 struct tsq_tasklet {
729         struct tasklet_struct   tasklet;
730         struct list_head        head; /* queue of tcp sockets */
731 };
732 static DEFINE_PER_CPU(struct tsq_tasklet, tsq_tasklet);
733
734 static void tcp_tsq_handler(struct sock *sk)
735 {
736         if ((1 << sk->sk_state) &
737             (TCPF_ESTABLISHED | TCPF_FIN_WAIT1 | TCPF_CLOSING |
738              TCPF_CLOSE_WAIT  | TCPF_LAST_ACK)) {
739                 struct tcp_sock *tp = tcp_sk(sk);
740
741                 if (tp->lost_out > tp->retrans_out &&
742                     tp->snd_cwnd > tcp_packets_in_flight(tp))
743                         tcp_xmit_retransmit_queue(sk);
744
745                 tcp_write_xmit(sk, tcp_current_mss(sk), tp->nonagle,
746                                0, GFP_ATOMIC);
747         }
748 }
749 /*
750  * One tasklet per cpu tries to send more skbs.
751  * We run in tasklet context but need to disable irqs when
752  * transferring tsq->head because tcp_wfree() might
753  * interrupt us (non NAPI drivers)
754  */
755 static void tcp_tasklet_func(unsigned long data)
756 {
757         struct tsq_tasklet *tsq = (struct tsq_tasklet *)data;
758         LIST_HEAD(list);
759         unsigned long flags;
760         struct list_head *q, *n;
761         struct tcp_sock *tp;
762         struct sock *sk;
763
764         local_irq_save(flags);
765         list_splice_init(&tsq->head, &list);
766         local_irq_restore(flags);
767
768         list_for_each_safe(q, n, &list) {
769                 tp = list_entry(q, struct tcp_sock, tsq_node);
770                 list_del(&tp->tsq_node);
771
772                 sk = (struct sock *)tp;
773                 smp_mb__before_atomic();
774                 clear_bit(TSQ_QUEUED, &sk->sk_tsq_flags);
775
776                 if (!sk->sk_lock.owned &&
777                     test_bit(TCP_TSQ_DEFERRED, &sk->sk_tsq_flags)) {
778                         bh_lock_sock(sk);
779                         if (!sock_owned_by_user(sk)) {
780                                 clear_bit(TCP_TSQ_DEFERRED, &sk->sk_tsq_flags);
781                                 tcp_tsq_handler(sk);
782                         }
783                         bh_unlock_sock(sk);
784                 }
785
786                 sk_free(sk);
787         }
788 }
789
790 #define TCP_DEFERRED_ALL (TCPF_TSQ_DEFERRED |           \
791                           TCPF_WRITE_TIMER_DEFERRED |   \
792                           TCPF_DELACK_TIMER_DEFERRED |  \
793                           TCPF_MTU_REDUCED_DEFERRED)
794 /**
795  * tcp_release_cb - tcp release_sock() callback
796  * @sk: socket
797  *
798  * called from release_sock() to perform protocol dependent
799  * actions before socket release.
800  */
801 void tcp_release_cb(struct sock *sk)
802 {
803         unsigned long flags, nflags;
804
805         /* perform an atomic operation only if at least one flag is set */
806         do {
807                 flags = sk->sk_tsq_flags;
808                 if (!(flags & TCP_DEFERRED_ALL))
809                         return;
810                 nflags = flags & ~TCP_DEFERRED_ALL;
811         } while (cmpxchg(&sk->sk_tsq_flags, flags, nflags) != flags);
812
813         if (flags & TCPF_TSQ_DEFERRED)
814                 tcp_tsq_handler(sk);
815
816         /* Here begins the tricky part :
817          * We are called from release_sock() with :
818          * 1) BH disabled
819          * 2) sk_lock.slock spinlock held
820          * 3) socket owned by us (sk->sk_lock.owned == 1)
821          *
822          * But following code is meant to be called from BH handlers,
823          * so we should keep BH disabled, but early release socket ownership
824          */
825         sock_release_ownership(sk);
826
827         if (flags & TCPF_WRITE_TIMER_DEFERRED) {
828                 tcp_write_timer_handler(sk);
829                 __sock_put(sk);
830         }
831         if (flags & TCPF_DELACK_TIMER_DEFERRED) {
832                 tcp_delack_timer_handler(sk);
833                 __sock_put(sk);
834         }
835         if (flags & TCPF_MTU_REDUCED_DEFERRED) {
836                 inet_csk(sk)->icsk_af_ops->mtu_reduced(sk);
837                 __sock_put(sk);
838         }
839 }
840 EXPORT_SYMBOL(tcp_release_cb);
841
842 void __init tcp_tasklet_init(void)
843 {
844         int i;
845
846         for_each_possible_cpu(i) {
847                 struct tsq_tasklet *tsq = &per_cpu(tsq_tasklet, i);
848
849                 INIT_LIST_HEAD(&tsq->head);
850                 tasklet_init(&tsq->tasklet,
851                              tcp_tasklet_func,
852                              (unsigned long)tsq);
853         }
854 }
855
856 /*
857  * Write buffer destructor automatically called from kfree_skb.
858  * We can't xmit new skbs from this context, as we might already
859  * hold qdisc lock.
860  */
861 void tcp_wfree(struct sk_buff *skb)
862 {
863         struct sock *sk = skb->sk;
864         struct tcp_sock *tp = tcp_sk(sk);
865         unsigned long flags, nval, oval;
866         int wmem;
867
868         /* Keep one reference on sk_wmem_alloc.
869          * Will be released by sk_free() from here or tcp_tasklet_func()
870          */
871         wmem = atomic_sub_return(skb->truesize - 1, &sk->sk_wmem_alloc);
872
873         /* If this softirq is serviced by ksoftirqd, we are likely under stress.
874          * Wait until our queues (qdisc + devices) are drained.
875          * This gives :
876          * - less callbacks to tcp_write_xmit(), reducing stress (batches)
877          * - chance for incoming ACK (processed by another cpu maybe)
878          *   to migrate this flow (skb->ooo_okay will be eventually set)
879          */
880         if (wmem >= SKB_TRUESIZE(1) && this_cpu_ksoftirqd() == current)
881                 goto out;
882
883         for (oval = READ_ONCE(sk->sk_tsq_flags);; oval = nval) {
884                 struct tsq_tasklet *tsq;
885                 bool empty;
886
887                 if (!(oval & TSQF_THROTTLED) || (oval & TSQF_QUEUED))
888                         goto out;
889
890                 nval = (oval & ~TSQF_THROTTLED) | TSQF_QUEUED | TCPF_TSQ_DEFERRED;
891                 nval = cmpxchg(&sk->sk_tsq_flags, oval, nval);
892                 if (nval != oval)
893                         continue;
894
895                 /* queue this socket to tasklet queue */
896                 local_irq_save(flags);
897                 tsq = this_cpu_ptr(&tsq_tasklet);
898                 empty = list_empty(&tsq->head);
899                 list_add(&tp->tsq_node, &tsq->head);
900                 if (empty)
901                         tasklet_schedule(&tsq->tasklet);
902                 local_irq_restore(flags);
903                 return;
904         }
905 out:
906         sk_free(sk);
907 }
908
909 /* This routine actually transmits TCP packets queued in by
910  * tcp_do_sendmsg().  This is used by both the initial
911  * transmission and possible later retransmissions.
912  * All SKB's seen here are completely headerless.  It is our
913  * job to build the TCP header, and pass the packet down to
914  * IP so it can do the same plus pass the packet off to the
915  * device.
916  *
917  * We are working here with either a clone of the original
918  * SKB, or a fresh unique copy made by the retransmit engine.
919  */
920 static int tcp_transmit_skb(struct sock *sk, struct sk_buff *skb, int clone_it,
921                             gfp_t gfp_mask)
922 {
923         const struct inet_connection_sock *icsk = inet_csk(sk);
924         struct inet_sock *inet;
925         struct tcp_sock *tp;
926         struct tcp_skb_cb *tcb;
927         struct tcp_out_options opts;
928         unsigned int tcp_options_size, tcp_header_size;
929         struct tcp_md5sig_key *md5;
930         struct tcphdr *th;
931         int err;
932
933         BUG_ON(!skb || !tcp_skb_pcount(skb));
934         tp = tcp_sk(sk);
935
936         if (clone_it) {
937                 skb_mstamp_get(&skb->skb_mstamp);
938                 TCP_SKB_CB(skb)->tx.in_flight = TCP_SKB_CB(skb)->end_seq
939                         - tp->snd_una;
940                 tcp_rate_skb_sent(sk, skb);
941
942                 if (unlikely(skb_cloned(skb)))
943                         skb = pskb_copy(skb, gfp_mask);
944                 else
945                         skb = skb_clone(skb, gfp_mask);
946                 if (unlikely(!skb))
947                         return -ENOBUFS;
948         }
949
950         inet = inet_sk(sk);
951         tcb = TCP_SKB_CB(skb);
952         memset(&opts, 0, sizeof(opts));
953
954         if (unlikely(tcb->tcp_flags & TCPHDR_SYN))
955                 tcp_options_size = tcp_syn_options(sk, skb, &opts, &md5);
956         else
957                 tcp_options_size = tcp_established_options(sk, skb, &opts,
958                                                            &md5);
959         tcp_header_size = tcp_options_size + sizeof(struct tcphdr);
960
961         /* if no packet is in qdisc/device queue, then allow XPS to select
962          * another queue. We can be called from tcp_tsq_handler()
963          * which holds one reference to sk_wmem_alloc.
964          *
965          * TODO: Ideally, in-flight pure ACK packets should not matter here.
966          * One way to get this would be to set skb->truesize = 2 on them.
967          */
968         skb->ooo_okay = sk_wmem_alloc_get(sk) < SKB_TRUESIZE(1);
969
970         /* If we had to use memory reserve to allocate this skb,
971          * this might cause drops if packet is looped back :
972          * Other socket might not have SOCK_MEMALLOC.
973          * Packets not looped back do not care about pfmemalloc.
974          */
975         skb->pfmemalloc = 0;
976
977         skb_push(skb, tcp_header_size);
978         skb_reset_transport_header(skb);
979
980         skb_orphan(skb);
981         skb->sk = sk;
982         skb->destructor = skb_is_tcp_pure_ack(skb) ? __sock_wfree : tcp_wfree;
983         skb_set_hash_from_sk(skb, sk);
984         atomic_add(skb->truesize, &sk->sk_wmem_alloc);
985
986         skb_set_dst_pending_confirm(skb, sk->sk_dst_pending_confirm);
987
988         /* Build TCP header and checksum it. */
989         th = (struct tcphdr *)skb->data;
990         th->source              = inet->inet_sport;
991         th->dest                = inet->inet_dport;
992         th->seq                 = htonl(tcb->seq);
993         th->ack_seq             = htonl(tp->rcv_nxt);
994         *(((__be16 *)th) + 6)   = htons(((tcp_header_size >> 2) << 12) |
995                                         tcb->tcp_flags);
996
997         th->check               = 0;
998         th->urg_ptr             = 0;
999
1000         /* The urg_mode check is necessary during a below snd_una win probe */
1001         if (unlikely(tcp_urg_mode(tp) && before(tcb->seq, tp->snd_up))) {
1002                 if (before(tp->snd_up, tcb->seq + 0x10000)) {
1003                         th->urg_ptr = htons(tp->snd_up - tcb->seq);
1004                         th->urg = 1;
1005                 } else if (after(tcb->seq + 0xFFFF, tp->snd_nxt)) {
1006                         th->urg_ptr = htons(0xFFFF);
1007                         th->urg = 1;
1008                 }
1009         }
1010
1011         tcp_options_write((__be32 *)(th + 1), tp, &opts);
1012         skb_shinfo(skb)->gso_type = sk->sk_gso_type;
1013         if (likely(!(tcb->tcp_flags & TCPHDR_SYN))) {
1014                 th->window      = htons(tcp_select_window(sk));
1015                 tcp_ecn_send(sk, skb, th, tcp_header_size);
1016         } else {
1017                 /* RFC1323: The window in SYN & SYN/ACK segments
1018                  * is never scaled.
1019                  */
1020                 th->window      = htons(min(tp->rcv_wnd, 65535U));
1021         }
1022 #ifdef CONFIG_TCP_MD5SIG
1023         /* Calculate the MD5 hash, as we have all we need now */
1024         if (md5) {
1025                 sk_nocaps_add(sk, NETIF_F_GSO_MASK);
1026                 tp->af_specific->calc_md5_hash(opts.hash_location,
1027                                                md5, sk, skb);
1028         }
1029 #endif
1030
1031         icsk->icsk_af_ops->send_check(sk, skb);
1032
1033         if (likely(tcb->tcp_flags & TCPHDR_ACK))
1034                 tcp_event_ack_sent(sk, tcp_skb_pcount(skb));
1035
1036         if (skb->len != tcp_header_size) {
1037                 tcp_event_data_sent(tp, sk);
1038                 tp->data_segs_out += tcp_skb_pcount(skb);
1039         }
1040
1041         if (after(tcb->end_seq, tp->snd_nxt) || tcb->seq == tcb->end_seq)
1042                 TCP_ADD_STATS(sock_net(sk), TCP_MIB_OUTSEGS,
1043                               tcp_skb_pcount(skb));
1044
1045         tp->segs_out += tcp_skb_pcount(skb);
1046         /* OK, its time to fill skb_shinfo(skb)->gso_{segs|size} */
1047         skb_shinfo(skb)->gso_segs = tcp_skb_pcount(skb);
1048         skb_shinfo(skb)->gso_size = tcp_skb_mss(skb);
1049
1050         /* Our usage of tstamp should remain private */
1051         skb->tstamp = 0;
1052
1053         /* Cleanup our debris for IP stacks */
1054         memset(skb->cb, 0, max(sizeof(struct inet_skb_parm),
1055                                sizeof(struct inet6_skb_parm)));
1056
1057         err = icsk->icsk_af_ops->queue_xmit(sk, skb, &inet->cork.fl);
1058
1059         if (likely(err <= 0))
1060                 return err;
1061
1062         tcp_enter_cwr(sk);
1063
1064         return net_xmit_eval(err);
1065 }
1066
1067 /* This routine just queues the buffer for sending.
1068  *
1069  * NOTE: probe0 timer is not checked, do not forget tcp_push_pending_frames,
1070  * otherwise socket can stall.
1071  */
1072 static void tcp_queue_skb(struct sock *sk, struct sk_buff *skb)
1073 {
1074         struct tcp_sock *tp = tcp_sk(sk);
1075
1076         /* Advance write_seq and place onto the write_queue. */
1077         tp->write_seq = TCP_SKB_CB(skb)->end_seq;
1078         __skb_header_release(skb);
1079         tcp_add_write_queue_tail(sk, skb);
1080         sk->sk_wmem_queued += skb->truesize;
1081         sk_mem_charge(sk, skb->truesize);
1082 }
1083
1084 /* Initialize TSO segments for a packet. */
1085 static void tcp_set_skb_tso_segs(struct sk_buff *skb, unsigned int mss_now)
1086 {
1087         if (skb->len <= mss_now || skb->ip_summed == CHECKSUM_NONE) {
1088                 /* Avoid the costly divide in the normal
1089                  * non-TSO case.
1090                  */
1091                 tcp_skb_pcount_set(skb, 1);
1092                 TCP_SKB_CB(skb)->tcp_gso_size = 0;
1093         } else {
1094                 tcp_skb_pcount_set(skb, DIV_ROUND_UP(skb->len, mss_now));
1095                 TCP_SKB_CB(skb)->tcp_gso_size = mss_now;
1096         }
1097 }
1098
1099 /* When a modification to fackets out becomes necessary, we need to check
1100  * skb is counted to fackets_out or not.
1101  */
1102 static void tcp_adjust_fackets_out(struct sock *sk, const struct sk_buff *skb,
1103                                    int decr)
1104 {
1105         struct tcp_sock *tp = tcp_sk(sk);
1106
1107         if (!tp->sacked_out || tcp_is_reno(tp))
1108                 return;
1109
1110         if (after(tcp_highest_sack_seq(tp), TCP_SKB_CB(skb)->seq))
1111                 tp->fackets_out -= decr;
1112 }
1113
1114 /* Pcount in the middle of the write queue got changed, we need to do various
1115  * tweaks to fix counters
1116  */
1117 static void tcp_adjust_pcount(struct sock *sk, const struct sk_buff *skb, int decr)
1118 {
1119         struct tcp_sock *tp = tcp_sk(sk);
1120
1121         tp->packets_out -= decr;
1122
1123         if (TCP_SKB_CB(skb)->sacked & TCPCB_SACKED_ACKED)
1124                 tp->sacked_out -= decr;
1125         if (TCP_SKB_CB(skb)->sacked & TCPCB_SACKED_RETRANS)
1126                 tp->retrans_out -= decr;
1127         if (TCP_SKB_CB(skb)->sacked & TCPCB_LOST)
1128                 tp->lost_out -= decr;
1129
1130         /* Reno case is special. Sigh... */
1131         if (tcp_is_reno(tp) && decr > 0)
1132                 tp->sacked_out -= min_t(u32, tp->sacked_out, decr);
1133
1134         tcp_adjust_fackets_out(sk, skb, decr);
1135
1136         if (tp->lost_skb_hint &&
1137             before(TCP_SKB_CB(skb)->seq, TCP_SKB_CB(tp->lost_skb_hint)->seq) &&
1138             (tcp_is_fack(tp) || (TCP_SKB_CB(skb)->sacked & TCPCB_SACKED_ACKED)))
1139                 tp->lost_cnt_hint -= decr;
1140
1141         tcp_verify_left_out(tp);
1142 }
1143
1144 static bool tcp_has_tx_tstamp(const struct sk_buff *skb)
1145 {
1146         return TCP_SKB_CB(skb)->txstamp_ack ||
1147                 (skb_shinfo(skb)->tx_flags & SKBTX_ANY_TSTAMP);
1148 }
1149
1150 static void tcp_fragment_tstamp(struct sk_buff *skb, struct sk_buff *skb2)
1151 {
1152         struct skb_shared_info *shinfo = skb_shinfo(skb);
1153
1154         if (unlikely(tcp_has_tx_tstamp(skb)) &&
1155             !before(shinfo->tskey, TCP_SKB_CB(skb2)->seq)) {
1156                 struct skb_shared_info *shinfo2 = skb_shinfo(skb2);
1157                 u8 tsflags = shinfo->tx_flags & SKBTX_ANY_TSTAMP;
1158
1159                 shinfo->tx_flags &= ~tsflags;
1160                 shinfo2->tx_flags |= tsflags;
1161                 swap(shinfo->tskey, shinfo2->tskey);
1162                 TCP_SKB_CB(skb2)->txstamp_ack = TCP_SKB_CB(skb)->txstamp_ack;
1163                 TCP_SKB_CB(skb)->txstamp_ack = 0;
1164         }
1165 }
1166
1167 static void tcp_skb_fragment_eor(struct sk_buff *skb, struct sk_buff *skb2)
1168 {
1169         TCP_SKB_CB(skb2)->eor = TCP_SKB_CB(skb)->eor;
1170         TCP_SKB_CB(skb)->eor = 0;
1171 }
1172
1173 /* Function to create two new TCP segments.  Shrinks the given segment
1174  * to the specified size and appends a new segment with the rest of the
1175  * packet to the list.  This won't be called frequently, I hope.
1176  * Remember, these are still headerless SKBs at this point.
1177  */
1178 int tcp_fragment(struct sock *sk, struct sk_buff *skb, u32 len,
1179                  unsigned int mss_now, gfp_t gfp)
1180 {
1181         struct tcp_sock *tp = tcp_sk(sk);
1182         struct sk_buff *buff;
1183         int nsize, old_factor;
1184         int nlen;
1185         u8 flags;
1186
1187         if (WARN_ON(len > skb->len))
1188                 return -EINVAL;
1189
1190         nsize = skb_headlen(skb) - len;
1191         if (nsize < 0)
1192                 nsize = 0;
1193
1194         if (skb_unclone(skb, gfp))
1195                 return -ENOMEM;
1196
1197         /* Get a new skb... force flag on. */
1198         buff = sk_stream_alloc_skb(sk, nsize, gfp, true);
1199         if (!buff)
1200                 return -ENOMEM; /* We'll just try again later. */
1201
1202         sk->sk_wmem_queued += buff->truesize;
1203         sk_mem_charge(sk, buff->truesize);
1204         nlen = skb->len - len - nsize;
1205         buff->truesize += nlen;
1206         skb->truesize -= nlen;
1207
1208         /* Correct the sequence numbers. */
1209         TCP_SKB_CB(buff)->seq = TCP_SKB_CB(skb)->seq + len;
1210         TCP_SKB_CB(buff)->end_seq = TCP_SKB_CB(skb)->end_seq;
1211         TCP_SKB_CB(skb)->end_seq = TCP_SKB_CB(buff)->seq;
1212
1213         /* PSH and FIN should only be set in the second packet. */
1214         flags = TCP_SKB_CB(skb)->tcp_flags;
1215         TCP_SKB_CB(skb)->tcp_flags = flags & ~(TCPHDR_FIN | TCPHDR_PSH);
1216         TCP_SKB_CB(buff)->tcp_flags = flags;
1217         TCP_SKB_CB(buff)->sacked = TCP_SKB_CB(skb)->sacked;
1218         tcp_skb_fragment_eor(skb, buff);
1219
1220         if (!skb_shinfo(skb)->nr_frags && skb->ip_summed != CHECKSUM_PARTIAL) {
1221                 /* Copy and checksum data tail into the new buffer. */
1222                 buff->csum = csum_partial_copy_nocheck(skb->data + len,
1223                                                        skb_put(buff, nsize),
1224                                                        nsize, 0);
1225
1226                 skb_trim(skb, len);
1227
1228                 skb->csum = csum_block_sub(skb->csum, buff->csum, len);
1229         } else {
1230                 skb->ip_summed = CHECKSUM_PARTIAL;
1231                 skb_split(skb, buff, len);
1232         }
1233
1234         buff->ip_summed = skb->ip_summed;
1235
1236         buff->tstamp = skb->tstamp;
1237         tcp_fragment_tstamp(skb, buff);
1238
1239         old_factor = tcp_skb_pcount(skb);
1240
1241         /* Fix up tso_factor for both original and new SKB.  */
1242         tcp_set_skb_tso_segs(skb, mss_now);
1243         tcp_set_skb_tso_segs(buff, mss_now);
1244
1245         /* Update delivered info for the new segment */
1246         TCP_SKB_CB(buff)->tx = TCP_SKB_CB(skb)->tx;
1247
1248         /* If this packet has been sent out already, we must
1249          * adjust the various packet counters.
1250          */
1251         if (!before(tp->snd_nxt, TCP_SKB_CB(buff)->end_seq)) {
1252                 int diff = old_factor - tcp_skb_pcount(skb) -
1253                         tcp_skb_pcount(buff);
1254
1255                 if (diff)
1256                         tcp_adjust_pcount(sk, skb, diff);
1257         }
1258
1259         /* Link BUFF into the send queue. */
1260         __skb_header_release(buff);
1261         tcp_insert_write_queue_after(skb, buff, sk);
1262
1263         return 0;
1264 }
1265
1266 /* This is similar to __pskb_pull_head() (it will go to core/skbuff.c
1267  * eventually). The difference is that pulled data not copied, but
1268  * immediately discarded.
1269  */
1270 static int __pskb_trim_head(struct sk_buff *skb, int len)
1271 {
1272         struct skb_shared_info *shinfo;
1273         int i, k, eat;
1274
1275         eat = min_t(int, len, skb_headlen(skb));
1276         if (eat) {
1277                 __skb_pull(skb, eat);
1278                 len -= eat;
1279                 if (!len)
1280                         return 0;
1281         }
1282         eat = len;
1283         k = 0;
1284         shinfo = skb_shinfo(skb);
1285         for (i = 0; i < shinfo->nr_frags; i++) {
1286                 int size = skb_frag_size(&shinfo->frags[i]);
1287
1288                 if (size <= eat) {
1289                         skb_frag_unref(skb, i);
1290                         eat -= size;
1291                 } else {
1292                         shinfo->frags[k] = shinfo->frags[i];
1293                         if (eat) {
1294                                 shinfo->frags[k].page_offset += eat;
1295                                 skb_frag_size_sub(&shinfo->frags[k], eat);
1296                                 eat = 0;
1297                         }
1298                         k++;
1299                 }
1300         }
1301         shinfo->nr_frags = k;
1302
1303         skb_reset_tail_pointer(skb);
1304         skb->data_len -= len;
1305         skb->len = skb->data_len;
1306         return len;
1307 }
1308
1309 /* Remove acked data from a packet in the transmit queue. */
1310 int tcp_trim_head(struct sock *sk, struct sk_buff *skb, u32 len)
1311 {
1312         u32 delta_truesize;
1313
1314         if (skb_unclone(skb, GFP_ATOMIC))
1315                 return -ENOMEM;
1316
1317         delta_truesize = __pskb_trim_head(skb, len);
1318
1319         TCP_SKB_CB(skb)->seq += len;
1320         skb->ip_summed = CHECKSUM_PARTIAL;
1321
1322         if (delta_truesize) {
1323                 skb->truesize      -= delta_truesize;
1324                 sk->sk_wmem_queued -= delta_truesize;
1325                 sk_mem_uncharge(sk, delta_truesize);
1326                 sock_set_flag(sk, SOCK_QUEUE_SHRUNK);
1327         }
1328
1329         /* Any change of skb->len requires recalculation of tso factor. */
1330         if (tcp_skb_pcount(skb) > 1)
1331                 tcp_set_skb_tso_segs(skb, tcp_skb_mss(skb));
1332
1333         return 0;
1334 }
1335
1336 /* Calculate MSS not accounting any TCP options.  */
1337 static inline int __tcp_mtu_to_mss(struct sock *sk, int pmtu)
1338 {
1339         const struct tcp_sock *tp = tcp_sk(sk);
1340         const struct inet_connection_sock *icsk = inet_csk(sk);
1341         int mss_now;
1342
1343         /* Calculate base mss without TCP options:
1344            It is MMS_S - sizeof(tcphdr) of rfc1122
1345          */
1346         mss_now = pmtu - icsk->icsk_af_ops->net_header_len - sizeof(struct tcphdr);
1347
1348         /* IPv6 adds a frag_hdr in case RTAX_FEATURE_ALLFRAG is set */
1349         if (icsk->icsk_af_ops->net_frag_header_len) {
1350                 const struct dst_entry *dst = __sk_dst_get(sk);
1351
1352                 if (dst && dst_allfrag(dst))
1353                         mss_now -= icsk->icsk_af_ops->net_frag_header_len;
1354         }
1355
1356         /* Clamp it (mss_clamp does not include tcp options) */
1357         if (mss_now > tp->rx_opt.mss_clamp)
1358                 mss_now = tp->rx_opt.mss_clamp;
1359
1360         /* Now subtract optional transport overhead */
1361         mss_now -= icsk->icsk_ext_hdr_len;
1362
1363         /* Then reserve room for full set of TCP options and 8 bytes of data */
1364         if (mss_now < 48)
1365                 mss_now = 48;
1366         return mss_now;
1367 }
1368
1369 /* Calculate MSS. Not accounting for SACKs here.  */
1370 int tcp_mtu_to_mss(struct sock *sk, int pmtu)
1371 {
1372         /* Subtract TCP options size, not including SACKs */
1373         return __tcp_mtu_to_mss(sk, pmtu) -
1374                (tcp_sk(sk)->tcp_header_len - sizeof(struct tcphdr));
1375 }
1376
1377 /* Inverse of above */
1378 int tcp_mss_to_mtu(struct sock *sk, int mss)
1379 {
1380         const struct tcp_sock *tp = tcp_sk(sk);
1381         const struct inet_connection_sock *icsk = inet_csk(sk);
1382         int mtu;
1383
1384         mtu = mss +
1385               tp->tcp_header_len +
1386               icsk->icsk_ext_hdr_len +
1387               icsk->icsk_af_ops->net_header_len;
1388
1389         /* IPv6 adds a frag_hdr in case RTAX_FEATURE_ALLFRAG is set */
1390         if (icsk->icsk_af_ops->net_frag_header_len) {
1391                 const struct dst_entry *dst = __sk_dst_get(sk);
1392
1393                 if (dst && dst_allfrag(dst))
1394                         mtu += icsk->icsk_af_ops->net_frag_header_len;
1395         }
1396         return mtu;
1397 }
1398 EXPORT_SYMBOL(tcp_mss_to_mtu);
1399
1400 /* MTU probing init per socket */
1401 void tcp_mtup_init(struct sock *sk)
1402 {
1403         struct tcp_sock *tp = tcp_sk(sk);
1404         struct inet_connection_sock *icsk = inet_csk(sk);
1405         struct net *net = sock_net(sk);
1406
1407         icsk->icsk_mtup.enabled = net->ipv4.sysctl_tcp_mtu_probing > 1;
1408         icsk->icsk_mtup.search_high = tp->rx_opt.mss_clamp + sizeof(struct tcphdr) +
1409                                icsk->icsk_af_ops->net_header_len;
1410         icsk->icsk_mtup.search_low = tcp_mss_to_mtu(sk, net->ipv4.sysctl_tcp_base_mss);
1411         icsk->icsk_mtup.probe_size = 0;
1412         if (icsk->icsk_mtup.enabled)
1413                 icsk->icsk_mtup.probe_timestamp = tcp_time_stamp;
1414 }
1415 EXPORT_SYMBOL(tcp_mtup_init);
1416
1417 /* This function synchronize snd mss to current pmtu/exthdr set.
1418
1419    tp->rx_opt.user_mss is mss set by user by TCP_MAXSEG. It does NOT counts
1420    for TCP options, but includes only bare TCP header.
1421
1422    tp->rx_opt.mss_clamp is mss negotiated at connection setup.
1423    It is minimum of user_mss and mss received with SYN.
1424    It also does not include TCP options.
1425
1426    inet_csk(sk)->icsk_pmtu_cookie is last pmtu, seen by this function.
1427
1428    tp->mss_cache is current effective sending mss, including
1429    all tcp options except for SACKs. It is evaluated,
1430    taking into account current pmtu, but never exceeds
1431    tp->rx_opt.mss_clamp.
1432
1433    NOTE1. rfc1122 clearly states that advertised MSS
1434    DOES NOT include either tcp or ip options.
1435
1436    NOTE2. inet_csk(sk)->icsk_pmtu_cookie and tp->mss_cache
1437    are READ ONLY outside this function.         --ANK (980731)
1438  */
1439 unsigned int tcp_sync_mss(struct sock *sk, u32 pmtu)
1440 {
1441         struct tcp_sock *tp = tcp_sk(sk);
1442         struct inet_connection_sock *icsk = inet_csk(sk);
1443         int mss_now;
1444
1445         if (icsk->icsk_mtup.search_high > pmtu)
1446                 icsk->icsk_mtup.search_high = pmtu;
1447
1448         mss_now = tcp_mtu_to_mss(sk, pmtu);
1449         mss_now = tcp_bound_to_half_wnd(tp, mss_now);
1450
1451         /* And store cached results */
1452         icsk->icsk_pmtu_cookie = pmtu;
1453         if (icsk->icsk_mtup.enabled)
1454                 mss_now = min(mss_now, tcp_mtu_to_mss(sk, icsk->icsk_mtup.search_low));
1455         tp->mss_cache = mss_now;
1456
1457         return mss_now;
1458 }
1459 EXPORT_SYMBOL(tcp_sync_mss);
1460
1461 /* Compute the current effective MSS, taking SACKs and IP options,
1462  * and even PMTU discovery events into account.
1463  */
1464 unsigned int tcp_current_mss(struct sock *sk)
1465 {
1466         const struct tcp_sock *tp = tcp_sk(sk);
1467         const struct dst_entry *dst = __sk_dst_get(sk);
1468         u32 mss_now;
1469         unsigned int header_len;
1470         struct tcp_out_options opts;
1471         struct tcp_md5sig_key *md5;
1472
1473         mss_now = tp->mss_cache;
1474
1475         if (dst) {
1476                 u32 mtu = dst_mtu(dst);
1477                 if (mtu != inet_csk(sk)->icsk_pmtu_cookie)
1478                         mss_now = tcp_sync_mss(sk, mtu);
1479         }
1480
1481         header_len = tcp_established_options(sk, NULL, &opts, &md5) +
1482                      sizeof(struct tcphdr);
1483         /* The mss_cache is sized based on tp->tcp_header_len, which assumes
1484          * some common options. If this is an odd packet (because we have SACK
1485          * blocks etc) then our calculated header_len will be different, and
1486          * we have to adjust mss_now correspondingly */
1487         if (header_len != tp->tcp_header_len) {
1488                 int delta = (int) header_len - tp->tcp_header_len;
1489                 mss_now -= delta;
1490         }
1491
1492         return mss_now;
1493 }
1494
1495 /* RFC2861, slow part. Adjust cwnd, after it was not full during one rto.
1496  * As additional protections, we do not touch cwnd in retransmission phases,
1497  * and if application hit its sndbuf limit recently.
1498  */
1499 static void tcp_cwnd_application_limited(struct sock *sk)
1500 {
1501         struct tcp_sock *tp = tcp_sk(sk);
1502
1503         if (inet_csk(sk)->icsk_ca_state == TCP_CA_Open &&
1504             sk->sk_socket && !test_bit(SOCK_NOSPACE, &sk->sk_socket->flags)) {
1505                 /* Limited by application or receiver window. */
1506                 u32 init_win = tcp_init_cwnd(tp, __sk_dst_get(sk));
1507                 u32 win_used = max(tp->snd_cwnd_used, init_win);
1508                 if (win_used < tp->snd_cwnd) {
1509                         tp->snd_ssthresh = tcp_current_ssthresh(sk);
1510                         tp->snd_cwnd = (tp->snd_cwnd + win_used) >> 1;
1511                 }
1512                 tp->snd_cwnd_used = 0;
1513         }
1514         tp->snd_cwnd_stamp = tcp_time_stamp;
1515 }
1516
1517 static void tcp_cwnd_validate(struct sock *sk, bool is_cwnd_limited)
1518 {
1519         struct tcp_sock *tp = tcp_sk(sk);
1520
1521         /* Track the maximum number of outstanding packets in each
1522          * window, and remember whether we were cwnd-limited then.
1523          */
1524         if (!before(tp->snd_una, tp->max_packets_seq) ||
1525             tp->packets_out > tp->max_packets_out) {
1526                 tp->max_packets_out = tp->packets_out;
1527                 tp->max_packets_seq = tp->snd_nxt;
1528                 tp->is_cwnd_limited = is_cwnd_limited;
1529         }
1530
1531         if (tcp_is_cwnd_limited(sk)) {
1532                 /* Network is feed fully. */
1533                 tp->snd_cwnd_used = 0;
1534                 tp->snd_cwnd_stamp = tcp_time_stamp;
1535         } else {
1536                 /* Network starves. */
1537                 if (tp->packets_out > tp->snd_cwnd_used)
1538                         tp->snd_cwnd_used = tp->packets_out;
1539
1540                 if (sysctl_tcp_slow_start_after_idle &&
1541                     (s32)(tcp_time_stamp - tp->snd_cwnd_stamp) >= inet_csk(sk)->icsk_rto)
1542                         tcp_cwnd_application_limited(sk);
1543
1544                 /* The following conditions together indicate the starvation
1545                  * is caused by insufficient sender buffer:
1546                  * 1) just sent some data (see tcp_write_xmit)
1547                  * 2) not cwnd limited (this else condition)
1548                  * 3) no more data to send (null tcp_send_head )
1549                  * 4) application is hitting buffer limit (SOCK_NOSPACE)
1550                  */
1551                 if (!tcp_send_head(sk) && sk->sk_socket &&
1552                     test_bit(SOCK_NOSPACE, &sk->sk_socket->flags) &&
1553                     (1 << sk->sk_state) & (TCPF_ESTABLISHED | TCPF_CLOSE_WAIT))
1554                         tcp_chrono_start(sk, TCP_CHRONO_SNDBUF_LIMITED);
1555         }
1556 }
1557
1558 /* Minshall's variant of the Nagle send check. */
1559 static bool tcp_minshall_check(const struct tcp_sock *tp)
1560 {
1561         return after(tp->snd_sml, tp->snd_una) &&
1562                 !after(tp->snd_sml, tp->snd_nxt);
1563 }
1564
1565 /* Update snd_sml if this skb is under mss
1566  * Note that a TSO packet might end with a sub-mss segment
1567  * The test is really :
1568  * if ((skb->len % mss) != 0)
1569  *        tp->snd_sml = TCP_SKB_CB(skb)->end_seq;
1570  * But we can avoid doing the divide again given we already have
1571  *  skb_pcount = skb->len / mss_now
1572  */
1573 static void tcp_minshall_update(struct tcp_sock *tp, unsigned int mss_now,
1574                                 const struct sk_buff *skb)
1575 {
1576         if (skb->len < tcp_skb_pcount(skb) * mss_now)
1577                 tp->snd_sml = TCP_SKB_CB(skb)->end_seq;
1578 }
1579
1580 /* Return false, if packet can be sent now without violation Nagle's rules:
1581  * 1. It is full sized. (provided by caller in %partial bool)
1582  * 2. Or it contains FIN. (already checked by caller)
1583  * 3. Or TCP_CORK is not set, and TCP_NODELAY is set.
1584  * 4. Or TCP_CORK is not set, and all sent packets are ACKed.
1585  *    With Minshall's modification: all sent small packets are ACKed.
1586  */
1587 static bool tcp_nagle_check(bool partial, const struct tcp_sock *tp,
1588                             int nonagle)
1589 {
1590         return partial &&
1591                 ((nonagle & TCP_NAGLE_CORK) ||
1592                  (!nonagle && tp->packets_out && tcp_minshall_check(tp)));
1593 }
1594
1595 /* Return how many segs we'd like on a TSO packet,
1596  * to send one TSO packet per ms
1597  */
1598 u32 tcp_tso_autosize(const struct sock *sk, unsigned int mss_now,
1599                      int min_tso_segs)
1600 {
1601         u32 bytes, segs;
1602
1603         bytes = min(sk->sk_pacing_rate >> 10,
1604                     sk->sk_gso_max_size - 1 - MAX_TCP_HEADER);
1605
1606         /* Goal is to send at least one packet per ms,
1607          * not one big TSO packet every 100 ms.
1608          * This preserves ACK clocking and is consistent
1609          * with tcp_tso_should_defer() heuristic.
1610          */
1611         segs = max_t(u32, bytes / mss_now, min_tso_segs);
1612
1613         return min_t(u32, segs, sk->sk_gso_max_segs);
1614 }
1615 EXPORT_SYMBOL(tcp_tso_autosize);
1616
1617 /* Return the number of segments we want in the skb we are transmitting.
1618  * See if congestion control module wants to decide; otherwise, autosize.
1619  */
1620 static u32 tcp_tso_segs(struct sock *sk, unsigned int mss_now)
1621 {
1622         const struct tcp_congestion_ops *ca_ops = inet_csk(sk)->icsk_ca_ops;
1623         u32 tso_segs = ca_ops->tso_segs_goal ? ca_ops->tso_segs_goal(sk) : 0;
1624
1625         return tso_segs ? :
1626                 tcp_tso_autosize(sk, mss_now, sysctl_tcp_min_tso_segs);
1627 }
1628
1629 /* Returns the portion of skb which can be sent right away */
1630 static unsigned int tcp_mss_split_point(const struct sock *sk,
1631                                         const struct sk_buff *skb,
1632                                         unsigned int mss_now,
1633                                         unsigned int max_segs,
1634                                         int nonagle)
1635 {
1636         const struct tcp_sock *tp = tcp_sk(sk);
1637         u32 partial, needed, window, max_len;
1638
1639         window = tcp_wnd_end(tp) - TCP_SKB_CB(skb)->seq;
1640         max_len = mss_now * max_segs;
1641
1642         if (likely(max_len <= window && skb != tcp_write_queue_tail(sk)))
1643                 return max_len;
1644
1645         needed = min(skb->len, window);
1646
1647         if (max_len <= needed)
1648                 return max_len;
1649
1650         partial = needed % mss_now;
1651         /* If last segment is not a full MSS, check if Nagle rules allow us
1652          * to include this last segment in this skb.
1653          * Otherwise, we'll split the skb at last MSS boundary
1654          */
1655         if (tcp_nagle_check(partial != 0, tp, nonagle))
1656                 return needed - partial;
1657
1658         return needed;
1659 }
1660
1661 /* Can at least one segment of SKB be sent right now, according to the
1662  * congestion window rules?  If so, return how many segments are allowed.
1663  */
1664 static inline unsigned int tcp_cwnd_test(const struct tcp_sock *tp,
1665                                          const struct sk_buff *skb)
1666 {
1667         u32 in_flight, cwnd, halfcwnd;
1668
1669         /* Don't be strict about the congestion window for the final FIN.  */
1670         if ((TCP_SKB_CB(skb)->tcp_flags & TCPHDR_FIN) &&
1671             tcp_skb_pcount(skb) == 1)
1672                 return 1;
1673
1674         in_flight = tcp_packets_in_flight(tp);
1675         cwnd = tp->snd_cwnd;
1676         if (in_flight >= cwnd)
1677                 return 0;
1678
1679         /* For better scheduling, ensure we have at least
1680          * 2 GSO packets in flight.
1681          */
1682         halfcwnd = max(cwnd >> 1, 1U);
1683         return min(halfcwnd, cwnd - in_flight);
1684 }
1685
1686 /* Initialize TSO state of a skb.
1687  * This must be invoked the first time we consider transmitting
1688  * SKB onto the wire.
1689  */
1690 static int tcp_init_tso_segs(struct sk_buff *skb, unsigned int mss_now)
1691 {
1692         int tso_segs = tcp_skb_pcount(skb);
1693
1694         if (!tso_segs || (tso_segs > 1 && tcp_skb_mss(skb) != mss_now)) {
1695                 tcp_set_skb_tso_segs(skb, mss_now);
1696                 tso_segs = tcp_skb_pcount(skb);
1697         }
1698         return tso_segs;
1699 }
1700
1701
1702 /* Return true if the Nagle test allows this packet to be
1703  * sent now.
1704  */
1705 static inline bool tcp_nagle_test(const struct tcp_sock *tp, const struct sk_buff *skb,
1706                                   unsigned int cur_mss, int nonagle)
1707 {
1708         /* Nagle rule does not apply to frames, which sit in the middle of the
1709          * write_queue (they have no chances to get new data).
1710          *
1711          * This is implemented in the callers, where they modify the 'nonagle'
1712          * argument based upon the location of SKB in the send queue.
1713          */
1714         if (nonagle & TCP_NAGLE_PUSH)
1715                 return true;
1716
1717         /* Don't use the nagle rule for urgent data (or for the final FIN). */
1718         if (tcp_urg_mode(tp) || (TCP_SKB_CB(skb)->tcp_flags & TCPHDR_FIN))
1719                 return true;
1720
1721         if (!tcp_nagle_check(skb->len < cur_mss, tp, nonagle))
1722                 return true;
1723
1724         return false;
1725 }
1726
1727 /* Does at least the first segment of SKB fit into the send window? */
1728 static bool tcp_snd_wnd_test(const struct tcp_sock *tp,
1729                              const struct sk_buff *skb,
1730                              unsigned int cur_mss)
1731 {
1732         u32 end_seq = TCP_SKB_CB(skb)->end_seq;
1733
1734         if (skb->len > cur_mss)
1735                 end_seq = TCP_SKB_CB(skb)->seq + cur_mss;
1736
1737         return !after(end_seq, tcp_wnd_end(tp));
1738 }
1739
1740 /* This checks if the data bearing packet SKB (usually tcp_send_head(sk))
1741  * should be put on the wire right now.  If so, it returns the number of
1742  * packets allowed by the congestion window.
1743  */
1744 static unsigned int tcp_snd_test(const struct sock *sk, struct sk_buff *skb,
1745                                  unsigned int cur_mss, int nonagle)
1746 {
1747         const struct tcp_sock *tp = tcp_sk(sk);
1748         unsigned int cwnd_quota;
1749
1750         tcp_init_tso_segs(skb, cur_mss);
1751
1752         if (!tcp_nagle_test(tp, skb, cur_mss, nonagle))
1753                 return 0;
1754
1755         cwnd_quota = tcp_cwnd_test(tp, skb);
1756         if (cwnd_quota && !tcp_snd_wnd_test(tp, skb, cur_mss))
1757                 cwnd_quota = 0;
1758
1759         return cwnd_quota;
1760 }
1761
1762 /* Test if sending is allowed right now. */
1763 bool tcp_may_send_now(struct sock *sk)
1764 {
1765         const struct tcp_sock *tp = tcp_sk(sk);
1766         struct sk_buff *skb = tcp_send_head(sk);
1767
1768         return skb &&
1769                 tcp_snd_test(sk, skb, tcp_current_mss(sk),
1770                              (tcp_skb_is_last(sk, skb) ?
1771                               tp->nonagle : TCP_NAGLE_PUSH));
1772 }
1773
1774 /* Trim TSO SKB to LEN bytes, put the remaining data into a new packet
1775  * which is put after SKB on the list.  It is very much like
1776  * tcp_fragment() except that it may make several kinds of assumptions
1777  * in order to speed up the splitting operation.  In particular, we
1778  * know that all the data is in scatter-gather pages, and that the
1779  * packet has never been sent out before (and thus is not cloned).
1780  */
1781 static int tso_fragment(struct sock *sk, struct sk_buff *skb, unsigned int len,
1782                         unsigned int mss_now, gfp_t gfp)
1783 {
1784         struct sk_buff *buff;
1785         int nlen = skb->len - len;
1786         u8 flags;
1787
1788         /* All of a TSO frame must be composed of paged data.  */
1789         if (skb->len != skb->data_len)
1790                 return tcp_fragment(sk, skb, len, mss_now, gfp);
1791
1792         buff = sk_stream_alloc_skb(sk, 0, gfp, true);
1793         if (unlikely(!buff))
1794                 return -ENOMEM;
1795
1796         sk->sk_wmem_queued += buff->truesize;
1797         sk_mem_charge(sk, buff->truesize);
1798         buff->truesize += nlen;
1799         skb->truesize -= nlen;
1800
1801         /* Correct the sequence numbers. */
1802         TCP_SKB_CB(buff)->seq = TCP_SKB_CB(skb)->seq + len;
1803         TCP_SKB_CB(buff)->end_seq = TCP_SKB_CB(skb)->end_seq;
1804         TCP_SKB_CB(skb)->end_seq = TCP_SKB_CB(buff)->seq;
1805
1806         /* PSH and FIN should only be set in the second packet. */
1807         flags = TCP_SKB_CB(skb)->tcp_flags;
1808         TCP_SKB_CB(skb)->tcp_flags = flags & ~(TCPHDR_FIN | TCPHDR_PSH);
1809         TCP_SKB_CB(buff)->tcp_flags = flags;
1810
1811         /* This packet was never sent out yet, so no SACK bits. */
1812         TCP_SKB_CB(buff)->sacked = 0;
1813
1814         tcp_skb_fragment_eor(skb, buff);
1815
1816         buff->ip_summed = skb->ip_summed = CHECKSUM_PARTIAL;
1817         skb_split(skb, buff, len);
1818         tcp_fragment_tstamp(skb, buff);
1819
1820         /* Fix up tso_factor for both original and new SKB.  */
1821         tcp_set_skb_tso_segs(skb, mss_now);
1822         tcp_set_skb_tso_segs(buff, mss_now);
1823
1824         /* Link BUFF into the send queue. */
1825         __skb_header_release(buff);
1826         tcp_insert_write_queue_after(skb, buff, sk);
1827
1828         return 0;
1829 }
1830
1831 /* Try to defer sending, if possible, in order to minimize the amount
1832  * of TSO splitting we do.  View it as a kind of TSO Nagle test.
1833  *
1834  * This algorithm is from John Heffner.
1835  */
1836 static bool tcp_tso_should_defer(struct sock *sk, struct sk_buff *skb,
1837                                  bool *is_cwnd_limited, u32 max_segs)
1838 {
1839         const struct inet_connection_sock *icsk = inet_csk(sk);
1840         u32 age, send_win, cong_win, limit, in_flight;
1841         struct tcp_sock *tp = tcp_sk(sk);
1842         struct skb_mstamp now;
1843         struct sk_buff *head;
1844         int win_divisor;
1845
1846         if (TCP_SKB_CB(skb)->tcp_flags & TCPHDR_FIN)
1847                 goto send_now;
1848
1849         if (icsk->icsk_ca_state >= TCP_CA_Recovery)
1850                 goto send_now;
1851
1852         /* Avoid bursty behavior by allowing defer
1853          * only if the last write was recent.
1854          */
1855         if ((s32)(tcp_time_stamp - tp->lsndtime) > 0)
1856                 goto send_now;
1857
1858         in_flight = tcp_packets_in_flight(tp);
1859
1860         BUG_ON(tcp_skb_pcount(skb) <= 1 || (tp->snd_cwnd <= in_flight));
1861
1862         send_win = tcp_wnd_end(tp) - TCP_SKB_CB(skb)->seq;
1863
1864         /* From in_flight test above, we know that cwnd > in_flight.  */
1865         cong_win = (tp->snd_cwnd - in_flight) * tp->mss_cache;
1866
1867         limit = min(send_win, cong_win);
1868
1869         /* If a full-sized TSO skb can be sent, do it. */
1870         if (limit >= max_segs * tp->mss_cache)
1871                 goto send_now;
1872
1873         /* Middle in queue won't get any more data, full sendable already? */
1874         if ((skb != tcp_write_queue_tail(sk)) && (limit >= skb->len))
1875                 goto send_now;
1876
1877         win_divisor = ACCESS_ONCE(sysctl_tcp_tso_win_divisor);
1878         if (win_divisor) {
1879                 u32 chunk = min(tp->snd_wnd, tp->snd_cwnd * tp->mss_cache);
1880
1881                 /* If at least some fraction of a window is available,
1882                  * just use it.
1883                  */
1884                 chunk /= win_divisor;
1885                 if (limit >= chunk)
1886                         goto send_now;
1887         } else {
1888                 /* Different approach, try not to defer past a single
1889                  * ACK.  Receiver should ACK every other full sized
1890                  * frame, so if we have space for more than 3 frames
1891                  * then send now.
1892                  */
1893                 if (limit > tcp_max_tso_deferred_mss(tp) * tp->mss_cache)
1894                         goto send_now;
1895         }
1896
1897         head = tcp_write_queue_head(sk);
1898         skb_mstamp_get(&now);
1899         age = skb_mstamp_us_delta(&now, &head->skb_mstamp);
1900         /* If next ACK is likely to come too late (half srtt), do not defer */
1901         if (age < (tp->srtt_us >> 4))
1902                 goto send_now;
1903
1904         /* Ok, it looks like it is advisable to defer. */
1905
1906         if (cong_win < send_win && cong_win <= skb->len)
1907                 *is_cwnd_limited = true;
1908
1909         return true;
1910
1911 send_now:
1912         return false;
1913 }
1914
1915 static inline void tcp_mtu_check_reprobe(struct sock *sk)
1916 {
1917         struct inet_connection_sock *icsk = inet_csk(sk);
1918         struct tcp_sock *tp = tcp_sk(sk);
1919         struct net *net = sock_net(sk);
1920         u32 interval;
1921         s32 delta;
1922
1923         interval = net->ipv4.sysctl_tcp_probe_interval;
1924         delta = tcp_time_stamp - icsk->icsk_mtup.probe_timestamp;
1925         if (unlikely(delta >= interval * HZ)) {
1926                 int mss = tcp_current_mss(sk);
1927
1928                 /* Update current search range */
1929                 icsk->icsk_mtup.probe_size = 0;
1930                 icsk->icsk_mtup.search_high = tp->rx_opt.mss_clamp +
1931                         sizeof(struct tcphdr) +
1932                         icsk->icsk_af_ops->net_header_len;
1933                 icsk->icsk_mtup.search_low = tcp_mss_to_mtu(sk, mss);
1934
1935                 /* Update probe time stamp */
1936                 icsk->icsk_mtup.probe_timestamp = tcp_time_stamp;
1937         }
1938 }
1939
1940 /* Create a new MTU probe if we are ready.
1941  * MTU probe is regularly attempting to increase the path MTU by
1942  * deliberately sending larger packets.  This discovers routing
1943  * changes resulting in larger path MTUs.
1944  *
1945  * Returns 0 if we should wait to probe (no cwnd available),
1946  *         1 if a probe was sent,
1947  *         -1 otherwise
1948  */
1949 static int tcp_mtu_probe(struct sock *sk)
1950 {
1951         struct inet_connection_sock *icsk = inet_csk(sk);
1952         struct tcp_sock *tp = tcp_sk(sk);
1953         struct sk_buff *skb, *nskb, *next;
1954         struct net *net = sock_net(sk);
1955         int probe_size;
1956         int size_needed;
1957         int copy, len;
1958         int mss_now;
1959         int interval;
1960
1961         /* Not currently probing/verifying,
1962          * not in recovery,
1963          * have enough cwnd, and
1964          * not SACKing (the variable headers throw things off)
1965          */
1966         if (likely(!icsk->icsk_mtup.enabled ||
1967                    icsk->icsk_mtup.probe_size ||
1968                    inet_csk(sk)->icsk_ca_state != TCP_CA_Open ||
1969                    tp->snd_cwnd < 11 ||
1970                    tp->rx_opt.num_sacks || tp->rx_opt.dsack))
1971                 return -1;
1972
1973         /* Use binary search for probe_size between tcp_mss_base,
1974          * and current mss_clamp. if (search_high - search_low)
1975          * smaller than a threshold, backoff from probing.
1976          */
1977         mss_now = tcp_current_mss(sk);
1978         probe_size = tcp_mtu_to_mss(sk, (icsk->icsk_mtup.search_high +
1979                                     icsk->icsk_mtup.search_low) >> 1);
1980         size_needed = probe_size + (tp->reordering + 1) * tp->mss_cache;
1981         interval = icsk->icsk_mtup.search_high - icsk->icsk_mtup.search_low;
1982         /* When misfortune happens, we are reprobing actively,
1983          * and then reprobe timer has expired. We stick with current
1984          * probing process by not resetting search range to its orignal.
1985          */
1986         if (probe_size > tcp_mtu_to_mss(sk, icsk->icsk_mtup.search_high) ||
1987                 interval < net->ipv4.sysctl_tcp_probe_threshold) {
1988                 /* Check whether enough time has elaplased for
1989                  * another round of probing.
1990                  */
1991                 tcp_mtu_check_reprobe(sk);
1992                 return -1;
1993         }
1994
1995         /* Have enough data in the send queue to probe? */
1996         if (tp->write_seq - tp->snd_nxt < size_needed)
1997                 return -1;
1998
1999         if (tp->snd_wnd < size_needed)
2000                 return -1;
2001         if (after(tp->snd_nxt + size_needed, tcp_wnd_end(tp)))
2002                 return 0;
2003
2004         /* Do we need to wait to drain cwnd? With none in flight, don't stall */
2005         if (tcp_packets_in_flight(tp) + 2 > tp->snd_cwnd) {
2006                 if (!tcp_packets_in_flight(tp))
2007                         return -1;
2008                 else
2009                         return 0;
2010         }
2011
2012         /* We're allowed to probe.  Build it now. */
2013         nskb = sk_stream_alloc_skb(sk, probe_size, GFP_ATOMIC, false);
2014         if (!nskb)
2015                 return -1;
2016         sk->sk_wmem_queued += nskb->truesize;
2017         sk_mem_charge(sk, nskb->truesize);
2018
2019         skb = tcp_send_head(sk);
2020
2021         TCP_SKB_CB(nskb)->seq = TCP_SKB_CB(skb)->seq;
2022         TCP_SKB_CB(nskb)->end_seq = TCP_SKB_CB(skb)->seq + probe_size;
2023         TCP_SKB_CB(nskb)->tcp_flags = TCPHDR_ACK;
2024         TCP_SKB_CB(nskb)->sacked = 0;
2025         nskb->csum = 0;
2026         nskb->ip_summed = skb->ip_summed;
2027
2028         tcp_insert_write_queue_before(nskb, skb, sk);
2029
2030         len = 0;
2031         tcp_for_write_queue_from_safe(skb, next, sk) {
2032                 copy = min_t(int, skb->len, probe_size - len);
2033                 if (nskb->ip_summed) {
2034                         skb_copy_bits(skb, 0, skb_put(nskb, copy), copy);
2035                 } else {
2036                         __wsum csum = skb_copy_and_csum_bits(skb, 0,
2037                                                              skb_put(nskb, copy),
2038                                                              copy, 0);
2039                         nskb->csum = csum_block_add(nskb->csum, csum, len);
2040                 }
2041
2042                 if (skb->len <= copy) {
2043                         /* We've eaten all the data from this skb.
2044                          * Throw it away. */
2045                         TCP_SKB_CB(nskb)->tcp_flags |= TCP_SKB_CB(skb)->tcp_flags;
2046                         tcp_unlink_write_queue(skb, sk);
2047                         sk_wmem_free_skb(sk, skb);
2048                 } else {
2049                         TCP_SKB_CB(nskb)->tcp_flags |= TCP_SKB_CB(skb)->tcp_flags &
2050                                                    ~(TCPHDR_FIN|TCPHDR_PSH);
2051                         if (!skb_shinfo(skb)->nr_frags) {
2052                                 skb_pull(skb, copy);
2053                                 if (skb->ip_summed != CHECKSUM_PARTIAL)
2054                                         skb->csum = csum_partial(skb->data,
2055                                                                  skb->len, 0);
2056                         } else {
2057                                 __pskb_trim_head(skb, copy);
2058                                 tcp_set_skb_tso_segs(skb, mss_now);
2059                         }
2060                         TCP_SKB_CB(skb)->seq += copy;
2061                 }
2062
2063                 len += copy;
2064
2065                 if (len >= probe_size)
2066                         break;
2067         }
2068         tcp_init_tso_segs(nskb, nskb->len);
2069
2070         /* We're ready to send.  If this fails, the probe will
2071          * be resegmented into mss-sized pieces by tcp_write_xmit().
2072          */
2073         if (!tcp_transmit_skb(sk, nskb, 1, GFP_ATOMIC)) {
2074                 /* Decrement cwnd here because we are sending
2075                  * effectively two packets. */
2076                 tp->snd_cwnd--;
2077                 tcp_event_new_data_sent(sk, nskb);
2078
2079                 icsk->icsk_mtup.probe_size = tcp_mss_to_mtu(sk, nskb->len);
2080                 tp->mtu_probe.probe_seq_start = TCP_SKB_CB(nskb)->seq;
2081                 tp->mtu_probe.probe_seq_end = TCP_SKB_CB(nskb)->end_seq;
2082
2083                 return 1;
2084         }
2085
2086         return -1;
2087 }
2088
2089 /* TCP Small Queues :
2090  * Control number of packets in qdisc/devices to two packets / or ~1 ms.
2091  * (These limits are doubled for retransmits)
2092  * This allows for :
2093  *  - better RTT estimation and ACK scheduling
2094  *  - faster recovery
2095  *  - high rates
2096  * Alas, some drivers / subsystems require a fair amount
2097  * of queued bytes to ensure line rate.
2098  * One example is wifi aggregation (802.11 AMPDU)
2099  */
2100 static bool tcp_small_queue_check(struct sock *sk, const struct sk_buff *skb,
2101                                   unsigned int factor)
2102 {
2103         unsigned int limit;
2104
2105         limit = max(2 * skb->truesize, sk->sk_pacing_rate >> 10);
2106         limit = min_t(u32, limit, sysctl_tcp_limit_output_bytes);
2107         limit <<= factor;
2108
2109         if (atomic_read(&sk->sk_wmem_alloc) > limit) {
2110                 /* Always send the 1st or 2nd skb in write queue.
2111                  * No need to wait for TX completion to call us back,
2112                  * after softirq/tasklet schedule.
2113                  * This helps when TX completions are delayed too much.
2114                  */
2115                 if (skb == sk->sk_write_queue.next ||
2116                     skb->prev == sk->sk_write_queue.next)
2117                         return false;
2118
2119                 set_bit(TSQ_THROTTLED, &sk->sk_tsq_flags);
2120                 /* It is possible TX completion already happened
2121                  * before we set TSQ_THROTTLED, so we must
2122                  * test again the condition.
2123                  */
2124                 smp_mb__after_atomic();
2125                 if (atomic_read(&sk->sk_wmem_alloc) > limit)
2126                         return true;
2127         }
2128         return false;
2129 }
2130
2131 static void tcp_chrono_set(struct tcp_sock *tp, const enum tcp_chrono new)
2132 {
2133         const u32 now = tcp_time_stamp;
2134
2135         if (tp->chrono_type > TCP_CHRONO_UNSPEC)
2136                 tp->chrono_stat[tp->chrono_type - 1] += now - tp->chrono_start;
2137         tp->chrono_start = now;
2138         tp->chrono_type = new;
2139 }
2140
2141 void tcp_chrono_start(struct sock *sk, const enum tcp_chrono type)
2142 {
2143         struct tcp_sock *tp = tcp_sk(sk);
2144
2145         /* If there are multiple conditions worthy of tracking in a
2146          * chronograph then the highest priority enum takes precedence
2147          * over the other conditions. So that if something "more interesting"
2148          * starts happening, stop the previous chrono and start a new one.
2149          */
2150         if (type > tp->chrono_type)
2151                 tcp_chrono_set(tp, type);
2152 }
2153
2154 void tcp_chrono_stop(struct sock *sk, const enum tcp_chrono type)
2155 {
2156         struct tcp_sock *tp = tcp_sk(sk);
2157
2158
2159         /* There are multiple conditions worthy of tracking in a
2160          * chronograph, so that the highest priority enum takes
2161          * precedence over the other conditions (see tcp_chrono_start).
2162          * If a condition stops, we only stop chrono tracking if
2163          * it's the "most interesting" or current chrono we are
2164          * tracking and starts busy chrono if we have pending data.
2165          */
2166         if (tcp_write_queue_empty(sk))
2167                 tcp_chrono_set(tp, TCP_CHRONO_UNSPEC);
2168         else if (type == tp->chrono_type)
2169                 tcp_chrono_set(tp, TCP_CHRONO_BUSY);
2170 }
2171
2172 /* This routine writes packets to the network.  It advances the
2173  * send_head.  This happens as incoming acks open up the remote
2174  * window for us.
2175  *
2176  * LARGESEND note: !tcp_urg_mode is overkill, only frames between
2177  * snd_up-64k-mss .. snd_up cannot be large. However, taking into
2178  * account rare use of URG, this is not a big flaw.
2179  *
2180  * Send at most one packet when push_one > 0. Temporarily ignore
2181  * cwnd limit to force at most one packet out when push_one == 2.
2182
2183  * Returns true, if no segments are in flight and we have queued segments,
2184  * but cannot send anything now because of SWS or another problem.
2185  */
2186 static bool tcp_write_xmit(struct sock *sk, unsigned int mss_now, int nonagle,
2187                            int push_one, gfp_t gfp)
2188 {
2189         struct tcp_sock *tp = tcp_sk(sk);
2190         struct sk_buff *skb;
2191         unsigned int tso_segs, sent_pkts;
2192         int cwnd_quota;
2193         int result;
2194         bool is_cwnd_limited = false, is_rwnd_limited = false;
2195         u32 max_segs;
2196
2197         sent_pkts = 0;
2198
2199         if (!push_one) {
2200                 /* Do MTU probing. */
2201                 result = tcp_mtu_probe(sk);
2202                 if (!result) {
2203                         return false;
2204                 } else if (result > 0) {
2205                         sent_pkts = 1;
2206                 }
2207         }
2208
2209         max_segs = tcp_tso_segs(sk, mss_now);
2210         while ((skb = tcp_send_head(sk))) {
2211                 unsigned int limit;
2212
2213                 tso_segs = tcp_init_tso_segs(skb, mss_now);
2214                 BUG_ON(!tso_segs);
2215
2216                 if (unlikely(tp->repair) && tp->repair_queue == TCP_SEND_QUEUE) {
2217                         /* "skb_mstamp" is used as a start point for the retransmit timer */
2218                         skb_mstamp_get(&skb->skb_mstamp);
2219                         goto repair; /* Skip network transmission */
2220                 }
2221
2222                 cwnd_quota = tcp_cwnd_test(tp, skb);
2223                 if (!cwnd_quota) {
2224                         if (push_one == 2)
2225                                 /* Force out a loss probe pkt. */
2226                                 cwnd_quota = 1;
2227                         else
2228                                 break;
2229                 }
2230
2231                 if (unlikely(!tcp_snd_wnd_test(tp, skb, mss_now))) {
2232                         is_rwnd_limited = true;
2233                         break;
2234                 }
2235
2236                 if (tso_segs == 1) {
2237                         if (unlikely(!tcp_nagle_test(tp, skb, mss_now,
2238                                                      (tcp_skb_is_last(sk, skb) ?
2239                                                       nonagle : TCP_NAGLE_PUSH))))
2240                                 break;
2241                 } else {
2242                         if (!push_one &&
2243                             tcp_tso_should_defer(sk, skb, &is_cwnd_limited,
2244                                                  max_segs))
2245                                 break;
2246                 }
2247
2248                 limit = mss_now;
2249                 if (tso_segs > 1 && !tcp_urg_mode(tp))
2250                         limit = tcp_mss_split_point(sk, skb, mss_now,
2251                                                     min_t(unsigned int,
2252                                                           cwnd_quota,
2253                                                           max_segs),
2254                                                     nonagle);
2255
2256                 if (skb->len > limit &&
2257                     unlikely(tso_fragment(sk, skb, limit, mss_now, gfp)))
2258                         break;
2259
2260                 if (test_bit(TCP_TSQ_DEFERRED, &sk->sk_tsq_flags))
2261                         clear_bit(TCP_TSQ_DEFERRED, &sk->sk_tsq_flags);
2262                 if (tcp_small_queue_check(sk, skb, 0))
2263                         break;
2264
2265                 if (unlikely(tcp_transmit_skb(sk, skb, 1, gfp)))
2266                         break;
2267
2268 repair:
2269                 /* Advance the send_head.  This one is sent out.
2270                  * This call will increment packets_out.
2271                  */
2272                 tcp_event_new_data_sent(sk, skb);
2273
2274                 tcp_minshall_update(tp, mss_now, skb);
2275                 sent_pkts += tcp_skb_pcount(skb);
2276
2277                 if (push_one)
2278                         break;
2279         }
2280
2281         if (is_rwnd_limited)
2282                 tcp_chrono_start(sk, TCP_CHRONO_RWND_LIMITED);
2283         else
2284                 tcp_chrono_stop(sk, TCP_CHRONO_RWND_LIMITED);
2285
2286         if (likely(sent_pkts)) {
2287                 if (tcp_in_cwnd_reduction(sk))
2288                         tp->prr_out += sent_pkts;
2289
2290                 /* Send one loss probe per tail loss episode. */
2291                 if (push_one != 2)
2292                         tcp_schedule_loss_probe(sk);
2293                 is_cwnd_limited |= (tcp_packets_in_flight(tp) >= tp->snd_cwnd);
2294                 tcp_cwnd_validate(sk, is_cwnd_limited);
2295                 return false;
2296         }
2297         return !tp->packets_out && tcp_send_head(sk);
2298 }
2299
2300 bool tcp_schedule_loss_probe(struct sock *sk)
2301 {
2302         struct inet_connection_sock *icsk = inet_csk(sk);
2303         struct tcp_sock *tp = tcp_sk(sk);
2304         u32 timeout, tlp_time_stamp, rto_time_stamp;
2305         u32 rtt = usecs_to_jiffies(tp->srtt_us >> 3);
2306
2307         /* No consecutive loss probes. */
2308         if (WARN_ON(icsk->icsk_pending == ICSK_TIME_LOSS_PROBE)) {
2309                 tcp_rearm_rto(sk);
2310                 return false;
2311         }
2312         /* Don't do any loss probe on a Fast Open connection before 3WHS
2313          * finishes.
2314          */
2315         if (tp->fastopen_rsk)
2316                 return false;
2317
2318         /* TLP is only scheduled when next timer event is RTO. */
2319         if (icsk->icsk_pending != ICSK_TIME_RETRANS)
2320                 return false;
2321
2322         /* Schedule a loss probe in 2*RTT for SACK capable connections
2323          * in Open state, that are either limited by cwnd or application.
2324          */
2325         if ((sysctl_tcp_early_retrans != 3 && sysctl_tcp_early_retrans != 4) ||
2326             !tp->packets_out || !tcp_is_sack(tp) ||
2327             icsk->icsk_ca_state != TCP_CA_Open)
2328                 return false;
2329
2330         if ((tp->snd_cwnd > tcp_packets_in_flight(tp)) &&
2331              tcp_send_head(sk))
2332                 return false;
2333
2334         /* Probe timeout is at least 1.5*rtt + TCP_DELACK_MAX to account
2335          * for delayed ack when there's one outstanding packet. If no RTT
2336          * sample is available then probe after TCP_TIMEOUT_INIT.
2337          */
2338         timeout = rtt << 1 ? : TCP_TIMEOUT_INIT;
2339         if (tp->packets_out == 1)
2340                 timeout = max_t(u32, timeout,
2341                                 (rtt + (rtt >> 1) + TCP_DELACK_MAX));
2342         timeout = max_t(u32, timeout, msecs_to_jiffies(10));
2343
2344         /* If RTO is shorter, just schedule TLP in its place. */
2345         tlp_time_stamp = tcp_time_stamp + timeout;
2346         rto_time_stamp = (u32)inet_csk(sk)->icsk_timeout;
2347         if ((s32)(tlp_time_stamp - rto_time_stamp) > 0) {
2348                 s32 delta = rto_time_stamp - tcp_time_stamp;
2349                 if (delta > 0)
2350                         timeout = delta;
2351         }
2352
2353         inet_csk_reset_xmit_timer(sk, ICSK_TIME_LOSS_PROBE, timeout,
2354                                   TCP_RTO_MAX);
2355         return true;
2356 }
2357
2358 /* Thanks to skb fast clones, we can detect if a prior transmit of
2359  * a packet is still in a qdisc or driver queue.
2360  * In this case, there is very little point doing a retransmit !
2361  */
2362 static bool skb_still_in_host_queue(const struct sock *sk,
2363                                     const struct sk_buff *skb)
2364 {
2365         if (unlikely(skb_fclone_busy(sk, skb))) {
2366                 NET_INC_STATS(sock_net(sk),
2367                               LINUX_MIB_TCPSPURIOUS_RTX_HOSTQUEUES);
2368                 return true;
2369         }
2370         return false;
2371 }
2372
2373 /* When probe timeout (PTO) fires, try send a new segment if possible, else
2374  * retransmit the last segment.
2375  */
2376 void tcp_send_loss_probe(struct sock *sk)
2377 {
2378         struct tcp_sock *tp = tcp_sk(sk);
2379         struct sk_buff *skb;
2380         int pcount;
2381         int mss = tcp_current_mss(sk);
2382
2383         skb = tcp_send_head(sk);
2384         if (skb) {
2385                 if (tcp_snd_wnd_test(tp, skb, mss)) {
2386                         pcount = tp->packets_out;
2387                         tcp_write_xmit(sk, mss, TCP_NAGLE_OFF, 2, GFP_ATOMIC);
2388                         if (tp->packets_out > pcount)
2389                                 goto probe_sent;
2390                         goto rearm_timer;
2391                 }
2392                 skb = tcp_write_queue_prev(sk, skb);
2393         } else {
2394                 skb = tcp_write_queue_tail(sk);
2395         }
2396
2397         /* At most one outstanding TLP retransmission. */
2398         if (tp->tlp_high_seq)
2399                 goto rearm_timer;
2400
2401         /* Retransmit last segment. */
2402         if (WARN_ON(!skb))
2403                 goto rearm_timer;
2404
2405         if (skb_still_in_host_queue(sk, skb))
2406                 goto rearm_timer;
2407
2408         pcount = tcp_skb_pcount(skb);
2409         if (WARN_ON(!pcount))
2410                 goto rearm_timer;
2411
2412         if ((pcount > 1) && (skb->len > (pcount - 1) * mss)) {
2413                 if (unlikely(tcp_fragment(sk, skb, (pcount - 1) * mss, mss,
2414                                           GFP_ATOMIC)))
2415                         goto rearm_timer;
2416                 skb = tcp_write_queue_next(sk, skb);
2417         }
2418
2419         if (WARN_ON(!skb || !tcp_skb_pcount(skb)))
2420                 goto rearm_timer;
2421
2422         if (__tcp_retransmit_skb(sk, skb, 1))
2423                 goto rearm_timer;
2424
2425         /* Record snd_nxt for loss detection. */
2426         tp->tlp_high_seq = tp->snd_nxt;
2427
2428 probe_sent:
2429         NET_INC_STATS(sock_net(sk), LINUX_MIB_TCPLOSSPROBES);
2430         /* Reset s.t. tcp_rearm_rto will restart timer from now */
2431         inet_csk(sk)->icsk_pending = 0;
2432 rearm_timer:
2433         tcp_rearm_rto(sk);
2434 }
2435
2436 /* Push out any pending frames which were held back due to
2437  * TCP_CORK or attempt at coalescing tiny packets.
2438  * The socket must be locked by the caller.
2439  */
2440 void __tcp_push_pending_frames(struct sock *sk, unsigned int cur_mss,
2441                                int nonagle)
2442 {
2443         /* If we are closed, the bytes will have to remain here.
2444          * In time closedown will finish, we empty the write queue and
2445          * all will be happy.
2446          */
2447         if (unlikely(sk->sk_state == TCP_CLOSE))
2448                 return;
2449
2450         if (tcp_write_xmit(sk, cur_mss, nonagle, 0,
2451                            sk_gfp_mask(sk, GFP_ATOMIC)))
2452                 tcp_check_probe_timer(sk);
2453 }
2454
2455 /* Send _single_ skb sitting at the send head. This function requires
2456  * true push pending frames to setup probe timer etc.
2457  */
2458 void tcp_push_one(struct sock *sk, unsigned int mss_now)
2459 {
2460         struct sk_buff *skb = tcp_send_head(sk);
2461
2462         BUG_ON(!skb || skb->len < mss_now);
2463
2464         tcp_write_xmit(sk, mss_now, TCP_NAGLE_PUSH, 1, sk->sk_allocation);
2465 }
2466
2467 /* This function returns the amount that we can raise the
2468  * usable window based on the following constraints
2469  *
2470  * 1. The window can never be shrunk once it is offered (RFC 793)
2471  * 2. We limit memory per socket
2472  *
2473  * RFC 1122:
2474  * "the suggested [SWS] avoidance algorithm for the receiver is to keep
2475  *  RECV.NEXT + RCV.WIN fixed until:
2476  *  RCV.BUFF - RCV.USER - RCV.WINDOW >= min(1/2 RCV.BUFF, MSS)"
2477  *
2478  * i.e. don't raise the right edge of the window until you can raise
2479  * it at least MSS bytes.
2480  *
2481  * Unfortunately, the recommended algorithm breaks header prediction,
2482  * since header prediction assumes th->window stays fixed.
2483  *
2484  * Strictly speaking, keeping th->window fixed violates the receiver
2485  * side SWS prevention criteria. The problem is that under this rule
2486  * a stream of single byte packets will cause the right side of the
2487  * window to always advance by a single byte.
2488  *
2489  * Of course, if the sender implements sender side SWS prevention
2490  * then this will not be a problem.
2491  *
2492  * BSD seems to make the following compromise:
2493  *
2494  *      If the free space is less than the 1/4 of the maximum
2495  *      space available and the free space is less than 1/2 mss,
2496  *      then set the window to 0.
2497  *      [ Actually, bsd uses MSS and 1/4 of maximal _window_ ]
2498  *      Otherwise, just prevent the window from shrinking
2499  *      and from being larger than the largest representable value.
2500  *
2501  * This prevents incremental opening of the window in the regime
2502  * where TCP is limited by the speed of the reader side taking
2503  * data out of the TCP receive queue. It does nothing about
2504  * those cases where the window is constrained on the sender side
2505  * because the pipeline is full.
2506  *
2507  * BSD also seems to "accidentally" limit itself to windows that are a
2508  * multiple of MSS, at least until the free space gets quite small.
2509  * This would appear to be a side effect of the mbuf implementation.
2510  * Combining these two algorithms results in the observed behavior
2511  * of having a fixed window size at almost all times.
2512  *
2513  * Below we obtain similar behavior by forcing the offered window to
2514  * a multiple of the mss when it is feasible to do so.
2515  *
2516  * Note, we don't "adjust" for TIMESTAMP or SACK option bytes.
2517  * Regular options like TIMESTAMP are taken into account.
2518  */
2519 u32 __tcp_select_window(struct sock *sk)
2520 {
2521         struct inet_connection_sock *icsk = inet_csk(sk);
2522         struct tcp_sock *tp = tcp_sk(sk);
2523         /* MSS for the peer's data.  Previous versions used mss_clamp
2524          * here.  I don't know if the value based on our guesses
2525          * of peer's MSS is better for the performance.  It's more correct
2526          * but may be worse for the performance because of rcv_mss
2527          * fluctuations.  --SAW  1998/11/1
2528          */
2529         int mss = icsk->icsk_ack.rcv_mss;
2530         int free_space = tcp_space(sk);
2531         int allowed_space = tcp_full_space(sk);
2532         int full_space = min_t(int, tp->window_clamp, allowed_space);
2533         int window;
2534
2535         if (unlikely(mss > full_space)) {
2536                 mss = full_space;
2537                 if (mss <= 0)
2538                         return 0;
2539         }
2540         if (free_space < (full_space >> 1)) {
2541                 icsk->icsk_ack.quick = 0;
2542
2543                 if (tcp_under_memory_pressure(sk))
2544                         tp->rcv_ssthresh = min(tp->rcv_ssthresh,
2545                                                4U * tp->advmss);
2546
2547                 /* free_space might become our new window, make sure we don't
2548                  * increase it due to wscale.
2549                  */
2550                 free_space = round_down(free_space, 1 << tp->rx_opt.rcv_wscale);
2551
2552                 /* if free space is less than mss estimate, or is below 1/16th
2553                  * of the maximum allowed, try to move to zero-window, else
2554                  * tcp_clamp_window() will grow rcv buf up to tcp_rmem[2], and
2555                  * new incoming data is dropped due to memory limits.
2556                  * With large window, mss test triggers way too late in order
2557                  * to announce zero window in time before rmem limit kicks in.
2558                  */
2559                 if (free_space < (allowed_space >> 4) || free_space < mss)
2560                         return 0;
2561         }
2562
2563         if (free_space > tp->rcv_ssthresh)
2564                 free_space = tp->rcv_ssthresh;
2565
2566         /* Don't do rounding if we are using window scaling, since the
2567          * scaled window will not line up with the MSS boundary anyway.
2568          */
2569         window = tp->rcv_wnd;
2570         if (tp->rx_opt.rcv_wscale) {
2571                 window = free_space;
2572
2573                 /* Advertise enough space so that it won't get scaled away.
2574                  * Import case: prevent zero window announcement if
2575                  * 1<<rcv_wscale > mss.
2576                  */
2577                 if (((window >> tp->rx_opt.rcv_wscale) << tp->rx_opt.rcv_wscale) != window)
2578                         window = (((window >> tp->rx_opt.rcv_wscale) + 1)
2579                                   << tp->rx_opt.rcv_wscale);
2580         } else {
2581                 /* Get the largest window that is a nice multiple of mss.
2582                  * Window clamp already applied above.
2583                  * If our current window offering is within 1 mss of the
2584                  * free space we just keep it. This prevents the divide
2585                  * and multiply from happening most of the time.
2586                  * We also don't do any window rounding when the free space
2587                  * is too small.
2588                  */
2589                 if (window <= free_space - mss || window > free_space)
2590                         window = (free_space / mss) * mss;
2591                 else if (mss == full_space &&
2592                          free_space > window + (full_space >> 1))
2593                         window = free_space;
2594         }
2595
2596         return window;
2597 }
2598
2599 void tcp_skb_collapse_tstamp(struct sk_buff *skb,
2600                              const struct sk_buff *next_skb)
2601 {
2602         if (unlikely(tcp_has_tx_tstamp(next_skb))) {
2603                 const struct skb_shared_info *next_shinfo =
2604                         skb_shinfo(next_skb);
2605                 struct skb_shared_info *shinfo = skb_shinfo(skb);
2606
2607                 shinfo->tx_flags |= next_shinfo->tx_flags & SKBTX_ANY_TSTAMP;
2608                 shinfo->tskey = next_shinfo->tskey;
2609                 TCP_SKB_CB(skb)->txstamp_ack |=
2610                         TCP_SKB_CB(next_skb)->txstamp_ack;
2611         }
2612 }
2613
2614 /* Collapses two adjacent SKB's during retransmission. */
2615 static bool tcp_collapse_retrans(struct sock *sk, struct sk_buff *skb)
2616 {
2617         struct tcp_sock *tp = tcp_sk(sk);
2618         struct sk_buff *next_skb = tcp_write_queue_next(sk, skb);
2619         int skb_size, next_skb_size;
2620
2621         skb_size = skb->len;
2622         next_skb_size = next_skb->len;
2623
2624         BUG_ON(tcp_skb_pcount(skb) != 1 || tcp_skb_pcount(next_skb) != 1);
2625
2626         if (next_skb_size) {
2627                 if (next_skb_size <= skb_availroom(skb))
2628                         skb_copy_bits(next_skb, 0, skb_put(skb, next_skb_size),
2629                                       next_skb_size);
2630                 else if (!skb_shift(skb, next_skb, next_skb_size))
2631                         return false;
2632         }
2633         tcp_highest_sack_combine(sk, next_skb, skb);
2634
2635         tcp_unlink_write_queue(next_skb, sk);
2636
2637         if (next_skb->ip_summed == CHECKSUM_PARTIAL)
2638                 skb->ip_summed = CHECKSUM_PARTIAL;
2639
2640         if (skb->ip_summed != CHECKSUM_PARTIAL)
2641                 skb->csum = csum_block_add(skb->csum, next_skb->csum, skb_size);
2642
2643         /* Update sequence range on original skb. */
2644         TCP_SKB_CB(skb)->end_seq = TCP_SKB_CB(next_skb)->end_seq;
2645
2646         /* Merge over control information. This moves PSH/FIN etc. over */
2647         TCP_SKB_CB(skb)->tcp_flags |= TCP_SKB_CB(next_skb)->tcp_flags;
2648
2649         /* All done, get rid of second SKB and account for it so
2650          * packet counting does not break.
2651          */
2652         TCP_SKB_CB(skb)->sacked |= TCP_SKB_CB(next_skb)->sacked & TCPCB_EVER_RETRANS;
2653         TCP_SKB_CB(skb)->eor = TCP_SKB_CB(next_skb)->eor;
2654
2655         /* changed transmit queue under us so clear hints */
2656         tcp_clear_retrans_hints_partial(tp);
2657         if (next_skb == tp->retransmit_skb_hint)
2658                 tp->retransmit_skb_hint = skb;
2659
2660         tcp_adjust_pcount(sk, next_skb, tcp_skb_pcount(next_skb));
2661
2662         tcp_skb_collapse_tstamp(skb, next_skb);
2663
2664         sk_wmem_free_skb(sk, next_skb);
2665         return true;
2666 }
2667
2668 /* Check if coalescing SKBs is legal. */
2669 static bool tcp_can_collapse(const struct sock *sk, const struct sk_buff *skb)
2670 {
2671         if (tcp_skb_pcount(skb) > 1)
2672                 return false;
2673         if (skb_cloned(skb))
2674                 return false;
2675         if (skb == tcp_send_head(sk))
2676                 return false;
2677         /* Some heuristics for collapsing over SACK'd could be invented */
2678         if (TCP_SKB_CB(skb)->sacked & TCPCB_SACKED_ACKED)
2679                 return false;
2680
2681         return true;
2682 }
2683
2684 /* Collapse packets in the retransmit queue to make to create
2685  * less packets on the wire. This is only done on retransmission.
2686  */
2687 static void tcp_retrans_try_collapse(struct sock *sk, struct sk_buff *to,
2688                                      int space)
2689 {
2690         struct tcp_sock *tp = tcp_sk(sk);
2691         struct sk_buff *skb = to, *tmp;
2692         bool first = true;
2693
2694         if (!sysctl_tcp_retrans_collapse)
2695                 return;
2696         if (TCP_SKB_CB(skb)->tcp_flags & TCPHDR_SYN)
2697                 return;
2698
2699         tcp_for_write_queue_from_safe(skb, tmp, sk) {
2700                 if (!tcp_can_collapse(sk, skb))
2701                         break;
2702
2703                 if (!tcp_skb_can_collapse_to(to))
2704                         break;
2705
2706                 space -= skb->len;
2707
2708                 if (first) {
2709                         first = false;
2710                         continue;
2711                 }
2712
2713                 if (space < 0)
2714                         break;
2715
2716                 if (after(TCP_SKB_CB(skb)->end_seq, tcp_wnd_end(tp)))
2717                         break;
2718
2719                 if (!tcp_collapse_retrans(sk, to))
2720                         break;
2721         }
2722 }
2723
2724 /* This retransmits one SKB.  Policy decisions and retransmit queue
2725  * state updates are done by the caller.  Returns non-zero if an
2726  * error occurred which prevented the send.
2727  */
2728 int __tcp_retransmit_skb(struct sock *sk, struct sk_buff *skb, int segs)
2729 {
2730         struct inet_connection_sock *icsk = inet_csk(sk);
2731         struct tcp_sock *tp = tcp_sk(sk);
2732         unsigned int cur_mss;
2733         int diff, len, err;
2734
2735
2736         /* Inconclusive MTU probe */
2737         if (icsk->icsk_mtup.probe_size)
2738                 icsk->icsk_mtup.probe_size = 0;
2739
2740         /* Do not sent more than we queued. 1/4 is reserved for possible
2741          * copying overhead: fragmentation, tunneling, mangling etc.
2742          */
2743         if (atomic_read(&sk->sk_wmem_alloc) >
2744             min_t(u32, sk->sk_wmem_queued + (sk->sk_wmem_queued >> 2),
2745                   sk->sk_sndbuf))
2746                 return -EAGAIN;
2747
2748         if (skb_still_in_host_queue(sk, skb))
2749                 return -EBUSY;
2750
2751         if (before(TCP_SKB_CB(skb)->seq, tp->snd_una)) {
2752                 if (before(TCP_SKB_CB(skb)->end_seq, tp->snd_una))
2753                         BUG();
2754                 if (tcp_trim_head(sk, skb, tp->snd_una - TCP_SKB_CB(skb)->seq))
2755                         return -ENOMEM;
2756         }
2757
2758         if (inet_csk(sk)->icsk_af_ops->rebuild_header(sk))
2759                 return -EHOSTUNREACH; /* Routing failure or similar. */
2760
2761         cur_mss = tcp_current_mss(sk);
2762
2763         /* If receiver has shrunk his window, and skb is out of
2764          * new window, do not retransmit it. The exception is the
2765          * case, when window is shrunk to zero. In this case
2766          * our retransmit serves as a zero window probe.
2767          */
2768         if (!before(TCP_SKB_CB(skb)->seq, tcp_wnd_end(tp)) &&
2769             TCP_SKB_CB(skb)->seq != tp->snd_una)
2770                 return -EAGAIN;
2771
2772         len = cur_mss * segs;
2773         if (skb->len > len) {
2774                 if (tcp_fragment(sk, skb, len, cur_mss, GFP_ATOMIC))
2775                         return -ENOMEM; /* We'll try again later. */
2776         } else {
2777                 if (skb_unclone(skb, GFP_ATOMIC))
2778                         return -ENOMEM;
2779
2780                 diff = tcp_skb_pcount(skb);
2781                 tcp_set_skb_tso_segs(skb, cur_mss);
2782                 diff -= tcp_skb_pcount(skb);
2783                 if (diff)
2784                         tcp_adjust_pcount(sk, skb, diff);
2785                 if (skb->len < cur_mss)
2786                         tcp_retrans_try_collapse(sk, skb, cur_mss);
2787         }
2788
2789         /* RFC3168, section 6.1.1.1. ECN fallback */
2790         if ((TCP_SKB_CB(skb)->tcp_flags & TCPHDR_SYN_ECN) == TCPHDR_SYN_ECN)
2791                 tcp_ecn_clear_syn(sk, skb);
2792
2793         /* Update global and local TCP statistics. */
2794         segs = tcp_skb_pcount(skb);
2795         TCP_ADD_STATS(sock_net(sk), TCP_MIB_RETRANSSEGS, segs);
2796         if (TCP_SKB_CB(skb)->tcp_flags & TCPHDR_SYN)
2797                 __NET_INC_STATS(sock_net(sk), LINUX_MIB_TCPSYNRETRANS);
2798         tp->total_retrans += segs;
2799
2800         /* make sure skb->data is aligned on arches that require it
2801          * and check if ack-trimming & collapsing extended the headroom
2802          * beyond what csum_start can cover.
2803          */
2804         if (unlikely((NET_IP_ALIGN && ((unsigned long)skb->data & 3)) ||
2805                      skb_headroom(skb) >= 0xFFFF)) {
2806                 struct sk_buff *nskb;
2807
2808                 skb_mstamp_get(&skb->skb_mstamp);
2809                 nskb = __pskb_copy(skb, MAX_TCP_HEADER, GFP_ATOMIC);
2810                 err = nskb ? tcp_transmit_skb(sk, nskb, 0, GFP_ATOMIC) :
2811                              -ENOBUFS;
2812         } else {
2813                 err = tcp_transmit_skb(sk, skb, 1, GFP_ATOMIC);
2814         }
2815
2816         if (likely(!err)) {
2817                 TCP_SKB_CB(skb)->sacked |= TCPCB_EVER_RETRANS;
2818         } else if (err != -EBUSY) {
2819                 NET_INC_STATS(sock_net(sk), LINUX_MIB_TCPRETRANSFAIL);
2820         }
2821         return err;
2822 }
2823
2824 int tcp_retransmit_skb(struct sock *sk, struct sk_buff *skb, int segs)
2825 {
2826         struct tcp_sock *tp = tcp_sk(sk);
2827         int err = __tcp_retransmit_skb(sk, skb, segs);
2828
2829         if (err == 0) {
2830 #if FASTRETRANS_DEBUG > 0
2831                 if (TCP_SKB_CB(skb)->sacked & TCPCB_SACKED_RETRANS) {
2832                         net_dbg_ratelimited("retrans_out leaked\n");
2833                 }
2834 #endif
2835                 TCP_SKB_CB(skb)->sacked |= TCPCB_RETRANS;
2836                 tp->retrans_out += tcp_skb_pcount(skb);
2837
2838                 /* Save stamp of the first retransmit. */
2839                 if (!tp->retrans_stamp)
2840                         tp->retrans_stamp = tcp_skb_timestamp(skb);
2841
2842         }
2843
2844         if (tp->undo_retrans < 0)
2845                 tp->undo_retrans = 0;
2846         tp->undo_retrans += tcp_skb_pcount(skb);
2847         return err;
2848 }
2849
2850 /* This gets called after a retransmit timeout, and the initially
2851  * retransmitted data is acknowledged.  It tries to continue
2852  * resending the rest of the retransmit queue, until either
2853  * we've sent it all or the congestion window limit is reached.
2854  * If doing SACK, the first ACK which comes back for a timeout
2855  * based retransmit packet might feed us FACK information again.
2856  * If so, we use it to avoid unnecessarily retransmissions.
2857  */
2858 void tcp_xmit_retransmit_queue(struct sock *sk)
2859 {
2860         const struct inet_connection_sock *icsk = inet_csk(sk);
2861         struct tcp_sock *tp = tcp_sk(sk);
2862         struct sk_buff *skb;
2863         struct sk_buff *hole = NULL;
2864         u32 max_segs;
2865         int mib_idx;
2866
2867         if (!tp->packets_out)
2868                 return;
2869
2870         if (tp->retransmit_skb_hint) {
2871                 skb = tp->retransmit_skb_hint;
2872         } else {
2873                 skb = tcp_write_queue_head(sk);
2874         }
2875
2876         max_segs = tcp_tso_segs(sk, tcp_current_mss(sk));
2877         tcp_for_write_queue_from(skb, sk) {
2878                 __u8 sacked;
2879                 int segs;
2880
2881                 if (skb == tcp_send_head(sk))
2882                         break;
2883                 /* we could do better than to assign each time */
2884                 if (!hole)
2885                         tp->retransmit_skb_hint = skb;
2886
2887                 segs = tp->snd_cwnd - tcp_packets_in_flight(tp);
2888                 if (segs <= 0)
2889                         return;
2890                 sacked = TCP_SKB_CB(skb)->sacked;
2891                 /* In case tcp_shift_skb_data() have aggregated large skbs,
2892                  * we need to make sure not sending too bigs TSO packets
2893                  */
2894                 segs = min_t(int, segs, max_segs);
2895
2896                 if (tp->retrans_out >= tp->lost_out) {
2897                         break;
2898                 } else if (!(sacked & TCPCB_LOST)) {
2899                         if (!hole && !(sacked & (TCPCB_SACKED_RETRANS|TCPCB_SACKED_ACKED)))
2900                                 hole = skb;
2901                         continue;
2902
2903                 } else {
2904                         if (icsk->icsk_ca_state != TCP_CA_Loss)
2905                                 mib_idx = LINUX_MIB_TCPFASTRETRANS;
2906                         else
2907                                 mib_idx = LINUX_MIB_TCPSLOWSTARTRETRANS;
2908                 }
2909
2910                 if (sacked & (TCPCB_SACKED_ACKED|TCPCB_SACKED_RETRANS))
2911                         continue;
2912
2913                 if (tcp_small_queue_check(sk, skb, 1))
2914                         return;
2915
2916                 if (tcp_retransmit_skb(sk, skb, segs))
2917                         return;
2918
2919                 NET_ADD_STATS(sock_net(sk), mib_idx, tcp_skb_pcount(skb));
2920
2921                 if (tcp_in_cwnd_reduction(sk))
2922                         tp->prr_out += tcp_skb_pcount(skb);
2923
2924                 if (skb == tcp_write_queue_head(sk) &&
2925                     icsk->icsk_pending != ICSK_TIME_REO_TIMEOUT)
2926                         inet_csk_reset_xmit_timer(sk, ICSK_TIME_RETRANS,
2927                                                   inet_csk(sk)->icsk_rto,
2928                                                   TCP_RTO_MAX);
2929         }
2930 }
2931
2932 /* We allow to exceed memory limits for FIN packets to expedite
2933  * connection tear down and (memory) recovery.
2934  * Otherwise tcp_send_fin() could be tempted to either delay FIN
2935  * or even be forced to close flow without any FIN.
2936  * In general, we want to allow one skb per socket to avoid hangs
2937  * with edge trigger epoll()
2938  */
2939 void sk_forced_mem_schedule(struct sock *sk, int size)
2940 {
2941         int amt;
2942
2943         if (size <= sk->sk_forward_alloc)
2944                 return;
2945         amt = sk_mem_pages(size);
2946         sk->sk_forward_alloc += amt * SK_MEM_QUANTUM;
2947         sk_memory_allocated_add(sk, amt);
2948
2949         if (mem_cgroup_sockets_enabled && sk->sk_memcg)
2950                 mem_cgroup_charge_skmem(sk->sk_memcg, amt);
2951 }
2952
2953 /* Send a FIN. The caller locks the socket for us.
2954  * We should try to send a FIN packet really hard, but eventually give up.
2955  */
2956 void tcp_send_fin(struct sock *sk)
2957 {
2958         struct sk_buff *skb, *tskb = tcp_write_queue_tail(sk);
2959         struct tcp_sock *tp = tcp_sk(sk);
2960
2961         /* Optimization, tack on the FIN if we have one skb in write queue and
2962          * this skb was not yet sent, or we are under memory pressure.
2963          * Note: in the latter case, FIN packet will be sent after a timeout,
2964          * as TCP stack thinks it has already been transmitted.
2965          */
2966         if (tskb && (tcp_send_head(sk) || tcp_under_memory_pressure(sk))) {
2967 coalesce:
2968                 TCP_SKB_CB(tskb)->tcp_flags |= TCPHDR_FIN;
2969                 TCP_SKB_CB(tskb)->end_seq++;
2970                 tp->write_seq++;
2971                 if (!tcp_send_head(sk)) {
2972                         /* This means tskb was already sent.
2973                          * Pretend we included the FIN on previous transmit.
2974                          * We need to set tp->snd_nxt to the value it would have
2975                          * if FIN had been sent. This is because retransmit path
2976                          * does not change tp->snd_nxt.
2977                          */
2978                         tp->snd_nxt++;
2979                         return;
2980                 }
2981         } else {
2982                 skb = alloc_skb_fclone(MAX_TCP_HEADER, sk->sk_allocation);
2983                 if (unlikely(!skb)) {
2984                         if (tskb)
2985                                 goto coalesce;
2986                         return;
2987                 }
2988                 skb_reserve(skb, MAX_TCP_HEADER);
2989                 sk_forced_mem_schedule(sk, skb->truesize);
2990                 /* FIN eats a sequence byte, write_seq advanced by tcp_queue_skb(). */
2991                 tcp_init_nondata_skb(skb, tp->write_seq,
2992                                      TCPHDR_ACK | TCPHDR_FIN);
2993                 tcp_queue_skb(sk, skb);
2994         }
2995         __tcp_push_pending_frames(sk, tcp_current_mss(sk), TCP_NAGLE_OFF);
2996 }
2997
2998 /* We get here when a process closes a file descriptor (either due to
2999  * an explicit close() or as a byproduct of exit()'ing) and there
3000  * was unread data in the receive queue.  This behavior is recommended
3001  * by RFC 2525, section 2.17.  -DaveM
3002  */
3003 void tcp_send_active_reset(struct sock *sk, gfp_t priority)
3004 {
3005         struct sk_buff *skb;
3006
3007         TCP_INC_STATS(sock_net(sk), TCP_MIB_OUTRSTS);
3008
3009         /* NOTE: No TCP options attached and we never retransmit this. */
3010         skb = alloc_skb(MAX_TCP_HEADER, priority);
3011         if (!skb) {
3012                 NET_INC_STATS(sock_net(sk), LINUX_MIB_TCPABORTFAILED);
3013                 return;
3014         }
3015
3016         /* Reserve space for headers and prepare control bits. */
3017         skb_reserve(skb, MAX_TCP_HEADER);
3018         tcp_init_nondata_skb(skb, tcp_acceptable_seq(sk),
3019                              TCPHDR_ACK | TCPHDR_RST);
3020         skb_mstamp_get(&skb->skb_mstamp);
3021         /* Send it off. */
3022         if (tcp_transmit_skb(sk, skb, 0, priority))
3023                 NET_INC_STATS(sock_net(sk), LINUX_MIB_TCPABORTFAILED);
3024 }
3025
3026 /* Send a crossed SYN-ACK during socket establishment.
3027  * WARNING: This routine must only be called when we have already sent
3028  * a SYN packet that crossed the incoming SYN that caused this routine
3029  * to get called. If this assumption fails then the initial rcv_wnd
3030  * and rcv_wscale values will not be correct.
3031  */
3032 int tcp_send_synack(struct sock *sk)
3033 {
3034         struct sk_buff *skb;
3035
3036         skb = tcp_write_queue_head(sk);
3037         if (!skb || !(TCP_SKB_CB(skb)->tcp_flags & TCPHDR_SYN)) {
3038                 pr_debug("%s: wrong queue state\n", __func__);
3039                 return -EFAULT;
3040         }
3041         if (!(TCP_SKB_CB(skb)->tcp_flags & TCPHDR_ACK)) {
3042                 if (skb_cloned(skb)) {
3043                         struct sk_buff *nskb = skb_copy(skb, GFP_ATOMIC);
3044                         if (!nskb)
3045                                 return -ENOMEM;
3046                         tcp_unlink_write_queue(skb, sk);
3047                         __skb_header_release(nskb);
3048                         __tcp_add_write_queue_head(sk, nskb);
3049                         sk_wmem_free_skb(sk, skb);
3050                         sk->sk_wmem_queued += nskb->truesize;
3051                         sk_mem_charge(sk, nskb->truesize);
3052                         skb = nskb;
3053                 }
3054
3055                 TCP_SKB_CB(skb)->tcp_flags |= TCPHDR_ACK;
3056                 tcp_ecn_send_synack(sk, skb);
3057         }
3058         return tcp_transmit_skb(sk, skb, 1, GFP_ATOMIC);
3059 }
3060
3061 /**
3062  * tcp_make_synack - Prepare a SYN-ACK.
3063  * sk: listener socket
3064  * dst: dst entry attached to the SYNACK
3065  * req: request_sock pointer
3066  *
3067  * Allocate one skb and build a SYNACK packet.
3068  * @dst is consumed : Caller should not use it again.
3069  */
3070 struct sk_buff *tcp_make_synack(const struct sock *sk, struct dst_entry *dst,
3071                                 struct request_sock *req,
3072                                 struct tcp_fastopen_cookie *foc,
3073                                 enum tcp_synack_type synack_type)
3074 {
3075         struct inet_request_sock *ireq = inet_rsk(req);
3076         const struct tcp_sock *tp = tcp_sk(sk);
3077         struct tcp_md5sig_key *md5 = NULL;
3078         struct tcp_out_options opts;
3079         struct sk_buff *skb;
3080         int tcp_header_size;
3081         struct tcphdr *th;
3082         int mss;
3083
3084         skb = alloc_skb(MAX_TCP_HEADER, GFP_ATOMIC);
3085         if (unlikely(!skb)) {
3086                 dst_release(dst);
3087                 return NULL;
3088         }
3089         /* Reserve space for headers. */
3090         skb_reserve(skb, MAX_TCP_HEADER);
3091
3092         switch (synack_type) {
3093         case TCP_SYNACK_NORMAL:
3094                 skb_set_owner_w(skb, req_to_sk(req));
3095                 break;
3096         case TCP_SYNACK_COOKIE:
3097                 /* Under synflood, we do not attach skb to a socket,
3098                  * to avoid false sharing.
3099                  */
3100                 break;
3101         case TCP_SYNACK_FASTOPEN:
3102                 /* sk is a const pointer, because we want to express multiple
3103                  * cpu might call us concurrently.
3104                  * sk->sk_wmem_alloc in an atomic, we can promote to rw.
3105                  */
3106                 skb_set_owner_w(skb, (struct sock *)sk);
3107                 break;
3108         }
3109         skb_dst_set(skb, dst);
3110
3111         mss = tcp_mss_clamp(tp, dst_metric_advmss(dst));
3112
3113         memset(&opts, 0, sizeof(opts));
3114 #ifdef CONFIG_SYN_COOKIES
3115         if (unlikely(req->cookie_ts))
3116                 skb->skb_mstamp.stamp_jiffies = cookie_init_timestamp(req);
3117         else
3118 #endif
3119         skb_mstamp_get(&skb->skb_mstamp);
3120
3121 #ifdef CONFIG_TCP_MD5SIG
3122         rcu_read_lock();
3123         md5 = tcp_rsk(req)->af_specific->req_md5_lookup(sk, req_to_sk(req));
3124 #endif
3125         skb_set_hash(skb, tcp_rsk(req)->txhash, PKT_HASH_TYPE_L4);
3126         tcp_header_size = tcp_synack_options(req, mss, skb, &opts, md5, foc) +
3127                           sizeof(*th);
3128
3129         skb_push(skb, tcp_header_size);
3130         skb_reset_transport_header(skb);
3131
3132         th = (struct tcphdr *)skb->data;
3133         memset(th, 0, sizeof(struct tcphdr));
3134         th->syn = 1;
3135         th->ack = 1;
3136         tcp_ecn_make_synack(req, th);
3137         th->source = htons(ireq->ir_num);
3138         th->dest = ireq->ir_rmt_port;
3139         /* Setting of flags are superfluous here for callers (and ECE is
3140          * not even correctly set)
3141          */
3142         tcp_init_nondata_skb(skb, tcp_rsk(req)->snt_isn,
3143                              TCPHDR_SYN | TCPHDR_ACK);
3144
3145         th->seq = htonl(TCP_SKB_CB(skb)->seq);
3146         /* XXX data is queued and acked as is. No buffer/window check */
3147         th->ack_seq = htonl(tcp_rsk(req)->rcv_nxt);
3148
3149         /* RFC1323: The window in SYN & SYN/ACK segments is never scaled. */
3150         th->window = htons(min(req->rsk_rcv_wnd, 65535U));
3151         tcp_options_write((__be32 *)(th + 1), NULL, &opts);
3152         th->doff = (tcp_header_size >> 2);
3153         __TCP_INC_STATS(sock_net(sk), TCP_MIB_OUTSEGS);
3154
3155 #ifdef CONFIG_TCP_MD5SIG
3156         /* Okay, we have all we need - do the md5 hash if needed */
3157         if (md5)
3158                 tcp_rsk(req)->af_specific->calc_md5_hash(opts.hash_location,
3159                                                md5, req_to_sk(req), skb);
3160         rcu_read_unlock();
3161 #endif
3162
3163         /* Do not fool tcpdump (if any), clean our debris */
3164         skb->tstamp = 0;
3165         return skb;
3166 }
3167 EXPORT_SYMBOL(tcp_make_synack);
3168
3169 static void tcp_ca_dst_init(struct sock *sk, const struct dst_entry *dst)
3170 {
3171         struct inet_connection_sock *icsk = inet_csk(sk);
3172         const struct tcp_congestion_ops *ca;
3173         u32 ca_key = dst_metric(dst, RTAX_CC_ALGO);
3174
3175         if (ca_key == TCP_CA_UNSPEC)
3176                 return;
3177
3178         rcu_read_lock();
3179         ca = tcp_ca_find_key(ca_key);
3180         if (likely(ca && try_module_get(ca->owner))) {
3181                 module_put(icsk->icsk_ca_ops->owner);
3182                 icsk->icsk_ca_dst_locked = tcp_ca_dst_locked(dst);
3183                 icsk->icsk_ca_ops = ca;
3184         }
3185         rcu_read_unlock();
3186 }
3187
3188 /* Do all connect socket setups that can be done AF independent. */
3189 static void tcp_connect_init(struct sock *sk)
3190 {
3191         const struct dst_entry *dst = __sk_dst_get(sk);
3192         struct tcp_sock *tp = tcp_sk(sk);
3193         __u8 rcv_wscale;
3194
3195         /* We'll fix this up when we get a response from the other end.
3196          * See tcp_input.c:tcp_rcv_state_process case TCP_SYN_SENT.
3197          */
3198         tp->tcp_header_len = sizeof(struct tcphdr) +
3199                 (sysctl_tcp_timestamps ? TCPOLEN_TSTAMP_ALIGNED : 0);
3200
3201 #ifdef CONFIG_TCP_MD5SIG
3202         if (tp->af_specific->md5_lookup(sk, sk))
3203                 tp->tcp_header_len += TCPOLEN_MD5SIG_ALIGNED;
3204 #endif
3205
3206         /* If user gave his TCP_MAXSEG, record it to clamp */
3207         if (tp->rx_opt.user_mss)
3208                 tp->rx_opt.mss_clamp = tp->rx_opt.user_mss;
3209         tp->max_window = 0;
3210         tcp_mtup_init(sk);
3211         tcp_sync_mss(sk, dst_mtu(dst));
3212
3213         tcp_ca_dst_init(sk, dst);
3214
3215         if (!tp->window_clamp)
3216                 tp->window_clamp = dst_metric(dst, RTAX_WINDOW);
3217         tp->advmss = tcp_mss_clamp(tp, dst_metric_advmss(dst));
3218
3219         tcp_initialize_rcv_mss(sk);
3220
3221         /* limit the window selection if the user enforce a smaller rx buffer */
3222         if (sk->sk_userlocks & SOCK_RCVBUF_LOCK &&
3223             (tp->window_clamp > tcp_full_space(sk) || tp->window_clamp == 0))
3224                 tp->window_clamp = tcp_full_space(sk);
3225
3226         tcp_select_initial_window(tcp_full_space(sk),
3227                                   tp->advmss - (tp->rx_opt.ts_recent_stamp ? tp->tcp_header_len - sizeof(struct tcphdr) : 0),
3228                                   &tp->rcv_wnd,
3229                                   &tp->window_clamp,
3230                                   sysctl_tcp_window_scaling,
3231                                   &rcv_wscale,
3232                                   dst_metric(dst, RTAX_INITRWND));
3233
3234         tp->rx_opt.rcv_wscale = rcv_wscale;
3235         tp->rcv_ssthresh = tp->rcv_wnd;
3236
3237         sk->sk_err = 0;
3238         sock_reset_flag(sk, SOCK_DONE);
3239         tp->snd_wnd = 0;
3240         tcp_init_wl(tp, 0);
3241         tp->snd_una = tp->write_seq;
3242         tp->snd_sml = tp->write_seq;
3243         tp->snd_up = tp->write_seq;
3244         tp->snd_nxt = tp->write_seq;
3245
3246         if (likely(!tp->repair))
3247                 tp->rcv_nxt = 0;
3248         else
3249                 tp->rcv_tstamp = tcp_time_stamp;
3250         tp->rcv_wup = tp->rcv_nxt;
3251         tp->copied_seq = tp->rcv_nxt;
3252
3253         inet_csk(sk)->icsk_rto = TCP_TIMEOUT_INIT;
3254         inet_csk(sk)->icsk_retransmits = 0;
3255         tcp_clear_retrans(tp);
3256 }
3257
3258 static void tcp_connect_queue_skb(struct sock *sk, struct sk_buff *skb)
3259 {
3260         struct tcp_sock *tp = tcp_sk(sk);
3261         struct tcp_skb_cb *tcb = TCP_SKB_CB(skb);
3262
3263         tcb->end_seq += skb->len;
3264         __skb_header_release(skb);
3265         __tcp_add_write_queue_tail(sk, skb);
3266         sk->sk_wmem_queued += skb->truesize;
3267         sk_mem_charge(sk, skb->truesize);
3268         tp->write_seq = tcb->end_seq;
3269         tp->packets_out += tcp_skb_pcount(skb);
3270 }
3271
3272 /* Build and send a SYN with data and (cached) Fast Open cookie. However,
3273  * queue a data-only packet after the regular SYN, such that regular SYNs
3274  * are retransmitted on timeouts. Also if the remote SYN-ACK acknowledges
3275  * only the SYN sequence, the data are retransmitted in the first ACK.
3276  * If cookie is not cached or other error occurs, falls back to send a
3277  * regular SYN with Fast Open cookie request option.
3278  */
3279 static int tcp_send_syn_data(struct sock *sk, struct sk_buff *syn)
3280 {
3281         struct tcp_sock *tp = tcp_sk(sk);
3282         struct tcp_fastopen_request *fo = tp->fastopen_req;
3283         int space, err = 0;
3284         struct sk_buff *syn_data;
3285
3286         tp->rx_opt.mss_clamp = tp->advmss;  /* If MSS is not cached */
3287         if (!tcp_fastopen_cookie_check(sk, &tp->rx_opt.mss_clamp, &fo->cookie))
3288                 goto fallback;
3289
3290         /* MSS for SYN-data is based on cached MSS and bounded by PMTU and
3291          * user-MSS. Reserve maximum option space for middleboxes that add
3292          * private TCP options. The cost is reduced data space in SYN :(
3293          */
3294         tp->rx_opt.mss_clamp = tcp_mss_clamp(tp, tp->rx_opt.mss_clamp);
3295
3296         space = __tcp_mtu_to_mss(sk, inet_csk(sk)->icsk_pmtu_cookie) -
3297                 MAX_TCP_OPTION_SPACE;
3298
3299         space = min_t(size_t, space, fo->size);
3300
3301         /* limit to order-0 allocations */
3302         space = min_t(size_t, space, SKB_MAX_HEAD(MAX_TCP_HEADER));
3303
3304         syn_data = sk_stream_alloc_skb(sk, space, sk->sk_allocation, false);
3305         if (!syn_data)
3306                 goto fallback;
3307         syn_data->ip_summed = CHECKSUM_PARTIAL;
3308         memcpy(syn_data->cb, syn->cb, sizeof(syn->cb));
3309         if (space) {
3310                 int copied = copy_from_iter(skb_put(syn_data, space), space,
3311                                             &fo->data->msg_iter);
3312                 if (unlikely(!copied)) {
3313                         kfree_skb(syn_data);
3314                         goto fallback;
3315                 }
3316                 if (copied != space) {
3317                         skb_trim(syn_data, copied);
3318                         space = copied;
3319                 }
3320         }
3321         /* No more data pending in inet_wait_for_connect() */
3322         if (space == fo->size)
3323                 fo->data = NULL;
3324         fo->copied = space;
3325
3326         tcp_connect_queue_skb(sk, syn_data);
3327         if (syn_data->len)
3328                 tcp_chrono_start(sk, TCP_CHRONO_BUSY);
3329
3330         err = tcp_transmit_skb(sk, syn_data, 1, sk->sk_allocation);
3331
3332         syn->skb_mstamp = syn_data->skb_mstamp;
3333
3334         /* Now full SYN+DATA was cloned and sent (or not),
3335          * remove the SYN from the original skb (syn_data)
3336          * we keep in write queue in case of a retransmit, as we
3337          * also have the SYN packet (with no data) in the same queue.
3338          */
3339         TCP_SKB_CB(syn_data)->seq++;
3340         TCP_SKB_CB(syn_data)->tcp_flags = TCPHDR_ACK | TCPHDR_PSH;
3341         if (!err) {
3342                 tp->syn_data = (fo->copied > 0);
3343                 NET_INC_STATS(sock_net(sk), LINUX_MIB_TCPORIGDATASENT);
3344                 goto done;
3345         }
3346
3347 fallback:
3348         /* Send a regular SYN with Fast Open cookie request option */
3349         if (fo->cookie.len > 0)
3350                 fo->cookie.len = 0;
3351         err = tcp_transmit_skb(sk, syn, 1, sk->sk_allocation);
3352         if (err)
3353                 tp->syn_fastopen = 0;
3354 done:
3355         fo->cookie.len = -1;  /* Exclude Fast Open option for SYN retries */
3356         return err;
3357 }
3358
3359 /* Build a SYN and send it off. */
3360 int tcp_connect(struct sock *sk)
3361 {
3362         struct tcp_sock *tp = tcp_sk(sk);
3363         struct sk_buff *buff;
3364         int err;
3365
3366         tcp_connect_init(sk);
3367
3368         if (unlikely(tp->repair)) {
3369                 tcp_finish_connect(sk, NULL);
3370                 return 0;
3371         }
3372
3373         buff = sk_stream_alloc_skb(sk, 0, sk->sk_allocation, true);
3374         if (unlikely(!buff))
3375                 return -ENOBUFS;
3376
3377         tcp_init_nondata_skb(buff, tp->write_seq++, TCPHDR_SYN);
3378         tp->retrans_stamp = tcp_time_stamp;
3379         tcp_connect_queue_skb(sk, buff);
3380         tcp_ecn_send_syn(sk, buff);
3381
3382         /* Send off SYN; include data in Fast Open. */
3383         err = tp->fastopen_req ? tcp_send_syn_data(sk, buff) :
3384               tcp_transmit_skb(sk, buff, 1, sk->sk_allocation);
3385         if (err == -ECONNREFUSED)
3386                 return err;
3387
3388         /* We change tp->snd_nxt after the tcp_transmit_skb() call
3389          * in order to make this packet get counted in tcpOutSegs.
3390          */
3391         tp->snd_nxt = tp->write_seq;
3392         tp->pushed_seq = tp->write_seq;
3393         TCP_INC_STATS(sock_net(sk), TCP_MIB_ACTIVEOPENS);
3394
3395         /* Timer for repeating the SYN until an answer. */
3396         inet_csk_reset_xmit_timer(sk, ICSK_TIME_RETRANS,
3397                                   inet_csk(sk)->icsk_rto, TCP_RTO_MAX);
3398         return 0;
3399 }
3400 EXPORT_SYMBOL(tcp_connect);
3401
3402 /* Send out a delayed ack, the caller does the policy checking
3403  * to see if we should even be here.  See tcp_input.c:tcp_ack_snd_check()
3404  * for details.
3405  */
3406 void tcp_send_delayed_ack(struct sock *sk)
3407 {
3408         struct inet_connection_sock *icsk = inet_csk(sk);
3409         int ato = icsk->icsk_ack.ato;
3410         unsigned long timeout;
3411
3412         tcp_ca_event(sk, CA_EVENT_DELAYED_ACK);
3413
3414         if (ato > TCP_DELACK_MIN) {
3415                 const struct tcp_sock *tp = tcp_sk(sk);
3416                 int max_ato = HZ / 2;
3417
3418                 if (icsk->icsk_ack.pingpong ||
3419                     (icsk->icsk_ack.pending & ICSK_ACK_PUSHED))
3420                         max_ato = TCP_DELACK_MAX;
3421
3422                 /* Slow path, intersegment interval is "high". */
3423
3424                 /* If some rtt estimate is known, use it to bound delayed ack.
3425                  * Do not use inet_csk(sk)->icsk_rto here, use results of rtt measurements
3426                  * directly.
3427                  */
3428                 if (tp->srtt_us) {
3429                         int rtt = max_t(int, usecs_to_jiffies(tp->srtt_us >> 3),
3430                                         TCP_DELACK_MIN);
3431
3432                         if (rtt < max_ato)
3433                                 max_ato = rtt;
3434                 }
3435
3436                 ato = min(ato, max_ato);
3437         }
3438
3439         /* Stay within the limit we were given */
3440         timeout = jiffies + ato;
3441
3442         /* Use new timeout only if there wasn't a older one earlier. */
3443         if (icsk->icsk_ack.pending & ICSK_ACK_TIMER) {
3444                 /* If delack timer was blocked or is about to expire,
3445                  * send ACK now.
3446                  */
3447                 if (icsk->icsk_ack.blocked ||
3448                     time_before_eq(icsk->icsk_ack.timeout, jiffies + (ato >> 2))) {
3449                         tcp_send_ack(sk);
3450                         return;
3451                 }
3452
3453                 if (!time_before(timeout, icsk->icsk_ack.timeout))
3454                         timeout = icsk->icsk_ack.timeout;
3455         }
3456         icsk->icsk_ack.pending |= ICSK_ACK_SCHED | ICSK_ACK_TIMER;
3457         icsk->icsk_ack.timeout = timeout;
3458         sk_reset_timer(sk, &icsk->icsk_delack_timer, timeout);
3459 }
3460
3461 /* This routine sends an ack and also updates the window. */
3462 void tcp_send_ack(struct sock *sk)
3463 {
3464         struct sk_buff *buff;
3465
3466         /* If we have been reset, we may not send again. */
3467         if (sk->sk_state == TCP_CLOSE)
3468                 return;
3469
3470         tcp_ca_event(sk, CA_EVENT_NON_DELAYED_ACK);
3471
3472         /* We are not putting this on the write queue, so
3473          * tcp_transmit_skb() will set the ownership to this
3474          * sock.
3475          */
3476         buff = alloc_skb(MAX_TCP_HEADER,
3477                          sk_gfp_mask(sk, GFP_ATOMIC | __GFP_NOWARN));
3478         if (unlikely(!buff)) {
3479                 inet_csk_schedule_ack(sk);
3480                 inet_csk(sk)->icsk_ack.ato = TCP_ATO_MIN;
3481                 inet_csk_reset_xmit_timer(sk, ICSK_TIME_DACK,
3482                                           TCP_DELACK_MAX, TCP_RTO_MAX);
3483                 return;
3484         }
3485
3486         /* Reserve space for headers and prepare control bits. */
3487         skb_reserve(buff, MAX_TCP_HEADER);
3488         tcp_init_nondata_skb(buff, tcp_acceptable_seq(sk), TCPHDR_ACK);
3489
3490         /* We do not want pure acks influencing TCP Small Queues or fq/pacing
3491          * too much.
3492          * SKB_TRUESIZE(max(1 .. 66, MAX_TCP_HEADER)) is unfortunately ~784
3493          */
3494         skb_set_tcp_pure_ack(buff);
3495
3496         /* Send it off, this clears delayed acks for us. */
3497         skb_mstamp_get(&buff->skb_mstamp);
3498         tcp_transmit_skb(sk, buff, 0, (__force gfp_t)0);
3499 }
3500 EXPORT_SYMBOL_GPL(tcp_send_ack);
3501
3502 /* This routine sends a packet with an out of date sequence
3503  * number. It assumes the other end will try to ack it.
3504  *
3505  * Question: what should we make while urgent mode?
3506  * 4.4BSD forces sending single byte of data. We cannot send
3507  * out of window data, because we have SND.NXT==SND.MAX...
3508  *
3509  * Current solution: to send TWO zero-length segments in urgent mode:
3510  * one is with SEG.SEQ=SND.UNA to deliver urgent pointer, another is
3511  * out-of-date with SND.UNA-1 to probe window.
3512  */
3513 static int tcp_xmit_probe_skb(struct sock *sk, int urgent, int mib)
3514 {
3515         struct tcp_sock *tp = tcp_sk(sk);
3516         struct sk_buff *skb;
3517
3518         /* We don't queue it, tcp_transmit_skb() sets ownership. */
3519         skb = alloc_skb(MAX_TCP_HEADER,
3520                         sk_gfp_mask(sk, GFP_ATOMIC | __GFP_NOWARN));
3521         if (!skb)
3522                 return -1;
3523
3524         /* Reserve space for headers and set control bits. */
3525         skb_reserve(skb, MAX_TCP_HEADER);
3526         /* Use a previous sequence.  This should cause the other
3527          * end to send an ack.  Don't queue or clone SKB, just
3528          * send it.
3529          */
3530         tcp_init_nondata_skb(skb, tp->snd_una - !urgent, TCPHDR_ACK);
3531         skb_mstamp_get(&skb->skb_mstamp);
3532         NET_INC_STATS(sock_net(sk), mib);
3533         return tcp_transmit_skb(sk, skb, 0, (__force gfp_t)0);
3534 }
3535
3536 void tcp_send_window_probe(struct sock *sk)
3537 {
3538         if (sk->sk_state == TCP_ESTABLISHED) {
3539                 tcp_sk(sk)->snd_wl1 = tcp_sk(sk)->rcv_nxt - 1;
3540                 tcp_xmit_probe_skb(sk, 0, LINUX_MIB_TCPWINPROBE);
3541         }
3542 }
3543
3544 /* Initiate keepalive or window probe from timer. */
3545 int tcp_write_wakeup(struct sock *sk, int mib)
3546 {
3547         struct tcp_sock *tp = tcp_sk(sk);
3548         struct sk_buff *skb;
3549
3550         if (sk->sk_state == TCP_CLOSE)
3551                 return -1;
3552
3553         skb = tcp_send_head(sk);
3554         if (skb && before(TCP_SKB_CB(skb)->seq, tcp_wnd_end(tp))) {
3555                 int err;
3556                 unsigned int mss = tcp_current_mss(sk);
3557                 unsigned int seg_size = tcp_wnd_end(tp) - TCP_SKB_CB(skb)->seq;
3558
3559                 if (before(tp->pushed_seq, TCP_SKB_CB(skb)->end_seq))
3560                         tp->pushed_seq = TCP_SKB_CB(skb)->end_seq;
3561
3562                 /* We are probing the opening of a window
3563                  * but the window size is != 0
3564                  * must have been a result SWS avoidance ( sender )
3565                  */
3566                 if (seg_size < TCP_SKB_CB(skb)->end_seq - TCP_SKB_CB(skb)->seq ||
3567                     skb->len > mss) {
3568                         seg_size = min(seg_size, mss);
3569                         TCP_SKB_CB(skb)->tcp_flags |= TCPHDR_PSH;
3570                         if (tcp_fragment(sk, skb, seg_size, mss, GFP_ATOMIC))
3571                                 return -1;
3572                 } else if (!tcp_skb_pcount(skb))
3573                         tcp_set_skb_tso_segs(skb, mss);
3574
3575                 TCP_SKB_CB(skb)->tcp_flags |= TCPHDR_PSH;
3576                 err = tcp_transmit_skb(sk, skb, 1, GFP_ATOMIC);
3577                 if (!err)
3578                         tcp_event_new_data_sent(sk, skb);
3579                 return err;
3580         } else {
3581                 if (between(tp->snd_up, tp->snd_una + 1, tp->snd_una + 0xFFFF))
3582                         tcp_xmit_probe_skb(sk, 1, mib);
3583                 return tcp_xmit_probe_skb(sk, 0, mib);
3584         }
3585 }
3586
3587 /* A window probe timeout has occurred.  If window is not closed send
3588  * a partial packet else a zero probe.
3589  */
3590 void tcp_send_probe0(struct sock *sk)
3591 {
3592         struct inet_connection_sock *icsk = inet_csk(sk);
3593         struct tcp_sock *tp = tcp_sk(sk);
3594         struct net *net = sock_net(sk);
3595         unsigned long probe_max;
3596         int err;
3597
3598         err = tcp_write_wakeup(sk, LINUX_MIB_TCPWINPROBE);
3599
3600         if (tp->packets_out || !tcp_send_head(sk)) {
3601                 /* Cancel probe timer, if it is not required. */
3602                 icsk->icsk_probes_out = 0;
3603                 icsk->icsk_backoff = 0;
3604                 return;
3605         }
3606
3607         if (err <= 0) {
3608                 if (icsk->icsk_backoff < net->ipv4.sysctl_tcp_retries2)
3609                         icsk->icsk_backoff++;
3610                 icsk->icsk_probes_out++;
3611                 probe_max = TCP_RTO_MAX;
3612         } else {
3613                 /* If packet was not sent due to local congestion,
3614                  * do not backoff and do not remember icsk_probes_out.
3615                  * Let local senders to fight for local resources.
3616                  *
3617                  * Use accumulated backoff yet.
3618                  */
3619                 if (!icsk->icsk_probes_out)
3620                         icsk->icsk_probes_out = 1;
3621                 probe_max = TCP_RESOURCE_PROBE_INTERVAL;
3622         }
3623         inet_csk_reset_xmit_timer(sk, ICSK_TIME_PROBE0,
3624                                   tcp_probe0_when(sk, probe_max),
3625                                   TCP_RTO_MAX);
3626 }
3627
3628 int tcp_rtx_synack(const struct sock *sk, struct request_sock *req)
3629 {
3630         const struct tcp_request_sock_ops *af_ops = tcp_rsk(req)->af_specific;
3631         struct flowi fl;
3632         int res;
3633
3634         tcp_rsk(req)->txhash = net_tx_rndhash();
3635         res = af_ops->send_synack(sk, NULL, &fl, req, NULL, TCP_SYNACK_NORMAL);
3636         if (!res) {
3637                 __TCP_INC_STATS(sock_net(sk), TCP_MIB_RETRANSSEGS);
3638                 __NET_INC_STATS(sock_net(sk), LINUX_MIB_TCPSYNRETRANS);
3639                 if (unlikely(tcp_passive_fastopen(sk)))
3640                         tcp_sk(sk)->total_retrans++;
3641         }
3642         return res;
3643 }
3644 EXPORT_SYMBOL(tcp_rtx_synack);