From 388ef8c7663753bad09180e19805f2fb87f5ed2b Mon Sep 17 00:00:00 2001
From: coffeecookey <tanisha.ojha2004x2@gmail.com>
Date: Mon, 29 Dec 2025 03:14:23 +0530
Subject: [PATCH 01/25] implementing NSE to cube

---
 R/groupingsets.R | 19 +++++++++++++++++++
 1 file changed, 19 insertions(+)

diff --git a/R/groupingsets.R b/R/groupingsets.R
index f5fc2101f1..f04c506fc7 100644
--- a/R/groupingsets.R
+++ b/R/groupingsets.R
@@ -29,6 +29,25 @@ cube.data.table = function(x, j, by, .SDcols, id = FALSE, label = NULL, ...) {
     stopf("Argument 'id' must be a logical scalar.")
   if (missing(j))
     stopf("Argument 'j' is required")
+    #implementing NSE in cube
+  jj = substitute(j)
+  usesSD = any(all.vars(jj) == ".SD")
+  if (usesSD) {
+    if (missing(.SDcols)) {
+      .SDcols = names(x)[vapply(x, is.numeric, logical(1L))]
+    } else {
+      sub.result = substitute(.SDcols)
+      if (is.call(sub.result)) {
+        #.SDcols = eval_with_cols(sub.result, names(x))
+        check_var = eval_with_cols(sub.result, names(x))
+        if (!is.null(check_var)) {
+          .SDcols = eval_with_cols(sub.result, names(x))
+        }
+      }
+    }
+  } else {
+    .SDcols = NULL
+  }
   # generate grouping sets for cube - power set: http://stackoverflow.com/a/32187892/2490497
   n = length(by)
   keepBool = sapply(2L^(seq_len(n)-1L), function(k) rep(c(FALSE, TRUE), times=k, each=((2L^n)/(2L*k))))

From 3e96dfc95a595139f6b6486a6a2924f8aeac6d0f Mon Sep 17 00:00:00 2001
From: sisyphuswastaken <cxalbxer@gmail.com>
Date: Mon, 29 Dec 2025 03:41:39 +0530
Subject: [PATCH 02/25] implementing NSE in cube

---
 R/groupingsets.R | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/R/groupingsets.R b/R/groupingsets.R
index f04c506fc7..54ddd26194 100644
--- a/R/groupingsets.R
+++ b/R/groupingsets.R
@@ -29,7 +29,7 @@ cube.data.table = function(x, j, by, .SDcols, id = FALSE, label = NULL, ...) {
     stopf("Argument 'id' must be a logical scalar.")
   if (missing(j))
     stopf("Argument 'j' is required")
-    #implementing NSE in cube
+   #implementing NSE in cube
   jj = substitute(j)
   usesSD = any(all.vars(jj) == ".SD")
   if (usesSD) {
@@ -48,6 +48,7 @@ cube.data.table = function(x, j, by, .SDcols, id = FALSE, label = NULL, ...) {
   } else {
     .SDcols = NULL
   }
+  
   # generate grouping sets for cube - power set: http://stackoverflow.com/a/32187892/2490497
   n = length(by)
   keepBool = sapply(2L^(seq_len(n)-1L), function(k) rep(c(FALSE, TRUE), times=k, each=((2L^n)/(2L*k))))

From e1eb87a5f60d8292579c326dcdcfbd5b6193903f Mon Sep 17 00:00:00 2001
From: sisyphuswastaken <cxalbxer@gmail.com>
Date: Mon, 29 Dec 2025 03:49:27 +0530
Subject: [PATCH 03/25] removed trailing whitespace

---
 R/groupingsets.R | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/R/groupingsets.R b/R/groupingsets.R
index 54ddd26194..93e36899e1 100644
--- a/R/groupingsets.R
+++ b/R/groupingsets.R
@@ -29,7 +29,8 @@ cube.data.table = function(x, j, by, .SDcols, id = FALSE, label = NULL, ...) {
     stopf("Argument 'id' must be a logical scalar.")
   if (missing(j))
     stopf("Argument 'j' is required")
-   #implementing NSE in cube
+  
+  #implementing NSE in cube
   jj = substitute(j)
   usesSD = any(all.vars(jj) == ".SD")
   if (usesSD) {
@@ -48,7 +49,7 @@ cube.data.table = function(x, j, by, .SDcols, id = FALSE, label = NULL, ...) {
   } else {
     .SDcols = NULL
   }
-  
+
   # generate grouping sets for cube - power set: http://stackoverflow.com/a/32187892/2490497
   n = length(by)
   keepBool = sapply(2L^(seq_len(n)-1L), function(k) rep(c(FALSE, TRUE), times=k, each=((2L^n)/(2L*k))))

From b6adef94fabc78213edb4099594abd5b44fd195b Mon Sep 17 00:00:00 2001
From: sisyphuswastaken <cxalbxer@gmail.com>
Date: Mon, 29 Dec 2025 03:53:21 +0530
Subject: [PATCH 04/25] removed trailing whitespace

---
 R/groupingsets.R | 1 -
 1 file changed, 1 deletion(-)

diff --git a/R/groupingsets.R b/R/groupingsets.R
index 93e36899e1..21ec65bd42 100644
--- a/R/groupingsets.R
+++ b/R/groupingsets.R
@@ -29,7 +29,6 @@ cube.data.table = function(x, j, by, .SDcols, id = FALSE, label = NULL, ...) {
     stopf("Argument 'id' must be a logical scalar.")
   if (missing(j))
     stopf("Argument 'j' is required")
-  
   #implementing NSE in cube
   jj = substitute(j)
   usesSD = any(all.vars(jj) == ".SD")

From 47bb2c390b7800a6f712b71a2e23988ba1fae3e1 Mon Sep 17 00:00:00 2001
From: sisyphuswastaken <cxalbxer@gmail.com>
Date: Wed, 31 Dec 2025 15:13:26 +0530
Subject: [PATCH 05/25] revised implementation of NSE in cube

---
 ..Rcheck/00check.log | 13 +++++++++++++
 Makevars             |  3 +++
 R/groupingsets.R     | 42 +++++++++++++++++++++++++++++++++++-------
 3 files changed, 51 insertions(+), 7 deletions(-)
 create mode 100644 ..Rcheck/00check.log
 create mode 100644 Makevars

diff --git a/..Rcheck/00check.log b/..Rcheck/00check.log
new file mode 100644
index 0000000000..2d743cd4d3
--- /dev/null
+++ b/..Rcheck/00check.log
@@ -0,0 +1,13 @@
+* using log directory ‘/Users/tanishaojha/Desktop/Code-folder/data.table/..Rcheck’
+* using R version 4.5.1 (2025-06-13)
+* using platform: aarch64-apple-darwin20
+* R was compiled by
+    Apple clang version 16.0.0 (clang-1600.0.26.6)
+    GNU Fortran (GCC) 14.2.0
+* running under: macOS Sequoia 15.5
+* using session charset: UTF-8
+* checking for file ‘./DESCRIPTION’ ... ERROR
+Required fields missing or empty:
+  ‘Author’ ‘Maintainer’
+* DONE
+Status: 1 ERROR
diff --git a/Makevars b/Makevars
new file mode 100644
index 0000000000..dd8d74e972
--- /dev/null
+++ b/Makevars
@@ -0,0 +1,3 @@
+CPPFLAGS += -I/opt/homebrew/opt/gettext/include
+LDFLAGS  += -L/opt/homebrew/opt/gettext/lib
+
diff --git a/R/groupingsets.R b/R/groupingsets.R
index 21ec65bd42..26e01e2a3c 100644
--- a/R/groupingsets.R
+++ b/R/groupingsets.R
@@ -29,26 +29,54 @@ cube.data.table = function(x, j, by, .SDcols, id = FALSE, label = NULL, ...) {
     stopf("Argument 'id' must be a logical scalar.")
   if (missing(j))
     stopf("Argument 'j' is required")
-  #implementing NSE in cube
+
+  # Implementing NSE in cube
   jj = substitute(j)
+  bysub = substitute(by)
+  names_x = names(x)
+  
+  allbyvars = intersect(all.vars(bysub), names_x)
   usesSD = any(all.vars(jj) == ".SD")
+  
   if (usesSD) {
     if (missing(.SDcols)) {
-      .SDcols = names(x)[vapply(x, is.numeric, logical(1L))]
+      ansvars = sdvars = setdiff(unique(names_x), union(by, allbyvars))
+      ansvals = match(ansvars, names_x)
     } else {
       sub.result = substitute(.SDcols)
       if (is.call(sub.result)) {
-        #.SDcols = eval_with_cols(sub.result, names(x))
-        check_var = eval_with_cols(sub.result, names(x))
-        if (!is.null(check_var)) {
-          .SDcols = eval_with_cols(sub.result, names(x))
+        call_name = as.character(sub.result[[1L]])
+        if (call_name %in% c("patterns", "is.numeric", "is.character", "is.factor")) {
+          .SDcols = eval_with_cols(sub.result, names_x)
+        } else {
+          .SDcols = eval(sub.result, parent.frame())
         }
+      } else {
+        .SDcols = eval(sub.result, parent.frame())
+      }
+      if (is.character(.SDcols)) {
+        if (!all(idx = .SDcols %chin% names_x))
+          stopf("Some items of .SDcols are not column names: %s", 
+                paste(.SDcols[!idx], collapse = ", "))
+        ansvars = sdvars = .SDcols
+        ansvals = match(ansvars, names_x)
+      } else if (is.numeric(.SDcols)) {
+        ansvals = as.integer(.SDcols)
+        ansvars = sdvars = names_x[ansvals]
+      } else if (is.logical(.SDcols)) {
+        if (length(.SDcols) != length(names_x))
+          stopf(".SDcols is a logical vector of length %d but there are %d columns",
+                length(.SDcols), length(names_x))
+        ansvals = which(.SDcols)
+        ansvars = sdvars = names_x[ansvals]
+      } else {
+        stopf(".SDcols must be character, numeric, or logical")
       }
     }
   } else {
     .SDcols = NULL
   }
-
+  
   # generate grouping sets for cube - power set: http://stackoverflow.com/a/32187892/2490497
   n = length(by)
   keepBool = sapply(2L^(seq_len(n)-1L), function(k) rep(c(FALSE, TRUE), times=k, each=((2L^n)/(2L*k))))

From e9876cb8af7ad1f4df58607542263428efd3c5b4 Mon Sep 17 00:00:00 2001
From: sisyphuswastaken <cxalbxer@gmail.com>
Date: Wed, 31 Dec 2025 15:31:52 +0530
Subject: [PATCH 06/25] cleaning up the code

---
 R/groupingsets.R | 13 ++++---------
 1 file changed, 4 insertions(+), 9 deletions(-)

diff --git a/R/groupingsets.R b/R/groupingsets.R
index 26e01e2a3c..4890bf5652 100644
--- a/R/groupingsets.R
+++ b/R/groupingsets.R
@@ -29,15 +29,12 @@ cube.data.table = function(x, j, by, .SDcols, id = FALSE, label = NULL, ...) {
     stopf("Argument 'id' must be a logical scalar.")
   if (missing(j))
     stopf("Argument 'j' is required")
-
   # Implementing NSE in cube
   jj = substitute(j)
   bysub = substitute(by)
   names_x = names(x)
-  
   allbyvars = intersect(all.vars(bysub), names_x)
   usesSD = any(all.vars(jj) == ".SD")
-  
   if (usesSD) {
     if (missing(.SDcols)) {
       ansvars = sdvars = setdiff(unique(names_x), union(by, allbyvars))
@@ -55,9 +52,9 @@ cube.data.table = function(x, j, by, .SDcols, id = FALSE, label = NULL, ...) {
         .SDcols = eval(sub.result, parent.frame())
       }
       if (is.character(.SDcols)) {
-        if (!all(idx = .SDcols %chin% names_x))
-          stopf("Some items of .SDcols are not column names: %s", 
-                paste(.SDcols[!idx], collapse = ", "))
+        idx = .SDcols %chin% names_x
+        if (any(!idx))
+          stopf("Some items of .SDcols are not column names: %s", toString(.SDcols[!idx]))
         ansvars = sdvars = .SDcols
         ansvals = match(ansvars, names_x)
       } else if (is.numeric(.SDcols)) {
@@ -65,8 +62,7 @@ cube.data.table = function(x, j, by, .SDcols, id = FALSE, label = NULL, ...) {
         ansvars = sdvars = names_x[ansvals]
       } else if (is.logical(.SDcols)) {
         if (length(.SDcols) != length(names_x))
-          stopf(".SDcols is a logical vector of length %d but there are %d columns",
-                length(.SDcols), length(names_x))
+          stopf(".SDcols is a logical vector of length %d but there are %d columns", length(.SDcols), length(names_x))
         ansvals = which(.SDcols)
         ansvars = sdvars = names_x[ansvals]
       } else {
@@ -76,7 +72,6 @@ cube.data.table = function(x, j, by, .SDcols, id = FALSE, label = NULL, ...) {
   } else {
     .SDcols = NULL
   }
-  
   # generate grouping sets for cube - power set: http://stackoverflow.com/a/32187892/2490497
   n = length(by)
   keepBool = sapply(2L^(seq_len(n)-1L), function(k) rep(c(FALSE, TRUE), times=k, each=((2L^n)/(2L*k))))

From 2a15cb9d4cbbad25e27a240b4fe83c05da43502b Mon Sep 17 00:00:00 2001
From: sisyphuswastaken <cxalbxer@gmail.com>
Date: Wed, 31 Dec 2025 15:37:35 +0530
Subject: [PATCH 07/25] more cleaning

---
 R/groupingsets.R | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/R/groupingsets.R b/R/groupingsets.R
index 4890bf5652..da0e8fe3d0 100644
--- a/R/groupingsets.R
+++ b/R/groupingsets.R
@@ -53,7 +53,7 @@ cube.data.table = function(x, j, by, .SDcols, id = FALSE, label = NULL, ...) {
       }
       if (is.character(.SDcols)) {
         idx = .SDcols %chin% names_x
-        if (any(!idx))
+        if (!all(idx))
           stopf("Some items of .SDcols are not column names: %s", toString(.SDcols[!idx]))
         ansvars = sdvars = .SDcols
         ansvals = match(ansvars, names_x)

From 0ae97fabd9660b306bc5c2abe9c7a45cf07ac8e7 Mon Sep 17 00:00:00 2001
From: sisyphuswastaken <cxalbxer@gmail.com>
Date: Wed, 31 Dec 2025 20:23:27 +0530
Subject: [PATCH 08/25] removed unnecessary changes to code

---
 R/groupingsets.R | 11 +++--------
 1 file changed, 3 insertions(+), 8 deletions(-)

diff --git a/R/groupingsets.R b/R/groupingsets.R
index da0e8fe3d0..faeebc59fe 100644
--- a/R/groupingsets.R
+++ b/R/groupingsets.R
@@ -29,7 +29,7 @@ cube.data.table = function(x, j, by, .SDcols, id = FALSE, label = NULL, ...) {
     stopf("Argument 'id' must be a logical scalar.")
   if (missing(j))
     stopf("Argument 'j' is required")
-  # Implementing NSE in cube
+# Implementing NSE in cube
   jj = substitute(j)
   bysub = substitute(by)
   names_x = names(x)
@@ -41,13 +41,8 @@ cube.data.table = function(x, j, by, .SDcols, id = FALSE, label = NULL, ...) {
       ansvals = match(ansvars, names_x)
     } else {
       sub.result = substitute(.SDcols)
-      if (is.call(sub.result)) {
-        call_name = as.character(sub.result[[1L]])
-        if (call_name %in% c("patterns", "is.numeric", "is.character", "is.factor")) {
-          .SDcols = eval_with_cols(sub.result, names_x)
-        } else {
-          .SDcols = eval(sub.result, parent.frame())
-        }
+      if (is.call(sub.result) && as.character(sub.result[[1L]]) == "patterns") {
+        .SDcols = eval_with_cols(sub.result, names_x)
       } else {
         .SDcols = eval(sub.result, parent.frame())
       }

From 7215a4c857c8f9953557af8ebfa1a5a3e227189c Mon Sep 17 00:00:00 2001
From: sisyphuswastaken <cxalbxer@gmail.com>
Date: Thu, 1 Jan 2026 11:50:56 +0530
Subject: [PATCH 09/25] adding some tests to the code

---
 inst/tests/tests.Rraw | 25 +++++++++++++++++++++++++
 1 file changed, 25 insertions(+)

diff --git a/inst/tests/tests.Rraw b/inst/tests/tests.Rraw
index 8cad916e3b..12440c968e 100644
--- a/inst/tests/tests.Rraw
+++ b/inst/tests/tests.Rraw
@@ -11503,6 +11503,31 @@ test(1750.34,
                            character(0)),
                id = TRUE)
 )
+test(1750.35,
+  cube(dt, j = lapply(.SD, sum), by = c("color","year","status"), id=TRUE, .SDcols=patterns("value")),
+  groupingsets(dt, j = lapply(.SD, sum), by = c("color","year","status"), .SDcols = "value", 
+                sets = list(c("color","year","status"),
+                            c("color","year"),
+                            c("color","status"),
+                            "color",
+                            c("year","status"),
+                            "year",
+                            "status",
+                            character(0)),
+                id = TRUE)
+)
+test(1750.36,
+  cube(dt, j = lapply(.SD, sum), by = "year", .SDcols = c("value", "BADCOL")),
+  error = "Some items of \\.SDcols are not column names"
+)
+test(1750.37,
+  cube(dt, j = lapply(.SD, sum), by = "year", .SDcols = c(TRUE, FALSE)),
+  error = "\\.SDcols is a logical vector of length"
+)
+test(1750.38,
+  cube(dt, j = sum(value), by = "year", .SDcols = "value", id = TRUE),
+  cube(dt, j = sum(value), by = "year", id = TRUE)
+)
 # grouping sets with integer64
 if (test_bit64) {
   set.seed(26)

From 2b7b7ff796c632b75187d15202b5119de2c1676c Mon Sep 17 00:00:00 2001
From: sisyphuswastaken <cxalbxer@gmail.com>
Date: Thu, 1 Jan 2026 12:21:08 +0530
Subject: [PATCH 10/25] more tests

---
 inst/tests/tests.Rraw | 12 ++++++++++++
 1 file changed, 12 insertions(+)

diff --git a/inst/tests/tests.Rraw b/inst/tests/tests.Rraw
index 12440c968e..93ecf96d97 100644
--- a/inst/tests/tests.Rraw
+++ b/inst/tests/tests.Rraw
@@ -11528,6 +11528,18 @@ test(1750.38,
   cube(dt, j = sum(value), by = "year", .SDcols = "value", id = TRUE),
   cube(dt, j = sum(value), by = "year", id = TRUE)
 )
+test(1750.39,
+  cube(dt, j = lapply(.SD, sum), by = "year", .SDcols = 5L, id = TRUE),
+  cube(dt, j = lapply(.SD, sum), by = "year", .SDcols = "value", id = TRUE)
+)
+test(1750.40,
+  cube(dt, j = lapply(.SD, sum), by = "year", .SDcols = names(dt) == "value", id = TRUE),
+  cube(dt, j = lapply(.SD, sum), by = "year", .SDcols = "value", id = TRUE)
+)
+test(
+  cube(dt, j = lapply(.SD, sum), by = "year", .SDcols = list("value")),
+  error = "\\.SDcols must be character, numeric, or logical"
+)
 # grouping sets with integer64
 if (test_bit64) {
   set.seed(26)

From 431ca81914b3f2319cbc7369c440eec10d42f99d Mon Sep 17 00:00:00 2001
From: sisyphuswastaken <cxalbxer@gmail.com>
Date: Thu, 1 Jan 2026 12:26:39 +0530
Subject: [PATCH 11/25] Revert "more tests"

This reverts commit 2b7b7ff796c632b75187d15202b5119de2c1676c.
---
 inst/tests/tests.Rraw | 12 ------------
 1 file changed, 12 deletions(-)

diff --git a/inst/tests/tests.Rraw b/inst/tests/tests.Rraw
index 93ecf96d97..12440c968e 100644
--- a/inst/tests/tests.Rraw
+++ b/inst/tests/tests.Rraw
@@ -11528,18 +11528,6 @@ test(1750.38,
   cube(dt, j = sum(value), by = "year", .SDcols = "value", id = TRUE),
   cube(dt, j = sum(value), by = "year", id = TRUE)
 )
-test(1750.39,
-  cube(dt, j = lapply(.SD, sum), by = "year", .SDcols = 5L, id = TRUE),
-  cube(dt, j = lapply(.SD, sum), by = "year", .SDcols = "value", id = TRUE)
-)
-test(1750.40,
-  cube(dt, j = lapply(.SD, sum), by = "year", .SDcols = names(dt) == "value", id = TRUE),
-  cube(dt, j = lapply(.SD, sum), by = "year", .SDcols = "value", id = TRUE)
-)
-test(
-  cube(dt, j = lapply(.SD, sum), by = "year", .SDcols = list("value")),
-  error = "\\.SDcols must be character, numeric, or logical"
-)
 # grouping sets with integer64
 if (test_bit64) {
   set.seed(26)

From 3bec96c4b6135912bb0f1e48ea34fac80a17b95e Mon Sep 17 00:00:00 2001
From: sisyphuswastaken <cxalbxer@gmail.com>
Date: Thu, 1 Jan 2026 13:06:34 +0530
Subject: [PATCH 12/25] more tests

---
 inst/tests/tests.Rraw | 14 ++++++++++++--
 1 file changed, 12 insertions(+), 2 deletions(-)

diff --git a/inst/tests/tests.Rraw b/inst/tests/tests.Rraw
index 12440c968e..6c4128a5a3 100644
--- a/inst/tests/tests.Rraw
+++ b/inst/tests/tests.Rraw
@@ -11525,8 +11525,18 @@ test(1750.37,
   error = "\\.SDcols is a logical vector of length"
 )
 test(1750.38,
-  cube(dt, j = sum(value), by = "year", .SDcols = "value", id = TRUE),
-  cube(dt, j = sum(value), by = "year", id = TRUE)
+  cube(dt, j = lapply(.SD, mean), by = "color", .SDcols = c(FALSE, FALSE, FALSE, TRUE, FALSE), id=TRUE),
+  groupingsets(dt, j = lapply(.SD, mean), by = "color", .SDcols = "amount",
+                sets = list("color", character(0)),
+                id = TRUE)
+)
+test(1750.39,
+  cube(dt, j = lapply(.SD, sum), by = "color", .SDcols = list("amount")),
+  error = ".SDcols must be character, numeric, or logical"
+)
+test(1750.40,
+  cube(dt, j = lapply(.SD, sum), by = "color", .SDcols = c(1, 99)),
+  error = "out of bounds"
 )
 # grouping sets with integer64
 if (test_bit64) {

From c16f64dc34e73381eae53778f3cc0bfbffa5f100 Mon Sep 17 00:00:00 2001
From: sisyphuswastaken <69812646+sisyphuswastaken@users.noreply.github.com>
Date: Thu, 1 Jan 2026 15:30:11 +0530
Subject: [PATCH 13/25] Delete ..Rcheck/00check.log

---
 ..Rcheck/00check.log | 13 -------------
 1 file changed, 13 deletions(-)
 delete mode 100644 ..Rcheck/00check.log

diff --git a/..Rcheck/00check.log b/..Rcheck/00check.log
deleted file mode 100644
index 2d743cd4d3..0000000000
--- a/..Rcheck/00check.log
+++ /dev/null
@@ -1,13 +0,0 @@
-* using log directory ‘/Users/tanishaojha/Desktop/Code-folder/data.table/..Rcheck’
-* using R version 4.5.1 (2025-06-13)
-* using platform: aarch64-apple-darwin20
-* R was compiled by
-    Apple clang version 16.0.0 (clang-1600.0.26.6)
-    GNU Fortran (GCC) 14.2.0
-* running under: macOS Sequoia 15.5
-* using session charset: UTF-8
-* checking for file ‘./DESCRIPTION’ ... ERROR
-Required fields missing or empty:
-  ‘Author’ ‘Maintainer’
-* DONE
-Status: 1 ERROR

From 4119cee6f1097f5242875f75ccc601f75d5d4e37 Mon Sep 17 00:00:00 2001
From: sisyphuswastaken <69812646+sisyphuswastaken@users.noreply.github.com>
Date: Thu, 1 Jan 2026 15:30:22 +0530
Subject: [PATCH 14/25] Delete Makevars

---
 Makevars | 3 ---
 1 file changed, 3 deletions(-)
 delete mode 100644 Makevars

diff --git a/Makevars b/Makevars
deleted file mode 100644
index dd8d74e972..0000000000
--- a/Makevars
+++ /dev/null
@@ -1,3 +0,0 @@
-CPPFLAGS += -I/opt/homebrew/opt/gettext/include
-LDFLAGS  += -L/opt/homebrew/opt/gettext/lib
-

From f792b159c749bee9636a2160d198bfd024920e76 Mon Sep 17 00:00:00 2001
From: sisyphuswastaken <cxalbxer@gmail.com>
Date: Fri, 2 Jan 2026 16:15:14 +0530
Subject: [PATCH 15/25] converting the NSE code into helper function

---
 R/groupingsets.R | 85 ++++++++++++++++++++++++++++--------------------
 1 file changed, 50 insertions(+), 35 deletions(-)

diff --git a/R/groupingsets.R b/R/groupingsets.R
index faeebc59fe..14e70bd634 100644
--- a/R/groupingsets.R
+++ b/R/groupingsets.R
@@ -16,6 +16,48 @@ rollup.data.table = function(x, j, by, .SDcols, id = FALSE, label = NULL, ...) {
   groupingsets.data.table(x, by=by, sets=sets, .SDcols=.SDcols, id=id, jj=jj, label=label, enclos = parent.frame())
 }
 
+# Helper function to process SDcols
+.processSDcols = function(SDcols_sub, SDcols_missing, x, jsub, by, enclos = parent.frame()) {
+  names_x = names(x)
+  bysub = substitute(by)
+  allbyvars = intersect(all.vars(bysub), names_x)
+  usesSD = any(all.vars(jsub) == ".SD")
+  if (!usesSD) {
+    return(NULL)
+  }
+  if (SDcols_missing) {
+    ansvars = sdvars = setdiff(unique(names_x), union(by, allbyvars))
+    ansvals = match(ansvars, names_x)
+    return(list(ansvars = ansvars, sdvars = sdvars, ansvals = ansvals))
+  }
+  sub.result = SDcols_sub
+  if (is.call(sub.result) && as.character(sub.result[[1L]]) == "patterns") {
+    .SDcols = eval_with_cols(sub.result, names_x)
+  } else {
+    .SDcols = eval(sub.result, enclos)
+  }
+  if (is.character(.SDcols)) {
+    idx = .SDcols %chin% names_x
+    if (!all(idx))
+      stopf("Some items of .SDcols are not column names: %s", toString(.SDcols[!idx]))
+    ansvars = sdvars = .SDcols
+    ansvals = match(ansvars, names_x)
+  } else if (is.numeric(.SDcols)) {
+      ansvals = as.integer(.SDcols)
+    if (any(ansvals < 1L | ansvals > length(names_x)))
+      stopf(".SDcols contains indices out of bounds")
+    ansvars = sdvars = names_x[ansvals]
+  } else if (is.logical(.SDcols)) {
+    if (length(.SDcols) != length(names_x))
+      stopf(".SDcols is a logical vector of length %d but there are %d columns", length(.SDcols), length(names_x))
+    ansvals = which(.SDcols)
+    ansvars = sdvars = names_x[ansvals]
+  } else {
+    stopf(".SDcols must be character, numeric, or logical")
+  }
+  list(ansvars = ansvars, sdvars = sdvars, ansvals = ansvals)
+}
+
 cube = function(x, ...) {
   UseMethod("cube")
 }
@@ -29,43 +71,16 @@ cube.data.table = function(x, j, by, .SDcols, id = FALSE, label = NULL, ...) {
     stopf("Argument 'id' must be a logical scalar.")
   if (missing(j))
     stopf("Argument 'j' is required")
-# Implementing NSE in cube
+  # Implementing NSE in cube using the helper, .processSDcols
   jj = substitute(j)
-  bysub = substitute(by)
-  names_x = names(x)
-  allbyvars = intersect(all.vars(bysub), names_x)
-  usesSD = any(all.vars(jj) == ".SD")
-  if (usesSD) {
-    if (missing(.SDcols)) {
-      ansvars = sdvars = setdiff(unique(names_x), union(by, allbyvars))
-      ansvals = match(ansvars, names_x)
-    } else {
-      sub.result = substitute(.SDcols)
-      if (is.call(sub.result) && as.character(sub.result[[1L]]) == "patterns") {
-        .SDcols = eval_with_cols(sub.result, names_x)
-      } else {
-        .SDcols = eval(sub.result, parent.frame())
-      }
-      if (is.character(.SDcols)) {
-        idx = .SDcols %chin% names_x
-        if (!all(idx))
-          stopf("Some items of .SDcols are not column names: %s", toString(.SDcols[!idx]))
-        ansvars = sdvars = .SDcols
-        ansvals = match(ansvars, names_x)
-      } else if (is.numeric(.SDcols)) {
-        ansvals = as.integer(.SDcols)
-        ansvars = sdvars = names_x[ansvals]
-      } else if (is.logical(.SDcols)) {
-        if (length(.SDcols) != length(names_x))
-          stopf(".SDcols is a logical vector of length %d but there are %d columns", length(.SDcols), length(names_x))
-        ansvals = which(.SDcols)
-        ansvars = sdvars = names_x[ansvals]
-      } else {
-        stopf(".SDcols must be character, numeric, or logical")
-      }
-    }
-  } else {
+  sdcols_result = .processSDcols(SDcols_sub = substitute(.SDcols), SDcols_missing = missing(.SDcols), x = x, jsub = jj, by = by, enclos = parent.frame())
+  if (is.null(sdcols_result)) {
     .SDcols = NULL
+  } else {
+    ansvars = sdcols_result$ansvars
+    sdvars = sdcols_result$sdvars
+    ansvals = sdcols_result$ansvals
+    .SDcols = sdvars
   }
   # generate grouping sets for cube - power set: http://stackoverflow.com/a/32187892/2490497
   n = length(by)

From 97b4536b44504b0af24a322be6599c1bf7b4111e Mon Sep 17 00:00:00 2001
From: sisyphuswastaken <cxalbxer@gmail.com>
Date: Sun, 4 Jan 2026 00:25:06 +0530
Subject: [PATCH 16/25] including helper in [.data.table

---
 R/data.table.R        | 114 +++++++++++++++++++++++++-----------------
 R/groupingsets.R      |   2 +
 inst/tests/tests.Rraw |   5 ++
 3 files changed, 76 insertions(+), 45 deletions(-)

diff --git a/R/data.table.R b/R/data.table.R
index 27c985e44c..5fc9bfa1ce 100644
--- a/R/data.table.R
+++ b/R/data.table.R
@@ -1036,56 +1036,80 @@ replace_dot_alias = function(e) {
           while(colsub %iscall% "(") colsub = as.list(colsub)[[-1L]]
           # fix for R-Forge #5190. colsub[[1L]] gave error when it's a symbol.
           # NB: _unary_ '-', not _binary_ '-' (#5826). Test for '!' length-2 should be redundant but low-cost & keeps code concise.
-          if (colsub %iscall% c("!", "-") && length(colsub) == 2L) {
-            negate_sdcols = TRUE
-            colsub = colsub[[2L]]
-          } else negate_sdcols = FALSE
-          # fix for #1216, make sure the parentheses are peeled from expr of the form (((1:4)))
-          while(colsub %iscall% "(") colsub = as.list(colsub)[[-1L]]
-          if (colsub %iscall% ':' && length(colsub)==3L && !is.call(colsub[[2L]]) && !is.call(colsub[[3L]])) {
-            # .SDcols is of the format a:b, ensure none of : arguments is a call data.table(V1=-1L, V2=-2L, V3=-3L)[,.SD,.SDcols=-V2:-V1] #4231
-            .SDcols = eval(colsub, setattr(as.list(seq_along(x)), 'names', names_x), parent.frame())
-          } else {
-            if (colsub %iscall% 'patterns') {
-              patterns_list_or_vector = eval_with_cols(colsub, names_x)
-              .SDcols = if (is.list(patterns_list_or_vector)) {
-                # each pattern gives a new filter condition, intersect the end result
-                Reduce(intersect, patterns_list_or_vector)
+          try_processSDcols = !(colsub %iscall% c("!", "-") && length(colsub) == 2L) && !(colsub %iscall% ':') && !(colsub %iscall% 'patterns')
+          if (try_processSDcols) {
+            tryCatch({
+              sdcols_result = .processSDcols(
+                SDcols_sub = colsub, 
+                SDcols_missing = FALSE, 
+                x = x, 
+                jsub = jsub, 
+                by = union(bynames, allbyvars), 
+                enclos = parent.frame()
+              )
+              if (!is.null(sdcols_result)) {
+                ansvars = sdvars = sdcols_result$ansvars
+                ansvals = sdcols_result$ansvals
               } else {
-                patterns_list_or_vector
+                try_processSDcols = FALSE
               }
+            }, error = function(e) {
+              try_processSDcols <<- FALSE 
+            })
+          }
+          if (!try_processSDcols) {
+
+            if (colsub %iscall% c("!", "-") && length(colsub) == 2L) {
+              negate_sdcols = TRUE
+              colsub = colsub[[2L]]
+            } else negate_sdcols = FALSE
+            # fix for #1216, make sure the parentheses are peeled from expr of the form (((1:4)))
+            while(colsub %iscall% "(") colsub = as.list(colsub)[[-1L]]
+            if (colsub %iscall% ':' && length(colsub)==3L && !is.call(colsub[[2L]]) && !is.call(colsub[[3L]])) {
+              # .SDcols is of the format a:b, ensure none of : arguments is a call data.table(V1=-1L, V2=-2L, V3=-3L)[,.SD,.SDcols=-V2:-V1] #4231
+              .SDcols = eval(colsub, setattr(as.list(seq_along(x)), 'names', names_x), parent.frame())
             } else {
-              .SDcols = eval(colsub, parent.frame(), parent.frame())
-              # allow filtering via function in .SDcols, #3950
-              if (is.function(.SDcols)) {
-                .SDcols = lapply(x, .SDcols)
-                if (any(idx <- lengths(.SDcols) > 1L | vapply_1c(.SDcols, typeof) != 'logical' | vapply_1b(.SDcols, anyNA)))
-                  stopf("When .SDcols is a function, it is applied to each column; the output of this function must be a non-missing boolean scalar signalling inclusion/exclusion of the column. However, these conditions were not met for: %s", brackify(names(x)[idx]))
-                .SDcols = unlist(.SDcols, use.names = FALSE)
+              if (colsub %iscall% 'patterns') {
+                patterns_list_or_vector = eval_with_cols(colsub, names_x)
+                .SDcols = if (is.list(patterns_list_or_vector)) {
+                  # each pattern gives a new filter condition, intersect the end result
+                  Reduce(intersect, patterns_list_or_vector)
+                } else {
+                  patterns_list_or_vector
+                }
+              } else {
+                .SDcols = eval(colsub, parent.frame(), parent.frame())
+                # allow filtering via function in .SDcols, #3950
+                if (is.function(.SDcols)) {
+                  .SDcols = lapply(x, .SDcols)
+                  if (any(idx <- lengths(.SDcols) > 1L | vapply_1c(.SDcols, typeof) != 'logical' | vapply_1b(.SDcols, anyNA)))
+                    stopf("When .SDcols is a function, it is applied to each column; the output of this function must be a non-missing boolean scalar signalling inclusion/exclusion of the column. However, these conditions were not met for: %s", brackify(names(x)[idx]))
+                  .SDcols = unlist(.SDcols, use.names = FALSE)
+                }
               }
             }
-          }
-          if (anyNA(.SDcols))
-            stopf(".SDcols missing at the following indices: %s", brackify(which(is.na(.SDcols))))
-          if (is.logical(.SDcols)) {
-            if (length(.SDcols)!=length(x)) stopf(".SDcols is a logical vector of length %d but there are %d columns", length(.SDcols), length(x))
-            ansvals = which_(.SDcols, !negate_sdcols)
-            ansvars = sdvars = names_x[ansvals]
-          } else if (is.numeric(.SDcols)) {
-            .SDcols = as.integer(.SDcols)
-            # if .SDcols is numeric, use 'dupdiff' instead of 'setdiff'
-            if (length(unique(sign(.SDcols))) > 1L) stopf(".SDcols is numeric but has both +ve and -ve indices")
-            if (any(idx <- abs(.SDcols)>ncol(x) | abs(.SDcols)<1L))
-              stopf(".SDcols is numeric but out of bounds [1, %d] at: %s", ncol(x), brackify(which(idx)))
-            ansvars = sdvars = if (negate_sdcols) dupdiff(names_x[-.SDcols], bynames) else names_x[.SDcols]
-            ansvals = if (negate_sdcols) setdiff(seq_along(names(x)), c(.SDcols, which(names(x) %chin% bynames))) else .SDcols
-          } else {
-            if (!is.character(.SDcols)) stopf(".SDcols should be column numbers or names")
-            if (!all(idx <- .SDcols %chin% names_x))
-              stopf("Some items of .SDcols are not column names: %s", brackify(.SDcols[!idx]))
-            ansvars = sdvars = if (negate_sdcols) setdiff(names_x, c(.SDcols, bynames)) else .SDcols
-            # dups = FALSE here. DT[, .SD, .SDcols=c("x", "x")] again doesn't really help with which 'x' to keep (and if '-' which x to remove)
-            ansvals = chmatch(ansvars, names_x)
+            if (anyNA(.SDcols))
+              stopf(".SDcols missing at the following indices: %s", brackify(which(is.na(.SDcols))))
+            if (is.logical(.SDcols)) {
+              if (length(.SDcols)!=length(x)) stopf(".SDcols is a logical vector of length %d but there are %d columns", length(.SDcols), length(x))
+              ansvals = which_(.SDcols, !negate_sdcols)
+              ansvars = sdvars = names_x[ansvals]
+            } else if (is.numeric(.SDcols)) {
+              .SDcols = as.integer(.SDcols)
+              # if .SDcols is numeric, use 'dupdiff' instead of 'setdiff'
+              if (length(unique(sign(.SDcols))) > 1L) stopf(".SDcols is numeric but has both +ve and -ve indices")
+              if (any(idx <- abs(.SDcols)>ncol(x) | abs(.SDcols)<1L))
+                stopf(".SDcols is numeric but out of bounds [1, %d] at: %s", ncol(x), brackify(which(idx)))
+              ansvars = sdvars = if (negate_sdcols) dupdiff(names_x[-.SDcols], bynames) else names_x[.SDcols]
+              ansvals = if (negate_sdcols) setdiff(seq_along(names(x)), c(.SDcols, which(names(x) %chin% bynames))) else .SDcols
+            } else {
+              if (!is.character(.SDcols)) stopf(".SDcols should be column numbers or names")
+              if (!all(idx <- .SDcols %chin% names_x))
+                stopf("Some items of .SDcols are not column names: %s", brackify(.SDcols[!idx]))
+              ansvars = sdvars = if (negate_sdcols) setdiff(names_x, c(.SDcols, bynames)) else .SDcols
+              # dups = FALSE here. DT[, .SD, .SDcols=c("x", "x")] again doesn't really help with which 'x' to keep (and if '-' which x to remove)
+              ansvals = chmatch(ansvars, names_x)
+            }
           }
         }
         # fix for long standing FR/bug, #495 and #484
diff --git a/R/groupingsets.R b/R/groupingsets.R
index 14e70bd634..d18d0def62 100644
--- a/R/groupingsets.R
+++ b/R/groupingsets.R
@@ -36,6 +36,8 @@ rollup.data.table = function(x, j, by, .SDcols, id = FALSE, label = NULL, ...) {
   } else {
     .SDcols = eval(sub.result, enclos)
   }
+  if (anyNA(.SDcols))
+    stopf(".SDcols missing at the following indices: %s", brackify(which(is.na(.SDcols))))
   if (is.character(.SDcols)) {
     idx = .SDcols %chin% names_x
     if (!all(idx))
diff --git a/inst/tests/tests.Rraw b/inst/tests/tests.Rraw
index 6c4128a5a3..6248cf2ca5 100644
--- a/inst/tests/tests.Rraw
+++ b/inst/tests/tests.Rraw
@@ -11468,6 +11468,11 @@ sets = local({
   by=c("color","year","status")
   lapply(length(by):0, function(i) by[0:i])
 })
+test(1750.25,   
+  cube(copy(dt), j = lapply(.SD, mean), by = "color", .SDcols = 4, id=TRUE),   
+  groupingsets(dt, j = lapply(.SD, mean), by = "color", .SDcols = "amount",
+               sets = list("color", character(0)), id = TRUE)
+)
 test(1750.31,
   rollup(dt, j = c(list(cnt=.N), lapply(.SD, sum)), by = c("color","year","status"), id=TRUE),
   groupingsets(dt, j = c(list(cnt=.N), lapply(.SD, sum)), by = c("color","year","status"), sets=sets, id=TRUE)

From 159559564056740b153eb12c10b8fe28ac2684d3 Mon Sep 17 00:00:00 2001
From: sisyphuswastaken <cxalbxer@gmail.com>
Date: Sun, 4 Jan 2026 00:28:52 +0530
Subject: [PATCH 17/25] removing trailing spaces

---
 R/data.table.R | 3 +--
 1 file changed, 1 insertion(+), 2 deletions(-)

diff --git a/R/data.table.R b/R/data.table.R
index 5fc9bfa1ce..0924b1b7c5 100644
--- a/R/data.table.R
+++ b/R/data.table.R
@@ -1054,11 +1054,10 @@ replace_dot_alias = function(e) {
                 try_processSDcols = FALSE
               }
             }, error = function(e) {
-              try_processSDcols <<- FALSE 
+              try_processSDcols <<- FALSE
             })
           }
           if (!try_processSDcols) {
-
             if (colsub %iscall% c("!", "-") && length(colsub) == 2L) {
               negate_sdcols = TRUE
               colsub = colsub[[2L]]

From 25fbd53d0bc4e9dac56e96bc1eb58a6dda5615b3 Mon Sep 17 00:00:00 2001
From: sisyphuswastaken <cxalbxer@gmail.com>
Date: Sun, 4 Jan 2026 00:48:08 +0530
Subject: [PATCH 18/25] removed super assignment

---
 R/data.table.R | 25 +++++++++++++------------
 1 file changed, 13 insertions(+), 12 deletions(-)

diff --git a/R/data.table.R b/R/data.table.R
index 0924b1b7c5..156a813079 100644
--- a/R/data.table.R
+++ b/R/data.table.R
@@ -1038,24 +1038,25 @@ replace_dot_alias = function(e) {
           # NB: _unary_ '-', not _binary_ '-' (#5826). Test for '!' length-2 should be redundant but low-cost & keeps code concise.
           try_processSDcols = !(colsub %iscall% c("!", "-") && length(colsub) == 2L) && !(colsub %iscall% ':') && !(colsub %iscall% 'patterns')
           if (try_processSDcols) {
-            tryCatch({
-              sdcols_result = .processSDcols(
-                SDcols_sub = colsub, 
-                SDcols_missing = FALSE, 
-                x = x, 
-                jsub = jsub, 
-                by = union(bynames, allbyvars), 
-                enclos = parent.frame()
-              )
+              sdcols_result = tryCatch({
+                      .processSDcols(
+                        SDcols_sub = colsub, 
+                        SDcols_missing = FALSE, 
+                        x = x, 
+                        jsub = jsub, 
+                        by = union(bynames, allbyvars), 
+                        enclos = parent.frame()
+                      )
+                    }, error = function(e) {
+                      NULL 
+                    })
               if (!is.null(sdcols_result)) {
                 ansvars = sdvars = sdcols_result$ansvars
                 ansvals = sdcols_result$ansvals
+                try_processSDcols = TRUE
               } else {
                 try_processSDcols = FALSE
               }
-            }, error = function(e) {
-              try_processSDcols <<- FALSE
-            })
           }
           if (!try_processSDcols) {
             if (colsub %iscall% c("!", "-") && length(colsub) == 2L) {

From 32d078d606cf8e82acf810696241d697969ebc9b Mon Sep 17 00:00:00 2001
From: sisyphuswastaken <cxalbxer@gmail.com>
Date: Sun, 4 Jan 2026 00:52:00 +0530
Subject: [PATCH 19/25] removed trailing whitespace

---
 R/data.table.R | 12 ++++++------
 1 file changed, 6 insertions(+), 6 deletions(-)

diff --git a/R/data.table.R b/R/data.table.R
index 156a813079..87f6a5cc5a 100644
--- a/R/data.table.R
+++ b/R/data.table.R
@@ -1040,15 +1040,15 @@ replace_dot_alias = function(e) {
           if (try_processSDcols) {
               sdcols_result = tryCatch({
                       .processSDcols(
-                        SDcols_sub = colsub, 
-                        SDcols_missing = FALSE, 
-                        x = x, 
-                        jsub = jsub, 
-                        by = union(bynames, allbyvars), 
+                        SDcols_sub = colsub,
+                        SDcols_missing = FALSE,
+                        x = x,
+                        jsub = jsub,
+                        by = union(bynames, allbyvars),
                         enclos = parent.frame()
                       )
                     }, error = function(e) {
-                      NULL 
+                      NULL
                     })
               if (!is.null(sdcols_result)) {
                 ansvars = sdvars = sdcols_result$ansvars

From b2e6171d7a027a143a1b264cdb19f0e6fe733e9e Mon Sep 17 00:00:00 2001
From: sisyphuswastaken <cxalbxer@gmail.com>
Date: Sun, 4 Jan 2026 02:11:22 +0530
Subject: [PATCH 20/25] review changes

---
 R/data.table.R   | 2 +-
 R/groupingsets.R | 4 ++--
 2 files changed, 3 insertions(+), 3 deletions(-)

diff --git a/R/data.table.R b/R/data.table.R
index 87f6a5cc5a..9c6eaa8478 100644
--- a/R/data.table.R
+++ b/R/data.table.R
@@ -1044,7 +1044,7 @@ replace_dot_alias = function(e) {
                         SDcols_missing = FALSE,
                         x = x,
                         jsub = jsub,
-                        by = union(bynames, allbyvars),
+                        by = substitute(by),
                         enclos = parent.frame()
                       )
                     }, error = function(e) {
diff --git a/R/groupingsets.R b/R/groupingsets.R
index d18d0def62..29105e3163 100644
--- a/R/groupingsets.R
+++ b/R/groupingsets.R
@@ -21,7 +21,7 @@ rollup.data.table = function(x, j, by, .SDcols, id = FALSE, label = NULL, ...) {
   names_x = names(x)
   bysub = substitute(by)
   allbyvars = intersect(all.vars(bysub), names_x)
-  usesSD = any(all.vars(jsub) == ".SD")
+  usesSD = ".SD" %chin% all.vars(jsub)
   if (!usesSD) {
     return(NULL)
   }
@@ -31,7 +31,7 @@ rollup.data.table = function(x, j, by, .SDcols, id = FALSE, label = NULL, ...) {
     return(list(ansvars = ansvars, sdvars = sdvars, ansvals = ansvals))
   }
   sub.result = SDcols_sub
-  if (is.call(sub.result) && as.character(sub.result[[1L]]) == "patterns") {
+  if (sub.result %iscall% "patterns") {
     .SDcols = eval_with_cols(sub.result, names_x)
   } else {
     .SDcols = eval(sub.result, enclos)

From a6d00fabf6ad740eaafa1053d3c0b87e0fb59f2c Mon Sep 17 00:00:00 2001
From: sisyphuswastaken <cxalbxer@gmail.com>
Date: Tue, 6 Jan 2026 14:02:28 +0530
Subject: [PATCH 21/25] moved helper to data.table.R

---
 R/data.table.R   | 44 ++++++++++++++++++++++++++++++++++++++++++++
 R/groupingsets.R | 44 --------------------------------------------
 2 files changed, 44 insertions(+), 44 deletions(-)

diff --git a/R/data.table.R b/R/data.table.R
index 9c6eaa8478..277fb7e913 100644
--- a/R/data.table.R
+++ b/R/data.table.R
@@ -147,6 +147,50 @@ replace_dot_alias = function(e) {
   }
 }
 
+# Helper function to process SDcols
+.processSDcols = function(SDcols_sub, SDcols_missing, x, jsub, by, enclos = parent.frame()) {
+  names_x = names(x)
+  bysub = substitute(by)
+  allbyvars = intersect(all.vars(bysub), names_x)
+  usesSD = ".SD" %chin% all.vars(jsub)
+  if (!usesSD) {
+    return(NULL)
+  }
+  if (SDcols_missing) {
+    ansvars = sdvars = setdiff(unique(names_x), union(by, allbyvars))
+    ansvals = match(ansvars, names_x)
+    return(list(ansvars = ansvars, sdvars = sdvars, ansvals = ansvals))
+  }
+  sub.result = SDcols_sub
+  if (sub.result %iscall% "patterns") {
+    .SDcols = eval_with_cols(sub.result, names_x)
+  } else {
+    .SDcols = eval(sub.result, enclos)
+  }
+  if (anyNA(.SDcols))
+    stopf(".SDcols missing at the following indices: %s", brackify(which(is.na(.SDcols))))
+  if (is.character(.SDcols)) {
+    idx = .SDcols %chin% names_x
+    if (!all(idx))
+      stopf("Some items of .SDcols are not column names: %s", toString(.SDcols[!idx]))
+    ansvars = sdvars = .SDcols
+    ansvals = match(ansvars, names_x)
+  } else if (is.numeric(.SDcols)) {
+      ansvals = as.integer(.SDcols)
+    if (any(ansvals < 1L | ansvals > length(names_x)))
+      stopf(".SDcols contains indices out of bounds")
+    ansvars = sdvars = names_x[ansvals]
+  } else if (is.logical(.SDcols)) {
+    if (length(.SDcols) != length(names_x))
+      stopf(".SDcols is a logical vector of length %d but there are %d columns", length(.SDcols), length(names_x))
+    ansvals = which(.SDcols)
+    ansvars = sdvars = names_x[ansvals]
+  } else {
+    stopf(".SDcols must be character, numeric, or logical")
+  }
+  list(ansvars = ansvars, sdvars = sdvars, ansvals = ansvals)
+}
+
 "[.data.table" = function(x, i, j, by, keyby, with=TRUE, nomatch=NA, mult="all", roll=FALSE, rollends=if (roll=="nearest") c(TRUE,TRUE) else if (roll>=0.0) c(FALSE,TRUE) else c(TRUE,FALSE), which=FALSE, .SDcols, verbose=getOption("datatable.verbose"), allow.cartesian=getOption("datatable.allow.cartesian"), drop=NULL, on=NULL, env=NULL, showProgress=getOption("datatable.showProgress", interactive()))
 {
   # ..selfcount <<- ..selfcount+1  # in dev, we check no self calls, each of which doubles overhead, or could
diff --git a/R/groupingsets.R b/R/groupingsets.R
index 29105e3163..661ac1af09 100644
--- a/R/groupingsets.R
+++ b/R/groupingsets.R
@@ -16,50 +16,6 @@ rollup.data.table = function(x, j, by, .SDcols, id = FALSE, label = NULL, ...) {
   groupingsets.data.table(x, by=by, sets=sets, .SDcols=.SDcols, id=id, jj=jj, label=label, enclos = parent.frame())
 }
 
-# Helper function to process SDcols
-.processSDcols = function(SDcols_sub, SDcols_missing, x, jsub, by, enclos = parent.frame()) {
-  names_x = names(x)
-  bysub = substitute(by)
-  allbyvars = intersect(all.vars(bysub), names_x)
-  usesSD = ".SD" %chin% all.vars(jsub)
-  if (!usesSD) {
-    return(NULL)
-  }
-  if (SDcols_missing) {
-    ansvars = sdvars = setdiff(unique(names_x), union(by, allbyvars))
-    ansvals = match(ansvars, names_x)
-    return(list(ansvars = ansvars, sdvars = sdvars, ansvals = ansvals))
-  }
-  sub.result = SDcols_sub
-  if (sub.result %iscall% "patterns") {
-    .SDcols = eval_with_cols(sub.result, names_x)
-  } else {
-    .SDcols = eval(sub.result, enclos)
-  }
-  if (anyNA(.SDcols))
-    stopf(".SDcols missing at the following indices: %s", brackify(which(is.na(.SDcols))))
-  if (is.character(.SDcols)) {
-    idx = .SDcols %chin% names_x
-    if (!all(idx))
-      stopf("Some items of .SDcols are not column names: %s", toString(.SDcols[!idx]))
-    ansvars = sdvars = .SDcols
-    ansvals = match(ansvars, names_x)
-  } else if (is.numeric(.SDcols)) {
-      ansvals = as.integer(.SDcols)
-    if (any(ansvals < 1L | ansvals > length(names_x)))
-      stopf(".SDcols contains indices out of bounds")
-    ansvars = sdvars = names_x[ansvals]
-  } else if (is.logical(.SDcols)) {
-    if (length(.SDcols) != length(names_x))
-      stopf(".SDcols is a logical vector of length %d but there are %d columns", length(.SDcols), length(names_x))
-    ansvals = which(.SDcols)
-    ansvars = sdvars = names_x[ansvals]
-  } else {
-    stopf(".SDcols must be character, numeric, or logical")
-  }
-  list(ansvars = ansvars, sdvars = sdvars, ansvals = ansvals)
-}
-
 cube = function(x, ...) {
   UseMethod("cube")
 }

From cde91ae2b84de39869fea64baa4192f1c51a3c59 Mon Sep 17 00:00:00 2001
From: sisyphuswastaken <cxalbxer@gmail.com>
Date: Thu, 8 Jan 2026 00:07:49 +0530
Subject: [PATCH 22/25] removed try catch block

---
 R/data.table.R        | 49 ++++++++++++++++++++++++-------------------
 inst/tests/tests.Rraw |  4 ----
 2 files changed, 28 insertions(+), 25 deletions(-)

diff --git a/R/data.table.R b/R/data.table.R
index 277fb7e913..4f6c1ad0e3 100644
--- a/R/data.table.R
+++ b/R/data.table.R
@@ -162,11 +162,21 @@ replace_dot_alias = function(e) {
     return(list(ansvars = ansvars, sdvars = sdvars, ansvals = ansvals))
   }
   sub.result = SDcols_sub
+  if (sub.result %iscall% ':' && length(sub.result) == 3L) {
+    return(NULL)
+  }
+  if (sub.result %iscall% c("!", "-") && length(sub.result) == 2L) {
+    negate_sdcols = TRUE
+    sub.result = sub.result[[2L]]
+  } else negate_sdcols = FALSE
   if (sub.result %iscall% "patterns") {
     .SDcols = eval_with_cols(sub.result, names_x)
   } else {
     .SDcols = eval(sub.result, enclos)
   }
+  if (!is.character(.SDcols) && !is.numeric(.SDcols) && !is.logical(.SDcols)) {
+  return(NULL)
+  }
   if (anyNA(.SDcols))
     stopf(".SDcols missing at the following indices: %s", brackify(which(is.na(.SDcols))))
   if (is.character(.SDcols)) {
@@ -177,9 +187,10 @@ replace_dot_alias = function(e) {
     ansvals = match(ansvars, names_x)
   } else if (is.numeric(.SDcols)) {
       ansvals = as.integer(.SDcols)
-    if (any(ansvals < 1L | ansvals > length(names_x)))
-      stopf(".SDcols contains indices out of bounds")
+      if (length(unique(sign(.SDcols))) > 1L) stopf(".SDcols is numeric but has both +ve and -ve indices")
+      if (any(idx <- abs(.SDcols) > ncol(x) | abs(.SDcols) < 1L)) stopf(".SDcols is numeric but out of bounds [1, %d] at: %s", ncol(x), brackify(which(idx)))
     ansvars = sdvars = names_x[ansvals]
+    ansvals = if (negate_sdcols) setdiff(seq_along(names(x)), c(.SDcols, which(names(x) %chin% bynames))) else .SDcols
   } else if (is.logical(.SDcols)) {
     if (length(.SDcols) != length(names_x))
       stopf(".SDcols is a logical vector of length %d but there are %d columns", length(.SDcols), length(names_x))
@@ -1082,25 +1093,21 @@ replace_dot_alias = function(e) {
           # NB: _unary_ '-', not _binary_ '-' (#5826). Test for '!' length-2 should be redundant but low-cost & keeps code concise.
           try_processSDcols = !(colsub %iscall% c("!", "-") && length(colsub) == 2L) && !(colsub %iscall% ':') && !(colsub %iscall% 'patterns')
           if (try_processSDcols) {
-              sdcols_result = tryCatch({
-                      .processSDcols(
-                        SDcols_sub = colsub,
-                        SDcols_missing = FALSE,
-                        x = x,
-                        jsub = jsub,
-                        by = substitute(by),
-                        enclos = parent.frame()
-                      )
-                    }, error = function(e) {
-                      NULL
-                    })
-              if (!is.null(sdcols_result)) {
-                ansvars = sdvars = sdcols_result$ansvars
-                ansvals = sdcols_result$ansvals
-                try_processSDcols = TRUE
-              } else {
-                try_processSDcols = FALSE
-              }
+            sdcols_result = .processSDcols(
+              SDcols_sub = colsub,
+              SDcols_missing = FALSE,
+              x = x,
+              jsub = jsub,
+              by = substitute(by),
+              enclos = parent.frame()
+            )
+            if (!is.null(sdcols_result)) {
+              ansvars = sdvars = sdcols_result$ansvars
+              ansvals = sdcols_result$ansvals
+            } 
+            else {
+              try_processSDcols = FALSE  
+            }
           }
           if (!try_processSDcols) {
             if (colsub %iscall% c("!", "-") && length(colsub) == 2L) {
diff --git a/inst/tests/tests.Rraw b/inst/tests/tests.Rraw
index 23ef7ff129..6894b23ba4 100644
--- a/inst/tests/tests.Rraw
+++ b/inst/tests/tests.Rraw
@@ -11536,10 +11536,6 @@ test(1750.38,
                 id = TRUE)
 )
 test(1750.39,
-  cube(dt, j = lapply(.SD, sum), by = "color", .SDcols = list("amount")),
-  error = ".SDcols must be character, numeric, or logical"
-)
-test(1750.40,
   cube(dt, j = lapply(.SD, sum), by = "color", .SDcols = c(1, 99)),
   error = "out of bounds"
 )

From f2f2d9f81c520a9562bd80864096723095d6313d Mon Sep 17 00:00:00 2001
From: sisyphuswastaken <cxalbxer@gmail.com>
Date: Thu, 8 Jan 2026 00:11:59 +0530
Subject: [PATCH 23/25] removed whitespace

---
 R/data.table.R | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/R/data.table.R b/R/data.table.R
index 4f6c1ad0e3..1d4a147def 100644
--- a/R/data.table.R
+++ b/R/data.table.R
@@ -1104,9 +1104,9 @@ replace_dot_alias = function(e) {
             if (!is.null(sdcols_result)) {
               ansvars = sdvars = sdcols_result$ansvars
               ansvals = sdcols_result$ansvals
-            } 
+            }
             else {
-              try_processSDcols = FALSE  
+              try_processSDcols = FALSE
             }
           }
           if (!try_processSDcols) {

From 734d5cc3e2fc4e61dd2e317dac0a8db522d75aeb Mon Sep 17 00:00:00 2001
From: sisyphuswastaken <cxalbxer@gmail.com>
Date: Sun, 18 Jan 2026 13:11:15 +0530
Subject: [PATCH 24/25] additional tests for processSDcols

---
 inst/tests/tests.Rraw | 9 +++++++++
 1 file changed, 9 insertions(+)

diff --git a/inst/tests/tests.Rraw b/inst/tests/tests.Rraw
index 6894b23ba4..c4c20b1776 100644
--- a/inst/tests/tests.Rraw
+++ b/inst/tests/tests.Rraw
@@ -4061,6 +4061,15 @@ set.seed(45)
 DT = data.table(x=c("A", "A", "C", "C"), y=1:4, z=runif(4))
 test(1137.12, DT[, lapply(.SD, sum), by=x, .SDcols=-"y"], DT[, lapply(.SD, sum), by=x, .SDcols="z"])
 
+# Additional tests for .processSDcols coverage
+DT <- data.table(x=1:5, y=6:10, z=11:15)
+test(1137.13, DT[, .SD, .SDcols = c("x", NA_character_, "y")], error = ".SDcols missing at the following indices")
+test(1137.14, DT[, .SD, .SDcols = c(TRUE, FALSE, TRUE)], DT[, c(1,3), with=FALSE])
+test(1137.15, DT[, .SD, .SDcols = c(TRUE, FALSE)], error = ".SDcols is a logical vector of length 2 but there are 3 columns")
+test(1137.16, DT[, .SD, .SDcols = !c(FALSE, TRUE, FALSE)], DT[, c(1,3), with=FALSE])
+test(1137.17, DT[, .SD, .SDcols = 5L], error = "out of bounds.*1.*3.*at")
+test(1137.18, DT[, .SD, .SDcols = c("x", "notexist")], error = "Some items of .SDcols are not column names.*notexist")
+
 # test for FR #353 / R-Forge #353 - print.data.table gets new argument "row.names", default=TRUE. if FALSE, the row-names don't get printed
 # Thanks to Eddi for `capture.output` function!
 DT <- data.table(x=1:5, y=6:10)

From 157808f17502857b3a858fe3a58979f5ff35b16d Mon Sep 17 00:00:00 2001
From: sisyphuswastaken <cxalbxer@gmail.com>
Date: Sun, 18 Jan 2026 13:26:48 +0530
Subject: [PATCH 25/25] Revert "Merge branch 'master' into fix-7543"

This reverts commit 62714b5c2893de5b1f148e2cc7a7cd87ecb74867, reversing
changes made to 734d5cc3e2fc4e61dd2e317dac0a8db522d75aeb.
---
 .github/CONTRIBUTING.md                       |    2 +-
 DESCRIPTION                                   |    3 +-
 NEWS.md                                       |   36 +-
 R/as.data.table.R                             |    8 +-
 R/data.table.R                                |  365 +++--
 R/duplicated.R                                |    2 +-
 R/fcast.R                                     |   12 +-
 R/fmelt.R                                     |    2 +-
 R/foverlaps.R                                 |    8 +-
 R/frank.R                                     |    2 +-
 R/fread.R                                     |    6 +-
 R/frollapply.R                                |   10 +-
 R/groupingsets.R                              |   17 +-
 R/helpers.R                                   |    4 +-
 R/merge.R                                     |    8 +-
 R/rowwiseDT.R                                 |    8 -
 R/setkey.R                                    |    4 +-
 R/test.data.table.R                           |   55 +-
 inst/tests/benchmark.Rraw                     |   26 +-
 inst/tests/froll.Rraw                         |    4 +-
 inst/tests/nafill.Rraw                        |  167 +--
 inst/tests/optimize.Rraw                      |  486 -------
 inst/tests/tests.Rraw                         | 1216 ++++++++++++-----
 man/data.table.Rd                             |    2 +-
 man/nafill.Rd                                 |    5 -
 man/setkey.Rd                                 |    2 +-
 man/setorder.Rd                               |    2 +-
 man/test.Rd                                   |    5 +-
 src/assign.c                                  |  218 ++-
 src/between.c                                 |    4 +-
 src/data.table.h                              |   11 -
 src/dogroups.c                                |   54 +-
 src/fastmean.c                                |    4 +-
 src/fifelse.c                                 |   14 +-
 src/fmelt.c                                   |   12 +-
 src/fread.c                                   |    4 +-
 src/froll.c                                   |   12 +-
 src/frollR.c                                  |    4 +-
 src/fsort.c                                   |    2 +-
 src/gsumm.c                                   |   26 +-
 src/mergelist.c                               |   26 +-
 src/nafill.c                                  |   87 +-
 src/openmp-utils.c                            |    2 +-
 src/rbindlist.c                               |   14 +-
 src/transpose.c                               |    6 +-
 src/types.h                                   |    2 +-
 src/uniqlist.c                                |    2 +-
 src/utils.c                                   |   33 +-
 src/wrappers.c                                |    7 +-
 tests/optimize.R                              |    2 -
 vignettes/es/datatable-benchmarking.Rmd       |  147 --
 vignettes/es/datatable-faq.Rmd                |  674 ---------
 vignettes/es/datatable-fread-and-fwrite.Rmd   |  295 ----
 vignettes/es/datatable-importing.Rmd          |  298 ----
 vignettes/es/datatable-intro.Rmd              |  726 ----------
 vignettes/es/datatable-joins.Rmd              |  725 ----------
 vignettes/es/datatable-keys-fast-subset.Rmd   |  500 -------
 vignettes/es/datatable-programming.Rmd        |  485 -------
 .../es/datatable-reference-semantics.Rmd      |  413 ------
 vignettes/es/datatable-reshape.Rmd            |  295 ----
 vignettes/es/datatable-sd-usage.Rmd           |  262 ----
 ...le-secondary-indices-and-auto-indexing.Rmd |  364 -----
 62 files changed, 1434 insertions(+), 6763 deletions(-)
 delete mode 100644 inst/tests/optimize.Rraw
 delete mode 100644 tests/optimize.R
 delete mode 100644 vignettes/es/datatable-benchmarking.Rmd
 delete mode 100644 vignettes/es/datatable-faq.Rmd
 delete mode 100644 vignettes/es/datatable-fread-and-fwrite.Rmd
 delete mode 100644 vignettes/es/datatable-importing.Rmd
 delete mode 100644 vignettes/es/datatable-intro.Rmd
 delete mode 100644 vignettes/es/datatable-joins.Rmd
 delete mode 100644 vignettes/es/datatable-keys-fast-subset.Rmd
 delete mode 100644 vignettes/es/datatable-programming.Rmd
 delete mode 100644 vignettes/es/datatable-reference-semantics.Rmd
 delete mode 100644 vignettes/es/datatable-reshape.Rmd
 delete mode 100644 vignettes/es/datatable-sd-usage.Rmd
 delete mode 100644 vignettes/es/datatable-secondary-indices-and-auto-indexing.Rmd

diff --git a/.github/CONTRIBUTING.md b/.github/CONTRIBUTING.md
index 374bcd81fb..713508c06b 100644
--- a/.github/CONTRIBUTING.md
+++ b/.github/CONTRIBUTING.md
@@ -43,7 +43,7 @@ If you are not fixing an open issue and you are confident, you do not need to fi
 
 1. Unless the change is trivial (e.g. typo fix) there must be a new entry in [NEWS](https://github.com/Rdatatable/data.table/blob/master/NEWS.md). Please use the name of the user-visible function at the start to aid users quickly scanning the news item, explain the feature/bug, and thank issue/PR contributors by name. Follow the prevailing style at the top of the file; e.g. "fread with X in Y circumstance would error/segfault, [#123](issue link). Thanks to _(them)_ for reporting and _(me)_ for fixing". These are the release notes that others quickly skim and search so please use relevant helpful keywords with that in mind. If the problem was an error/warning/message, please include the error/warning/message in the news item so that folks searching for it will have a better chance of finding the news item, and to make the news item more specific. Bug fixes are under the bug fixes section heading so there is no need to include words such as "is fixed" in the first sentence because that is implicit. Please link to the issue(s) not to the PR (unless there is just a PR and no issue); if folk are interested in the detail of the fix they can get to the PR from the issue. Again: please follow the prevailing style of news items. Doing so makes it much easier and faster to review and merge.
 
-1. Please create the PR against the `master` branch. You can do that by forking the repository, creating a new branch for your feature/bugfix in the forked project, and then using that as a base for your pull requests. After your first successful merged PR you will very likely be invited to be a [project member](https://github.com/orgs/Rdatatable/teams/project-members). This will allow you to create your next branch directly in the project which is easier and more convenient than forking, both for you and for Rdatatable's maintainers. Working on _branches_ on this (Rdatatable) project will _not_ affect the core code, so you can feel free to experiment as a project member; the core code is on the `master` branch, and only data.table [committers](https://github.com/orgs/Rdatatable/teams/committers) can push/merge code there. Remember to do `git pull upstream your_branch` (where `upstream` is the name of the remote for `Rdatatable/data.table` seen in `git remote -v`) each time you want to add something; this will keep your local branch up to date with remote, in case anyone makes commits you don't yet have locally. This will reduce the number of merge conflicts you will need to deal with. Do not use `git rebase` on a branch where other users are pushing.
+1. Please create the PR against the `master` branch. You can do that by forking the repository, creating a new branch for your feature/bugfix in the forked project, and then using that as a base for your pull requests. After your first successful merged PR you will very likely be invited to be a [project member](https://github.com/orgs/Rdatatable/teams/project-members). This will allow you to create your next branch directly in the project which is easier and more convenient than forking, both for you and for Rdatatable's maintainers. Working on _branches_ on this (Rdatatable) project will _not_ affect the core code, so you can feel free to experiment as a project member; the core code is on the `master` branch, and only data.table [committers](https://github.com/orgs/Rdatatable/teams/maintainers) can push/merge code there. Remember to do `git pull upstream your_branch` (where `upstream` is the name of the remote for `Rdatatable/data.table` seen in `git remote -v`) each time you want to add something; this will keep your local branch up to date with remote, in case anyone makes commits you don't yet have locally. This will reduce the number of merge conflicts you will need to deal with. Do not use `git rebase` on a branch where other users are pushing.
 
 1. Just one feature/bugfix per PR please. Small changes are easier to review and accept than big sweeping changes. Sometimes big sweeping changes are needed and we just have to discuss those case by case.
 
diff --git a/DESCRIPTION b/DESCRIPTION
index 3860e0c480..bba370c417 100644
--- a/DESCRIPTION
+++ b/DESCRIPTION
@@ -106,6 +106,5 @@ Authors@R: c(
   person(given="@badasahog",       role="ctb", comment="GitHub user"),
   person("Vinit", "Thakur",        role="ctb"),
   person("Mukul", "Kumar",         role="ctb"),
-  person("Ildikó", "Czeller",      role="ctb"),
-  person("Manmita", "Das",         role="ctb")
+  person("Ildikó", "Czeller",      role="ctb")
   )
diff --git a/NEWS.md b/NEWS.md
index f218b93fbc..23e8d5c873 100644
--- a/NEWS.md
+++ b/NEWS.md
@@ -14,17 +14,15 @@
 
 ### NEW FEATURES
 
-1. `nafill()`, `setnafill()` extended to work on logical and factor vectors (part of [#3992](https://github.com/Rdatatable/data.table/issues/3992)). Includes support for `Date`, `IDate`, `POSIXct`, etc. `nafill()` works for character vectors, but not yet `setnafill()`. Thanks @jangorecki for the request and @jangorecki and @MichaelChirico for the PRs.
+1. `nafill()`, `setnafill()` extended to work on logical vectors (part of [#3992](https://github.com/Rdatatable/data.table/issues/3992)). Thanks @jangorecki for the request and @MichaelChirico for the PR.
 
-2. `[,showProgress=]` and `options(datatable.showProgress)` now accept an integer to control the progress bar update interval in seconds, allowing finer control over progress reporting frequency; `TRUE` uses the default 3-second interval, [#6514](https://github.com/Rdatatable/data.table/issues/6514). Thanks @ethanbsmith for the report and @ben-schwen for the PR.
+### Notes
 
-3. GForce and lapply optimization detection has been refactored to use modular optimization paths and an AST (Abstract Syntax Tree) walker for improved maintainability and extensibility. The new architecture separates optimization detection into distinct, composable phases. This makes future optimization enhancements a lot easier. Thanks to @grantmcdermott, @jangorecki, @MichaelChirico, and @HughParsonage for the suggestions and @ben-schwen for the implementation.
+1. {data.table} now depends on R 3.5.0 (2018).
 
-    This rewrite also introduces several new optimizations:
-      - Enables Map in addition to lapply optimizations (e.g., `Map(fun, .SD)` -> `list(fun(col1), fun(col2), ...)`) [#5336](https://github.com/Rdatatable/data.table/issues/5336)
-      - lapply optimization works without .SD (e.g., `lapply(list(col1, col2), fun)` -> `list(fun(col1), fun(col2))` [#5032](https://github.com/Rdatatable/data.table/issues/5032)
-      - Type conversion support in GForce expressions (e.g., `sum(as.numeric(x))` will use GForce, saving the need to coerce `x` in a setup step) [#2934](https://github.com/Rdatatable/data.table/issues/2934)
-      - Arithmetic operation support in GForce (e.g., `max(x) - min(x)` will use GForce on both `max(x)` and `min(x)`, saving the need to do the subtraction in a follow-up step) [#3815](https://github.com/Rdatatable/data.table/issues/3815)
+2. pydatatable compatibility layer in `fread()` and `fwrite()` has been removed, [#7069](https://github.com/Rdatatable/data.table/issues/7069). Thanks @badasahog for the report and the PR.
+
+3. Vignettes are now built using `litedown` instead of `knitr`, [#6394](https://github.com/Rdatatable/data.table/issues/6394). Thanks @jangorecki for the suggestion and @ben-schwen and @aitap for the implementation.
 
 ### BUG FIXES
 
@@ -34,28 +32,6 @@
 
 3. `fread("file://...")` works for file URIs with spaces, [#7550](https://github.com/Rdatatable/data.table/issues/7550). Thanks @aitap for the report and @MichaelChirico for the PR.
 
-4. `sum(<int64 column>)` by group is correct with missing entries and GForce activated ([#7571](https://github.com/Rdatatable/data.table/issues/7571)). Thanks to @rweberc for the report and @manmita for the fix. The issue was caused by a faulty early `break` that spilled between groups, and resulted in silently incorrect results!
-
-5. `fread(text=)` could segfault when reading text input ending with a `\x1a` (ASCII SUB) character after a long line, [#7407](https://github.com/Rdatatable/data.table/issues/7407) which is solved by adding check for eof. Thanks @aitap for the report and @manmita for the fix.
-
-6. `rowwiseDT()` now provides a helpful error message when a complex object that is not a list (e.g., a function) is provided as a cell value, instructing the user to wrap it in `list()`, [#7219](https://github.com/Rdatatable/data.table/issues/7219). Thanks @kylebutts for the report and @venom1204 for the fix.
-
-7. Fixed compilation failure like "error: unknown type name 'siginfo_t'" in v1.18.0 in some strict environments, e.g., FreeBSD, where the header file declaring the POSIX function `waitid` does not transitively include the header file defining the `siginfo_t` type, [#7516](https://github.com/rdatatable/data.table/issues/7516). Thanks to @jszhao for the report and @aitap for the fix.
-
-8. When fixing duplicate factor levels, `setattr()` no longer crashes upon encountering missing factor values, [#7595](https://github.com/Rdatatable/data.table/issues/7595). Thanks to @sindribaldur for the report and @aitap for the fix.
-
-### Notes
-
-1. {data.table} now depends on R 3.5.0 (2018).
-
-2. pydatatable compatibility layer in `fread()` and `fwrite()` has been removed, [#7069](https://github.com/Rdatatable/data.table/issues/7069). Thanks @badasahog for the report and the PR.
-
-3. Vignettes are now built using `litedown` instead of `knitr`, [#6394](https://github.com/Rdatatable/data.table/issues/6394). Thanks @jangorecki for the suggestion and @ben-schwen and @aitap for the implementation.
-
-4. Removed use of non-API `ATTRIB`, `SET_ATTRIB`, and `findVar` [#6180](https://github.com/Rdatatable/data.table/issues/6180). Thanks @aitap for the continued assiduous work here, and @MichaelChirico for the easy fix to replace `findVar` with `R_getVar`.
-
-5. The data.table test suite is a bit more robust to lacking UTF-8 support via a new `requires_utf8` argument to `test()` to skip tests when UTF-8 support is not available, [#7336](https://github.com/Rdatatable/data.table/issues/7336). Thanks @MichaelChirico for the suggestion and @ben-schwen for the implementation.
-
 ## data.table [v1.18.0](https://github.com/Rdatatable/data.table/milestone/37?closed=1)  23 December 2025
 
 ### BREAKING CHANGE
diff --git a/R/as.data.table.R b/R/as.data.table.R
index 1894235462..5b4dea6975 100644
--- a/R/as.data.table.R
+++ b/R/as.data.table.R
@@ -89,10 +89,10 @@ as.data.table.array = function(x, keep.rownames=FALSE, key=NULL, sorted=TRUE, va
     stopf("as.data.table.array method should only be called for arrays with 3+ dimensions; use the matrix method for 2-dimensional arrays")
   if (!is.character(value.name) || length(value.name)!=1L || is.na(value.name) || !nzchar(value.name))
     stopf("Argument 'value.name' must be scalar character, non-NA and at least one character")
-  if (!isTRUEorFALSE(sorted))
-    stopf("'%s' must be TRUE or FALSE", "sorted")
-  if (!isTRUEorFALSE(na.rm))
-    stopf("'%s' must be TRUE or FALSE", "na.rm")
+  if (!is.logical(sorted) || length(sorted)!=1L || is.na(sorted))
+    stopf("Argument 'sorted' must be scalar logical and non-NA")
+  if (!is.logical(na.rm) || length(na.rm)!=1L || is.na(na.rm))
+    stopf("Argument 'na.rm' must be scalar logical and non-NA")
   if (!missing(sorted) && !is.null(key))
     stopf("Please provide either 'key' or 'sorted', but not both.")
 
diff --git a/R/data.table.R b/R/data.table.R
index 67f22805ee..1d4a147def 100644
--- a/R/data.table.R
+++ b/R/data.table.R
@@ -299,7 +299,7 @@ replace_dot_alias = function(e) {
   if ((isTRUE(which)||is.na(which)) && !missing(j)) stopf("which==%s (meaning return row numbers) but j is also supplied. Either you need row numbers or the result of j, but only one type of result can be returned.", which)
   if (is.null(nomatch) && is.na(which)) stopf("which=NA with nomatch=0|NULL would always return an empty vector. Please change or remove either which or nomatch.")
   if (!with && missing(j)) stopf("j must be provided when with=FALSE")
-  if (!missing(by) && !(isTRUEorFALSE(showProgress) || (is.numeric(showProgress) && length(showProgress)==1L && showProgress >= 0))) stopf("showProgress must be TRUE, FALSE, or a single non-negative number") # nocov
+  if (!missing(by) && !isTRUEorFALSE(showProgress)) stopf("%s must be TRUE or FALSE", "showProgress")
   irows = NULL  # Meaning all rows. We avoid creating 1:nrow(x) for efficiency.
   notjoin = FALSE
   rightcols = leftcols = integer()
@@ -1584,8 +1584,8 @@ replace_dot_alias = function(e) {
   ###########################################################################
 
   o__ = integer()
-  if (".N" %chin% ansvars) stopf("The column '.%1$s' can't be grouped because it conflicts with the special .%1$s variable. Try setnames(DT,'.%1$s','%1$s') first.", "N")
-  if (".I" %chin% ansvars) stopf("The column '.%1$s' can't be grouped because it conflicts with the special .%1$s variable. Try setnames(DT,'.%1$s','%1$s') first.", "I")
+  if (".N" %chin% ansvars) stopf("The column '.N' can't be grouped because it conflicts with the special .N variable. Try setnames(DT,'.N','N') first.")
+  if (".I" %chin% ansvars) stopf("The column '.I' can't be grouped because it conflicts with the special .I variable. Try setnames(DT,'.I','I') first.")
   SDenv$.iSD = NULL  # null.data.table()
   SDenv$.xSD = NULL  # null.data.table() - introducing for FR #2693 and Gabor's post on fixing for FAQ 2.8
 
@@ -1724,11 +1724,253 @@ replace_dot_alias = function(e) {
   SDenv$.NGRP = length(f__)
   lockBinding(".NGRP", SDenv)
 
-  # Determine GForce-optimized query
-  gforce_result = .attempt_optimize(jsub, jvnames, sdvars, SDenv, verbose, i, byjoin, f__, ansvars, use.I, lhs, names_x, parent.frame())
-  GForce = gforce_result$GForce
-  jsub = gforce_result$jsub
-  jvnames = gforce_result$jvnames
+  GForce = FALSE
+  if ( getOption("datatable.optimize")>=1L && (is.call(jsub) || (is.name(jsub) && jsub %chin% c(".SD", ".N"))) ) {  # Ability to turn off if problems or to benchmark the benefit
+    # Optimization to reduce overhead of calling lapply over and over for each group
+    oldjsub = jsub
+    funi = 1L # Fix for #985
+    # converted the lapply(.SD, ...) to a function and used below, easier to implement FR #2722 then.
+    .massageSD = function(jsub) {
+      txt = as.list(jsub)[-1L]
+      if (length(names(txt))>1L) .Call(Csetcharvec, names(txt), 2L, "")  # fixes bug #110
+      fun = txt[[2L]]
+      if (fun %iscall% "function") {
+        # Fix for #2381: added SDenv$.SD to 'eval' to take care of cases like: lapply(.SD, function(x) weighted.mean(x, bla)) where "bla" is a column in DT
+        # http://stackoverflow.com/questions/13441868/data-table-and-stratified-means
+        # adding this does not compromise in speed (that is, not any lesser than without SDenv$.SD)
+        # replaced SDenv$.SD to SDenv to deal with Bug #87 reported by Ricardo (Nice catch!)
+        thisfun = paste0("..FUN", funi) # Fix for #985
+        assign(thisfun,eval(fun, SDenv, SDenv), SDenv)  # to avoid creating function() for each column of .SD
+        lockBinding(thisfun,SDenv)
+        txt[[1L]] = as.name(thisfun)
+      } else {
+        if (is.character(fun)) fun = as.name(fun)
+        txt[[1L]] = fun
+      }
+      ans = vector("list", length(sdvars)+1L)
+      ans[[1L]] = as.name("list")
+      for (ii in seq_along(sdvars)) {
+        txt[[2L]] = as.name(sdvars[ii])
+        ans[[ii+1L]] = as.call(txt)
+      }
+      jsub = as.call(ans)  # important no names here
+      jvnames = sdvars      # but here instead
+      list(jsub, jvnames)
+      # It may seem inefficient to construct a potentially long expression. But, consider calling
+      # lapply 100000 times. The C code inside lapply does the LCONS stuff anyway, every time it
+      # is called, involving small memory allocations.
+      # The R level lapply calls as.list which needs a shallow copy.
+      # lapply also does a setAttib of names (duplicating the same names over and over again
+      # for each group) which is terrible for our needs. We replace all that with a
+      # (ok, long, but not huge in memory terms) list() which is primitive (so avoids symbol
+      # lookup), and the eval() inside dogroups hardly has to do anything. All this results in
+      # overhead minimised. We don't need to worry about the env passed to the eval in a possible
+      # lapply replacement, or how to pass ... efficiently to it.
+      # Plus we optimize lapply first, so that mean() can be optimized too as well, next.
+    }
+    if (is.name(jsub)) {
+      if (jsub == ".SD") {
+        jsub = as.call(c(quote(list), lapply(sdvars, as.name)))
+        jvnames = sdvars
+      }
+    } else if (is.name(jsub[[1L]])) {  # Else expect problems with <jsub[[1L]] == >
+      # g[[ only applies to atomic input, for now, was causing #4159. be sure to eval with enclos=parent.frame() for #4612
+      subopt = length(jsub) == 3L &&
+        (jsub %iscall% "[" ||
+           (jsub %iscall% "[[" && is.name(jsub[[2L]]) && eval(call('is.atomic', jsub[[2L]]), x, parent.frame()))) &&
+        (is.numeric(jsub[[3L]]) || jsub[[3L]] == ".N")
+      headopt = jsub %iscall% c("head", "tail")
+      firstopt = jsub %iscall% c("first", "last") # fix for #2030
+      if ((length(jsub) >= 2L && jsub[[2L]] == ".SD") &&
+          (subopt || headopt || firstopt)) {
+        if (headopt && length(jsub)==2L) jsub[["n"]] = 6L # head-tail n=6 when missing #3462
+        # optimise .SD[1] or .SD[2L]. Not sure how to test .SD[a] as to whether a is numeric/integer or a data.table, yet.
+        jsub = as.call(c(quote(list), lapply(sdvars, function(x) { jsub[[2L]] = as.name(x); jsub })))
+        jvnames = sdvars
+      } else if (jsub %iscall% "lapply" && jsub[[2L]]==".SD" && length(xcols)) {
+        deparse_ans = .massageSD(jsub)
+        jsub = deparse_ans[[1L]]
+        jvnames = deparse_ans[[2L]]
+      } else if (jsub %iscall% "c" && length(jsub) > 1L) {
+        # TODO, TO DO: raise the checks for 'jvnames' earlier (where jvnames is set by checking 'jsub') and set 'jvnames' already.
+        # FR #2722 is just about optimisation of j=c(.N, lapply(.SD, .)) that is taken care of here.
+        # FR #735 tries to optimise j-expressions of the form c(...) as long as ... contains
+        # 1) lapply(.SD, ...), 2) simply .SD or .SD[..], 3) .N, 4) list(...) and 5) functions that normally return a single value*
+        # On 5)* the IMPORTANT point to note is that things that are not wrapped within "list(...)" should *always*
+        # return length 1 output for us to optimise. Else, there's no equivalent to optimising c(...) to list(...) AFAICT.
+        # One issue could be that these functions (e.g., mean) can be "re-defined" by the OP to produce a length > 1 output
+        # Of course this is worrying too much though. If the issue comes up, we'll just remove the relevant optimisations.
+        # For now, we optimise all functions mentioned in 'optfuns' below.
+        optfuns = c("max", "min", "mean", "length", "sum", "median", "sd", "var")
+        is_valid = TRUE
+        any_SD = FALSE
+        jsubl = as.list.default(jsub)
+        oldjvnames = jvnames
+        jvnames = NULL           # TODO: not let jvnames grow, maybe use (number of lapply(.SD, .))*length(sdvars) + other jvars ?? not straightforward.
+        # Fix for #744. Don't use 'i' in for-loops. It masks the 'i' from the input!!
+        for (i_ in 2L:length(jsubl)) {
+          this = jsub[[i_]]
+          if (is.name(this)) {  # no need to check length(this)==1L; is.name() returns single TRUE or FALSE (documented); can't have a vector of names
+            if (this == ".SD") { # optimise '.SD' alone
+              any_SD = TRUE
+              jsubl[[i_]] = lapply(sdvars, as.name)
+              jvnames = c(jvnames, sdvars)
+            } else if (this == ".N") {
+              # don't optimise .I in c(.SD, .I), it's length can be > 1
+              # only c(.SD, list(.I)) should be optimised!! .N is always length 1.
+              jvnames = c(jvnames, gsub("^[.]([N])$", "\\1", this))
+            } else {
+              # jvnames = c(jvnames, if (is.null(names(jsubl))) "" else names(jsubl)[i_])
+              is_valid=FALSE
+              break
+            }
+          } else if (is.call(this)) {
+            if (this[[1L]] == "lapply" && this[[2L]] == ".SD" && length(xcols)) {
+              any_SD = TRUE
+              deparse_ans = .massageSD(this)
+              funi = funi + 1L # Fix for #985
+              jsubl[[i_]] = as.list(deparse_ans[[1L]][-1L]) # just keep the '.' from list(.)
+              jn__ = deparse_ans[[2L]]
+              if (isTRUE(nzchar(names(jsubl)[i_]))) {
+                # Fix for #2311, prepend named arguments of c() to column names of .SD
+                #   e.g. c(mean=lapply(.SD, mean))
+                jn__ = paste(names(jsubl)[i_], jn__, sep=".") # sep="." for consistency with c(A=list(a=1,b=1))
+              }
+              jvnames = c(jvnames, jn__)
+            } else if (this[[1L]] == "list") {
+              # also handle c(lapply(.SD, sum), list()) - silly, yes, but can happen
+              if (length(this) > 1L) {
+                jl__ = as.list(jsubl[[i_]])[-1L] # just keep the '.' from list(.)
+                if (isTRUE(nzchar(names(jsubl)[i_]))) {
+                  # Fix for #2311, prepend named list arguments of c() to that list's names. See tests 2283.*
+                  njl__ = names(jl__) %||% rep("", length(jl__))
+                  njl__nonblank = nzchar(names(jl__))
+                  if (length(jl__) > 1L) {
+                    jn__ = paste0(names(jsubl)[i_], seq_along(jl__))
+                  } else {
+                    jn__ = names(jsubl)[i_]
+                  }
+                  jn__[njl__nonblank] = paste(names(jsubl)[i_], njl__[njl__nonblank], sep=".")
+                } else {
+                  jn__ = names(jl__) %||% rep("", length(jl__))
+                }
+                idx  = unlist(lapply(jl__, function(x) is.name(x) && x == ".I"))
+                if (any(idx))
+                  jn__[idx & !nzchar(jn__)] = "I"  # this & is correct not &&
+                jvnames = c(jvnames, jn__)
+                jsubl[[i_]] = jl__
+              }
+            } else if (this %iscall% optfuns && length(this)>1L) {
+              jvnames = c(jvnames, if (is.null(names(jsubl))) "" else names(jsubl)[i_])
+            } else if ( length(this) == 3L && (this[[1L]] == "[" || this[[1L]] == "head") &&
+                    this[[2L]] == ".SD" && (is.numeric(this[[3L]]) || this[[3L]] == ".N") ) {
+              # optimise .SD[1] or .SD[2L]. Not sure how to test .SD[a] as to whether a is numeric/integer or a data.table, yet.
+              any_SD = TRUE
+              jsubl[[i_]] = lapply(sdvars, function(x) { this[[2L]] = as.name(x); this })
+              jvnames = c(jvnames, sdvars)
+            } else if (any(all.vars(this) == ".SD")) {
+              # TODO, TO DO: revisit complex cases (as illustrated below)
+              # complex cases like DT[, c(.SD[x>1], .SD[J(.)], c(.SD), a + .SD, lapply(.SD, sum)), by=grp]
+              # hard to optimise such cases (+ difficulty in counting exact columns and therefore names). revert back to no optimisation.
+              is_valid=FALSE
+              break
+            } else { # just to be sure that any other case (I've overlooked) runs smoothly, without optimisation
+              # TO DO, TODO: maybe a message/warning here so that we can catch the overlooked cases, if any?
+              is_valid=FALSE
+              break
+            }
+          } else {
+            is_valid = FALSE
+            break
+          }
+        }
+        if (!is_valid || !any_SD) { # restore if c(...) doesn't contain lapply(.SD, ..) or if it's just invalid
+          jvnames = oldjvnames           # reset jvnames
+          jsub = oldjsub                 # reset jsub
+          jsubl = as.list.default(jsubl) # reset jsubl
+        } else {
+          setattr(jsubl, 'names', NULL)
+          jsub = as.call(unlist(jsubl, use.names=FALSE))
+          jsub[[1L]] = quote(list)
+        }
+      }
+    }
+    if (verbose) {
+      if (!identical(oldjsub, jsub))
+        catf("lapply optimization changed j from '%s' to '%s'\n", deparse(oldjsub), deparse(jsub,width.cutoff=200L, nlines=1L))
+      else
+        catf("lapply optimization is on, j unchanged as '%s'\n", deparse(jsub,width.cutoff=200L, nlines=1L))
+    }
+    # FR #971, GForce kicks in on all subsets, no joins yet. Although joins could work with
+    # nomatch=NULL even now.. but not switching it on yet, will deal it separately.
+    if (getOption("datatable.optimize")>=2L && !is.data.table(i) && !byjoin && length(f__)) {
+      if (!length(ansvars) && !use.I) {
+        GForce = FALSE
+        if ( ((is.name(jsub) && jsub==".N") || (jsub %iscall% 'list' && length(jsub)==2L && jsub[[2L]]==".N")) && !length(lhs) ) {
+          GForce = TRUE
+          if (verbose) catf("GForce optimized j to '%s' (see ?GForce)\n",deparse(jsub, width.cutoff=200L, nlines=1L))
+        }
+      } else if (length(lhs) && is.symbol(jsub)) { # turn off GForce for the combination of := and .N
+        GForce = FALSE
+      } else {
+        # Apply GForce
+        if (jsub %iscall% "list") {
+          GForce = TRUE
+          for (ii in seq.int(from=2L, length.out=length(jsub)-1L)) {
+            if (!.gforce_ok(jsub[[ii]], SDenv$.SDall)) {GForce = FALSE; break}
+          }
+        } else
+          GForce = .gforce_ok(jsub, SDenv$.SDall)
+        if (GForce) {
+          if (jsub %iscall% "list")
+            for (ii in seq_along(jsub)[-1L]) {
+              if (is.N(jsub[[ii]])) next; # For #334
+              jsub[[ii]] = .gforce_jsub(jsub[[ii]], names_x)
+            }
+          else {
+            # adding argument to ghead/gtail if none is supplied to g-optimized head/tail
+            if (length(jsub) == 2L && jsub %iscall% c("head", "tail")) jsub[["n"]] = 6L
+            jsub = .gforce_jsub(jsub, names_x)
+          }
+          if (verbose) catf("GForce optimized j to '%s' (see ?GForce)\n", deparse(jsub, width.cutoff=200L, nlines=1L))
+        } else if (verbose) catf("GForce is on, but not activated for this query; left j unchanged (see ?GForce)\n");
+      }
+    }
+    if (!GForce && !is.name(jsub)) {
+      # Still do the old speedup for mean, for now
+      nomeanopt=FALSE  # to be set by .optmean() using <<- inside it
+      oldjsub = jsub
+      if (jsub %iscall% "list") {
+        # Addressing #1369, #2949 and #1974. This used to be 30s (vs 0.5s) with 30K elements items in j, #1470. Could have been is.N() and/or the for-looped if()
+        # jsub[[1]]=="list" so the first item of todo will always be FALSE
+        todo = sapply(jsub, `%iscall%`, 'mean')
+        if (any(todo)) {
+          w = which(todo)
+          jsub[w] = lapply(jsub[w], .optmean)
+        }
+      } else if (jsub %iscall% "mean") {
+        jsub = .optmean(jsub)
+      }
+      if (nomeanopt) {
+        warningf("Unable to optimize call to mean() and could be very slow. You must name 'na.rm' like that otherwise if you do mean(x,TRUE) the TRUE is taken to mean 'trim' which is the 2nd argument of mean. 'trim' is not yet optimized.", immediate.=TRUE)
+      }
+      if (verbose) {
+        if (!identical(oldjsub, jsub))
+          catf("Old mean optimization changed j from '%s' to '%s'\n", deparse(oldjsub), deparse(jsub, width.cutoff=200L, nlines=1L))
+        else
+          catf("Old mean optimization is on, left j unchanged.\n")
+      }
+      assign("Cfastmean", Cfastmean, SDenv)
+      # Old comments still here for now ...
+      # Here in case nomeanopt=TRUE or some calls to mean weren't detected somehow. Better but still slow.
+      # Maybe change to :
+      #     assign("mean", fastmean, SDenv)  # neater than the hard work above, but slower
+      # when fastmean can do trim.
+    }
+  } else if (verbose) {
+    if (getOption("datatable.optimize")<1L) catf("All optimizations are turned off\n")
+    else catf("Optimization is on but left j unchanged (single plain symbol): '%s'\n", deparse(jsub, width.cutoff=200L, nlines=1L))
+  }
   if (byjoin) {
     groups = i
     grpcols = leftcols # 'leftcols' are the columns in i involved in the join (either head of key(i) or head along i)
@@ -1805,7 +2047,7 @@ replace_dot_alias = function(e) {
     }
     ans = c(g, ans)
   } else {
-    ans = .Call(Cdogroups, x, xcols, groups, grpcols, jiscols, xjiscols, grporder, o__, f__, len__, jsub, SDenv, cols, newnames, !missing(on), verbose, as.integer(showProgress))
+    ans = .Call(Cdogroups, x, xcols, groups, grpcols, jiscols, xjiscols, grporder, o__, f__, len__, jsub, SDenv, cols, newnames, !missing(on), verbose, showProgress)
   }
   # unlock any locked data.table components of the answer, #4159
   # MAX_DEPTH prevents possible infinite recursion from truly recursive object, #4173
@@ -2363,7 +2605,7 @@ Ops.data.table = function(e1, e2 = NULL)
 }
 
 split.data.table = function(x, f, drop = FALSE, by, sorted = FALSE, keep.by = TRUE, flatten = TRUE, ..., verbose = getOption("datatable.verbose")) {
-  if (!is.data.table(x)) internal_error("'%s' argument to split.data.table must be a data.table") # nocov
+  if (!is.data.table(x)) internal_error("x argument to split.data.table must be a data.table") # nocov
   stopifnot(is.logical(drop), is.logical(sorted), is.logical(keep.by),  is.logical(flatten))
   # split data.frame way, using `f` and not `by` argument
   if (!missing(f)) {
@@ -2943,10 +3185,10 @@ rowid = function(..., prefix=NULL) {
 
 rowidv = function(x, cols=seq_along(x), prefix=NULL) {
   if (!is.null(prefix) && (!is.character(prefix) || length(prefix) != 1L))
-    stopf("'prefix' must be NULL or a character vector of length 1")
+    stopf("'prefix' must be NULL or a character vector of length 1.")
   if (is.atomic(x)) {
     if (!missing(cols) && !is.null(cols))
-      stopf("x is a single vector, non-NULL 'cols' doesn't make sense")
+      stopf("x is a single vector, non-NULL 'cols' doesn't make sense.")
     cols = 1L
     x = as_list(x)
   } else if (!length(cols)) {
@@ -2968,10 +3210,10 @@ rleid = function(..., prefix=NULL) {
 
 rleidv = function(x, cols=seq_along(x), prefix=NULL) {
   if (!is.null(prefix) && (!is.character(prefix) || length(prefix) != 1L))
-    stopf("'prefix' must be NULL or a character vector of length 1")
+    stopf("'prefix' must be NULL or a character vector of length 1.")
   if (is.atomic(x)) {
     if (!missing(cols) && !is.null(cols))
-      stopf("x is a single vector, non-NULL 'cols' doesn't make sense")
+      stopf("x is a single vector, non-NULL 'cols' doesn't make sense.")
     cols = 1L
     x = as_list(x)
   } else if (!length(cols)) {
@@ -3072,25 +3314,22 @@ is_constantish = function(q, check_singleton=FALSE) {
   length(q) == 3L &&
     is_constantish(q[[3L]], check_singleton = TRUE)
 }
-`.g[_ok` = function(q, x, envir=parent.frame(3L)) {
+`.g[_ok` = function(q, x) {
   length(q) == 3L &&
     is_constantish(q[[3L]], check_singleton = TRUE) &&
     (q[[1L]] != "[[" || eval(call('is.atomic', q[[2L]]), envir=x)) &&
-    !(as.character(q[[3L]]) %chin% names(x)) && is.numeric(q3 <- eval(q[[3L]], envir)) && length(q3)==1L && q3>0L
+    !(as.character(q[[3L]]) %chin% names(x)) && is.numeric(q3 <- eval(q[[3L]], parent.frame(3L))) && length(q3)==1L && q3>0L
 }
 .gweighted.mean_ok = function(q, x) { #3977
   q = match.call(gweighted.mean, q)
   is_constantish(q[["na.rm"]]) &&
-    !(is.symbol(q[["na.rm"]]) && q[["na.rm"]] %chin% names(x)) &&
     (is.null(q[["w"]]) || eval(call('is.numeric', q[["w"]]), envir=x))
 }
 # run GForce for simple f(x) calls and f(x, na.rm = TRUE)-like calls where x is a column of .SD
 .get_gcall = function(q) {
   if (!is.call(q)) return(NULL)
-  if (length(q) < 2L) return(NULL) # e.g. list()
   # is.symbol() is for #1369, #1974 and #2949
-  if (!is.symbol(q[[2L]]) && !is.call(q[[2L]])) return(NULL)
-  if (is.call(q[[2L]]) && !.is_type_conversion(q[[2L]])) return(NULL)
+  if (!is.symbol(q[[2L]])) return(NULL)
   q1 = q[[1L]]
   if (is.symbol(q1)) return(if (q1 %chin% gfuns) q1)
   if (!q1 %iscall% "::") return(NULL)
@@ -3103,79 +3342,31 @@ is_constantish = function(q, check_singleton=FALSE) {
 #   is robust to unnamed expr. Note that NA names are not possible here.
 .arg_is_narm = function(expr, which=3L) !is.null(nm <- names(expr)[which]) && startsWith(nm, "na")
 
-.is_type_conversion = function(expr) {
-  is.call(expr) && is.symbol(expr[[1L]]) && expr[[1L]] %chin%
-    c("as.numeric", "as.double", "as.integer", "as.character", "as.integer64",
-      "as.complex", "as.logical", "as.Date", "as.POSIXct", "as.factor")
-}
-
-.gforce_ops = c("+", "-", "*", "/", "^", "%%", "%/%")
-
-.unwrap_conversions = function(expr) {
-  while (.is_type_conversion(expr) && length(expr) >= 2L) expr = expr[[2L]]
-  expr
-}
-
-.gforce_ok = function(q, x, envir=parent.frame(2L)) {
+.gforce_ok = function(q, x) {
   if (is.N(q)) return(TRUE) # For #334
-  if (!is.call(q)) return(is.numeric(q)) # plain columns are not gforce-able since they might not aggregate (see test 104.1)
-  if (q %iscall% "(") return(.gforce_ok(q[[2L]], x, envir))
-
   q1 = .get_gcall(q)
-  if (!is.null(q1)) {
-    q2 = .unwrap_conversions(q[[2L]])
-    if (!is.symbol(q2) || (!q2 %chin% names(x) && q2 != ".I")) return(FALSE)
-    if (length(q)==2L || (.arg_is_narm(q) && is_constantish(q[[3L]]) &&
-        !(is.symbol(q[[3L]]) && q[[3L]] %chin% names(x)))) return(TRUE)
-    return(switch(as.character(q1),
-      "shift" = .gshift_ok(q),
-      "weighted.mean" = .gweighted.mean_ok(q, x),
-      "tail" = , "head" = .ghead_ok(q),
-      "[[" = , "[" = `.g[_ok`(q, x, envir),
-      FALSE
-    ))
-  }
-
-  # check if arithmetic operator -> recursively validate ALL branches (like in AST)
-  if (is.symbol(q[[1L]]) && q[[1L]] %chin% .gforce_ops) {
-    for (i in 2:length(q)) {
-      if (!.gforce_ok(q[[i]], x, envir)) return(FALSE)
-    }
-    return(TRUE)
-  }
-
-  FALSE
+  if (is.null(q1)) return(FALSE)
+  if (!(q2 <- q[[2L]]) %chin% names(x) && q2 != ".I") return(FALSE)  # 875
+  if (length(q)==2L || (.arg_is_narm(q) && is_constantish(q[[3L]]))) return(TRUE)
+  switch(as.character(q1),
+    "shift" = .gshift_ok(q),
+    "weighted.mean" = .gweighted.mean_ok(q, x),
+    "tail" = , "head" = .ghead_ok(q),
+    "[[" = , "[" = `.g[_ok`(q, x),
+    FALSE
+  )
 }
 
-.gforce_jsub = function(q, names_x, envir=parent.frame(2L)) {
-  if (!is.call(q)) return(q)
-  if (q %iscall% "(") {
-    q[[2L]] = .gforce_jsub(q[[2L]], names_x, envir)
-    return(q)
-  }
-
-  q1 = .get_gcall(q)
-  if (!is.null(q1)) {
-    call_name = if (is.symbol(q[[1L]])) q[[1L]] else q[[1L]][[3L]] # latter is like data.table::shift, #5942. .gshift_ok checked this will work.
-    q[[1L]] = as.name(paste0("g", call_name))
-    # gforce needs to evaluate arguments before calling C part TODO: move the evaluation into gforce_ok
-    # do not evaluate vars present as columns in x
-    if (length(q) >= 3L) {
-      for (i in 3:length(q)) {
-        if (is.symbol(q[[i]]) && !(q[[i]] %chin% names_x)) q[[i]] = eval(q[[i]], envir) # tests 1187.2 & 1187.4
-      }
-    }
-    return(q)
-  }
-
-  # if arithmetic operator, recursively substitute its operands. we know what branches are valid from .gforce_ok
-  if (is.symbol(q[[1L]]) && q[[1L]] %chin% .gforce_ops) {
-    for (i in 2:length(q)) {
-      q[[i]] = .gforce_jsub(q[[i]], names_x, envir)
+.gforce_jsub = function(q, names_x) {
+  call_name = if (is.symbol(q[[1L]])) q[[1L]] else q[[1L]][[3L]] # latter is like data.table::shift, #5942. .gshift_ok checked this will work.
+  q[[1L]] = as.name(paste0("g", call_name))
+  # gforce needs to evaluate arguments before calling C part TODO: move the evaluation into gforce_ok
+  # do not evaluate vars present as columns in x
+  if (length(q) >= 3L) {
+    for (i in 3:length(q)) {
+      if (is.symbol(q[[i]]) && !(q[[i]] %chin% names_x)) q[[i]] = eval(q[[i]], parent.frame(2L)) # tests 1187.2 & 1187.4
     }
-    return(q)
   }
-  # should not reach here since .gforce_ok
   q
 }
 
diff --git a/R/duplicated.R b/R/duplicated.R
index 5e06007e0f..e1a04c9822 100644
--- a/R/duplicated.R
+++ b/R/duplicated.R
@@ -4,7 +4,7 @@ duplicated.data.table = function(x, incomparables=FALSE, fromLast=FALSE, by=seq_
     .NotYetUsed("incomparables != FALSE")
   }
   if (nrow(x) == 0L || ncol(x) == 0L) return(logical(0L)) # fix for bug #28
-  if (is.na(fromLast) || !is.logical(fromLast)) stopf("'%s' must be TRUE or FALSE", "fromLast")
+  if (is.na(fromLast) || !is.logical(fromLast)) stopf("'fromLast' must be TRUE or FALSE")
   if (!length(by)) by = NULL  #4594
   query = .duplicated.helper(x, by)
 
diff --git a/R/fcast.R b/R/fcast.R
index 1bcc2916fb..35ab4eaae8 100644
--- a/R/fcast.R
+++ b/R/fcast.R
@@ -122,15 +122,13 @@ aggregate_funs = function(funs, vals, sep="_", ...) {
 }
 
 dcast.data.table = function(data, formula, fun.aggregate = NULL, sep = "_", ..., margins = NULL, subset = NULL, fill = NULL, drop = TRUE, value.var = guess(data), verbose = getOption("datatable.verbose"), value.var.in.dots = FALSE, value.var.in.LHSdots = value.var.in.dots, value.var.in.RHSdots = value.var.in.dots) {
-  if (!is.data.table(data)) stopf("'%s' must be a data.table", "data")
+  if (!is.data.table(data)) stopf("'data' must be a data.table.")
   drop = as.logical(rep_len(drop, 2L))
-  if (anyNA(drop)) stopf("'drop' must be logical vector with no missing entries")
+  if (anyNA(drop)) stopf("'drop' must be logical TRUE/FALSE")
   if (!isTRUEorFALSE(value.var.in.dots))
-    stopf("'%s' must be TRUE or FALSE", "value.var.in.dots")
-  if (!isTRUEorFALSE(value.var.in.LHSdots))
-    stopf("'%s' must be TRUE or FALSE", "value.var.in.LHSdots")
-  if (!isTRUEorFALSE(value.var.in.RHSdots))
-    stopf("'%s' must be TRUE or FALSE", "value.var.in.RHSdots")
+    stopf("Argument 'value.var.in.dots' should be logical TRUE/FALSE")
+  if (!isTRUEorFALSE(value.var.in.LHSdots) || !isTRUEorFALSE(value.var.in.RHSdots))
+    stopf("Arguments 'value.var.in.LHSdots', 'value.var.in.RHSdots' should be logical TRUE/FALSE")
   # #2980 if explicitly providing fun.aggregate=length but not a value.var,
   #   just use the last column (as guess(data) would do) because length will be
   #   the same on all columns
diff --git a/R/fmelt.R b/R/fmelt.R
index e0596f73fc..c6f435578b 100644
--- a/R/fmelt.R
+++ b/R/fmelt.R
@@ -181,7 +181,7 @@ measurev = function(fun.list, sep="_", pattern, cols, multiple.keyword="value.na
 melt.data.table = function(data, id.vars, measure.vars, variable.name = "variable",
        value.name = "value", ..., na.rm = FALSE, variable.factor = TRUE, value.factor = FALSE,
        verbose = getOption("datatable.verbose")) {
-  if (!is.data.table(data)) stopf("'%s' must be a data.table", "data")
+  if (!is.data.table(data)) stopf("'data' must be a data.table")
   for(type.vars in c("id.vars","measure.vars")){
     sub.lang <- substitute({
       if (missing(VAR)) VAR=NULL
diff --git a/R/foverlaps.R b/R/foverlaps.R
index 8c3d4be777..7bbaf0dc13 100644
--- a/R/foverlaps.R
+++ b/R/foverlaps.R
@@ -9,8 +9,8 @@ foverlaps = function(x, y, by.x=key(x) %||% key(y), by.y=key(y), maxgap=0L, mino
     stopf("maxgap must be a non-negative integer value of length 1")
   if (!length(minoverlap) || length(minoverlap) != 1L || is.na(minoverlap) || minoverlap < 1L)
     stopf("minoverlap must be a positive integer value of length 1")
-  if (!isTRUEorFALSE(which))
-    stopf("'%s' must be TRUE or FALSE", "which")
+  if (!length(which) || length(which) != 1L || is.na(which))
+    stopf("which must be a logical vector of length 1. Either TRUE/FALSE")
   if (!length(nomatch) || length(nomatch) != 1L || (!is.na(nomatch) && nomatch!=0L))
     stopf("nomatch must either be NA or NULL")
   type = match.arg(type)
@@ -33,9 +33,9 @@ foverlaps = function(x, y, by.x=key(x) %||% key(y), by.y=key(y), maxgap=0L, mino
     by.y = names(y)[by.y]
   }
   if (!is.character(by.x))
-    stopf("A non-empty vector of column names or numbers is required for '%s'", "by.x")
+    stopf("A non-empty vector of column names or numbers is required for by.x")
   if (!is.character(by.y))
-    stopf("A non-empty vector of column names or numbers is required for '%s'", "by.y")
+    stopf("A non-empty vector of column names or numbers is required for by.y")
   if (!identical(by.y, key(y)[seq_along(by.y)]))
     stopf("The first %d columns of y's key must be identical to the columns specified in by.y.", length(by.y))
   if (anyNA(chmatch(by.x, names(x))))
diff --git a/R/frank.R b/R/frank.R
index 63e3be8321..419f5ea414 100644
--- a/R/frank.R
+++ b/R/frank.R
@@ -20,7 +20,7 @@ frankv = function(x, cols=seq_along(x), order=1L, na.last=TRUE, ties.method=c("a
   } else {
     cols = colnamesInt(x, cols, check_dups=TRUE)
     if (!length(cols))
-      stopf("x is a list, 'cols' cannot be 0-length.")
+      stopf("x is a list, 'cols' can not be 0-length")
   }
   # need to unlock for #4429
   x = .shallow(x, cols, unlock = TRUE) # shallow copy even if list..
diff --git a/R/fread.R b/R/fread.R
index bc8509c713..2f397b78e1 100644
--- a/R/fread.R
+++ b/R/fread.R
@@ -182,9 +182,7 @@ yaml=FALSE, tmpdir=tempdir(), tz="UTC")
     call_args = names(match.call())
     if (is.character(skip))
       warningf("Combining a search string as 'skip' and reading a YAML header may not work as expected -- currently, reading will proceed to search for 'skip' from the beginning of the file, NOT from the end of the metadata; please file an issue on GitHub if you'd like to see more intuitive behavior supported.")
-    yaml_res = .read_yaml_header(input, skip, verbose)
-    yaml_header = yaml_res$yaml_header
-    n_read = yaml_res$n_read
+    yaml_header = .read_yaml_header(input, skip, verbose)
     yaml_names = names(yaml_header)
     # process header first since it impacts how to handle colClasses
     if ('header' %chin% yaml_names) {
@@ -389,7 +387,7 @@ yaml=FALSE, tmpdir=tempdir(), tz="UTC")
 
   yaml_header = yaml::yaml.load(yaml_string)
   if (verbose) catf('Processed %d lines of YAML metadata with the following top-level fields: %s\n', n_read, brackify(names(yaml_header)))
-  list(yaml_header = yaml_header, n_read = n_read)
+  yaml_header
 }
 # nocov end.
 
diff --git a/R/frollapply.R b/R/frollapply.R
index 9c1b0c26d7..a8a214ff13 100644
--- a/R/frollapply.R
+++ b/R/frollapply.R
@@ -133,15 +133,15 @@ frollapply = function(X, N, FUN, ..., by.column=TRUE, fill=NA, align=c("right","
     stopf("'n' is deprecated in frollapply, use 'N' instead")
   }
   if (!isTRUEorFALSE(by.column))
-    stopf("'%s' must be TRUE or FALSE", "by.column")
+    stopf("'by.column' must be TRUE or FALSE")
   if (!isTRUEorFALSE(adaptive))
-    stopf("'%s' must be TRUE or FALSE", "adaptive")
+    stopf("'adaptive' must be TRUE or FALSE")
   if (!isTRUEorFALSE(partial))
-    stopf("'%s' must be TRUE or FALSE", "partial")
+    stopf("'partial' must be TRUE or FALSE")
   if (!isTRUEorFALSE(give.names))
-    stopf("'%s' must be TRUE or FALSE", "give.names")
+    stopf("'give.names' must be TRUE or FALSE")
   if (!isTRUEorFALSE(simplify) && !is.function(simplify))
-    stopf("'%s' must be TRUE or FALSE or a function", "simplify")
+    stopf("'simplify' must be TRUE or FALSE or a function")
 
   align = match.arg(align)
   FUN = match.fun(FUN)
diff --git a/R/groupingsets.R b/R/groupingsets.R
index dcdbd842aa..661ac1af09 100644
--- a/R/groupingsets.R
+++ b/R/groupingsets.R
@@ -4,7 +4,7 @@ rollup = function(x, ...) {
 rollup.data.table = function(x, j, by, .SDcols, id = FALSE, label = NULL, ...) {
   # input data type basic validation
   if (!is.data.table(x))
-    stopf("'%s' must be a data.table", "x", class="dt_invalid_input_error")
+    stopf("Argument 'x' must be a data.table object", class="dt_invalid_input_error")
   if (!is.character(by))
     stopf("Argument 'by' must be a character vector of column names used in grouping.")
   if (!is.logical(id))
@@ -22,7 +22,7 @@ cube = function(x, ...) {
 cube.data.table = function(x, j, by, .SDcols, id = FALSE, label = NULL, ...) {
   # input data type basic validation
   if (!is.data.table(x))
-    stopf("'%s' must be a data.table", "x", class="dt_invalid_input_error")
+    stopf("Argument 'x' must be a data.table object", class="dt_invalid_input_error")
   if (!is.character(by))
     stopf("Argument 'by' must be a character vector of column names used in grouping.")
   if (!is.logical(id))
@@ -55,7 +55,7 @@ groupingsets = function(x, ...) {
 groupingsets.data.table = function(x, j, by, sets, .SDcols, id = FALSE, jj, label = NULL, enclos = parent.frame(), ...) {
   # input data type basic validation
   if (!is.data.table(x))
-    stopf("'%s' must be a data.table", "x")
+    stopf("Argument 'x' must be a data.table object")
   if (ncol(x) < 1L)
     stopf("Argument 'x' is a 0-column data.table; no measure to apply grouping over.")
   if (anyDuplicated(names(x)) > 0L)
@@ -158,6 +158,12 @@ groupingsets.data.table = function(x, j, by, sets, .SDcols, id = FALSE, jj, labe
       warningf("For the following variables, the 'label' value was already in the data: %s", brackify(info))
     }
   }
+  # workaround for rbindlist fill=TRUE on integer64 #1459
+  int64.cols = vapply_1b(empty, inherits, "integer64")
+  int64.cols = names(int64.cols)[int64.cols]
+  if (length(int64.cols) && !requireNamespace("bit64", quietly=TRUE))
+    stopf("Using integer64 class columns require to have 'bit64' package installed.") # nocov
+  int64.by.cols = intersect(int64.cols, by)
   # aggregate function called for each grouping set
   # inline all arguments that might clash with enclosing environment
   pcall = substitute(x[, jj], list(x = x, jj = jj))
@@ -171,6 +177,11 @@ groupingsets.data.table = function(x, j, by, sets, .SDcols, id = FALSE, jj, labe
       i_str = paste(c("1", "0")[by %chin% by.set + 1L], collapse="")
       set(r, j = "grouping", value = if (nzchar(i_str)) strtoi(i_str, base=2L) else 0L)
     }
+    if (length(int64.by.cols)) {
+      # workaround for rbindlist fill=TRUE on integer64 #1459
+      missing.int64.by.cols = setdiff(int64.by.cols, by.set)
+      if (length(missing.int64.by.cols)) r[, (missing.int64.by.cols) := bit64::as.integer64(NA)]
+    }
     if (!is.null(label) && length(by.label.use.vars <- intersect(setdiff(by, by.set), names(label.use))) > 0L)
       r[, (by.label.use.vars) := label.use[by.label.use.vars]]
     r
diff --git a/R/helpers.R b/R/helpers.R
index 284a129bb2..213b0c057e 100644
--- a/R/helpers.R
+++ b/R/helpers.R
@@ -3,9 +3,9 @@
 # convert char to factor retaining order #4837
 fctr = function(x, levels=unique(x), ..., sort=FALSE, rev=FALSE) {
   if (!isTRUEorFALSE(sort))
-    stopf("'%s' must be TRUE or FALSE", "sort")
+    stopf("argument 'sort' must be TRUE or FALSE")
   if (!isTRUEorFALSE(rev))
-    stopf("'%s' must be TRUE or FALSE", "rev")
+    stopf("argument 'rev' must be TRUE or FALSE")
   if (sort) levels = sort(levels)
   if (rev) levels = frev(levels)
   factor(x, levels=levels, ...)
diff --git a/R/merge.R b/R/merge.R
index 23156a43d0..2484cd9a0f 100644
--- a/R/merge.R
+++ b/R/merge.R
@@ -1,9 +1,9 @@
 merge.data.table = function(x, y, by = NULL, by.x = NULL, by.y = NULL, all = FALSE, all.x = all,
                all.y = all, sort = TRUE, suffixes = c(".x", ".y"), no.dups = TRUE, allow.cartesian=getOption("datatable.allow.cartesian"), incomparables=NULL, ...) {
-  if (!isTRUEorFALSE(sort))
-    stopf("'%s' must be TRUE or FALSE", "sort")
-  if (!isTRUEorFALSE(no.dups))
-    stopf("'%s' must be TRUE or FALSE", "no.dups")
+  if (!sort %in% c(TRUE, FALSE))
+    stopf("Argument 'sort' should be logical TRUE/FALSE")
+  if (!no.dups %in% c(TRUE, FALSE))
+    stopf("Argument 'no.dups' should be logical TRUE/FALSE")
   class_x = class(x)
   if (!is.data.table(y)) {
     y = as.data.table(y)
diff --git a/R/rowwiseDT.R b/R/rowwiseDT.R
index 1451e58498..81114ead63 100644
--- a/R/rowwiseDT.R
+++ b/R/rowwiseDT.R
@@ -13,14 +13,6 @@ rowwiseDT = function(...) {
   nrows = length(body) %/% ncols
   if (length(body) != nrows * ncols)
     stopf("There are %d columns but the number of cells is %d, which is not an integer multiple of the columns", ncols, length(body))
-  is_problematic = vapply_1b(body, function(v) !(is.atomic(v) || is.null(v) || typeof(v) == "list"))
-  if (any(is_problematic)) {
-    idx = which(is_problematic)[1L]
-    col_idx = (idx - 1L) %% ncols + 1L
-    col_name = header[col_idx]
-    obj_type = class1(body[[idx]])
-    stopf("Column '%s' is type '%s'. Non-atomic, non-list objects must be wrapped in list(), e.g., list(f) instead of f", col_name, obj_type)
-  }
   # make all the non-scalar elements to a list
   needs_list = lengths(body) != 1L
   body[needs_list] = lapply(body[needs_list], list)
diff --git a/R/setkey.R b/R/setkey.R
index afaf06293e..4ba5be4d71 100644
--- a/R/setkey.R
+++ b/R/setkey.R
@@ -32,7 +32,7 @@ setkeyv = function(x, cols, verbose=getOption("datatable.verbose"), physical=TRU
     on.exit(options(oldverbose))
   }
   if (!is.data.table(x)) stopf("x is not a data.table")
-  if (!is.character(cols)) stopf("cols is not a character vector. Please see further information in ?%s.", "setkey")
+  if (!is.character(cols)) stopf("cols is not a character vector. Please see further information in ?setkey.")
   if (physical && .Call(C_islocked, x)) stopf("Setting a physical key on .SD is reserved for possible future use; to modify the original data's order by group. Try setindex() instead. Or, set*(copy(.SD)) as a (slow) last resort.")
   if (!length(cols)) {
     warningf("cols is a character vector of zero length. Removed the key, but use NULL instead, or wrap with suppressWarnings() to avoid this warning.")
@@ -257,7 +257,7 @@ setorderv = function(x, cols = colnames(x), order=1L, na.last=FALSE)
   if (!is.data.frame(x)) stopf("x must be a data.frame or data.table")
   na.last = as.logical(na.last)
   if (is.na(na.last) || !length(na.last)) stopf('na.last must be logical TRUE/FALSE')
-  if (!is.character(cols)) stopf("cols is not a character vector. Please see further information in ?%s.", "setorder")
+  if (!is.character(cols)) stopf("cols is not a character vector. Please see further information in ?setorder.")
   if (!length(cols)) {
     warningf("cols is a character vector of zero length. Use NULL instead, or wrap with suppressWarnings() to avoid this warning.")
     return(x)
diff --git a/R/test.data.table.R b/R/test.data.table.R
index d37fba29b5..70cd82b363 100644
--- a/R/test.data.table.R
+++ b/R/test.data.table.R
@@ -370,49 +370,10 @@ gc_mem = function() {
   # nocov end
 }
 
-# Check if UTF-8 symbols can be represented in native encoding
-# R's parser requires symbol names (PRINTNAME in LANGSXP) to be in native encoding. In non-UTF-8
-# locales, parsing Unicode escapes like \u00FC fails with a warning and substitutes <U+00FC>.
-# Tests using requires_utf8 are skipped when UTF-8 cannot be represented. Using eval(parse(text=...))
-# defers parsing to runtime, allowing the encoding check to run first and avoid source() warnings.
-utf8_check = function(test_str) identical(test_str, enc2native(test_str))
-
 test = function(num, x, y=TRUE,
                 error=NULL, warning=NULL, message=NULL, output=NULL, notOutput=NULL, ignore.warning=NULL,
                 options=NULL, env=NULL,
-                context=NULL, requires_utf8=FALSE, optimize=NULL) {
-  # if optimization is provided, test across multiple optimization levels
-  if (!is.null(optimize)) {
-    if (!is.numeric(optimize) || length(optimize) < 1L || anyNA(optimize) || any(optimize < 0L))
-      stopf("optimize must be numeric, length >= 1, non-NA, and >= 0; got: %s", optimize) # nocov
-    cl = match.call()
-    if ("datatable.optimize" %in% names(cl$options))
-      stopf("Trying to set optimization level through both options= and optimize=") # nocov
-    cl$optimize = NULL  # Remove optimization levels from the recursive call
-
-    # Check if y was explicitly provided (not just the default)
-    y_provided = !missing(y)
-    vector_params = mget(c("error", "warning", "message", "output", "notOutput", "ignore.warning"), environment())
-    vector_params = vector_params[lengths(vector_params) > 0L]
-    compare = !y_provided && length(optimize)>1L && !length(vector_params)
-    # When optimize has multiple levels, vector params are recycled across levels.
-    if (length(optimize) > 1L && "warning" %in% names(vector_params) && length(vector_params$warning) > 1L)
-      warningf("warning= with multiple values is recycled across optimize levels, not treated as multiple warnings in one run")
-
-    for (i in seq_along(optimize)) {
-      cl$num = num + (i - 1L) * 1e-6
-      opt_level = list(datatable.optimize = optimize[i])
-      cl$options = if (!is.null(options)) c(as.list(options), opt_level) else opt_level
-      for (param in names(vector_params)) {
-        val = vector_params[[param]]
-        cl[[param]] = val[((i - 1L) %% length(val)) + 1L] # cycle through values if fewer than optimization levels
-      }
-
-      if (compare && i == 1L) cl$y = eval(cl$x, parent.frame())
-      eval(cl, parent.frame()) # actual test call
-    }
-    return(invisible())
-  }
+                context=NULL) {
   if (!is.null(env)) {
     old = Sys.getenv(names(env), names=TRUE, unset=NA)
     to_unset = !lengths(env)
@@ -426,20 +387,6 @@ test = function(num, x, y=TRUE,
       Sys.unsetenv(names(old)[!is_preset])
     }, add=TRUE)
   }
-  # Check UTF-8 requirement
-  if (!isFALSE(requires_utf8)) {
-    test_str = if (isTRUE(requires_utf8)) "\u00F1\u00FC\u3093" else requires_utf8 # the default test_str are UTF-8 symbols we found over time, TOOD: harden this default
-    if (!utf8_check(test_str)) {
-      # nocov start
-      last_utf8_skip = get0("last_utf8_skip", parent.frame(), ifnotfound=0, inherits=TRUE)
-      if (num - last_utf8_skip >= 1) {
-        catf("Test %s skipped because required UTF-8 symbols cannot be represented in native encoding.\n", num)
-      }
-      assign("last_utf8_skip", num, parent.frame(), inherits=TRUE)
-      return(invisible(TRUE))
-      # nocov end
-    }
-  }
   # Usage:
   # i) tests that x equals y when both x and y are supplied, the most common usage
   # ii) tests that x is TRUE when y isn't supplied
diff --git a/inst/tests/benchmark.Rraw b/inst/tests/benchmark.Rraw
index 246a1d5daa..62075dcf85 100644
--- a/inst/tests/benchmark.Rraw
+++ b/inst/tests/benchmark.Rraw
@@ -190,14 +190,24 @@ DT = data.table(A=1:10,B=rnorm(10),C=paste("a",1:100010,sep=""))
 test(301.1, nrow(DT[,sum(B),by=C])==100010)
 
 # Test := by key, and that := to the key by key unsets the key. Make it non-trivial in size too.
-set.seed(1)
-DT = data.table(a=sample(1:100, 1e6, replace=TRUE), b=sample(1:1000, 1e6, replace=TRUE), key="a")
-opt = c(0L,2L)
-test(637.1, optimize=opt, copy(DT)[, m:=sum(b), by=a][1:3], data.table(a=1L, b=c(156L, 808L, 848L), m=DT[J(1), sum(b)], key="a"))
-test(637.2, optimize=opt, key(copy(DT)[J(43L), a:=99L]), NULL)
-setkey(DT, a)
-test(637.3, optimize=opt, key(copy(DT)[, a:=99L, by=a]), NULL)
-# test 637 subsumes 637 and 638 for different optimization levels
+local({
+  old = options(datatable.optimize=0L); on.exit(options(old))
+  set.seed(1)
+  DT = data.table(a=sample(1:100, 1e6, replace=TRUE), b=sample(1:1000, 1e6, replace=TRUE), key="a")
+  test(637.1, DT[, m:=sum(b), by=a][1:3], data.table(a=1L, b=c(156L, 808L, 848L), m=DT[J(1), sum(b)], key="a"))
+  test(637.2, key(DT[J(43L), a:=99L]), NULL)
+  setkey(DT, a)
+  test(637.3, key(DT[, a:=99L, by=a]), NULL)
+})
+local({
+  options(datatable.optimize=2L); on.exit(options(old))
+  set.seed(1)
+  DT = data.table(a=sample(1:100, 1e6, replace=TRUE), b=sample(1:1000, 1e6, replace=TRUE), key="a")
+  test(638.1, DT[, m:=sum(b), by=a][1:3], data.table(a=1L, b=c(156L, 808L, 848L), m=DT[J(1), sum(b)], key="a"))
+  test(638.2, key(DT[J(43L), a:=99L]), NULL)
+  setkey(DT,a)
+  test(638.3, key(DT[, a:=99L, by=a]), NULL)
+})
 
 # Test X[Y] slowdown, #2216
 # Many minutes in 1.8.2!  Now well under 1s, but 10s for very wide tolerance for CRAN. We'd like CRAN to tell us if any changes
diff --git a/inst/tests/froll.Rraw b/inst/tests/froll.Rraw
index 5f82259100..f87ace0498 100644
--- a/inst/tests/froll.Rraw
+++ b/inst/tests/froll.Rraw
@@ -423,9 +423,9 @@ test(6000.118, frollmean(1:5, as.factor("a")), error="'n' must be an integer")
 #### is.list(n)
 test(6000.119, frollmean(1:5, list(1:5)), error="'n' must be an integer, list is accepted for adaptive TRUE")
 #### adaptive=NA
-test(6000.1192, frollmean(1:5, 2, adaptive=NA), error="'adaptive' must be TRUE or FALSE")
+test(6000.1192, frollmean(1:5, 2, adaptive=NA), error="adaptive must be TRUE or FALSE")
 #### na.rm=NA
-test(6000.1193, frollmean(1:5, 2, na.rm=NA), error="'na.rm' must be TRUE or FALSE")
+test(6000.1193, frollmean(1:5, 2, na.rm=NA), error="na.rm must be TRUE or FALSE")
 #### has.nf=1
 test(6000.1194, frollmean(1:5, 2, has.nf=1), error="has.nf must be TRUE, FALSE or NA")
 #### has.nf=FALSE na.rm=TRUE
diff --git a/inst/tests/nafill.Rraw b/inst/tests/nafill.Rraw
index 6428be9af6..16f84fa16f 100644
--- a/inst/tests/nafill.Rraw
+++ b/inst/tests/nafill.Rraw
@@ -112,8 +112,8 @@ x = 1:10
 test(3.01, nafill(x, "locf", fill=0L), x)
 test(3.02, setnafill(list(copy(x)), "locf", fill=0L), list(x))
 test(3.03, setnafill(x, "locf"), error="in-place update is supported only for list")
-test(3.04, nafill(as.raw(x), fill=0), error="not supported")
-test(3.05, setnafill(list(as.raw(x)), fill=0), error="not supported")
+test(3.04, nafill(letters[1:5], fill=0), error="must be logical/numeric type, or list/data.table")
+test(3.05, setnafill(list(letters[1:5]), fill=0), error="must be logical/numeric type, or list/data.table")
 test(3.06, nafill(x, fill=1:2), error="fill must be a vector of length 1.*fcoalesce")
 test(3.07, nafill(x, "locf", fill=1:2), error="fill must be a vector of length 1.*x\\.$")
 test(3.08, nafill(x, fill="asd"), x, warning=c("Coercing.*character.*integer","NAs introduced by coercion"))
@@ -149,7 +149,7 @@ test(4.26, colnamesInt(dt, c(1, 4), skip_absent=TRUE), c(1L,0L))
 test(4.27, colnamesInt(dt, c("a", NA), skip_absent=TRUE), c(1L,0L))
 test(4.28, colnamesInt(dt, c(1L, 0L), skip_absent=TRUE), error="received non-existing column*.*0")
 test(4.29, colnamesInt(dt, c(1, -5), skip_absent=TRUE), error="received non-existing column*.*-5")
-test(4.30, colnamesInt(dt, c(1, 4), skip_absent=NULL), error="'skip_absent' must be TRUE or FALSE")
+test(4.30, colnamesInt(dt, c(1, 4), skip_absent=NULL), error="skip_absent must be TRUE or FALSE")
 test(4.31, colnamesInt(dt, c(1L, 1000L), skip_absent=TRUE), c(1L,0L))
 cols=c(1L,100L)
 test(4.32, colnamesInt(dt, cols, skip_absent=TRUE), c(1L, 0L))
@@ -324,153 +324,22 @@ test(11.09, coerceAs(1L, a), error="must not be matrix or array")
 x = c(NA, NA, TRUE, FALSE, NA, NA, FALSE, TRUE, NA, NA)
 test(12.01, nafill(x, "locf"), c(NA, NA, TRUE, FALSE, FALSE, FALSE, FALSE, TRUE, TRUE, TRUE))
 test(12.02, nafill(x, "nocb"), c(TRUE, TRUE, TRUE, FALSE, FALSE, FALSE, FALSE, TRUE, NA, NA))
-test(12.03, nafill(x, "locf", fill=TRUE), c(TRUE, TRUE, TRUE, FALSE, FALSE, FALSE, FALSE, TRUE, TRUE, TRUE))
-test(12.04, nafill(x, "nocb", fill=TRUE), c(TRUE, TRUE, TRUE, FALSE, FALSE, FALSE, FALSE, TRUE, TRUE, TRUE))
-test(12.05, nafill(x, fill=TRUE), c(TRUE, TRUE, TRUE, FALSE, TRUE, TRUE, FALSE, TRUE, TRUE, TRUE))
-test(12.06, nafill(x, fill=0L), c(FALSE, FALSE, TRUE, FALSE, FALSE, FALSE, FALSE, TRUE, FALSE, FALSE))
-test(12.07, nafill(x, fill=5.0), c(TRUE, TRUE, TRUE, FALSE, TRUE, TRUE, FALSE, TRUE, TRUE, TRUE), warning="double.*taken as TRUE")
-test(12.08, nafill(x, fill=Inf), c(TRUE, TRUE, TRUE, FALSE, TRUE, TRUE, FALSE, TRUE, TRUE, TRUE), warning="double.*taken as TRUE")
-test(12.09, nafill(x, fill=NA), x)
-test(12.10, nafill(x, fill=NA_integer_), x)
-test(12.11, nafill(x, fill=NA_real_), x)
-test(12.12, nafill(x, fill=NaN), x)
+test(12.03, nafill(x, fill=TRUE), c(TRUE, TRUE, TRUE, FALSE, TRUE, TRUE, FALSE, TRUE, TRUE, TRUE))
+test(12.04, nafill(x, fill=0L), c(FALSE, FALSE, TRUE, FALSE, FALSE, FALSE, FALSE, TRUE, FALSE, FALSE))
+test(12.05, nafill(x, fill=5.0), c(TRUE, TRUE, TRUE, FALSE, TRUE, TRUE, FALSE, TRUE, TRUE, TRUE), warning="double.*taken as TRUE")
+test(12.06, nafill(x, fill=Inf), c(TRUE, TRUE, TRUE, FALSE, TRUE, TRUE, FALSE, TRUE, TRUE, TRUE), warning="double.*taken as TRUE")
+test(12.07, nafill(x, fill=NA), x)
+test(12.08, nafill(x, fill=NA_integer_), x)
+test(12.09, nafill(x, fill=NA_real_), x)
+test(12.10, nafill(x, fill=NaN), x)
 
-## factor input
-x = rep(NA_character_, 10L)
-x[c(3:4, 7:8)] = c("a", "b", "a", "c")
-x = as.factor(x)
-test(13.01, nafill(x, "locf"), replace(replace(x, 5:6, "b"), 9:10, "c"))
-test(13.02, nafill(x, "nocb"), replace(x, c(1:2, 5:6), "a"))
-test(13.03, nafill(x, "locf", fill="b"), replace(replace(x, c(1:2, 5:6), "b"), 9:10, "c"))
-test(13.04, nafill(x, "nocb", fill="a"), replace(x, c(1:2, 5:6, 9:10), "a"))
-x_fill_a = replace(x, c(1:2, 5:6, 9:10), "a")
-test(13.05, nafill(x, fill="a"), x_fill_a)
-test(13.06, nafill(x, fill=1L), x_fill_a)
-test(13.07, nafill(x, fill=1.0), x_fill_a)
-test(13.08, nafill(x, fill=factor("a")), x_fill_a)
-test(13.09, nafill(x, fill=factor("a", levels=levels(x))), x_fill_a)
-test(13.10, nafill(x, fill=factor("a", levels=c("a", "b"))), x_fill_a)
-test(13.11, nafill(x, fill=factor("a", levels=c("a", "d"))), factor(x_fill_a, levels=c("a", "b", "c", "d")))
-x_fill_d = replace(factor(x, levels = c(levels(x), "d")), c(1:2, 5:6, 9:10), "d")
-test(13.12, nafill(x, fill="d"), x_fill_d)
-test(13.13, nafill(x, fill=factor("d", levels=c("a", "b", "c", "d"))), x_fill_d)
-test(13.14, nafill(x, fill=factor("d", levels=c("d", "a", "b", "c"))), x_fill_d)
-test(13.15, nafill(x, fill=factor("d", levels=c("d", "c", "b", "a"))), x_fill_d)
-test(13.16, nafill(x, fill=factor("d", levels=c("b", "c", "d"))), x_fill_d)
-test(13.17, nafill(x, fill=NA), x)
-test(13.18, nafill(x, fill=NA_integer_), x)
-test(13.19, nafill(x, fill=NA_real_), x)
-test(13.20, nafill(x, fill=NA_character_), x)
-
-## character input
-x = c(NA, NA, "a", "b", NA, NA, "c","d", NA, NA)
-test(14.01, nafill(x, fill="unknown"), c("unknown", "unknown", "a", "b", "unknown", "unknown", "c", "d", "unknown", "unknown"))
-test(14.02, nafill(x, fill=NA), x)
-test(14.03, nafill(x, "locf"), c(NA, NA, "a", "b", "b", "b", "c", "d", "d", "d"))
-test(14.04, nafill(x, "nocb"), c("a", "a", "a", "b", "c", "c", "c", "d", NA, NA))
-test(14.05, nafill(x, "locf", fill="unknown"), c("unknown", "unknown", "a", "b", "b", "b", "c", "d", "d", "d"))
-test(14.06, nafill(x, "nocb", fill="unknown"), c("a", "a", "a", "b", "c", "c", "c", "d", "unknown", "unknown"))
-test(14.07, nafill(x, fill=TRUE), c("TRUE", "TRUE", "a", "b", "TRUE", "TRUE", "c", "d", "TRUE", "TRUE"))
-test(14.08, nafill(x, fill=1L), c("1", "1", "a", "b", "1", "1", "c", "d", "1", "1"))
-test(14.09, nafill(x, fill=1.0), c("1", "1", "a", "b", "1", "1", "c", "d", "1", "1"))
-test(14.10, nafill(x, fill=NA_integer_), x)
-test(14.11, nafill(x, fill=NA_real_), x)
-test(14.12, nafill(x, fill=NA_character_), x)
-test(14.13, options=c(datatable.verbose=TRUE),
-     nafill(x, fill="z"), c("z", "z", "a", "b", "z", "z", "c", "d", "z", "z"),
-     output="nafillString: took")
-
-## other common classed vector objects: Date, IDate, POSIXct
-x = as.IDate(c(NA, "2025-01-01", NA, "2025-06-01", NA))
-y26 = as.IDate("2026-01-01")
-test(15.01, nafill(x, fill=y26), replace(x, c(1L, 3L, 5L), y26))
-test(15.02, nafill(x, fill=NA), x)
-test(15.03, nafill(x, "locf"), replace(x, c(3L, 5L), x[c(2L, 4L)]))
-test(15.04, nafill(x, "nocb"), replace(x, c(1L, 3L), x[c(2L, 4L)]))
-test(15.05, nafill(x, "locf", fill=y26), replace(x, c(1L, 3L, 5L), c(y26, x[c(2L, 4L)])))
-test(15.06, nafill(x, "nocb", fill=y26), replace(x, c(1L, 3L, 5L), c(x[c(2L, 4L)], y26)))
-test(15.07, nafill(x, fill=as.numeric(y26)), replace(x, c(1L, 3L, 5L), y26))
-
-x = as.Date(x)
-y26 = as.Date(y26)
-test(15.08, nafill(x, fill=y26), replace(x, c(1L, 3L, 5L), y26))
-test(15.09, nafill(x, fill=NA), x)
-test(15.10, nafill(x, "locf"), replace(x, c(3L, 5L), x[c(2L, 4L)]))
-test(15.11, nafill(x, "nocb"), replace(x, c(1L, 3L), x[c(2L, 4L)]))
-test(15.12, nafill(x, "locf", fill=y26), replace(x, c(1L, 3L, 5L), c(y26, x[c(2L, 4L)])))
-test(15.13, nafill(x, "nocb", fill=y26), replace(x, c(1L, 3L, 5L), c(x[c(2L, 4L)], y26)))
-test(15.14, nafill(x, fill=as.numeric(y26)), replace(x, c(1L, 3L, 5L), y26))
-
-x = as.POSIXct(x)
-y26 = as.POSIXct(y26)
-test(15.15, nafill(x, fill=y26), replace(x, c(1L, 3L, 5L), y26))
-test(15.16, nafill(x, fill=NA), x)
-test(15.17, nafill(x, "locf"), replace(x, c(3L, 5L), x[c(2L, 4L)]))
-test(15.18, nafill(x, "nocb"), replace(x, c(1L, 3L), x[c(2L, 4L)]))
-test(15.19, nafill(x, "locf", fill=y26), replace(x, c(1L, 3L, 5L), c(y26, x[c(2L, 4L)])))
-test(15.20, nafill(x, "nocb", fill=y26), replace(x, c(1L, 3L, 5L), c(x[c(2L, 4L)], y26)))
-test(15.21, nafill(x, fill=as.numeric(y26)), replace(x, c(1L, 3L, 5L), y26))
-
-attr(x, "tzone") = "Asia/Singapore"
-test(15.22, nafill(x, fill=y26), replace(x, c(1L, 3L, 5L), y26))
-test(15.23, nafill(x, fill=as.POSIXct(y26, tz='Asia/Singapore')), replace(x, c(1L, 3L, 5L), y26))
-
-test(15.24, nafill(as.Date(NA), fill=as.IDate("2025-01-01")), as.Date("2025-01-01"))
-test(15.25, nafill(as.Date(NA_integer_), fill=as.IDate("2025-01-01")), as.Date("2025-01-01"))
-test(15.26, nafill(as.IDate(NA), fill=as.Date("2025-01-01")), as.IDate("2025-01-01"))
-
-## setnafill
-DT = data.table(l1=c(NA, NA, TRUE, TRUE, NA, NA, FALSE, FALSE, NA, NA),
-                l2=c(NA, NA, FALSE, FALSE, NA, NA, TRUE, TRUE, NA, NA),
-                i1=c(NA, NA, 0:1, NA, NA, 2:3, NA, NA),
-                i2=c(NA, NA, 3:2, NA, NA, 1:0, NA, NA),
-                d1=c(NA, NA, 0.0, 1L, NA, NA, 2:3, NA, NA),
-                d2=c(NA, NA, 3.0, 2L, NA, NA, 1:0, NA, NA),
-                f1=as.factor(c(NA, NA, "a", "b", NA, NA, "b", "c", NA, NA)),
-                f2=as.factor(c(NA, NA, "c", "b", NA, NA, "b", "a", NA, NA)),
-                c1=c(NA, NA, "a", "b", NA, NA, "c", "d", NA, NA),
-                c2=c(NA, NA, "d", "c", NA, NA, "b", "a", NA, NA),
-                t1=as.POSIXct(c(NA, NA, "2025-01-01", "2025-01-02", NA, NA, "2025-06-01", "2025-06-02", NA, NA)),
-                t2=as.POSIXct(c(NA, NA, "2026-01-01", "2026-01-02", NA, NA, "2026-06-01", "2026-06-02", NA, NA)))
-test(16.01, setnafill(copy(DT), fill=TRUE, cols='l1')$l1,
-            c(TRUE, TRUE, TRUE, TRUE, TRUE, TRUE, FALSE, FALSE, TRUE, TRUE))
-test(16.02, setnafill(copy(DT), fill=TRUE, cols=c('l1', 'l2'))[, .(l1, l2)],
-            data.table(l1=c(TRUE, TRUE, TRUE, TRUE, TRUE, TRUE, FALSE, FALSE, TRUE, TRUE),
-                       l2=c(TRUE, TRUE, FALSE, FALSE, TRUE, TRUE, TRUE, TRUE, TRUE, TRUE)))
-test(16.03, setnafill(copy(DT), fill=9L, cols='i1')$i1,
-            c(9L, 9L, 0:1, 9L, 9L, 2:3, 9L, 9L))
-test(16.04, setnafill(copy(DT), fill=9L, cols=c('i1', 'i2'))[, .(i1, i2)],
-            data.table(i1=c(9L, 9L, 0:1, 9L, 9L, 2:3, 9L, 9L),
-                       i2=c(9L, 9L, 3:2, 9L, 9L, 1:0, 9L, 9L)))
-test(16.05, setnafill(copy(DT), fill=9.0, cols='d1')$d1,
-            c(9.0, 9L, 0:1, 9L, 9L, 2:3, 9L, 9L))
-test(16.06, setnafill(copy(DT), fill=9.0, cols=c('d1', 'd2'))[, .(d1, d2)],
-            data.table(d1=c(9.0, 9L, 0:1, 9L, 9L, 2:3, 9L, 9L),
-                       d2=c(9.0, 9L, 3:2, 9L, 9L, 1:0, 9L, 9L)))
-test(16.07, setnafill(copy(DT), fill="a", cols='f1')$f1,
-            as.factor(c("a", "a", "a", "b", "a", "a", "b", "c", "a", "a")))
-test(16.08, setnafill(copy(DT), fill="a", cols=c('f1', 'f2'))[, .(f1, f2)],
-            data.table(f1=as.factor(c("a", "a", "a", "b", "a", "a", "b", "c", "a", "a")),
-                       f2=as.factor(c("a", "a", "c", "b", "a", "a", "b", "a", "a", "a"))))
-test(16.09, setnafill(DT, fill="z", cols='c1'), error="not yet supported")
-# test(16.10, setnafill(copy(DT), fill="z", cols=c('c1', 'c2'))[, .(c1, c2)],
-#             data.table(c1=c("z", "z", "a", "b", "z", "z", "c", "d", "z", "z"),
-#                        c2=c("z", "z", "d", "c", "z", "z", "b", "a", "z", "z")))
-test(16.11, setnafill(copy(DT), fill=as.POSIXct("2027-01-01"), cols='t1')$t1,
-            replace(DT$t1, c(1:2, 5:6, 9:10), as.POSIXct("2027-01-01")))
-test(16.12, setnafill(copy(DT), fill=as.POSIXct("2027-01-01"), cols=c('t1', 't2'))[, .(t1, t2)],
-            data.table(t1=replace(DT$t1, c(1:2, 5:6, 9:10), as.POSIXct("2027-01-01")),
-                       t2=replace(DT$t2, c(1:2, 5:6, 9:10), as.POSIXct("2027-01-01"))))
-test(16.13, setnafill(copy(DT), fill=list(TRUE, 9L, 9.0, "a", as.POSIXct("2027-01-01")), cols=c("l1", "i1", "d1", "f1", "t1"))[, .(l1, i1, d1, f1, t1)],
-            data.table(l1=c(TRUE, TRUE, TRUE, TRUE, TRUE, TRUE, FALSE, FALSE, TRUE, TRUE),
-                       i1=c(9L, 9L, 0:1, 9L, 9L, 2:3, 9L, 9L),
-                       d1=c(9.0, 9L, 0L, 1L, 9L, 9L, 2:3, 9L, 9L),
-                       f1=as.factor(c("a", "a", "a", "b", "a", "a", "b", "c", "a", "a")),
-                       t1=replace(DT$t1, c(1:2, 5:6, 9:10), as.POSIXct("2027-01-01"))))
-test(16.14, setnafill(DT, cols=c("l1", "c1")), error="not yet supported")
-DT = data.table(l=c(NA, FALSE), i=c(NA, 0L))
-setnafill(DT, fill=list(TRUE, 1L))
-test(16.15, DT, data.table(l=c(TRUE, FALSE), i=1:0))
+## logical
+## character
+## factor
+## Date
+## POSIXct
+## IDate
+## ITime
 
 # related to !is.integer(verbose)
 test(99.1, data.table(a=1,b=2)[1,1, verbose=1], error="verbose must be logical or integer")
diff --git a/inst/tests/optimize.Rraw b/inst/tests/optimize.Rraw
deleted file mode 100644
index 88dd27498c..0000000000
--- a/inst/tests/optimize.Rraw
+++ /dev/null
@@ -1,486 +0,0 @@
-require(methods)
-if (exists("test.data.table", .GlobalEnv, inherits=FALSE)) {
-  if ((tt<-compiler::enableJIT(-1))>0)
-    cat("This is dev mode and JIT is enabled (level ", tt, ") so there will be a brief pause around the first test.\n", sep="")
-} else {
-  require(data.table)
-  test = data.table:::test
-  null.data.table = data.table:::null.data.table
-  INT = data.table:::INT
-}
-
-sugg = c("bit64")
-for (s in sugg) {
-  assign(paste0("test_",s), loaded<-suppressWarnings(suppressMessages(
-    library(s, character.only=TRUE, logical.return=TRUE, quietly=TRUE, warn.conflicts=FALSE, pos="package:base")  # attach at the end for #5101
-  )))
-  if (!loaded) cat("\n**** Suggested package",s,"is not installed or has dependencies missing. Tests using it will be skipped.\n\n")
-}
-
-# := by group
-DT = data.table(a=1:3,b=(1:9)/10)
-test(611.1,optimize=c(0L, 2L), DT[,v:=sum(b),by=a], data.table(a=1:3,b=(1:9)/10,v=c(1.2,1.5,1.8)))
-setkey(DT,a)
-test(611.2,optimize=c(0L, 2L), DT[,v:=min(b),by=a], data.table(a=1:3,b=(1:9)/10,v=(1:3)/10,key="a"))
-# Combining := by group with i
-test(611.3,optimize=c(0L, 2L), DT[a>1,p:=sum(b)]$p, rep(c(NA,3.3),c(3,6)))
-test(611.4,optimize=c(0L, 2L), DT[a>1,q:=sum(b),by=a]$q, rep(c(NA,1.5,1.8),each=3))
-# 612 was just level repetition of 611
-# Assign to subset ok (NA initialized in the other items) ok :
-test(613,optimize=c(0L, 2L), DT[J(2),w:=8.3]$w, rep(c(NA,8.3,NA),each=3))
-test(614,optimize=c(0L, 2L), DT[J(3),x:=9L]$x, rep(c(NA_integer_,NA_integer_,9L),each=3))
-test(615,optimize=c(0L, 2L), DT[J(2),z:=list(list(c(10L,11L)))]$z, rep(list(NULL, 10:11, NULL),each=3))
-# 616, 617 removed in #5245
-
-# Empty i clause, #2034. Thanks to Chris for testing, tests from him. Plus changes from #759
-ans = copy(DT)[,r:=NA_real_]
-test(618.1,optimize=c(0L, 2L), copy(DT)[a>3,r:=sum(b)],   ans)
-test(618.2,optimize=c(0L, 2L), copy(DT)[J(-1),r:=sum(b)], ans)
-test(618.3,optimize=c(0L, 2L), copy(DT)[NA,r:=sum(b)],    ans)
-test(618.4,optimize=c(0L, 2L), copy(DT)[0,r:=sum(b)],     ans)
-test(618.5,optimize=c(0L, 2L), copy(DT)[NULL,r:=sum(b)],  null.data.table())
-# test 619 was level 2 of 618
-# test 620 was removed in #5245
-
-DT = data.table(x=letters, key="x")
-test(621,optimize=c(0L, 2L), copy(DT)[J("bb"), x:="foo"], DT)  # when no update, key should be retained
-test(622,optimize=c(0L, 2L), copy(DT)[J("bb"), x:="foo",nomatch=0], DT, warning="ignoring nomatch")
-
-set.seed(2)
-DT = data.table(a=rnorm(5)*10, b=1:5)
-test(623,optimize=c(0L, 2L), copy(DT)[,s:=sum(b),by=round(a)%%2]$s, c(10L,5L,5L,10L,10L))
-# test 623 subsumes 623.1 and 623.2 for testing both levels
-
-# Setup for test 656.x - gforce tests
-set.seed(9)
-n = 1e3
-DT = data.table(grp1=sample.int(150L, n, replace=TRUE),
-                grp2=sample.int(150L, n, replace=TRUE),
-                x=rnorm(n),
-                y=rnorm(n))
-opt = 0:2
-out = c('GForce FALSE', 'GForce FALSE' ,'GForce TRUE')
-test(656.1,optimize=opt, DT[ , mean(x), by=grp1, verbose=TRUE],                output=out)
-test(656.2,optimize=opt, DT[ , list(mean(x)), by=grp1, verbose=TRUE],          output=out)
-test(656.3,optimize=opt, DT[ , list(mean(x), mean(y)), by=grp1, verbose=TRUE], output=out)
-# 657-658 were for levels 1,2, resp.
-
-# Test := keyby does setkey, #2065
-DT = data.table(x=1:2, y=1:6)
-ans = data.table(x=rep(1:2,each=3),y=c(1L,3L,5L,2L,4L,6L),z=rep(c(9L,12L),each=3),key="x")
-test(670.1,optimize=c(0L, 2L), copy(DT)[,z:=sum(y),keyby=x], ans)
-test(670.2,optimize=c(0L, 2L), copy(DT)[,z:=sum(y),keyby="x"], ans)
-test(670.3,optimize=c(0L, 2L), copy(DT)[,z:=sum(y),keyby=x%%2], data.table(x=1:2,y=1:6,z=c(9L,12L)),
-          warning="The setkey() normally performed by keyby= has been skipped (as if by= was used) because := is being used together with keyby= but the keyby= contains some expressions. To avoid this warning, use by= instead, or provide existing column names to keyby=")
-test(670.4,optimize=c(0L, 2L), copy(DT)[,z:=sum(y),by=x%%2], data.table(x=1:2,y=1:6,z=c(9L,12L)))
-test(670.5,optimize=c(0L, 2L), copy(DT)[x>1,z:=sum(y),keyby=x], error=":= with keyby is only possible when i is not supplied since")
-# test 671 was level 2 of 670
-
-# varname holding colnames, by group, linked from #2120.
-DT = data.table(a=rep(1:3,1:3),b=1:6)
-colname = "newcol"
-test(751,optimize=c(0L, 2L), DT[,(colname):=sum(b),by=a], data.table(a=rep(1:3,1:3),b=1:6,newcol=INT(1,5,5,15,15,15)))
-# test 751 subsumes 751.1 and 751.2 for testing both levels
-
-# Add tests for nested := in j by group, #1987
-DT = data.table(a=rep(1:3,2:4),b=1:9)
-test(752,optimize=c(0L, 2L), DT[,head(.SD,2)[,new:=1:.N],by=a], data.table(a=rep(1:3,each=2),b=c(1:4,6:7),new=1:2))
-# test 752 subsumes 752.1 and 752.2 for testing both levels
-
-DT = data.table(a=1:3,b=1:3,v=1:6,w=1:6)
-opt = c(0:2, Inf)
-out = c('GForce FALSE', 'GForce FALSE', 'GForce TRUE', 'GForce TRUE')
-# v1.9.7 treats wrapped {} better, so this is now optimized
-test(865,optimize=opt, DT[,{list(name1=sum(v),name2=sum(w))},by=c('a', 'b'),verbose=TRUE], output=out)
-test(867,optimize=opt, names(DT[,list(name1=sum(v),name2=sum(w)),by=c('a', 'b')]), c("a", "b", "name1", "name2"))  # list names extracted here
-# test 865 subsumes 865.1, 865.2, 865.3 for testing all levels
-# 866 was testing an intermediate step; 868 was testing equality between optimization levels
-
-# tests of gsum and gmean with NA
-DT = data.table(x=rep(c("a","b","c","d"),each=3), y=c(1L,3L,6L), v=as.numeric(1:12))
-set(DT,c(3L,8L),"y",NA)
-set(DT,c(5L,9L),"v",NA)
-set(DT,10:12,"y",NA)
-set(DT,10:12,"v",NA)
-opt = c(1L, 2L)
-out = c("(GForce FALSE)", "GForce optimized j to")
-test(1184.1,optimize=opt, DT[, sum(v), by=x, verbose=TRUE], output=out)
-# test 1184.1 subsumes 1184.1 and 1186 for testing both levels
-test(1184.2,optimize=1L, DT[, mean(v), by=x, verbose=TRUE], output="(GForce FALSE)")
-test(1185.1,optimize=c(0L, 1L, 2L), DT[, list(sum(y), sum(v), sum(y,na.rm=TRUE), sum(v,na.rm=TRUE)), by=x],
-           data.table(x=c("a","b","c","d"), V1=c(NA,10L,NA,NA), V2=c(6,NA,NA,NA), V3=c(4L,10L,7L,0L), V4=c(6,10,15,0)))
-# test 1185.1 subsumes 1185.1 and 1187.1 for testing all levels
-test(1185.2,optimize=c(0L,1L,Inf), DT[, list(mean(y), mean(v), mean(y,na.rm=TRUE), mean(v,na.rm=TRUE)), by=x, verbose=TRUE], 
-  output=c("All optimizations.*off", "Old mean.*changed j", "GForce optimized j to"))
-# test 1185.2 subsumes 1185.2, 1185.3, and 1185.4 for testing all levels
-MyVar = TRUE
-test(1187.2,optimize=opt, DT[, list(sum(y,na.rm=MyVar), mean(y,na.rm=MyVar)), by=x, verbose=TRUE], output=out)
-test(1187.3,optimize=opt, DT[, mean(y,na.rm=MyVar), by=x, verbose=TRUE], output=out)
-MyVar = FALSE
-test(1187.4,optimize=opt, DT[, list(sum(y,na.rm=MyVar), mean(y,na.rm=MyVar)), by=x, verbose=TRUE], output=out)
-test(1187.5,optimize=opt, DT[, mean(y,na.rm=MyVar), by=x, verbose=TRUE], output=out)
-# GForce should not turn on when the .ok function isn't triggered
-test(1187.6,optimize=2L, DT[, mean(y, trim=.2), by=x, verbose=TRUE],
-             data.table(x = c("a", "b", "c", "d"), V1 = c(NA, 3.33333333333333, NA, NA)),
-             output='j unchanged', warning="'trim' is not yet optimized")
-
-# FR #334. Test to just make sure that GForce and dogroups with .N are giving the same results.
-set.seed(2L)
-dt <- data.table(x=sample(rep(1:5e3, each=3)), y=sample(10))
-test(1304.1,optimize=0:2, dt[, list(.N, sum(y)), by=x])
-dt <- data.table(x=sample(rep(1:5e3, each=3)), y=sample(10), key="x")
-test(1304.2,optimize=0:2, dt[, list(.N, sum(y)), by=x])
-
-# gmin and gmax extensive testing (because there are tricky cases)
-DT <- data.table(x=rep(1:6, each=3), y=INT(4,-1,0, NA,4,10, 4,NA,10, 4,10,NA, -2147483647, -2147483647, -2147483647, 2147483647, 2147483647, 2147483647))
-opts = 0:2
-# for integers
-test(1313.01,optimize=opts, DT[, min(y), by=x], DT[, base::min(y), by=x])
-test(1313.02,optimize=opts, DT[, max(y), by=x], DT[, base::max(y), by=x])
-test(1313.03,optimize=opts, DT[, min(y, na.rm=TRUE), by=x], DT[, base::min(y, na.rm=TRUE), by=x])
-test(1313.04,optimize=opts, DT[, max(y, na.rm=TRUE), by=x], DT[, base::max(y, na.rm=TRUE), by=x])
-# testing all NA - GForce automatically converts to numeric.. optimize=1L errors due to change from integer/numeric (like median)
-DT[x==6, y := INT(NA)]
-test(1313.05,optimize=opts, DT[, min(y), by=x], DT[, base::min(y), by=x])
-test(1313.06,optimize=opts, DT[, max(y), by=x], DT[, base::max(y), by=x])
-test(1313.07,optimize=2L,   DT[, min(y, na.rm=TRUE), by=x], data.table(x=1:6, V1=INT(-1,4,4,4,-2147483647,NA)))
-test(1313.08,optimize=2L,   DT[, max(y, na.rm=TRUE), by=x], data.table(x=1:6, V1=INT(4,10,10,10,-2147483647,NA)))
-# for numeric
-DT <- data.table(x=rep(1:6, each=3), y=c(4,-1,0, NA,4,10, 4,NA,10, 4,10,NA, -Inf, NA, NA, Inf, NA, NA))
-test(1313.09,optimize=opts, DT[, min(y), by=x], DT[, base::min(y), by=x])
-test(1313.10,optimize=opts, DT[, max(y), by=x], DT[, base::max(y), by=x])
-test(1313.11,optimize=opts, DT[, min(y, na.rm=TRUE), by=x], DT[, base::min(y, na.rm=TRUE), by=x])
-test(1313.12,optimize=opts, DT[, max(y, na.rm=TRUE), by=x], DT[, base::max(y, na.rm=TRUE), by=x])
-# testing all NA - GForce automatically converts to numeric.. optimize=1L errors due to change from integer/numeric (like median)
-DT[x==6, y := NA_real_]
-test(1313.13,optimize=opts, DT[, min(y), by=x], DT[, base::min(y), by=x])
-test(1313.14,optimize=opts, DT[, max(y), by=x], DT[, base::max(y), by=x])
-test(1313.15,optimize=2L,   DT[, min(y, na.rm=TRUE), by=x], data.table(x=1:6, V1=c(-1,4,4,4,-Inf,NA)))
-test(1313.16,optimize=2L,   DT[, max(y, na.rm=TRUE), by=x], data.table(x=1:6, V1=c(4,10,10,10,-Inf,NA)))
-# for date (attribute check.. especially after issues/689 !!!)
-DT <- data.table(x = rep(letters[1:2], each=5), y = as.POSIXct('2010-01-01', tz="UTC") + seq(0, 86400*9, 86400))
-test(1313.17,optimize=opts, DT[, list(y=min(y)), by=x], DT[c(1,6)])
-test(1313.18,optimize=opts, DT[, list(y=max(y)), by=x], DT[c(5,10)])
-DT[c(1,6), y := NA]
-test(1313.19,optimize=opts, DT[, list(y=min(y)), by=x], DT[c(1,6)])
-test(1313.20,optimize=opts, DT[, list(y=max(y)), by=x], DT[c(1,6)])
-test(1313.21,optimize=opts, DT[, list(y=min(y, na.rm=TRUE)), by=x], DT[c(2,7)])
-test(1313.22,optimize=opts, DT[, list(y=max(y, na.rm=TRUE)), by=x], DT[c(5,10)])
-# for character
-set.seed(1L)
-DT <- data.table(x=rep(1:7, each=3), y=sample(c("", letters[1:3], NA), 21, TRUE))
-DT[x==7, y := c("","b","c")]
-test(1313.23,optimize=opts, DT[, min(y), by=x], DT[, base::min(y), by=x])
-test(1313.24,optimize=opts, DT[, max(y), by=x], DT[, base::max(y), by=x])
-test(1313.25,optimize=opts, DT[, min(y, na.rm=TRUE), by=x], DT[, base::min(y, na.rm=TRUE), by=x])
-test(1313.26,optimize=opts, DT[, max(y, na.rm=TRUE), by=x], DT[, base::max(y, na.rm=TRUE), by=x])
-DT[x==6, y := NA_character_]
-test(1313.27,optimize=opts, DT[, min(y), by=x], DT[, base::min(y), by=x])
-test(1313.28,optimize=opts, DT[, max(y), by=x], DT[, base::max(y), by=x])
-test(1313.29,optimize=2L,   DT[, min(y, na.rm=TRUE), by=x], data.table(x=1:7, V1=c("a","a","c","","a",NA,"")))
-test(1313.30,optimize=2L,   DT[, max(y, na.rm=TRUE), by=x], data.table(x=1:7, V1=c("b","a","c","a","c",NA,"c")))
-
-# Fix for #1251, DT[, .N, by=a] and DT[, .(.N), by=a] uses GForce now
-dt = data.table(a=sample(3,20,TRUE), b=1:10)
-test(1565, optimize=c(0,1,Inf), dt[, .N, by=a, verbose=TRUE],
-  output=c("All optimizations are turned off", "lapply optimization is on, j unchanged", "GForce optimized j to"))
-# test 1565 subsumes 1565.1, 1565.2 and 1565.3 for testing all levels
-
-# gforce optimisations
-dt = data.table(x  = sample(letters, 300, TRUE),
-                i1 = sample(-10:10, 300, TRUE),
-                i2 = sample(c(-10:10, NA), 300, TRUE),
-                d1 = as.numeric(sample(-10:10, 300, TRUE)),
-                d2 = as.numeric(sample(c(NA, NaN, -10:10), 300, TRUE)))
-if (test_bit64) {
-  dt[, `:=`(d3 = as.integer64(sample(-10:10, 300, TRUE)))]
-  dt[, `:=`(d4 = as.integer64(sample(c(-10:10,NA), 300, TRUE)))]
-}
-opt = 0:2
-out = c('GForce FALSE', 'GForce FALSE' ,'GForce TRUE')
-# make sure gforce is on
-# testing gforce::gmedian
-test(1579.01,optimize=2L,  dt[, lapply(.SD, median), by=x, verbose=TRUE],
-                          dt[, lapply(.SD, function(x) median(as.numeric(x))), by=x], output="GForce optimized")
-test(1579.02,optimize=2L,  dt[, lapply(.SD, median, na.rm=TRUE), by=x],
-                          dt[, lapply(.SD, function(x) median(as.numeric(x), na.rm=TRUE)), by=x])
-test(1579.03,optimize=2L, dt[, lapply(.SD, median), keyby=x],
-                          dt[, lapply(.SD, function(x) median(as.numeric(x))), keyby=x])
-test(1579.04,optimize=2L, dt[, lapply(.SD, median, na.rm=TRUE), keyby=x],
-                          dt[, lapply(.SD, function(x) median(as.numeric(x), na.rm=TRUE)), keyby=x])
-# testing gforce::ghead and gforce::gtail
-# head(.SD, 1) and tail(.SD, 1) optimisation
-test(1579.06,optimize=opt, dt[, head(.SD,1),  by=x,    verbose=TRUE], output=out)
-test(1579.08,optimize=opt, dt[, head(.SD,1),  keyby=x, verbose=TRUE], output=out)
-test(1579.10,optimize=opt, dt[, head(.SD,1L), by=x,    verbose=TRUE], output=out)
-test(1579.12,optimize=opt, dt[, head(.SD,1L), keyby=x, verbose=TRUE], output=out)
-test(1579.14,optimize=opt, dt[, tail(.SD,1),  by=x,    verbose=TRUE], output=out)
-test(1579.16,optimize=opt, dt[, tail(.SD,1),  keyby=x, verbose=TRUE], output=out)
-test(1579.18,optimize=opt, dt[, tail(.SD,1L), by=x,    verbose=TRUE], output=out)
-test(1579.20,optimize=opt, dt[, tail(.SD,1L), keyby=x, verbose=TRUE], output=out)
-# 1579.22 tested gtail with n>1; now 1579.4+ below
-mysub <- function(x, n) x[n]
-test(1579.23,optimize=2L,  dt[, .SD[2],  by=x, verbose=TRUE], dt[, mysub(.SD,2),  by=x], output="GForce optimized.*g[[]")
-test(1579.24,optimize=opt, dt[, .SD[2],  keyby=x], dt[, mysub(.SD,2),  keyby=x])
-test(1579.25,optimize=opt, dt[, .SD[2L], by=x],    dt[, mysub(.SD,2L), by=x])
-test(1579.26,optimize=opt, dt[, .SD[2L], keyby=x], dt[, mysub(.SD,2L), keyby=x])
-test(1579.27,optimize=opt, dt[, .SD[15], by=x],    dt[, mysub(.SD,15), by=x])   # tests 15 > grpsize and that NA is correct including for integer64
-test(1579.28,optimize=opt, dt[, .SD[15], keyby=x], dt[, mysub(.SD,15), keyby=x])
-# gforce head/tail for n>1, #5060
-set.seed(99)
-DT = data.table(x = sample(letters[1:5], 20, TRUE),
-                y = rep.int(1:2, 10),  # to test 2 grouping columns get rep'd properly
-                i = sample(c(-2L,0L,3L,NA), 20, TRUE),
-                d = sample(c(1.2,-3.4,5.6,NA), 20, TRUE),
-                s = sample(c("foo","bar",NA), 20, TRUE),
-                l = sample(list(1:3, mean, letters[4:5], NULL), 20, replace=TRUE))
-if (test_bit64) DT[, i64:=sample(as.integer64(c(-2200000000,+2400000000,NA)), 20, TRUE)]
-test(1579.401,optimize=0:2, DT[, .N, by=x]$N, INT(4,6,5,2,3))   # the smallest group is 2, so n=5 tests n constrained to grpsize
-test(1579.402,optimize=2L,  DT[, head(.SD,2),    by=x, verbose=TRUE], DT[, utils::head(.SD,2),    by=x], output="optimized.*ghead")
-test(1579.403,optimize=2L,  DT[, head(.SD,2), keyby=x, verbose=TRUE], DT[, utils::head(.SD,2), keyby=x], output="optimized.*ghead")
-test(1579.404,optimize=2L,  DT[, head(.SD,5),    by=x, verbose=TRUE], DT[, utils::head(.SD,5),    by=x], output="optimized.*ghead")
-test(1579.405,optimize=2L,  DT[, head(.SD,5), keyby=x, verbose=TRUE], DT[, utils::head(.SD,5), keyby=x], output="optimized.*ghead")
-test(1579.406,optimize=2L,  DT[, tail(.SD,2),    by=x, verbose=TRUE], DT[, utils::tail(.SD,2),    by=x], output="optimized.*gtail")
-test(1579.407,optimize=2L,  DT[, tail(.SD,2), keyby=x, verbose=TRUE], DT[, utils::tail(.SD,2), keyby=x], output="optimized.*gtail")
-test(1579.408,optimize=2L,  DT[, tail(.SD,5),    by=x, verbose=TRUE], DT[, utils::tail(.SD,5),    by=x], output="optimized.*gtail")
-test(1579.409,optimize=2L,  DT[, tail(.SD,5), keyby=x, verbose=TRUE], DT[, utils::tail(.SD,5), keyby=x], output="optimized.*gtail")
-test(1579.410,optimize=2L,  DT[, tail(.SD,2), by=.(x,y), verbose=TRUE], DT[, utils::tail(.SD,2), by=.(x,y)], output="optimized.*gtail")
-
-
-# FR #971, partly addressed (only subsets in 'i')
-# make sure GForce kicks in and the results are identical
-dt = data.table(x  = sample(letters, 300, TRUE),
-                d1 = as.numeric(sample(-10:10, 300, TRUE)),
-                d2 = as.numeric(sample(c(NA, NaN, -10:10), 300, TRUE)))
-opt = 1:2
-out = c("GForce FALSE","GForce optimized j")
-test(1581.01,optimize=opt, ans1 <- dt[x %in% letters[15:20],
-                        c(.N, lapply(.SD, sum, na.rm=TRUE),
-                              lapply(.SD, min, na.rm=TRUE),
-                              lapply(.SD, max, na.rm=TRUE),
-                              lapply(.SD, mean, na.rm=TRUE),
-                              lapply(.SD, median, na.rm=TRUE)
-                          ), by=x, verbose=TRUE],
-  output = out)
-# test 1581.01 subsumes 1581.01, 1581.02 and 1581.03 for testing all levels
-# subsets in 'i' for head and tail
-test(1581.04,optimize=opt, dt[x %in% letters[15:20], head(.SD,1), by=x, verbose=TRUE], output=out)
-# test 1581.04 subsumes 1581.04, 1581.05 and 1581.06 for testing all levels
-test(1581.07,optimize=opt, dt[x %in% letters[15:20], tail(.SD,1), by=x, verbose=TRUE], output=out)
-# test 1581.07 subsumes 1581.07, 1581.08 and 1581.09 for testing all levels
-test(1581.10,optimize=opt, dt[x %in% letters[15:20], .SD[2], by=x, verbose=TRUE], output=out)
-# test 1581.10 subsumes 1581.10, 1581.11 and 1581.12 for testing all levels
-# #3209 g[[
-test(1581.13,optimize=opt, dt[x %in% letters[15:20], d1[[2]], by=x, verbose=TRUE], output=out)
-# test 1581.13 subsumes 1581.13, 1581.14 and 1581.15 for testing all levels
-# also, block for non-atomic input, #4159
-dt = data.table(a=1:3)
-dt[ , l := .(list(1, 2, 3))]
-test(1581.16, dt[ , .(l = l[[1L]]), by=a, verbose=TRUE],
-     dt[ , l := unlist(l)], output='(GForce FALSE)')
-# make sure not to apply when `[[` is applied to a nested call, #4413
-DT = data.table(f1=c("a","b"), f2=c("x","y"))
-l = list(a = c(x = "ax", y = "ay"), b = c(x = "bx", y = "by"))
-test(1581.17, DT[ , as.list(l[[f1]])[[f2]], by=c("f1","f2")],
-     data.table(f1 = c("a", "b"), f2 = c("x", "y"), V1 = c("ax", "by")))
-test(1581.18, DT[, v:=l[[f1]][f2], by=c("f1","f2")],
-     data.table(f1=c("a","b"), f2=c("x","y"), v=c("ax", "by")))
-# When the object being [[ is in parent.frame(), not x,
-#   need eval to have enclos=parent.frame(), #4612
-DT = data.table(id = c(1, 1, 2), value = c("a", "b", "c"))
-DT0 = copy(DT)
-fun = function(DT, tag = c("A", "B")) DT[, var := tag[[.GRP]], by = "id"]
-fun(DT)
-test(1581.19, DT, DT0[ , var := c('A', 'A', 'B')])
-
-# bug fix #1461 related to NaN not being recognized due to ISNA vs ISNAN at C level
-# verbatim test from the original report:
-DT = data.table(
-     C1 = c(rep("A", 4), rep("B",4), rep("C", 4)),
-     C2 = c(rep("a", 3), rep("b",3), rep("c",3), rep("d",3)),
-     Val = c(1:5, NaN, NaN, 8,9,10,NaN,12))
-opt = 0:2
-test(1583.1,optimize=opt, DT[, .(agg = min(Val, na.rm=TRUE)), by=c('C1', 'C2')],
-             data.table(C1=c("A","A","B","B","C","C"),
-                        C2=c("a","b","b","c","c","d"),
-                        agg=c(1,4,5,8,9,10)))
-# extra test with a size-1 group containing one NaN too
-DT = data.table(x=INT(1,1,1,2,2,2,3,3,3,4,4,4,5), y=c(NaN,1,2, 2,NaN,1, NA,NaN,2, NaN,NA,NaN, NaN))
-test(1583.2,optimize=2L, DT[, min(y, na.rm=TRUE), by=x], data.table(x=1:5, V1=c(1,1,2,NA,NA)))
-test(1583.3,optimize=2L, DT[, max(y, na.rm=TRUE), by=x], data.table(x=1:5, V1=c(2,2,2,NA,NA)))
-test(1583.4,optimize=opt, DT[, min(y), by=x], data.table(x=1:5, V1=c(NaN,NaN,NA,NaN,NaN)))
-test(1583.5,optimize=opt, DT[, max(y), by=x], data.table(x=1:5, V1=c(NaN,NaN,NA,NaN,NaN)))
-
-# FR #523, var, sd and prod
-DT = data.table(x=sample(5, 100, TRUE),
-               y1=sample(6, 100, TRUE),
-               y2=sample(c(1:10,NA), 100, TRUE),
-               z1=runif(100),
-               z2=sample(c(runif(10),NA,NaN), 100, TRUE))
-opt = 0:2
-out = c("GForce FALSE", "GForce FALSE", "GForce optimized j to")
-test(1594.01,optimize=opt, DT[, lapply(.SD, var, na.rm=FALSE), by=x])
-test(1594.02,optimize=opt, DT[, lapply(.SD, var, na.rm=TRUE), by=x])
-test(1594.03,optimize=opt, DT[, lapply(.SD, var, na.rm=TRUE), by=x, verbose=TRUE], output=out)
-# coverage: default group .N=1 case
-idx=DT[ , .I[1L], by=x]$V1
-ans=data.table(x=DT[(idx), x], V1=NA_real_)
-test(1594.05,optimize=opt, DT[(idx), var(y1), by=x], ans)
-test(1594.06,optimize=opt, DT[(idx), var(y1, na.rm=TRUE), by=x], ans)
-test(1594.07,optimize=opt, DT[(idx), var(z1), by=x], ans)
-test(1594.08,optimize=opt, DT[(idx), var(z1, na.rm=TRUE), by=x], ans)
-
-test(1594.09,optimize=opt,DT[, lapply(.SD, sd, na.rm=FALSE), by=x])
-test(1594.10,optimize=opt, DT[, lapply(.SD, sd, na.rm=TRUE), by=x], DT[, lapply(.SD, stats::sd, na.rm=TRUE), by=x])
-test(1594.11,optimize=opt, DT[, lapply(.SD, sd, na.rm=TRUE), by=x, verbose=TRUE], output=out)
- 
-test(1594.12,optimize=opt, DT[, lapply(.SD, prod, na.rm=FALSE), by=x])
-test(1594.13,optimize=opt, DT[, lapply(.SD, prod, na.rm=TRUE), by=x])
-test(1594.14,optimize=opt, DT[, lapply(.SD, prod, na.rm=TRUE), by=x, verbose=TRUE], output=out)
-
-# when datatable.optimize<1, no optimisation of j should take place:
-dt = data.table(x=1:5, y=6:10, z=c(1,1,1,2,2))
-test(1638, options=c(datatable.optimize=0L), dt[, .SD, by=z, verbose=TRUE], output="All optimizations are turned off")
-
-# weighted.mean GForce optimized, #3977
-DT = data.table(x=c(3.7,3.3,3.5,2.8), w=c(5,5,4,1), g=1L)
-opt = c(1L,2L)
-out = c("GForce FALSE", "GForce optimized j to")
-test(2231.01,optimize=opt, DT[, weighted.mean(x, w), g, verbose=TRUE], data.table(g=1L, V1=3.45333333333333), output=out)
-test(2231.02,optimize=opt, DT[, weighted.mean(w, x), g, verbose=TRUE], data.table(g=1L, V1=3.89473684210526), output=out)
-test(2231.03,optimize=opt, DT[, weighted.mean(x), g, verbose=TRUE], data.table(g=1L, V1=3.325), output=out)
-# multiple groups
-DT = data.table(x=c(1L,2L,2L,3L,4L,5L,5L,6L), w=c(1L,1L,1L,1L,2L,2L,2L,2L), g=rep(1L:2L, each=4L))
-test(2231.04,optimize=opt, DT[, weighted.mean(x, w), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(2,5)), output=out)
-test(2231.05,optimize=opt, DT[, weighted.mean(x, w), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(2,5)), output=out)
-test(2231.06,optimize=opt, DT[, weighted.mean(x, w), seq(nrow(DT)), verbose=TRUE], data.table(seq=1L:8L, V1=c(1,2,2,3,4,5,5,6)), output=out)
-# (only x XOR w) containing NA
-DT = data.table(x=c(1L,NA,2L,3L,4L,5L,5L,6L), w=c(1L,1L,1L,1L,2L,NA,2L,2L), g=rep(1L:2L, each=4L))
-test(2231.07,optimize=opt, DT[, weighted.mean(x, w, na.rm=FALSE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(NA_real_, NA_real_)), output=out)
-test(2231.08,optimize=opt, DT[, weighted.mean(x, w, na.rm=TRUE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(2, NA_real_)), output=out)
-test(2231.09,optimize=opt, DT[, weighted.mean(x, na.rm=FALSE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(NA, 5)), output=out)
-test(2231.10,optimize=opt, DT[, weighted.mean(x, na.rm=TRUE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(2, 5)), output=out)
-# (only x XOR w) containing NaN
-DT = data.table(x=c(1L,2L,NaN,3L,4L,5L,5L,6L), w=c(1L,1L,1L,1L,2L,2L,NaN,2L), g=rep(1L:2L, each=4L))
-test(2231.11,optimize=opt, DT[, weighted.mean(x, w, na.rm=FALSE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(NaN, NA)), output=out)
-test(2231.12,optimize=opt, DT[, weighted.mean(x, w, na.rm=TRUE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(2, NA)), output=out)
-test(2231.13,optimize=opt, DT[, weighted.mean(x, na.rm=FALSE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(NaN, 5)), output=out)
-test(2231.14,optimize=opt, DT[, weighted.mean(x, na.rm=TRUE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(2, 5)), output=out)
-# (only x XOR w) containing NA and NaN
-DT = data.table(x=c(1L,NA,NaN,3L,4L,5L,5L,6L), w=c(1L,1L,1L,1L,2L,NA,NaN,2L), g=rep(1L:2L, each=4L))
-test(2231.15,optimize=opt, DT[, weighted.mean(x, w, na.rm=FALSE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(NA_real_, NA_real_)), output=out)
-test(2231.16,optimize=opt, DT[, weighted.mean(x, w, na.rm=TRUE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(2, NA)), output=out)
-test(2231.17,optimize=opt, DT[, weighted.mean(x, na.rm=FALSE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(NA, 5)), output=out)
-test(2231.18,optimize=opt, DT[, weighted.mean(x, na.rm=TRUE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(2, 5)), output=out)
-# (x and w) containing NA and NaN
-DT = data.table(x=c(1L,NA,NaN,3L,4L,5L,5L,6L), w=c(1L,NA,NaN,1L,2L,2L,2L,2L), g=rep(1L:2L, each=4L))
-test(2231.19,optimize=opt, DT[, weighted.mean(x, w, na.rm=FALSE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(NA, 5)), output=out)
-test(2231.20,optimize=opt, DT[, weighted.mean(x, w, na.rm=TRUE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(2, 5)), output=out)
-DT = data.table(x=c(1L,NA,NaN,3L,4L,5L,5L,6L), w=c(1L,NaN,NA,1L,2L,2L,2L,2L), g=rep(1L:2L, each=4L))
-test(2231.21,optimize=opt, DT[, weighted.mean(x, w, na.rm=FALSE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(NA, 5)), output=out)
-test(2231.22,optimize=opt, DT[, weighted.mean(x, w, na.rm=TRUE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(2, 5)), output=out)
-# tests 2231.31-2231.52 were subsumed in 2231.01-2231.22 for testing different optimization levels
-# let wrongly named arguments get lost in ellipsis #5543
-DT = data.table(x=c(3.7,3.3,3.5,2.8), w=c(5,5,4,1), g=1L)
-test(2231.61,optimize=opt, DT[, weighted.mean(x, w),        g, verbose=TRUE], data.table(g=1L, V1=3.45+1/300), output=out)
-test(2231.62,optimize=opt, DT[, weighted.mean(x, weight=w), g, verbose=TRUE], data.table(g=1L, V1=3.325),      output=out)
-test(2231.63,optimize=opt, DT[, weighted.mean(x, w, na.rm=FALSE), g],    DT[, stats::weighted.mean(x, w, na.rm=FALSE), g])
-test(2231.64,optimize=opt, DT[, weighted.mean(x, weight=w, na.rm=TRUE)], DT[, stats::weighted.mean(x, weight=w, na.rm=TRUE)])
-
-# GForce retains attributes in by arguments #5567
-dt = data.table(a=letters[1:4], b=structure(1:4, class = c("class_b", "integer"), att=1), c=structure(c(1L,2L,1L,2L), class = c("class_c", "integer")))
-opt = c(0,Inf)
-out = c("GForce FALSE", "GForce optimized j to")
-test(2263.1,optimize=opt, options=list(datatable.verbose=TRUE), dt[, .N, b], data.table(b=dt$b, N=1L),               output=out)
-# test 2263.1 subsumes 2263.1 and 2263.4 for different optimization levels
-test(2263.2,optimize=opt, options=list(datatable.verbose=TRUE), dt[, .N, .(b,c)], data.table(b=dt$b, c=dt$c, N=1L),  output=out)
-# test 2263.2 subsumes 2263.2 and 2263.5 for different optimization levels
-test(2263.3,optimize=opt, options=list(datatable.verbose=TRUE), names(attributes(dt[, .N, b]$b)), c("class", "att"), output=out)
-# test 2263.3 subsumes 2263.3 and 2263.6 for different optimization levels
-
-# named arguments of c() in j get prepended to lapply(.SD, FUN) #2311
-M <- as.data.table(mtcars)
-M[, " " := hp]
-M[, "." := hp]
-
-sdnames <- setdiff(names(M), "cyl")
-sdlist <- vector("list", length(sdnames))
-names(sdlist) <- sdnames
-
-opts = 0:2
-test(2283 + 0.01, optimize=opts,
-       names(M[, c(m=lapply(.SD, mean)), by="cyl"]),
-       c("cyl", names(c(m=sdlist))),
-       context=sprintf("optimize=%s [I]", format(opt)))
-test(2283 + 0.02, optimize=opts,
-       names(M[, c(Mpg=list(mpg), lapply(.SD, mean)), by="cyl"]),
-       c("cyl", "Mpg", sdnames),
-       context=sprintf("optimize=%s [II]", format(opt)))
-test(2283 + 0.03, optimize=opts,
-       names(M[, c(Mpg=list(mpg), m=lapply(.SD, mean)), by="cyl"]),
-       c("cyl", "Mpg", names(c(m=sdlist))),
-       context=sprintf("optimize=%s [III]", format(opt)))
-test(2283 + 0.04, optimize=opts,
-       names(M[, c(mpg=list(mpg), mpg=lapply(.SD, mean)), by="cyl"]),
-       c("cyl", "mpg", names(c(mpg=sdlist))),
-       context=sprintf("optimize=%s [IV]", format(opt)))
-test(2283 + 0.05, optimize=opts,
-       names(M[, c(list(mpg), lapply(.SD, mean)), by="cyl"]),
-       c("cyl", "V1", sdnames),
-       context=sprintf("optimize=%s [V]", format(opt)))
-test(2283 + 0.06, optimize=opts,
-       names(M[, c(lapply(.SD, mean), list(mpg)), by="cyl"]),
-       c("cyl", sdnames, sprintf("V%d", length(sdnames)+1L)),
-       context=sprintf("optimize=%s [VI]", format(opt)))
-test(2283 + 0.07, optimize=opts,
-       names(M[, c(lapply(.SD, mean), lapply(.SD, sum)), by="cyl"]),
-       c("cyl", sdnames, sdnames),
-       context=sprintf("optimize=%s [VII]", format(opt)))
-test(2283 + 0.08, optimize=opts,
-       names(M[, c(mean=lapply(.SD, mean), sum=lapply(.SD,  sum)), by="cyl"]),
-       c("cyl", names(c(mean=sdlist, sum=sdlist))),
-       context=sprintf("optimize=%s [VIII]", format(opt)))
-test(2283 + 0.09, optimize=opts,
-       names(M[, c(lapply(.SD, mean), sum=lapply(.SD,  sum)), by="cyl"]),
-       c("cyl", sdnames, names(c(sum=sdlist))),
-       context=sprintf("optimize=%s [IX]", format(opt)))
-test(2283 + 0.10, optimize=opts,
-       names(M[, c(" "=lapply(.SD, mean), "."=lapply(.SD,  sum)), by="cyl"]),
-       c("cyl", names(c(" "=sdlist, "."=sdlist))),
-       context=sprintf("optimize=%s [X]", format(opt)))
-test(2283 + 0.11, optimize=opts,
-       names(M[, c(A=list(a=mpg, b=hp), lapply(.SD, mean)), by="cyl"]),
-       c("cyl", names(c(A=list(a=0, b=0))), sdnames),
-       context=sprintf("optimize=%s [XI]", format(opt)))
-test(2283 + 0.12, optimize=opts,
-       names(M[, c(A=list(mpg, hp), lapply(.SD, mean)), by="cyl"]),
-       c("cyl", names(c(A=list(0, 0))), sdnames),
-       context=sprintf("optimize=%s [XII]", format(opt)))
-test(2283 + 0.13, optimize=opts,
-       names(M[, c(A=list(mpg, b=hp, wt), lapply(.SD, mean)), by="cyl"]),
-       c("cyl", names(c(A=list(0, b=0, 0))), sdnames),
-       context=sprintf("optimize=%s [XIII]", format(opt)))
-test(2283 + 0.14, optimize=opts,
-       names(M[, c(A=list(mpg), lapply(.SD, mean)), by="cyl"]),
-       c("cyl", names(c(A=list(0))), sdnames),
-       context=sprintf("optimize=%s [XIV]", format(opt)))
-test(2283 + 0.15, optimize=opts,
-       names(M[, c(" "=list(" "=hp, "."=disp, mpg), lapply(.SD, mean)), by="cyl"]),
-       c("cyl", names(c(" "=list(" "=0, "."=0, 0))), sdnames),
-       context=sprintf("optimize=%s [XV]", format(opt)))
-test(2283 + 0.16, optimize=opts,
-       names(M[, c("."=list(" "=hp, "."=disp, mpg), lapply(.SD, mean)), by="cyl"]),
-       c("cyl", names(c("."=list(" "=0, "."=0, 0))), sdnames),
-       context=sprintf("optimize=%s [XVI]", format(opt)))
-test(2283 + 0.17, optimize=opts,
-       names(M[, c(list(mpg, b=hp), lapply(.SD, mean)), by="cyl", .SDcols=c("vs", "am")]),
-       c("cyl", "V1", "b", "vs", "am"),
-       context=sprintf("optimize=%s [XVII]", format(opt)))
-test(2283 + 0.18, optimize=opts,
-       names(M[, c(list(mpg, b=hp), c(lapply(.SD, mean))), by="cyl", .SDcols=c("vs", "am")]),
-       c("cyl", "V1", "b", "vs", "am"),
-       context=sprintf("optimize=%s [XVIII]", format(opt)))
-test(2283 + 0.19, optimize=opts,
-       names(M[, c(mpg[1], list(mpg, b=hp), c(lapply(.SD, mean))), by="cyl", .SDcols=c("vs", "am")]),
-       c("cyl", "V1", "V2", "b", "vs", "am"),
-       context=sprintf("optimize=%s [XIX]", format(opt)))
diff --git a/inst/tests/tests.Rraw b/inst/tests/tests.Rraw
index 4c043b2675..c4c20b1776 100644
--- a/inst/tests/tests.Rraw
+++ b/inst/tests/tests.Rraw
@@ -78,7 +78,6 @@ if (exists("test.data.table", .GlobalEnv, inherits=FALSE)) {
   test = data.table:::test
   uniqlengths = data.table:::uniqlengths
   uniqlist = data.table:::uniqlist
-  utf8_check = data.table:::utf8_check
   warningf = data.table:::warningf
   which_ = data.table:::which_
   which.first = data.table:::which.first
@@ -1852,7 +1851,53 @@ x = sample(LETTERS,1000,replace=TRUE)
 test(610.3, chorder(x), base::order(x, method="radix"))
 test(610.4, unique(x[chgroup(x)]), unique(x))
 
-# tests 611-623 moved to optimize.Rraw
+# := by group
+options(datatable.optimize=0L)
+DT = data.table(a=1:3,b=(1:9)/10)
+test(611.1, DT[,v:=sum(b),by=a], data.table(a=1:3,b=(1:9)/10,v=c(1.2,1.5,1.8)))
+setkey(DT,a)
+test(611.2, DT[,v:=min(b),by=a], data.table(a=1:3,b=(1:9)/10,v=(1:3)/10,key="a"))
+# Combining := by group with i
+test(611.3, DT[a>1,p:=sum(b)]$p, rep(c(NA,3.3),c(3,6)))
+test(611.4, DT[a>1,q:=sum(b),by=a]$q, rep(c(NA,1.5,1.8),each=3))
+options(datatable.optimize=2L)
+DT = data.table(a=1:3,b=(1:9)/10)
+test(612.1, DT[,v:=sum(b),by=a], data.table(a=1:3,b=(1:9)/10,v=c(1.2,1.5,1.8)))
+setkey(DT,a)
+test(612.2, DT[,v:=min(b),by=a], data.table(a=1:3,b=(1:9)/10,v=(1:3)/10,key="a"))
+# Combining := by group with i
+test(612.3, DT[a>1,p:=sum(b)]$p, rep(c(NA,3.3),c(3,6)))
+test(612.4, DT[a>1,q:=sum(b),by=a]$q, rep(c(NA,1.5,1.8),each=3))
+# Assign to subset ok (NA initialized in the other items) ok :
+test(613, DT[J(2),w:=8.3]$w, rep(c(NA,8.3,NA),each=3))
+test(614, DT[J(3),x:=9L]$x, rep(c(NA_integer_,NA_integer_,9L),each=3))
+test(615, DT[J(2),z:=list(list(c(10L,11L)))]$z, rep(list(NULL, 10:11, NULL),each=3))
+
+# Empty i clause, #2034. Thanks to Chris for testing, tests from him. Plus changes from #759
+ans = copy(DT)[,r:=NA_real_]
+options(datatable.optimize=0L)
+test(618.1, copy(DT)[a>3,r:=sum(b)],   ans)
+test(618.2, copy(DT)[J(-1),r:=sum(b)], ans)
+test(618.3, copy(DT)[NA,r:=sum(b)],    ans)
+test(618.4, copy(DT)[0,r:=sum(b)],     ans)
+test(618.5, copy(DT)[NULL,r:=sum(b)],  null.data.table())
+options(datatable.optimize=2L)
+test(619.1, copy(DT)[a>3,r:=sum(b)],   ans)
+test(619.2, copy(DT)[J(-1),r:=sum(b)], ans)
+test(619.3, copy(DT)[NA,r:=sum(b)],    ans)
+test(619.4, copy(DT)[0,r:=sum(b)],     ans)
+test(619.5, copy(DT)[NULL,r:=sum(b)],  null.data.table())
+
+DT = data.table(x=letters, key="x")
+test(621, copy(DT)[J("bb"), x:="foo"], DT)  # when no update, key should be retained
+test(622, copy(DT)[J("bb"), x:="foo",nomatch=0], DT, warning="ignoring nomatch")
+
+set.seed(2)
+DT = data.table(a=rnorm(5)*10, b=1:5)
+options(datatable.optimize=0L)
+test(623.1, copy(DT)[,s:=sum(b),by=round(a)%%2]$s, c(10L,5L,5L,10L,10L))
+options(datatable.optimize=2L)
+test(623.2, copy(DT)[,s:=sum(b),by=round(a)%%2]$s, c(10L,5L,5L,10L,10L))
 
 # Tests on POSIXct attributes
 
@@ -1974,10 +2019,20 @@ setnames(ans2,"x","V1")
 setnames(ans2,"y","V2")
 test(654, ans1, ans2)
 
-# test 656-658 moved to optimize.Rraw
-# test is not testing what it should since #2671
-# tt = capture.output(DT[,list(mean(x),mean(y)),by=list(grp1,grp2),verbose=TRUE])
-# test(659, !length(grep("Wrote less rows", tt)))  # first group is one row with this seed. Ensure we treat this as aggregate case rather than allocate too many rows.
+options(datatable.optimize = 0L)
+test(656.1, DT[ , mean(x), by=grp1, verbose=TRUE], output='(GForce FALSE)')
+test(656.2, DT[ , list(mean(x)), by=grp1, verbose=TRUE], output="(GForce FALSE)")
+test(656.3, DT[ , list(mean(x), mean(y)), by=grp1, verbose=TRUE], output="(GForce FALSE)")
+options(datatable.optimize = 1L)
+test(657.1, DT[ , mean(x), by=grp1, verbose=TRUE], output='(GForce FALSE)')
+test(657.2, DT[ , list(mean(x)), by=grp1, verbose=TRUE], output="(GForce FALSE)")
+test(657.3, DT[ , list(mean(x), mean(y)), by=grp1, verbose=TRUE], output="(GForce FALSE)")
+options(datatable.optimize = 2L)
+test(658.1, DT[ , mean(x), by=grp1, verbose=TRUE], output="GForce optimized j to.*gmean")
+test(658.2, DT[ , list(mean(x)), by=grp1, verbose=TRUE], output="GForce optimized j to.*gmean")
+test(658.3, DT[ , list(mean(x), mean(y)), by=grp1, verbose=TRUE], output="GForce optimized j to.*gmean")
+# first group is one row with this seed. Ensure we treat this as aggregate case rather than allocate too many rows.
+test(659, DT[,list(mean(x),mean(y)),by=list(grp1,grp2),verbose=TRUE], notOutput = "Wrote less rows")
 
 # Test .N for logical i subset
 DT = data.table(a=1:10, b=rnorm(10))
@@ -2007,7 +2062,33 @@ test(667, DT[a<3,sum(b),by=paste("a")], error='Otherwise, by=eval(paste("a")) sh
 test(668, DT[a<3,sum(b),by=eval(paste("a"))], DT[a<3,sum(b),by=a])
 test(669, DT[a<3,sum(b),by=c(2)], error="must evaluate to 'character'")
 
-# tests 670+671 moved to optimize.Rraw
+# Test := keyby does setkey, #2065
+options(datatable.optimize=0L)
+DT = data.table(x=1:2, y=1:6)
+ans = data.table(x=rep(1:2,each=3),y=c(1L,3L,5L,2L,4L,6L),z=rep(c(9L,12L),each=3),key="x")
+test(670.1, DT[,z:=sum(y),keyby=x], ans)
+DT = data.table(x=1:2, y=1:6)
+test(670.2, DT[,z:=sum(y),keyby="x"], ans)
+DT = data.table(x=1:2, y=1:6)
+test(670.3, DT[,z:=sum(y),keyby=x%%2], data.table(x=1:2,y=1:6,z=c(9L,12L)),
+          warning="The setkey() normally performed by keyby= has been skipped (as if by= was used) because := is being used together with keyby= but the keyby= contains some expressions. To avoid this warning, use by= instead, or provide existing column names to keyby=")
+DT = data.table(x=1:2, y=1:6)
+test(670.4, DT[,z:=sum(y),by=x%%2], data.table(x=1:2,y=1:6,z=c(9L,12L)))
+DT = data.table(x=1:2, y=1:6)
+test(670.5, DT[x>1,z:=sum(y),keyby=x], error=":= with keyby is only possible when i is not supplied since")
+options(datatable.optimize=2L)
+DT = data.table(x=1:2, y=1:6)
+ans = data.table(x=rep(1:2,each=3),y=c(1L,3L,5L,2L,4L,6L),z=rep(c(9L,12L),each=3),key="x")
+test(671.1, DT[,z:=sum(y),keyby=x], ans)
+DT = data.table(x=1:2, y=1:6)
+test(671.2, DT[,z:=sum(y),keyby="x"], ans)
+DT = data.table(x=1:2, y=1:6)
+test(671.3, DT[,z:=sum(y),keyby=x%%2], data.table(x=1:2,y=1:6,z=c(9L,12L)),
+          warning="The setkey() normally performed by keyby= has been skipped (as if by= was used) because := is being used together with keyby= but the keyby= contains some expressions. To avoid this warning, use by= instead, or provide existing column names to keyby=")
+DT = data.table(x=1:2, y=1:6)
+test(671.4, DT[,z:=sum(y),by=x%%2], data.table(x=1:2,y=1:6,z=c(9L,12L)))
+DT = data.table(x=1:2, y=1:6)
+test(671.5, DT[x>1,z:=sum(y),keyby=x], error=":= with keyby is only possible when i is not supplied since")
 
 # Test new .()
 DT = data.table(x=1:2, y=1:6, key="x")
@@ -2192,7 +2273,23 @@ test(749, DT[,c("c","d","e"):=list(.N,sum(b),a*10L),by=a], data.table(a=rep(6:8,
 test(750.1, copy(DT)[a<8,`:=`(f=b+sum(d),g=.N),by=c][,6:7,with=FALSE], data.table(f=INT(2,12,13,NA,NA,NA),g=INT(1,2,2,NA,NA,NA)))
 test(750.2, copy(DT)[a<8,let(f=b+sum(d),g=.N),by=c][,6:7,with=FALSE], data.table(f=INT(2,12,13,NA,NA,NA),g=INT(1,2,2,NA,NA,NA)))
 
-# tests 751, 752 moved to optimize.Rraw
+# varname holding colnames, by group, linked from #2120.
+options(datatable.optimize=0L)
+DT = data.table(a=rep(1:3,1:3),b=1:6)
+colname = "newcol"
+test(751.1, DT[,(colname):=sum(b),by=a], data.table(a=rep(1:3,1:3),b=1:6,newcol=INT(1,5,5,15,15,15)))
+options(datatable.optimize=2L)
+DT = data.table(a=rep(1:3,1:3),b=1:6)
+colname = "newcol"
+test(751.2, DT[,(colname):=sum(b),by=a], data.table(a=rep(1:3,1:3),b=1:6,newcol=INT(1,5,5,15,15,15)))
+
+# Add tests for nested := in j by group, #1987
+options(datatable.optimize=0L)
+DT = data.table(a=rep(1:3,2:4),b=1:9)
+test(752.1, DT[,head(.SD,2)[,new:=1:.N],by=a], data.table(a=rep(1:3,each=2),b=c(1:4,6:7),new=1:2))
+options(datatable.optimize=2L)
+DT = data.table(a=rep(1:3,2:4),b=1:9)
+test(752.2, DT[,head(.SD,2)[,new:=1:.N],by=a], data.table(a=rep(1:3,each=2),b=c(1:4,6:7),new=1:2))
 
 # Test duplicate() of recycled plonking RHS, #2298
 DT = data.table(a=letters[3:1],x=1:3)
@@ -2494,8 +2591,18 @@ test(864.3, rbindlist(list(data.table(logical(0),logical(0)), DT<-data.table(baz
             message="Column 1 [[]'baz'[]] of item 2 is missing in item 1.*Use fill=TRUE.*or use.names=FALSE.*v1.12.2")
 
 # Steve's find that setnames failed for numeric 'old' when pointing to duplicated names
-# tests 865-868 moved to optimize.Rraw
-
+DT = data.table(a=1:3,b=1:3,v=1:6,w=1:6)
+options(datatable.optimize = 0L)
+test(865.1, ans1<-DT[,{list(name1=sum(v),name2=sum(w))},by=c('a', 'b'),verbose=TRUE], output="(GForce FALSE)")
+options(datatable.optimize = 1L)
+test(865.2, ans1<-DT[,{list(name1=sum(v),name2=sum(w))},by=c('a', 'b'),verbose=TRUE], output="(GForce FALSE)")
+options(datatable.optimize = 2L)
+test(865.3, ans1<-DT[,{list(name1=sum(v),name2=sum(w))},by=c('a', 'b'),verbose=TRUE],
+          output="GForce optimized.*gsum[(]v[)], gsum[(]w[)]")  # v1.9.7 treats wrapped {} better, so this is now optimized
+options(datatable.optimize = Inf)
+test(866, names(ans1), c("a","b","name1","name2"))
+test(867, names(ans2<-DT[,list(name1=sum(v),name2=sum(w)),by=c('a', 'b')]), c("a","b","name1","name2"))  # list names extracted here
+test(868, ans1, ans2)
 # and related to setnames, too
 DT = data.table(a=1:3,b=1:6,key="a")
 test(869, DT[J(2,42,84),print(.SD),by=.EACHI], output="   b\n.*1.*2\n2:.*5.*Empty data.table [(]0 rows and 3 cols[)]: a,V2,V3")  # .* for when verbose mode
@@ -3462,35 +3569,7 @@ DT[,`:=`(last.x=tail(x,1L),last.x1=tail(x1,1L)),by=y]
 test(1086, class(DT$last.x), c("POSIXct", "POSIXt"))
 test(1087, class(DT$last.x1), "ITime")
 
-# chmatch on 'unknown' encoding (e.g. as.character(as.symbol("\u00E4")) )falling back to match, #2538 and #4818
-local({
-x1 = c("al\u00E4", "ala", "\u00E4allc", "coep")
-x2 = c("ala", "al\u00E4")
-if (utf8_check(c(x1,x2))) {
-  tstc = function(y) unlist(lapply(y, function(x) as.character(as.name(x))), use.names=FALSE)
-  test(1088.1, chmatch(x1, x2), match(x1, x2)) # should not fallback to "match"
-  test(1088.2, x1 %chin% x2, x1 %in% x2)
-  # change x1 to symbol to character
-  test(1089.1, chmatch(tstc(x1), x2), match(tstc(x1), x2)) # should fallback to match in "x"
-  test(1089.2, tstc(x1) %chin% x2, tstc(x1) %in% x2) # should fallback to match in "x"
-  # change x2 to symbol to character
-  test(1090.1, chmatch(x1,tstc(x2)), match(x1, tstc(x2))) # should fallback to match in "table"
-  test(1090.2, x1 %chin% tstc(x2), x1 %in% tstc(x2))
-  # both are symbols to characters
-  test(1091.1, chmatch(tstc(x1), tstc(x2)), match(tstc(x1), tstc(x2))) # should fallback to "match" in "x" as well.
-  test(1091.2, tstc(x1) %chin% tstc(x2), tstc(x1) %in% tstc(x2))
-} else cat("Tests 1088-1091 skipped because required UTF-8 symbols cannot be represented in native encoding.\n")
-})
-# for completeness, include test from #2528 of non ascii LHS of := (it could feasibly fail in future due to something other than chmatch)
-
-local(if (utf8_check("\u00E4")) {
-eval(parse(text='  # eval(parse()) defers parsing to runtime; see utf8_check description
-  DT = data.table(pas = c(1:5, NA, 6:10), good = c(1:10, NA))
-  setnames(DT, "pas", "p\u00E4s")
-  test(1092, DT[is.na(p\u00E4s), p\u00E4s := 99L], data.table("p\u00E4s" = c(1:5, 99L, 6:10), good = c(1:10,NA)))
-  test(1093, DT[, p\u00E4s := 34L], data.table("p\u00E4s" = 34L, good=c(1:10,NA)))
-'))
-} else cat("Tests 1092+1093 skipped because required UTF-8 symbols cannot be represented in native encoding.\n"))
+# Tests 1088-1093 were non-ASCII. Now in DtNonAsciiTests
 
 # print of unnamed DT with >20 <= 100 rows, #97 (RF#4934)
 DT <- data.table(x=1:25, y=letters[1:25])
@@ -3629,9 +3708,8 @@ test(1100, dt1[dt2,roll=-Inf,rollends=c(FALSE,TRUE)]$ind, INT(NA,NA,1,2,2,2,2,2,
 
   # issue 5824 - tests for "value.var.in.dots", "value.var.in.LHSdots", "value.var.in.RHSdots" arguments of dcast
   DT = data.table(index = c("a","b"), x = 1:2)
-  test(1102.1810, dcast(DT, ... ~ index, fun.aggregate = length, value.var.in.dots = NA), error = "'value.var.in.dots' must be TRUE or FALSE")
-  test(1102.1821, dcast(DT, ... ~ index, fun.aggregate = length, value.var.in.LHSdots = NA), error = "'value.var.in.LHSdots' must be TRUE or FALSE")
-  test(1102.1822, dcast(DT, ... ~ index, fun.aggregate = length, value.var.in.RHSdots = NA), error = "'value.var.in.RHSdots' must be TRUE or FALSE")
+  test(1102.181, dcast(DT, ... ~ index, fun.aggregate = length, value.var.in.dots = NA), error = "Argument 'value.var.in.dots' should be logical TRUE/FALSE")
+  test(1102.182, dcast(DT, ... ~ index, fun.aggregate = length, value.var.in.LHSdots = NA), error = "Arguments 'value.var.in.LHSdots', 'value.var.in.RHSdots' should be logical TRUE/FALSE")
   test(1102.183, dcast(DT, ... ~ index, fun.aggregate = length, value.var.in.dots = TRUE), data.table(x = 1:2, a = 1:0, b = 0:1, key = "x"))
   test(1102.184, dcast(DT, ... ~ index, fun.aggregate = length, value.var = "index", value.var.in.dots = TRUE), data.table(index = c("a","b"), x = 1:2, a = 1:0, b = 0:1, key = c("index", "x")))
   test(1102.185, dcast(DT, ... + index ~ index, fun.aggregate = length, value.var = "index", value.var.in.dots = TRUE), data.table(index = c("a","b"), x = 1:2, a = 1:0, b = 0:1, key = c("index", "x")))
@@ -3921,8 +3999,10 @@ test(1133.3, DT[, new := c(1,2), by=x],   error="Supplied 2 items to be assigned
 test(1133.4, DT[, new := c(1L,2L), by=x], error="Supplied 2 items to be assigned to group 1 of size 5 in column 'new'")
 test(1133.5, DT, data.table(x=INT(1,1,1,1,1,2,2), new=99L))
 test(1133.6, DT[, new := rep(-.GRP, .N), by=x], data.table(x=INT(1,1,1,1,1,2,2), new=INT(-1,-1,-1,-1,-1,-2,-2)))
-test(1133.7,optimize=c(0L, 2L), DT[, new := .N, by=x], data.table(x=INT(1,1,1,1,1,2,2), new=INT(5,5,5,5,5,2,2)))
-# test 1133.7 subsumes 1133.7 and 1133.75 for testing both levels
+options(datatable.optimize=0L)
+test(1133.7, DT[, new := .N, by=x], data.table(x=INT(1,1,1,1,1,2,2), new=INT(5,5,5,5,5,2,2)))
+options(datatable.optimize=2L)
+test(1133.75, DT[, new := .N, by=x], data.table(x=INT(1,1,1,1,1,2,2), new=INT(5,5,5,5,5,2,2)))
 # on a new column with warning on 2nd assign
 DT[,new:=NULL]
 test(1133.8, DT[, new := if (.GRP==1L) 7L else 3.4, by=x], data.table(x=INT(1,1,1,1,1,2,2), new=INT(7,7,7,7,7,3,3)),
@@ -4034,9 +4114,12 @@ DT<-data.table(X=factor(2006:2012),Y=rep(1:7,2))
 test(1143.2, DT[, Z:=paste(X,.N,sep=" - "), by=list(X)], data.table(X=factor(2006:2012),Y=rep(1:7,2), Z=paste(as.character(2006:2012), 2L, sep=" - ")))
 DT = data.table(x=as.POSIXct(c("2009-02-17 17:29:23.042", "2009-02-17 17:29:25.160")), y=c(1L,2L))
 test(1143.3, DT[, list(lx=x[.N]), by=x], data.table(x=DT$x, lx=DT$x))
-test(1143.4,optimize=c(0L, 2L), copy(DT)[,`:=`(lx=tail(x,1L)), by=y], copy(DT)[, lx:=x])
-test(1143.5,optimize=c(0L, 2L), copy(DT)[, let(lx=tail(x,1L)), by=y], copy(DT)[, lx:=x])
-# tests 1143.4 and 1143.5 subsume 1143.4, 1143.5, 1143.6 and 1143.7 for testing both levels
+options(datatable.optimize=0L)
+test(1143.4, copy(DT)[,`:=`(lx=tail(x,1L)), by=y], copy(DT)[, lx:=x])
+test(1143.5, copy(DT)[, let(lx=tail(x,1L)), by=y], copy(DT)[, lx:=x])
+options(datatable.optimize=2L)
+test(1143.6, copy(DT)[,`:=`(lx=tail(x,1L)), by=y], copy(DT)[, lx:=x])
+test(1143.7, copy(DT)[, let(lx=tail(x,1L)), by=y], copy(DT)[, lx:=x])
 
 # FR #2356 - retain names of named vector as column with keep.rownames=TRUE
 x <- 1:5
@@ -4247,10 +4330,7 @@ test(1162.24, is.sorted(rep(NA_character_, 2)))
 x <- character(0)
 test(1163, last(x), character(0))
 
-# Bug fix for #5159 - chmatch and character encoding (for some reason this seems to pass the test on a mac as well)
-a = c("a","\u00E4","\u00DF","z")
-au = iconv(a,"UTF8","latin1")
-test(1164.1, requires_utf8=c("\u00E4", "\u00DF"), chmatch(a, au), match(a, au))
+# Test 1164 was a non-ASCII test, now in DtNonAsciiTests
 
 # Bug fix for #73 - segfault when rbindlist on empty data.tables
 x <- as.data.table(BOD)
@@ -4312,7 +4392,40 @@ test(1181, forderv(INT(1,3,5000000,NA)), INT(4,1,2,3))
 test(1182, forderv(INT(1,-1,5000000,NA)), INT(4,2,1,3))
 test(1183, forderv(INT(-3,-7,1,-6000000,NA,3,5000000,NA,8)), INT(5,8,4,2,1,3,6,9,7))
 
-# tests 1184-1187 moved to optimize.Rraw
+# tests of gsum and gmean with NA
+DT = data.table(x=rep(c("a","b","c","d"),each=3), y=c(1L,3L,6L), v=as.numeric(1:12))
+set(DT,c(3L,8L),"y",NA)
+set(DT,c(5L,9L),"v",NA)
+set(DT,10:12,"y",NA)
+set(DT,10:12,"v",NA)
+options(datatable.optimize=1)  # turn off GForce
+test(1184.1, DT[, sum(v), by=x, verbose=TRUE], output="(GForce FALSE)")
+test(1184.2, DT[, mean(v), by=x, verbose=TRUE], output="(GForce FALSE)")
+test(1185.1, DT[, list(sum(y), sum(v), sum(y,na.rm=TRUE), sum(v,na.rm=TRUE)), by=x],
+           data.table(x=c("a","b","c","d"), V1=c(NA,10L,NA,NA), V2=c(6,NA,NA,NA), V3=c(4L,10L,7L,0L), V4=c(6,10,15,0)))
+options(datatable.optimize=0)  # turn off fastmean optimization to get the answer to match to
+test(1185.2, ans <- DT[, list(mean(y), mean(v), mean(y,na.rm=TRUE), mean(v,na.rm=TRUE)), by=x, verbose=TRUE], output="All optimizations.*off")
+options(datatable.optimize=1)  # turn on old fastmean optimization only
+test(1185.3, DT[, list(mean(y), mean(v), mean(y,na.rm=TRUE), mean(v,na.rm=TRUE)), by=x, verbose=TRUE], ans, output="Old mean.*changed j")
+options(datatable.optimize=Inf)  # turn on GForce
+test(1185.4, DT[, list(mean(y), mean(v), mean(y,na.rm=TRUE), mean(v,na.rm=TRUE)), by=x, verbose=TRUE], ans, output="GForce optimized j to")
+test(1186, DT[, sum(v), by=x, verbose=TRUE], output="GForce optimized j to")
+test(1187.1, DT[, list(sum(y), sum(v), sum(y,na.rm=TRUE), sum(v,na.rm=TRUE)), by=x],
+           data.table(x=c("a","b","c","d"), V1=c(NA,10L,NA,NA), V2=c(6,NA,NA,NA), V3=c(4L,10L,7L,0L), V4=c(6,10,15,0)))
+MyVar = TRUE
+test(1187.2, DT[, list(sum(y,na.rm=MyVar), mean(y,na.rm=MyVar)), by=x, verbose=TRUE], output="GForce optimized j to",
+             DT[, list(sum(y,na.rm=TRUE), mean(y,na.rm=TRUE)), by=x])
+test(1187.3, DT[, mean(y,na.rm=MyVar), by=x, verbose=TRUE], output="GForce optimized j to",
+             DT[, mean(y,na.rm=TRUE), by=x])
+MyVar = FALSE
+test(1187.4, DT[, list(sum(y,na.rm=MyVar), mean(y,na.rm=MyVar)), by=x, verbose=TRUE], output="GForce optimized j to",
+             DT[, list(sum(y,na.rm=FALSE), mean(y,na.rm=FALSE)), by=x])
+test(1187.5, DT[, mean(y,na.rm=MyVar), by=x, verbose=TRUE], output="GForce optimized j to",
+             DT[, mean(y,na.rm=FALSE), by=x])
+# GForce should not turn on when the .ok function isn't triggered
+test(1187.6, DT[, mean(y, trim=.2), by=x, verbose=TRUE],
+             data.table(x = c("a", "b", "c", "d"), V1 = c(NA, 3.33333333333333, NA, NA)),
+             output='j unchanged', warning="'trim' is not yet optimized")
 
 # test from Zach Mayer
 a <- c("\"\"\"\")  \" \"   \"  \"    \"",  "\"\"\"\")  \" \"   \"  \"   \"",  "\"\"\"\")  \" \"   \"  \"    ,\"")
@@ -4503,42 +4616,22 @@ test(1228.4, class(DT), class(DT[, sum(b), by=a]))
 test(1228.5, class(DT), class(DT[a>1, sum(b), by=a]))
 test(1228.6, class(DT), class(DT[a>1, c:=sum(b), by=a]))
 
-# savetl_init error after error, in v1.9.2, thanks Arun
-DT = data.table(x=1:5, y=10:6)
-test(1229.1, DT[forderv(DT, -1)], error="non-existing column")
-test(1229.2, setkey(DT), data.table(x=1:5, y=10:6, key="x,y"))
-# umlaut in column names (red herring I think, but testing anyway)
-local(if (utf8_check("\u00fc")) {
-  eval(parse(text = '  # eval(parse()) defers parsing to runtime; see utf8_check description
-    sentEx = data.table(abend = c(1, 1, 0, 0, 2),
-                      aber = c(0, 1, 0, 0, 0),
-                      "\u00FCber" = c(1, 0, 0, 0, 0),
-                      "\u00FCberall" = c(0, 0, 0, 0, 0),
-                      "\u00FCberlegt" = c(0, 0, 0, 0, 0),
-                      ID = structure(c(1L, 1L, 2L, 2L, 2L), .Label = c("0019", "0021"), class = "factor"),
-                      abgeandert = c(1, 1, 1, 0, 0),
-                      abgebildet = c(0, 0, 1, 1, 0),
-                      abgelegt = c(0, 0, 0, 0, 3))
-    test(1229.3, sentEx[, lapply(.SD, sum), by=ID], data.table(ID=factor(c("0019","0021")), abend=c(2,2), aber=c(1,0), "\u00FCber"=c(1,0),
-         "\u00FCberall"=c(0,0), "\u00FCberlegt" = c(0,0), abgeandert=c(2,1), abgebildet = c(0,2), abgelegt=c(0,3)))
-  '))
-} else {
-  cat("Test 1229.3 skipped because required UTF-8 symbols cannot be represented in native encoding.\n")
-})
+# test 1229 was non-ASCII, now in package DtNonAsciiTests
 
 # Test that ad hoc by detects if ordered and dogroups switches to memcpy if contiguous, #1050
 DT = data.table(a=1:3,b=1:6,key="a")
-# turn off GForce, to test dogroups
-test(1230,optimize=1L, DT[, sum(b), by=a, verbose=TRUE], output="memcpy contiguous groups")
+options(datatable.optimize=1) # turn off GForce, to test dogroups
+test(1230, DT[, sum(b), by=a, verbose=TRUE], output="memcpy contiguous groups")
 setkey(DT,NULL)
-test(1231,optimize=1L, DT[, sum(b), by=a, verbose=TRUE], output="memcpy contiguous groups")
-test(1232,optimize=1L, DT[, sum(b), by=a+1, verbose=TRUE], output="memcpy contiguous groups")
-test(1233,optimize=1L, DT[, sum(b), by=a%%2, verbose=TRUE], output="collecting discontiguous groups")
-test(1234,optimize=1L, DT[, sum(a), by=b, verbose=TRUE], output="memcpy contiguous groups") # as from v1.12.0 the out-of-order but grouped-ness is detected and utilized
+test(1231, DT[, sum(b), by=a, verbose=TRUE], output="memcpy contiguous groups")
+test(1232, DT[, sum(b), by=a+1, verbose=TRUE], output="memcpy contiguous groups")
+test(1233, DT[, sum(b), by=a%%2, verbose=TRUE], output="collecting discontiguous groups")
+test(1234, DT[, sum(a), by=b, verbose=TRUE], output="memcpy contiguous groups") # as from v1.12.0 the out-of-order but grouped-ness is detected and utilized
 setkey(DT,a)
-test(1235,optimize=1L, DT[.(2:3),sum(b),by=.EACHI,verbose=TRUE], data.table(a=2:3,V1=c(7L,9L),key="a"), output="memcpy contiguous groups")
-test(1236,optimize=1L, DT[.(3:2),sum(b),by=.EACHI,verbose=TRUE], data.table(a=3:2,V1=c(9L,7L)), output="memcpy contiguous groups")
-test(1237,optimize=1L, DT[.(3:2),sum(b),keyby=.EACHI,verbose=TRUE], data.table(a=2:3,V1=c(7L,9L),key="a"), output="memcpy contiguous groups")
+test(1235, DT[.(2:3),sum(b),by=.EACHI,verbose=TRUE], data.table(a=2:3,V1=c(7L,9L),key="a"), output="memcpy contiguous groups")
+test(1236, DT[.(3:2),sum(b),by=.EACHI,verbose=TRUE], data.table(a=3:2,V1=c(9L,7L)), output="memcpy contiguous groups")
+test(1237, DT[.(3:2),sum(b),keyby=.EACHI,verbose=TRUE], data.table(a=2:3,V1=c(7L,9L),key="a"), output="memcpy contiguous groups")
+options(datatable.optimize=Inf)
 
 # check that key is not preserved when length of fastorder is > 0
 DT <- data.table(x=1:5, y=6:10, key="x")
@@ -4805,24 +4898,47 @@ set.seed(45L)
 dt = data.table(a=sample(2,10,TRUE), b=sample(3,10,TRUE), c=sample(4,10,TRUE), d=sample(5,10,TRUE))
 dt2 = data.table(x=c(1,1,1,2,2,2), y=1:6)
 
-gf_out = c("All optimizations are turned off", "Old mean optimization.*(GForce FALSE)", "GForce optimized j to")
-lp_out = c("All optimizations are turned off", "Old mean optimization.*(GForce FALSE)", "lapply optimization changed j")
-opt = c(0L, 1L, Inf)
+options(datatable.optimize=0L)
 # auto-naming behavior is different for no-optimization case; just check optimization is off
-test(1268.01,optimize=opt, dt[, c(lapply(.SD, mean), lapply(.SD, sum)), by=a, verbose=TRUE], output = gf_out)
-test(1268.02,optimize=opt, dt[, c(lapply(.SD, mean), .N), by=a, verbose=TRUE], output = lp_out)
-test(1268.03,optimize=opt, dt[, c(list(c), lapply(.SD, mean)), by=a, verbose=TRUE], output= lp_out)
-test(1268.04,optimize=opt, dt[, c(sum(d), lapply(.SD, mean)), by=a, verbose=TRUE], output= gf_out)
-test(1268.05,optimize=opt, dt[, c(list(sum(d)), lapply(.SD, mean)), by=a, verbose=TRUE], output= lp_out)
+test(1268.01, dt[, c(lapply(.SD, mean), lapply(.SD, sum)), by=a, verbose=TRUE], output = 'All optimizations are turned off')
+test(1268.02, dt[, c(lapply(.SD, mean), .N), by=a, verbose=TRUE], output = 'All optimizations are turned off')
+test(1268.03, dt[, c(list(c), lapply(.SD, mean)), by=a, verbose=TRUE], output="All optimizations are turned off")
+test(1268.04, dt[, c(sum(d), lapply(.SD, mean)), by=a, verbose=TRUE], output="All optimizations are turned off")
+test(1268.05, dt[, c(list(sum(d)), lapply(.SD, mean)), by=a, verbose=TRUE], output="All optimizations are turned off")
 # newly added tests for #861 -- optimise, but no GForce
-test(1268.06,optimize=opt, dt[, c(list(sum(d), .I), lapply(.SD, mean)), by=a, verbose=TRUE], output= lp_out)
+test(1268.06, dt[, c(list(sum(d), .I), lapply(.SD, mean)), by=a, verbose=TRUE], output="All optimizations are turned off")
 # don't optimise .I in c(...)
-test(1268.07,optimize=opt, dt2[, c(.I, lapply(.SD, mean)), by=x, verbose=TRUE],
-  output= c("All optimizations are turned off", "Old mean optimization.*(GForce FALSE)", "lapply optimization is on, j unchanged as"))
-# tests .08-.21 were different optimization levels
-test(1268.22,optimize=opt, dt[, c(as.list(c), lapply(.SD, mean)), by=a],
+test(1268.07, dt2[, c(.I, lapply(.SD, mean)), by=x, verbose=TRUE], output="All optimizations are turned off")
+
+options(datatable.optimize=1L)
+test(1268.08, ans1 <- dt[ , c(lapply(.SD, mean), lapply(.SD, sum)), by=a, verbose=TRUE], output="Old mean optimization.*(GForce FALSE)")
+test(1268.09, ans2 <- dt[, c(lapply(.SD, mean), .N), by=a, verbose = TRUE], output="Old mean optimization.*GForce FALSE")
+test(1268.10, ans3 <- dt[, c(list(c), lapply(.SD, mean)), by=a, verbose=TRUE], output = 'Old mean optimization.*GForce FALSE')
+test(1268.11, ans4 <- dt[, c(sum(d), lapply(.SD, mean)), by=a, verbose = TRUE], output="Old mean optimization.*GForce FALSE")
+test(1268.12, ans5 <- dt[, c(list(sum(d)), lapply(.SD, mean)), by=a, verbose=TRUE], output="Old mean optimization.*GForce FALSE")
+test(1268.13, ans6 <- dt[, c(list(sum(d), .I), lapply(.SD, mean)), by=a, verbose=TRUE], output="Old mean optimization.*GForce FALSE")
+test(1268.14, ans7 <- dt2[, c(.I, lapply(.SD, mean)), by=x, verbose=TRUE], output="Old mean optimization.*GForce FALSE")
+
+options(datatable.optimize=Inf)
+test(1268.15, dt[, c(lapply(.SD, mean), lapply(.SD, sum)), by=a, verbose=TRUE], ans1,
+             output="GForce optimized j to 'list(gmean(b), gmean(c), gmean(d), gsum(b), gsum(c), gsum(d))'")
+test(1268.16, dt[, c(lapply(.SD, mean), .N), by=a, verbose=TRUE], ans2,
+                  output = "lapply optimization changed j from 'c(lapply(.SD, mean), .N)' to 'list(mean(b), mean(c), mean(d), .N)'")
+test(1268.17, dt[, c(list(c), lapply(.SD, mean)), by=a, verbose=TRUE], ans3,
+             output = "lapply optimization changed j from 'c(list(c), lapply(.SD, mean))' to 'list(c, mean(b), mean(c), mean(d))")
+test(1268.18, dt[, c(sum(d), lapply(.SD, mean)), by=a, verbose=TRUE], ans4,
+             output = "GForce optimized j to 'list(gsum(d), gmean(b), gmean(c), gmean(d))'")
+test(1268.19, dt[, c(list(sum(d)), lapply(.SD, mean)), by=a, verbose=TRUE], ans5,
+             output = "GForce optimized j to 'list(gsum(d), gmean(b), gmean(c), gmean(d))'")
+test(1268.20, dt[, c(list(sum(d), .I), lapply(.SD, mean)), by=a, verbose=TRUE], ans6,
+             output = "lapply optimization changed j from 'c(list(sum(d), .I), lapply(.SD, mean))' to 'list(sum(d), .I, mean(b), mean(c), mean(d))'")
+test(1268.21, dt2[, c(.I, lapply(.SD, mean)), by=x, verbose=TRUE], ans7,
+             output = "lapply optimization is on, j unchanged as 'c(.I, lapply(.SD, mean))'")
+
+test(1268.22, dt[, c(as.list(c), lapply(.SD, mean)), by=a],
              error = "j doesn't evaluate to the same number of columns for each group")
 
+
 ### FR #2722 tests end here ###
 
 # Wide range numeric and integer64, to test all bits
@@ -5162,7 +5278,21 @@ set(DT,1L,"b",3L)
 test(1302, 0L[1L], 3L-3L)
 test(1303, 0L, 3L-3L)
 
-# test 1304 moved to optimize.Rraw
+# FR #334. Test to just make sure that GForce and dogroups with .N are giving the same results.
+set.seed(2L)
+dt <- data.table(x=sample(rep(1:5e3, each=3)), y=sample(10))
+options(datatable.optimize = 1L)
+ans1 <- dt[, list(.N, sum(y)), by=x]
+options(datatable.optimize = 2L)
+ans2 <- dt[, list(.N, sum(y)), by=x]
+test(1304.1, ans1, ans2)
+
+dt <- data.table(x=sample(rep(1:5e3, each=3)), y=sample(10), key="x")
+options(datatable.optimize = 1L)
+ans1 <- dt[, list(.N, sum(y)), by=x]
+options(datatable.optimize = 2L)
+ans2 <- dt[, list(.N, sum(y)), by=x]
+test(1304.2, ans1, ans2)
 
 # FR #338
 DT <- data.table(x=1:5, y=6:10)
@@ -5211,7 +5341,59 @@ DT = data.table(a=1:3,b=6:1)
 test(1312, DT[,setkey(.SD),by=a], error="Setting a physical key on .SD is reserved for possible future use")
 # was warning "Already keyed by this key but had invalid row order" due to the key not being cleared after the previous group.  A solution could have been to put back the original key on populating .SD for each group.  But instead we reserve it for future use and push the user towards doing it a different more efficient way (see Arun's speedups in the datatable-help thread).
 
-# test 1313 moved to optimize.Rraw
+# gmin and gmax extensive testing (because there are tricky cases)
+DT <- data.table(x=rep(1:6, each=3), y=INT(4,-1,0, NA,4,10, 4,NA,10, 4,10,NA, -2147483647, -2147483647, -2147483647, 2147483647, 2147483647, 2147483647))
+# make sure GForce is running
+options(datatable.optimize=3L)
+
+# for integers
+test(1313.01, DT[, min(y), by=x], DT[, base::min(y), by=x])
+test(1313.02, DT[, max(y), by=x], DT[, base::max(y), by=x])
+test(1313.03, DT[, min(y, na.rm=TRUE), by=x], DT[, base::min(y, na.rm=TRUE), by=x])
+test(1313.04, DT[, max(y, na.rm=TRUE), by=x], DT[, base::max(y, na.rm=TRUE), by=x])
+# testing all NA - GForce automatically converts to numeric.. optimize=1L errors due to change from integer/numeric (like median)
+DT[x==6, y := INT(NA)]
+test(1313.05, DT[, min(y), by=x], DT[, base::min(y), by=x])
+test(1313.06, DT[, max(y), by=x], DT[, base::max(y), by=x])
+test(1313.07, DT[, min(y, na.rm=TRUE), by=x], data.table(x=1:6, V1=INT(-1,4,4,4,-2147483647,NA)))
+test(1313.08, DT[, max(y, na.rm=TRUE), by=x], data.table(x=1:6, V1=INT(4,10,10,10,-2147483647,NA)))
+
+# for numeric
+DT <- data.table(x=rep(1:6, each=3), y=c(4,-1,0, NA,4,10, 4,NA,10, 4,10,NA, -Inf, NA, NA, Inf, NA, NA))
+test(1313.09, DT[, min(y), by=x], DT[, base::min(y), by=x])
+test(1313.10, DT[, max(y), by=x], DT[, base::max(y), by=x])
+test(1313.11, DT[, min(y, na.rm=TRUE), by=x], DT[, base::min(y, na.rm=TRUE), by=x])
+test(1313.12, DT[, max(y, na.rm=TRUE), by=x], DT[, base::max(y, na.rm=TRUE), by=x])
+# testing all NA - GForce automatically converts to numeric.. optimize=1L errors due to change from integer/numeric (like median)
+DT[x==6, y := NA_real_]
+test(1313.13, DT[, min(y), by=x], DT[, base::min(y), by=x])
+test(1313.14, DT[, max(y), by=x], DT[, base::max(y), by=x])
+test(1313.15, DT[, min(y, na.rm=TRUE), by=x], data.table(x=1:6, V1=c(-1,4,4,4,-Inf,NA)))
+test(1313.16, DT[, max(y, na.rm=TRUE), by=x], data.table(x=1:6, V1=c(4,10,10,10,-Inf,NA)))
+
+# for date (attribute check.. especially after issues/689 !!!)
+DT <- data.table(x = rep(letters[1:2], each=5), y = as.POSIXct('2010-01-01', tz="UTC") + seq(0, 86400*9, 86400))
+test(1313.17, DT[, list(y=min(y)), by=x], DT[c(1,6)])
+test(1313.18, DT[, list(y=max(y)), by=x], DT[c(5,10)])
+DT[c(1,6), y := NA]
+test(1313.19, DT[, list(y=min(y)), by=x], DT[c(1,6)])
+test(1313.20, DT[, list(y=max(y)), by=x], DT[c(1,6)])
+test(1313.21, DT[, list(y=min(y, na.rm=TRUE)), by=x], DT[c(2,7)])
+test(1313.22, DT[, list(y=max(y, na.rm=TRUE)), by=x], DT[c(5,10)])
+
+# for character
+set.seed(1L)
+DT <- data.table(x=rep(1:7, each=3), y=sample(c("", letters[1:3], NA), 21, TRUE))
+DT[x==7, y := c("","b","c")]
+test(1313.23, DT[, min(y), by=x], DT[, base::min(y), by=x])
+test(1313.24, DT[, max(y), by=x], DT[, base::max(y), by=x])
+test(1313.25, DT[, min(y, na.rm=TRUE), by=x], DT[, base::min(y, na.rm=TRUE), by=x])
+test(1313.26, DT[, max(y, na.rm=TRUE), by=x], DT[, base::max(y, na.rm=TRUE), by=x])
+DT[x==6, y := NA_character_]
+test(1313.27, DT[, min(y), by=x], DT[, base::min(y), by=x])
+test(1313.28, DT[, max(y), by=x], DT[, base::max(y), by=x])
+test(1313.29, DT[, min(y, na.rm=TRUE), by=x], data.table(x=1:7, V1=c("a","a","c","","a",NA,"")))
+test(1313.30, DT[, max(y, na.rm=TRUE), by=x], data.table(x=1:7, V1=c("b","a","c","a","c",NA,"c")))
 
 # bug 700 - bmerge, roll=TRUE and nomatch=0L when i's key group occurs more than once
 dt1 <- data.table(structure(list(x = c(7L, 33L), y = structure(c(15912, 15912), class = "Date"), z = c(626550.35284, 7766.385)), .Names =
@@ -6324,8 +6506,10 @@ test(1437.17, DT[!a %chin% c("A", "B") & x == 2], DT[c(4, 5, 6)])
 test(1437.18, DT[x == 2, .(test = x+y), verbose = TRUE], output = "Optimized subsetting")
 test(1437.19, DT[x == 2, test := x+y, verbose = TRUE], output = "Optimized subsetting")
 ## optimize option level 3 is required to get optimized subsetting
-test(1437.21,optimize=c(2,Inf), DT[x == 2, verbose = TRUE], output = c("^   x y", "Optimized subsetting"))
-# test 1437.21 subsumes 1437.21 and 1437.22
+options(datatable.optimize = 2L)
+test(1437.21, DT[x == 2, verbose = TRUE], output = "^   x y")
+options(datatable.optimize = Inf)
+test(1437.22, DT[x == 2, verbose = TRUE], output = "Optimized subsetting")
 ## NaN on right hand side is treated correctly. NA on right hand side is not reaching .prepareFastSubset, so not tested here
 DT <- data.table(x = c(1L:10L, NA_integer_, NA_integer_), y = c(1:10, NA_real_, NaN))
 test(1437.23, DT[y == NaN], DT[0])
@@ -6410,22 +6594,35 @@ if (.Machine$sizeof.pointer>4) {  # temporarily disabled for 32bit, #2767
 for (t in seq_len(nrow(all))) {
   ## test the query with missing j
   thisQuery <- all$query[t]
+  options("datatable.optimize" = 3L)
+  ansOpt <- DT[eval(parse(text = thisQuery))]
+  options("datatable.optimize" = 2L)
+  ansRef <- DT[eval(parse(text = thisQuery))]
   test_no <- test_no + 1L
-  test(1438.0 + test_no*0.0001, optimize=c(2L,3L), DT[eval(parse(text = thisQuery))], context=sprintf("t=%d [I]", t))
+  test(1438.0 + test_no*0.0001, ansOpt, ansRef, context=sprintf("t=%d [I]", t))
   ## repeat the test with 'which = TRUE'
+  options("datatable.optimize" = 3L)
+  ansOpt <- DT[eval(parse(text = thisQuery)), which = TRUE]
+  options("datatable.optimize" = 2L)
+  ansRef <- DT[eval(parse(text = thisQuery)), which = TRUE]
   test_no <- test_no + 1L
-  test(1438.0 + test_no*0.0001, optimize=c(2L,3L), DT[eval(parse(text = thisQuery)), which = TRUE], context=sprintf("t=%d [II]", t))
+  test(1438.0 + test_no*0.0001, ansOpt, ansRef, context=sprintf("t=%d [II]", t))
   ## repeat the test with the j queries
   for (thisJquery in jQueries) {
     ## do it with and without existing "by"
-    for(thisBy in bys){
+    for (thisBy in bys) {
+      options("datatable.optimize" = 3L)
+      ansOpt <- DT[eval(parse(text = thisQuery)), eval(parse(text = thisJquery)), by = thisBy]
+      options("datatable.optimize" = 2L)
+      ansRef <- DT[eval(parse(text = thisQuery)), eval(parse(text = thisJquery)), by = thisBy]
       test_no <- test_no + 1L
-      test(1438.0 + test_no*0.0001, optimize=c(2L,3L), DT[eval(parse(text = thisQuery)), eval(parse(text = thisJquery)), by = thisBy], context=sprintf("t=%d, thisJquery=%s, thisBy=%s", t, thisJquery, thisBy))
+      test(1438.0 + test_no*0.0001, ansOpt, ansRef, context=sprintf("t=%d, thisJquery=%s, thisBy=%s", t, thisJquery, thisBy))
     }
   }
 }
 
 }
+options(datatable.optimize = Inf)
 
 # fread dec=',' e.g. France
 test(1439, fread("A;B\n1;2,34\n", dec="12"), error=base_messages$stopifnot("nchar(dec) == 1L"))
@@ -6844,7 +7041,7 @@ test(1477.08, transpose(1:5), error="l must be a list")
 test(1477.09, transpose(list(as.complex(c(1, 1+5i)))), error="Unsupported column type")
 test(1477.10, transpose(list(x~y)), error="Item 1 of list input is")
 test(1477.11, transpose(as.list(1:5), fill=1:2), error="fill must be a length 1 vector")
-test(1477.12, transpose(as.list(1:5), ignore.empty=NA), error="'ignore.empty' must be TRUE or FALSE")
+test(1477.12, transpose(as.list(1:5), ignore.empty=NA), error="ignore.empty should be logical TRUE/FALSE")
 test(1477.13, transpose(list()), list())
 # return list columns #5639
 la = list(as.list(1:3), list("a","b","c"))
@@ -6857,7 +7054,7 @@ test(1477.18, transpose(list(list(1L,"a"), list(2L), list(3L,"c")), list.cols=TR
 test(1477.19, transpose(list(1:2, c("a","b","c")), list.cols=TRUE, fill=3L), lb)
 test(1477.20, transpose(list(factor(letters[1:3])), list.cols=TRUE), list(list("a"), list("b"), list("c")))
 test(1477.21, transpose(list(factor(letters[1:3])), list.cols=FALSE), list("a", "b", "c"))
-test(1477.22, transpose(la, list.cols=NA), error="'list.cols' must be TRUE or FALSE")
+test(1477.22, transpose(la, list.cols=NA), error="list.cols should be logical TRUE/FALSE.")
 
 # #480 `setDT` and 'lapply'
 ll = list(data.frame(a=1), data.frame(x=1, y=2), NULL, list())
@@ -7712,8 +7909,10 @@ test(1547, foo(1L, 5L, a=2L, "c"), c("2", "c"))
 
 # Fix for encoding issues in windows, #563
 f = testDir("issue_563_fread.txt")
-test(1548.1, requires_utf8=TRUE, unique(unlist(lapply(fread(f, sep=",", header=TRUE), Encoding))), "unknown")
-test(1548.2, requires_utf8=TRUE, unique(unlist(lapply(fread(f, sep=",", header=TRUE, encoding="UTF-8"), Encoding))), "UTF-8")
+ans1 <- fread(f, sep=",", header=TRUE)
+ans2 <- fread(f, sep=",", header=TRUE, encoding="UTF-8")
+test(1548.1, unique(unlist(lapply(ans1, Encoding))), "unknown")
+test(1548.2, unique(unlist(lapply(ans2, Encoding))), "UTF-8")
 
 # 1549 moved to benchmark.Rraw, #5517
 
@@ -7957,7 +8156,14 @@ test(1564.1, truelength(dt[, .SD]), 1025L)
 test(1564.2, truelength(dt[a==5, .SD]), 1025L)
 test(1564.3, dt[a==5, .SD][, b := 1L], data.table(a=5L, b=1L))
 
-# test 1565 moved to optimize.Rraw
+# Fix for #1251, DT[, .N, by=a] and DT[, .(.N), by=a] uses GForce now
+dt = data.table(a=sample(3,20,TRUE), b=1:10)
+options(datatable.optimize = 0L)
+test(1565.1, ans <- dt[, .N, by=a, verbose=TRUE], output="All optimizations are turned off")
+options(datatable.optimize = 1L)
+test(1565.2, dt[ , .N, by=a, verbose=TRUE], ans, output="lapply optimization is on, j unchanged")
+options(datatable.optimize = Inf)
+test(1565.3, dt[ , .N, by=a, verbose=TRUE], ans, output = "GForce optimized j to")
 
 # Fix for #1212
 set.seed(123)
@@ -8066,7 +8272,83 @@ test(1578.7, fread(f, skip=49L), data.table(V1=1:2, V2=3:4))
 test(1578.8, fread(f, skip=47L, blank.lines.skip=TRUE), data.table(a=1:2, b=3:4))
 test(1578.9, fread(f, skip=48L), data.table(V1=1:2, V2=3:4))  # start on blank line 49 and skip="auto" to first data row on line 50
 
-# test 1579 moved to optimize.Rraw
+# gforce optimisations
+dt = data.table(x  = sample(letters, 300, TRUE),
+                i1 = sample(-10:10, 300, TRUE),
+                i2 = sample(c(-10:10, NA), 300, TRUE),
+                d1 = as.numeric(sample(-10:10, 300, TRUE)),
+                d2 = as.numeric(sample(c(NA, NaN, -10:10), 300, TRUE)))
+if (test_bit64) {
+  dt[, `:=`(d3 = as.integer64(sample(-10:10, 300, TRUE)))]
+  dt[, `:=`(d4 = as.integer64(sample(c(-10:10,NA), 300, TRUE)))]
+}
+
+# make sure gforce is on
+options(datatable.optimize=2L)
+
+# testing gforce::gmedian
+test(1579.01, dt[, lapply(.SD, median), by=x],
+              dt[, lapply(.SD, function(x) median(as.numeric(x))), by=x])
+test(1579.02, dt[, lapply(.SD, median, na.rm=TRUE), by=x],
+              dt[, lapply(.SD, function(x) median(as.numeric(x), na.rm=TRUE)), by=x])
+test(1579.03, dt[, lapply(.SD, median), keyby=x],
+              dt[, lapply(.SD, function(x) median(as.numeric(x))), keyby=x])
+test(1579.04, dt[, lapply(.SD, median, na.rm=TRUE), keyby=x],
+              dt[, lapply(.SD, function(x) median(as.numeric(x), na.rm=TRUE)), keyby=x])
+test(1579.05, dt[, lapply(.SD, median), by=x, verbose=TRUE],
+              output = "GForce optimized")
+
+# testing gforce::ghead and gforce::gtail
+# head(.SD, 1) and tail(.SD, 1) optimisation
+test(1579.06,  dt[, head(.SD,1),  by=x],    dt[, utils::head(.SD,1),  by=x])
+test(1579.07,  dt[, head(.SD,1),  by=x],    dt[, utils::head(.SD,1),  by=x])
+test(1579.08,  dt[, head(.SD,1),  keyby=x], dt[, utils::head(.SD,1),  keyby=x])
+test(1579.09,  dt[, head(.SD,1),  keyby=x], dt[, utils::head(.SD,1),  keyby=x])
+test(1579.10, dt[, head(.SD,1L), by=x],    dt[, utils::head(.SD,1L), by=x])
+test(1579.11, dt[, head(.SD,1L), by=x],    dt[, utils::head(.SD,1L), by=x])
+test(1579.12, dt[, head(.SD,1L), keyby=x], dt[, utils::head(.SD,1L), keyby=x])
+test(1579.13, dt[, head(.SD,1L), keyby=x], dt[, utils::head(.SD,1L), keyby=x])
+
+test(1579.14,  dt[, tail(.SD,1),  by=x],    dt[, utils::tail(.SD,1),  by=x])
+test(1579.15,  dt[, tail(.SD,1),  by=x],    dt[, utils::tail(.SD,1),  by=x])
+test(1579.16,  dt[, tail(.SD,1),  keyby=x], dt[, utils::tail(.SD,1),  keyby=x])
+test(1579.17,  dt[, tail(.SD,1),  keyby=x], dt[, utils::tail(.SD,1),  keyby=x])
+test(1579.18, dt[, tail(.SD,1L), by=x],    dt[, utils::tail(.SD,1L), by=x])
+test(1579.19, dt[, tail(.SD,1L), by=x],    dt[, utils::tail(.SD,1L), by=x])
+test(1579.20, dt[, tail(.SD,1L), keyby=x], dt[, utils::tail(.SD,1L), keyby=x])
+test(1579.21, dt[, tail(.SD,1L), keyby=x], dt[, utils::tail(.SD,1L), keyby=x])
+# 1579.22 tested gtail with n>1; now 1579.4+ below
+
+mysub <- function(x, n) x[n]
+test(1579.23, dt[, .SD[2],  by=x, verbose=TRUE], dt[, mysub(.SD,2),  by=x], output="GForce optimized.*g[[]")
+test(1579.24, dt[, .SD[2],  keyby=x], dt[, mysub(.SD,2),  keyby=x])
+test(1579.25, dt[, .SD[2L], by=x],    dt[, mysub(.SD,2L), by=x])
+test(1579.26, dt[, .SD[2L], keyby=x], dt[, mysub(.SD,2L), keyby=x])
+test(1579.27, dt[, .SD[15], by=x],    dt[, mysub(.SD,15), by=x])   # tests 15 > grpsize and that NA is correct including for integer64
+test(1579.28, dt[, .SD[15], keyby=x], dt[, mysub(.SD,15), keyby=x])
+
+# gforce head/tail for n>1, #5060
+set.seed(99)
+DT = data.table(x = sample(letters[1:5], 20, TRUE),
+                y = rep.int(1:2, 10),  # to test 2 grouping columns get rep'd properly
+                i = sample(c(-2L,0L,3L,NA), 20, TRUE),
+                d = sample(c(1.2,-3.4,5.6,NA), 20, TRUE),
+                s = sample(c("foo","bar",NA), 20, TRUE),
+                l = sample(list(1:3, mean, letters[4:5], NULL), 20, replace=TRUE))
+if (test_bit64) DT[, i64:=sample(as.integer64(c(-2200000000,+2400000000,NA)), 20, TRUE)]
+options(datatable.optimize=2L)
+test(1579.401, DT[, .N, by=x]$N, INT(4,6,5,2,3))   # the smallest group is 2, so n=5 tests n constrained to grpsize
+test(1579.402, DT[, head(.SD,2),    by=x, verbose=TRUE], DT[, utils::head(.SD,2),    by=x], output="optimized.*ghead")
+test(1579.403, DT[, head(.SD,2), keyby=x, verbose=TRUE], DT[, utils::head(.SD,2), keyby=x], output="optimized.*ghead")
+test(1579.404, DT[, head(.SD,5),    by=x, verbose=TRUE], DT[, utils::head(.SD,5),    by=x], output="optimized.*ghead")
+test(1579.405, DT[, head(.SD,5), keyby=x, verbose=TRUE], DT[, utils::head(.SD,5), keyby=x], output="optimized.*ghead")
+test(1579.406, DT[, tail(.SD,2),    by=x, verbose=TRUE], DT[, utils::tail(.SD,2),    by=x], output="optimized.*gtail")
+test(1579.407, DT[, tail(.SD,2), keyby=x, verbose=TRUE], DT[, utils::tail(.SD,2), keyby=x], output="optimized.*gtail")
+test(1579.408, DT[, tail(.SD,5),    by=x, verbose=TRUE], DT[, utils::tail(.SD,5),    by=x], output="optimized.*gtail")
+test(1579.409, DT[, tail(.SD,5), keyby=x, verbose=TRUE], DT[, utils::tail(.SD,5), keyby=x], output="optimized.*gtail")
+test(1579.410, DT[, tail(.SD,2), by=.(x,y), verbose=TRUE], DT[, utils::tail(.SD,2), by=.(x,y)], output="optimized.*gtail")
+
+options(datatable.optimize = Inf)
 
 # test for #1419, rleid doesn't remove names attribute
 x = c("a"=TRUE, "b"=FALSE)
@@ -8074,12 +8356,104 @@ nx = copy(names(x))
 r = rleid(x)
 test(1580, nx, names(x))
 
-# test 1581 moved to optimize.Rraw
+# FR #971, partly addressed (only subsets in 'i')
+# make sure GForce kicks in and the results are identical
+dt = dt[, .(x, d1, d2)]
+options(datatable.optimize=1L)
+
+test(1581.01, ans1 <- dt[x %in% letters[15:20],
+                        c(.N, lapply(.SD, sum, na.rm=TRUE),
+                              lapply(.SD, min, na.rm=TRUE),
+                              lapply(.SD, max, na.rm=TRUE),
+                              lapply(.SD, mean, na.rm=TRUE),
+                              lapply(.SD, median, na.rm=TRUE)
+                          ), by=x, verbose=TRUE],
+             output = "(GForce FALSE)")
+options(datatable.optimize=2L)
+test(1581.02, ans2 <- dt[x %in% letters[15:20],
+                        c(.N, lapply(.SD, sum, na.rm=TRUE),
+                              lapply(.SD, min, na.rm=TRUE),
+                              lapply(.SD, max, na.rm=TRUE),
+                              lapply(.SD, mean, na.rm=TRUE),
+                              lapply(.SD, median, na.rm=TRUE)
+                          ), by=x, verbose=TRUE],
+             output = "GForce optimized j")
+test(1581.03, ans1, ans2)
+
+# subsets in 'i' for head and tail
+options(datatable.optimize=1L)
+test(1581.04, ans1 <- dt[x %in% letters[15:20], head(.SD,1), by=x, verbose=TRUE],
+             output = "(GForce FALSE)")
+options(datatable.optimize=2L)
+test(1581.05, ans2 <- dt[x %in% letters[15:20], head(.SD,1), by=x, verbose=TRUE],
+             output = "GForce optimized j")
+test(1581.06, ans1, ans2)
+
+options(datatable.optimize=1L)
+test(1581.07, ans1 <- dt[x %in% letters[15:20], tail(.SD,1), by=x, verbose=TRUE],
+             output = "(GForce FALSE)")
+options(datatable.optimize=2L)
+test(1581.08, ans2 <- dt[x %in% letters[15:20], tail(.SD,1), by=x, verbose=TRUE],
+             output = "GForce optimized j")
+test(1581.09, ans1, ans2)
+
+options(datatable.optimize=1L)
+test(1581.10, ans1 <- dt[x %in% letters[15:20], .SD[2], by=x, verbose=TRUE],
+              output = "(GForce FALSE)")
+options(datatable.optimize=2L)
+test(1581.11, ans2 <- dt[x %in% letters[15:20], .SD[2], by=x, verbose=TRUE],
+              output = "GForce optimized j")
+test(1581.12, ans1, ans2)
+options(datatable.optimize = Inf)
+
+# #3209 g[[
+options(datatable.optimize=1L)
+test(1581.13, ans1 <- dt[x %in% letters[15:20], d1[[2]], by=x, verbose=TRUE],
+              output = "(GForce FALSE)")
+options(datatable.optimize=Inf)
+test(1581.14, ans2 <- dt[x %in% letters[15:20], d1[[2]], by=x, verbose=TRUE],
+              output = "GForce optimized j")
+test(1581.15, ans1, ans2)
+# also, block for non-atomic input, #4159
+dt = data.table(a=1:3)
+dt[ , l := .(list(1, 2, 3))]
+test(1581.16, dt[ , .(l = l[[1L]]), by=a, verbose=TRUE],
+     dt[ , l := unlist(l)], output='(GForce FALSE)')
+# make sure not to apply when `[[` is applied to a nested call, #4413
+DT = data.table(f1=c("a","b"), f2=c("x","y"))
+l = list(a = c(x = "ax", y = "ay"), b = c(x = "bx", y = "by"))
+test(1581.17, DT[ , as.list(l[[f1]])[[f2]], by=c("f1","f2")],
+     data.table(f1 = c("a", "b"), f2 = c("x", "y"), V1 = c("ax", "by")))
+test(1581.18, DT[, v:=l[[f1]][f2], by=c("f1","f2")],
+     data.table(f1=c("a","b"), f2=c("x","y"), v=c("ax", "by")))
+# When the object being [[ is in parent.frame(), not x,
+#   need eval to have enclos=parent.frame(), #4612
+DT = data.table(id = c(1, 1, 2), value = c("a", "b", "c"))
+DT0 = copy(DT)
+fun = function(DT, tag = c("A", "B")) DT[, var := tag[[.GRP]], by = "id"]
+fun(DT)
+test(1581.19, DT, DT0[ , var := c('A', 'A', 'B')])
 
 # handle NULL value correctly #1429
 test(1582, uniqueN(NULL), 0L)
 
-# test 1583 moved to optimize.Rraw
+# bug fix #1461 related to NaN not being recognized due to ISNA vs ISNAN at C level
+# verbatim test from the original report:
+options(datatable.optimize=Inf)   # ensure gforce is on
+DT = data.table(
+     C1 = c(rep("A", 4), rep("B",4), rep("C", 4)),
+     C2 = c(rep("a", 3), rep("b",3), rep("c",3), rep("d",3)),
+     Val = c(1:5, NaN, NaN, 8,9,10,NaN,12))
+test(1583.1, DT[, .(agg = min(Val, na.rm=TRUE)), by=c('C1', 'C2')],
+             data.table(C1=c("A","A","B","B","C","C"),
+                        C2=c("a","b","b","c","c","d"),
+                        agg=c(1,4,5,8,9,10)))
+# extra test with a size-1 group containing one NaN too
+DT = data.table(x=INT(1,1,1,2,2,2,3,3,3,4,4,4,5), y=c(NaN,1,2, 2,NaN,1, NA,NaN,2, NaN,NA,NaN, NaN))
+test(1583.2, DT[, min(y, na.rm=TRUE), by=x], data.table(x=1:5, V1=c(1,1,2,NA,NA)))
+test(1583.3, DT[, max(y, na.rm=TRUE), by=x], data.table(x=1:5, V1=c(2,2,2,NA,NA)))
+test(1583.4, DT[, min(y), by=x], data.table(x=1:5, V1=c(NaN,NaN,NA,NaN,NaN)))
+test(1583.5, DT[, max(y), by=x], data.table(x=1:5, V1=c(NaN,NaN,NA,NaN,NaN)))
 
 # Fixed a minor bug in fread when blank.lines.skip=TRUE
 f1 <- function(x, f=TRUE, b=FALSE) fread(x, fill=f, blank.lines.skip=b, data.table=FALSE, logical01=FALSE)
@@ -8199,7 +8573,32 @@ test(1592.2, names(setnames(DT, -1, c("m", "n"))), c("x", "m", "n"))
 # fix for #1513
 test(1593, CJ(c(1,2,2), c(1,2,3)), data.table(V1=rep(c(1,2), c(3,6)), V2=c(1,2,3,1,1,2,2,3,3), key=c("V1", "V2")))
 
-# test 1594 moved to optimize.Rraw
+# FR #523, var, sd and prod
+options(datatable.optimize = Inf) # ensure gforce is on
+DT = data.table(x=sample(5, 100, TRUE),
+               y1=sample(6, 100, TRUE),
+               y2=sample(c(1:10,NA), 100, TRUE),
+               z1=runif(100),
+               z2=sample(c(runif(10),NA,NaN), 100, TRUE))
+test(1594.01, DT[, lapply(.SD, var, na.rm=FALSE), by=x], DT[, lapply(.SD, stats::var, na.rm=FALSE), by=x])
+test(1594.02, DT[, lapply(.SD, var, na.rm=TRUE), by=x], DT[, lapply(.SD, stats::var, na.rm=TRUE), by=x])
+test(1594.03, DT[, lapply(.SD, var, na.rm=TRUE), by=x, verbose=TRUE], output="GForce optimized j to.*gvar")
+# coverage: default group .N=1 case
+idx=DT[ , .I[1L], by=x]$V1
+out=data.table(x=DT[(idx), x], V1=NA_real_)
+test(1594.05, DT[(idx), var(y1), by=x], out)
+test(1594.06, DT[(idx), var(y1, na.rm=TRUE), by=x], out)
+test(1594.07, DT[(idx), var(z1), by=x], out)
+test(1594.08, DT[(idx), var(z1, na.rm=TRUE), by=x], out)
+
+test(1594.09, DT[, lapply(.SD, sd, na.rm=FALSE), by=x], DT[, lapply(.SD, stats::sd, na.rm=FALSE), by=x])
+test(1594.10, DT[, lapply(.SD, sd, na.rm=TRUE), by=x], DT[, lapply(.SD, stats::sd, na.rm=TRUE), by=x])
+test(1594.11, DT[, lapply(.SD, sd, na.rm=TRUE), by=x, verbose=TRUE], output="GForce optimized j to.*gsd")
+
+test(1594.12, DT[, lapply(.SD, prod, na.rm=FALSE), by=x], DT[, lapply(.SD, base::prod, na.rm=FALSE), by=x])
+test(1594.13, DT[, lapply(.SD, prod, na.rm=TRUE), by=x], DT[, lapply(.SD, base::prod, na.rm=TRUE), by=x])
+test(1594.14, DT[, lapply(.SD, prod, na.rm=TRUE), by=x, verbose=TRUE], output="GForce optimized j to.*gprod")
+
 
 # FR #1517
 dt1 = data.table(x=c(1,1,2), y=1:3)
@@ -8822,21 +9221,24 @@ test(1629.07, dt[0][, .SD*v1, .SDcols=v2:v3], dt[0][, .SD, .SDcols=v2:v3])
 dt2 = copy(dt)
 test(1629.08, dt2[, c("v2", "v3") := .SD*v1, .SDcols=v2:v3], dt[, .(grp, v1, v2=v2*v1, v3=v3*v1)])
 # grouping operations
-test(1629.09,optimize=c(1L,2L), dt[, .SD*sum(v1), by=grp, .SDcols=v2:v3], dt[, .SD*sum(v1), by=grp][, v1 := NULL])
-ans1 = dt[, base::sum(v1), by=grp]
+options(datatable.optimize = 1L) # no gforce
+test(1629.09, dt[, .SD*sum(v1), by=grp, .SDcols=v2:v3], dt[, .SD*sum(v1), by=grp][, v1 := NULL])
+ans1 = dt[, sum(v1), by=grp]
 ans2 = dt[, base::max(.SD), by=grp, .SDcols=v2:v3]
-test(1629.10,optimize=c(1L,2L), dt[, max(.SD)*sum(v1), by=grp, .SDcols=v2:v3], ans1[, .(grp, V1=V1*ans2$V1)])
-test(1629.11,optimize=c(1L,2L), dt[, lapply(.SD, function(x) weighted.mean(x, w=v2)), .SDcols=c("v1","v3"), by=grp],
+test(1629.10, dt[, max(.SD)*sum(v1), by=grp, .SDcols=v2:v3], ans1[, .(grp, V1=V1*ans2$V1)])
+test(1629.11, dt[, lapply(.SD, function(x) weighted.mean(x, w=v2)), .SDcols=c("v1","v3"), by=grp],
          dt[, .(v1=weighted.mean(v1,w=v2), v3=weighted.mean(v3, w=v2)), by=grp])
-test(1629.12,optimize=c(1L,Inf), dt[, c(v1=max(v1), lapply(.SD, base::min)), by=grp, .SDcols=v2:v3], dt[, .(v1=max(v1), v2=min(v2), v3=min(v3)), by=grp])
-# test 1629.12 subsumes 1629.12 and 1629.13 for testing both levels
+test(1629.12, dt[, c(v1=max(v1), lapply(.SD, base::min)), by=grp, .SDcols=v2:v3], dt[, .(v1=max(v1), v2=min(v2), v3=min(v3)), by=grp])
 # gforce
+options(datatable.optimize = Inf) # Inf
+test(1629.13, dt[, c(v1=max(v1), lapply(.SD, min)), by=grp, .SDcols=v2:v3], dt[, .(v1=max(v1), v2=min(v2), v3=min(v3)), by=grp])
 # even more complex, shouldn't run any optimisation
 dt[, v4 := v1/2]
 test(1629.14, dt[, c(.(v1=v1*min(v4)), lapply(.SD, function(x) x*max(v4))), by=grp, .SDcols=v2:v3],
     dt[, .(v1=v1*min(v4), v2=v2*max(v4), v3=v3*max(v4)), by=grp])
 test(1629.15, copy(dt)[, c("a", "b", "c") := c(min(v1), lapply(.SD, function(x) max(x)*min(v1))), by=grp, .SDcols=v3:v4],
               copy(dt)[, c("a", "b", "c") := .(min(v1), max(v3)*min(v1), max(v4)*min(v1)), by=grp])
+options(datatable.optimize = Inf)
 # by=.EACHI and operations with 'i'
 test(1629.16, dt[.(c(2,3)), c(.(sum(v1)), lapply(.SD, function(x) mean(x)*min(v1))), by=.EACHI, .SDcols=v2:v3, on="grp"],
               dt[grp %in% 2:3, c(.(sum(v1)), lapply(.SD, function(x) mean(x)*min(v1))), by=grp, .SDcols=v2:v3])
@@ -8917,7 +9319,11 @@ test(1637.3, dt[, data.table(a, .SD), by = a], data.table(a=1,a=1,b=1))
 test(1637.4, dt[, data.table(b, .SD), by = cumsum(a)], data.table(cumsum=1, b=1, b=1))
 test(1637.5, dt[, data.table(a, b), by = cumsum(a)], data.table(cumsum=1, a=1, b=1))
 
-# test 1638 moved to optimize.Rraw
+# when datatable.optimize<1, no optimisation of j should take place:
+options(datatable.optimize=0L)
+dt = data.table(x=1:5, y=6:10, z=c(1,1,1,2,2))
+test(1638, dt[, .SD, by=z, verbose=TRUE], output="All optimizations are turned off")
+options(datatable.optimize=Inf)
 
 rm_all()
 
@@ -11520,8 +11926,8 @@ test(1774.13, as.data.table(x), error = "Argument 'value.name' should not overla
 ## unsupported usage of as.data.table.array
 test(1774.14, as.data.table.array(as.matrix(x)), error="method should only be called for arrays with 3+")
 test(1774.15, as.data.table(x, value.name=NA), error="'value.name' must be scalar")
-test(1774.16, as.data.table(x, sorted='a'), error="'sorted' must be TRUE or FALSE")
-test(1774.17, as.data.table(x, na.rm='a'), error="'na.rm' must be TRUE or FALSE")
+test(1774.16, as.data.table(x, sorted='a'), error="'sorted' must be scalar")
+test(1774.17, as.data.table(x, na.rm='a'), error="'na.rm' must be scalar")
 
 # verify print.keys works
 DT1 <- data.table(a = 1:3, key = "a")
@@ -12456,7 +12862,7 @@ test(1888.5, fsort(x), base::sort(x, na.last = FALSE),
 x = runif(1e3)
 test(1888.6, y<-fsort(x,verbose=TRUE), output="nth=.*Top 20 MSB counts")
 test(1888.7, !base::is.unsorted(y))
-test(1888.8, fsort(x,verbose=1), error="'verbose' must be TRUE or FALSE")
+test(1888.8, fsort(x,verbose=1), error="verbose must be TRUE or FALSE")
 test(1888.9, fsort(c(1L, 2L, 3L, 4L), internal = TRUE), c(1L, 2L, 3L, 4L))
 rm(x, y)
 
@@ -12835,8 +13241,9 @@ DT[ , V1:=as.ordered(V1)]
 test(1918.3, DT[, min(V1)], structure(1L, .Label = lev, class = c("ordered", "factor")))
 test(1918.4, DT[, max(V1)], structure(5L, .Label = lev, class = c("ordered", "factor")))
 ## make sure GForce is activated
-test(1918.5,optimize=Inf, DT[, min(V1), by=V2], data.table(V2=c("f", "g", "h"), V1=structure(1:3, .Label=lev, class=c("ordered", "factor"))))
-test(1918.6,optimize=Inf, DT[, max(V1), by=V2], data.table(V2=c("f", "g", "h"), V1=structure(3:5, .Label=lev, class=c("ordered", "factor"))))
+options(datatable.optimize = Inf)
+test(1918.5, DT[, min(V1), by=V2], data.table(V2=c("f", "g", "h"), V1=structure(1:3, .Label=lev, class=c("ordered", "factor"))))
+test(1918.6, DT[, max(V1), by=V2], data.table(V2=c("f", "g", "h"), V1=structure(3:5, .Label=lev, class=c("ordered", "factor"))))
 
 # as.ITime.character bug for NA handling #2940
 test(1919, as.ITime(c('xxx', '10:43')), structure(c(NA, 38580L), class = "ITime"))
@@ -13246,9 +13653,9 @@ test(1962.011, uniqlist(list()), list(0L))
 DT1 = data.table(a = 1:3, V = 'a')
 DT2 = data.table(a = 2:4, V = 'b')
 test(1962.012, merge(DT1, DT2, sort = 1+3i),
-     error = "'sort' must be TRUE or FALSE")
+     error = 'should be logical TRUE/FALSE')
 test(1962.013, merge(DT1, DT2, no.dups = 1+3i),
-     error = "'no.dups' must be TRUE or FALSE")
+     error = 'should be logical TRUE/FALSE')
 setDF(DT2)
 test(1962.014, merge(DT1, DT2),
      data.table(a = integer(0), V = character(0)))
@@ -13279,7 +13686,7 @@ test(1962.023, frankv(x, na.last = c(TRUE, FALSE)),
 test(1962.024, frankv(x, cols = 'y'),
      error = 'x is a single vector')
 test(1962.025, frankv(list(x), cols = integer(0L)),
-     error = "x is a list, 'cols' cannot be 0-length")
+     error = "x is a list, 'cols' can not be 0-length")
 f = frankv(list(x), ties.method = 'random')
 test(1962.026,
      length(f) == 9L && identical(f[c(3:4, 6L, 8:9)], c(3L, 7L, 4L, 9L, 8L)) &&
@@ -13402,11 +13809,11 @@ DT = data.table(
 )
 setDF(DT)
 test(1962.068, rollup(DT), error=base_messages$missing_dispatch_method)
-test(1962.069, rollup.data.table(DT), error = 'must be a data.table')
+test(1962.069, rollup.data.table(DT), error = 'must be a data.table object')
 test(1962.070, cube(DT), error=base_messages$missing_dispatch_method)
-test(1962.071, cube.data.table(DT), error = 'must be a data.table')
+test(1962.071, cube.data.table(DT), error = 'must be a data.table object')
 test(1962.072, groupingsets(DT), error=base_messages$missing_dispatch_method)
-test(1962.073, groupingsets.data.table(DT), error = 'must be a data.table')
+test(1962.073, groupingsets.data.table(DT), error = 'must be a data.table object')
 setDT(DT)
 test(1962.074, rollup(DT, by = 3L), error = "'by' must be a character vector")
 test(1962.075, rollup(DT, by = 'color', id = 3L), error = "'id' must be a logical scalar")
@@ -13438,7 +13845,7 @@ setDF(DT)
 test(1962.085, dcast.data.table(DT), error = 'must be a data.table')
 setDT(DT)
 test(1962.086, dcast(DT, a ~ a, drop = NA),
-     error = "'drop' must be logical vector with no missing entries")
+     error = 'must be logical TRUE/FALSE')
 DT = data.table(a = c(1, 1, 2, 2), b = list(1, 2, 3, 4), c = c(4, 4, 2, 2))
 test(1962.087, dcast(DT, a ~ b, value.var = 'b'),
      error = 'Columns specified in formula can not be of type list')
@@ -13598,11 +14005,11 @@ test(1967.09, foverlaps(x, y, minoverlap = NA),
 test(1967.10, foverlaps(x, y, minoverlap = -5),
      error = 'minoverlap must be a positive integer')
 test(1967.11, foverlaps(x, y, which = integer(0L)),
-     error = "'which' must be TRUE or FALSE")
+     error = 'which must be a logical vector')
 test(1967.12, foverlaps(x, y, which = c(3, 4)),
-     error = "'which' must be TRUE or FALSE")
+     error = 'which must be a logical vector')
 test(1967.13, foverlaps(x, y, which = NA),
-     error = "'which' must be TRUE or FALSE")
+     error = 'which must be a logical vector')
 test(1967.14, foverlaps(x, y, nomatch = integer(0L)),
      error = 'nomatch must either be NA or NULL')
 test(1967.15, foverlaps(x, y, nomatch = c(3, 4)),
@@ -13622,9 +14029,9 @@ test(1967.22, foverlaps(x, y, by.y = c(-1L, 0L)),
 test(1967.23, foverlaps(x, y, by.y = c(1L, 100L)),
      error = "Invalid numeric value for 'by.y'")
 test(1967.24, foverlaps(x, y, by.x = c(1 + 3i, 2 - 1i)),
-     error = "non-empty vector of column names or numbers is required for 'by.x'")
+     error = 'non-empty vector of column names or numbers is required for by.x')
 test(1967.25, foverlaps(x, y, by.y = c(1 + 3i, 2 - 1i)),
-     error = "non-empty vector of column names or numbers is required for 'by.y'")
+     error = 'non-empty vector of column names or numbers is required for by.y')
 test(1967.26, foverlaps(x, y, by.x = c('start', 'END')),
      error = "Elements listed in 'by.x' must be valid names")
 test(1967.27, foverlaps(x, y, by.x = c('start', 'start')),
@@ -13719,13 +14126,17 @@ suppressWarnings(rm(`___data.table_internal_test_1967.68___`))
 test(1967.68, setDT(`___data.table_internal_test_1967.68___`), error = 'Cannot find symbol')
 
 ### [.data.table verbosity & non-equi-join tests
-test(1967.69,optimize=0L, x[order(a), .N, verbose = TRUE], output='[1] 5', notOutput='forder.c')
-# test 1967.69 subsumes 1967.69 and 1967.70
-test(1967.71,optimize=1L, x[order(a), .N, verbose = TRUE], 5L,
+options(datatable.optimize = 0L)
+verbose_output = capture.output(x[order(a), .N, verbose = TRUE])
+test(1967.69, !any(grepl('forder.c', verbose_output, fixed = TRUE)))
+test(1967.70, any(grepl('[1] 5', verbose_output, fixed = TRUE)))
+options('datatable.optimize' = 1L)
+test(1967.71, x[order(a), .N, verbose = TRUE], 5L,
      output = "forder.c received 5 rows and 1 column")
 setkey(x)
-test(1967.72,optimize=1L, x[x, .N, on = 'a', verbose = TRUE], 5L,
+test(1967.72, x[x, .N, on = 'a', verbose = TRUE], 5L,
      output = "on= matches existing key")
+options(datatable.optimize = Inf)
 
 x = data.table(
   i1 = c(234L, 250L, 169L, 234L, 147L, 96L, 96L, 369L, 147L, 96L),
@@ -13756,7 +14167,6 @@ DT = data.table(A=1:5, B=-3i, C=2147483647L)
 test(1968.2, storage.mode(DT$C), "integer")
 test(1968.3, DT[, sum(C), by=A%%2L], data.table(A=c(1L,0L), V1=c(6442450941, 4294967294)),
              warning="sum.*integer column.*more than type 'integer' can hold.*coerced to 'numeric'")
-test(1968.35, DT[, sum(as.numeric(C)), by=A%%2L], data.table(A=c(1L,0L), V1=c(6442450941, 4294967294)))
 DT[3,C:=NA]
 test(1968.4, DT[, sum(C), by=A%%2L], data.table(A=c(1L,0L), V1=c(NA, 4294967294)), warning="coerced to 'numeric'")
 test(1968.5, DT[, sum(C,na.rm=TRUE), by=A%%2L], data.table(A=c(1L,0L), V1=c(4294967294, 4294967294)), warning="coerced to 'numeric'")
@@ -13877,10 +14287,14 @@ x <- as.array(1:5)
 test(1980, names(data.table(x)), "x")
 
 # crash when n="lead", #3354
+options(datatable.optimize=0L)
+DT = data.table( id = 1:5 , val = letters[1:5] )
+test(1981.1, DT[, new_col := shift(val, "lead")],      error=base_messages$stopifnot("is.numeric(n)"))
+test(1981.2, DT[, new_col := shift(val, NA_integer_)], error="Item 1 of n is NA")
+options(datatable.optimize=Inf)
 DT = data.table( id = 1:5 , val = letters[1:5] )
-test(1981.1,optimize=c(0L, Inf), DT[, new_col := shift(val, "lead")],      error=base_messages$stopifnot("is.numeric(n)"))
-test(1981.2,optimize=c(0L, Inf), DT[, new_col := shift(val, NA_integer_)], error="Item 1 of n is NA")
-# tests 1981.1 and 1981.2 subsume 1981.1, 1981.2, 1981.3 and 1981.4 for testing different levels
+test(1981.3, DT[, new_col := shift(val, "lead")],      error=base_messages$stopifnot("is.numeric(n)"))
+test(1981.4, DT[, new_col := shift(val, NA_integer_)], error="Item 1 of n is NA")
 
 # 1982 moved to benchmark.Rraw, #5517
 
@@ -13912,7 +14326,8 @@ test(1984.081, DT[, sum(a), by=as.raw(0)],     error="Column or expression.*1.*t
 test(1984.082, data.table(A=1:4, L=list(1, 1:2, 1, 1:3), V=1:4)[, sum(V), by=.(A,L)],  # better error message, 4308
                error="Column or expression.*2.*type 'list'.*not.*supported")
 test(1984.09, DT[, sum(a), by=.(1,1:2)],       error="The items in the 'by' or 'keyby' list have lengths [1, 2]. Each must be length 10; the same length as there are rows in x (after subsetting if i is provided).")
-test(1984.10,optimize=Inf, DT[ , 1, by = .(a %% 2), verbose = TRUE],
+options('datatable.optimize' = Inf)
+test(1984.10, DT[ , 1, by = .(a %% 2), verbose = TRUE],
      data.table(a = c(1, 0), V1 = c(1, 1)),
      output = 'Optimization is on but left j unchanged')
 DT[ , f := rep(1:2, each = 5)]
@@ -14202,7 +14617,7 @@ test(2002.12, rbind(DT1, DT2, idcol='id'),     data.table(id=integer(), a=logica
 
 #rbindlist coverage
 test(2003.1, rbindlist(list(), use.names=1), error="use.names= should be TRUE, FALSE, or not used [(]\"check\" by default[)]")
-test(2003.2, rbindlist(list(), fill=1), error="'fill' must be TRUE or FALSE")
+test(2003.2, rbindlist(list(), fill=1), error="fill should be TRUE or FALSE")
 test(2003.3, rbindlist(list(data.table(a=1:2), data.table(b=3:4)), fill=TRUE, use.names=FALSE),
              data.table(a=c(1:4)))
 test(2003.4, rbindlist(list(data.table(a=1:2,c=5:6), data.table(b=3:4)), fill=TRUE, use.names=FALSE),
@@ -14221,7 +14636,7 @@ test(2003.82, rbind(y, x, fill=TRUE, use.names=TRUE), ans[2:1,])
 test(2003.83, rbind(x, y, fill=TRUE, use.names=FALSE), ans)
 test(2003.84, rbind(y, x, fill=TRUE, use.names=FALSE), ans[2:1,])
 # rbindlist ignore attributes #3911
-test(2003.85, rbindlist(list(), ignore.attr=1), error="'ignore.attr' must be TRUE or FALSE")
+test(2003.85, rbindlist(list(), ignore.attr=1), error="ignore.attr should be TRUE or FALSE")
 
 # chmatch coverage for two different non-ascii encodings matching; issues mentioned in comments in chmatch.c #69 #2538 #111
 x1 = "fa\xE7ile"
@@ -14655,8 +15070,8 @@ test(2037.2, names(DT), 'a')
 test(2037.3, foo(DT), output="data.table internal attributes", notOutput="data.table internal attributes.*data.table internal attributes")
 
 # `between` invalid args, and verbose #3516
-test(2038.01, between(1:5, 2, 4, incbounds=423), error="'incbounds' must be TRUE or FALSE")
-test(2038.02, between(1:5, 2, 4, incbounds=NA), error="'incbounds' must be TRUE or FALSE")
+test(2038.01, between(1:5, 2, 4, incbounds=423), error="incbounds must be TRUE or FALSE")
+test(2038.02, between(1:5, 2, 4, incbounds=NA), error="incbounds must be TRUE or FALSE")
 old = options(datatable.verbose=TRUE)
 test(2038.03, between(1:5, 2L, 4L), output="between parallel processing of integer took")
 test(2038.04, between(1:5, rep(2L,5L), rep(4L, 5L)), output="between parallel processing of integer took")
@@ -14795,12 +15210,16 @@ test(2042.4, DT[ , round(mean(DiffTime)), by=Group, verbose=TRUE],
 # gforce wrongly applied to external variable; #875
 DT = data.table(x=INT(1,1,1,2,2), y=1:5)
 z = 1:5
-opt = c(Inf,1L,0L)
-test(2043.1,optimize=opt, DT[, list(mean(z), mean(y)), by=x], data.table(x=1:2, V1=c(3,3), V2=c(2.0,4.5)))
-# test 2043.1 subsumes 2043.1, 2043.2 and 2043.3 for testing different levels
-test(2043.4,optimize=opt, DT[, list(sd(z), sd(y)), by=x], data.table(x=1:2, V1=sd(z), V2=c(sd(1:3), sd(4:5))))
+options(datatable.optimize = Inf)
+test(2043.1, DT[, list(mean(z), mean(y)), by=x], ans<-data.table(x=1:2, V1=c(3,3), V2=c(2.0,4.5)))
+options(datatable.optimize = 1L)
+test(2043.2, DT[, list(mean(z), mean(y)), by=x], ans)
+options(datatable.optimize = 0L)
+test(2043.3, DT[, list(mean(z), mean(y)), by=x], ans)
+options(datatable.optimize = Inf)
+test(2043.4, DT[, list(sd(z), sd(y)), by=x], data.table(x=1:2, V1=sd(z), V2=c(sd(1:3), sd(4:5))))
 z = 1:4
-test(2043.5,optimize=opt, DT[, list(mean(z), mean(y)), by=x], ans<-data.table(x=1:2, V1=c(2.5,2.5), V2=c(2.0,4.5)))  # was length error about z
+test(2043.5, DT[, list(mean(z), mean(y)), by=x], ans<-data.table(x=1:2, V1=c(2.5,2.5), V2=c(2.0,4.5)))  # was length error about z
 
 # test type coercion in joins, #2592
 dt1 <- data.table(int = 1L:10L,
@@ -15799,7 +16218,7 @@ if (test_bit64) {
 test(2082.07, between(letters[1:2], c("foo","bar"), c("bar")), c(FALSE,FALSE))
 test(2082.08, between(letters[1:2], c("foo","bar"), c("bar"), check=TRUE), error="Item 1 of lower ('foo') is greater than item 1 of upper ('bar')")
 test(2082.09, between(as.raw(1:5), as.raw(3), as.raw(2), check=TRUE), error="Some lower>upper for this non-numeric and non-character type")
-test(2082.10, between(1:3, 2, 4, check=NA), error="'check' must be TRUE or FALSE")
+test(2082.10, between(1:3, 2, 4, check=NA), error="check must be TRUE or FALSE")
 
 # partial instantiation of integer64 column was creating NA_REAL, not INT64_MIN
 if (test_bit64) {
@@ -15963,10 +16382,12 @@ test(2098.1, DT[do.call(order, mget(groups)), verbose=TRUE], ans<-data.table(id=
 test(2098.2, DT[with(DT, do.call(order, mget(groups))), verbose=TRUE],  ans, output=out)
 test(2098.3, DT[do.call(forder, mget(groups)), verbose=TRUE],           ans, output=out)
 test(2098.4, DT[with(DT, do.call(forder, mget(groups))), verbose=TRUE], ans, output=out)
-test(2098.5,optimize=0L, DT[do.call(order, mget(groups)), verbose=TRUE],            ans, notOutput="forder.c")
-test(2098.6,optimize=0L, DT[with(DT, do.call(order, mget(groups))), verbose=TRUE],  ans, notOutput="forder.c")
-test(2098.7,optimize=0L, DT[do.call(forder, mget(groups)), verbose=TRUE],           ans, output=out)
-test(2098.8,optimize=0L, DT[with(DT, do.call(forder, mget(groups))), verbose=TRUE], ans, output=out)
+old = options(datatable.optimize=0L)
+test(2098.5, DT[do.call(order, mget(groups)), verbose=TRUE],            ans, notOutput="forder.c")
+test(2098.6, DT[with(DT, do.call(order, mget(groups))), verbose=TRUE],  ans, notOutput="forder.c")
+test(2098.7, DT[do.call(forder, mget(groups)), verbose=TRUE],           ans, output=out)
+test(2098.8, DT[with(DT, do.call(forder, mget(groups))), verbose=TRUE], ans, output=out)
+options(old)
 
 # Error in update join when joining on factor, #3559
 d1 <- data.table(fac = factor(letters[1:4]), char = letters[1:4], val = c(1L, NA, 3L, NA))
@@ -17277,9 +17698,12 @@ test(2194.4, endsWithAny(letters, 'e'), error="Internal error.*types or lengths
 test(2194.5, endsWithAny(NA_character_, 'a'), FALSE)
 test(2194.6, endsWithAny(character(), 'a'), error="Internal error.*types or lengths incorrect")
 # file used in encoding tests
-needed_chars = c("\u0105", "\u017E", "\u016B", "\u012F", "\u0173", "\u0117", "\u0161", "\u0119")
-txt = parse(text='readLines(testDir("issue_563_fread.txt"))')
-test(2194.7, requires_utf8=needed_chars, endsWithAny(eval(txt), 'B'), error="Internal error.*types or lengths incorrect") # txt is length 5
+txt = readLines(testDir("issue_563_fread.txt"))
+local(if (eval(utf8_check_expr)) {
+  test(2194.7, endsWithAny(txt, 'B'), error="Internal error.*types or lengths incorrect") # txt is length 5
+} else {
+  cat("Test 2194.7 skipped because it needs a UTF-8 locale.\n")
+})
 test(2194.8, endsWith('abcd', 'd'), error="Internal error.*use endsWithAny")
 
 # uniqueN(x, by=character()) was internal error, #4594
@@ -17388,14 +17812,16 @@ test(2207, dcast(DT, x~y, value.var="z"), data.table(x=1:3, a=c(1+6i, 3+4i, 5+2i
 # gmin/gmax for integer64, #4444
 if (test_bit64) {
   DT = data.table(grp=c(1L, 1L, 1L, 2L), i64=as.integer64(c(NA, 1:3)))
-  test(2208.1,optimize=2L, DT[, min(i64), by=grp], data.table(grp=1:2, V1=as.integer64(c(NA, 3))))
-  test(2208.2,optimize=2L, DT[, min(i64, na.rm=TRUE), by=grp], data.table(grp=1:2, V1=as.integer64(c(1, 3))))
-  test(2208.3,optimize=2L, DT[, max(i64), by=grp], data.table(grp=1:2, V1=as.integer64(c(NA, 3))))
-  test(2208.4,optimize=2L, DT[, max(i64, na.rm=TRUE), by=grp], data.table(grp=1:2, V1=as.integer64(2:3)))
+  old = options(datatable.optimize=2L)
+  test(2208.1, DT[, min(i64), by=grp], data.table(grp=1:2, V1=as.integer64(c(NA, 3))))
+  test(2208.2, DT[, min(i64, na.rm=TRUE), by=grp], data.table(grp=1:2, V1=as.integer64(c(1, 3))))
+  test(2208.3, DT[, max(i64), by=grp], data.table(grp=1:2, V1=as.integer64(c(NA, 3))))
+  test(2208.4, DT[, max(i64, na.rm=TRUE), by=grp], data.table(grp=1:2, V1=as.integer64(2:3)))
   # create an all-NA group
   DT[, i64:=rev(i64)]
-  test(2208.7,optimize=2L, DT[, min(i64, na.rm=TRUE), by=grp], data.table(grp=1:2, V1=as.integer64(c(1,NA))))
-  test(2208.8,optimize=2L, DT[, max(i64, na.rm=TRUE), by=grp], data.table(grp=1:2, V1=as.integer64(c(3,NA))))
+  test(2208.7, DT[, min(i64, na.rm=TRUE), by=grp], data.table(grp=1:2, V1=as.integer64(c(1,NA))))
+  test(2208.8, DT[, max(i64, na.rm=TRUE), by=grp], data.table(grp=1:2, V1=as.integer64(c(3,NA))))
+  options(old)
 }
 
 # when user supplies dec=',' don't try sep=',', #4483
@@ -17620,16 +18046,17 @@ if (test_bit64) test(2219.2, DT[3, A:=as.integer64("4611686018427387906")], data
 
 # gforce improve coverage
 DT = data.table(g=1:2, i=c(NA, 1:4, NA), f=factor(letters[1:6]), l=as.list(1:6))
+options(datatable.optimize = 2L)
 funs = c("sum", "mean", "min", "max", "median", "var", "sd", "prod")
 testnum = 0L
 for (fun in funs) {
   testnum = testnum + 1L
-  test(2220.0 + testnum*0.01, optimize=2L, EVAL("DT[,",fun,"(i, na.rm='a'), g]"), error="'na.rm' must be TRUE or FALSE", context=sprintf("fun=%s [na.rm='a']", fun))
+  test(2220.0 + testnum*0.01, EVAL("DT[,",fun,"(i, na.rm='a'), g]"), error="na.rm must be TRUE or FALSE", context=sprintf("fun=%s [na.rm='a']", fun))
   testnum = testnum + 1L
-  test(2220.0 + testnum*0.01, optimize=2L, EVAL("DT[,",fun,"(f), g]"), error=sprintf("%s is not meaningful for factors.", fun), context=sprintf("fun=%s [factor]", fun))
+  test(2220.0 + testnum*0.01, EVAL("DT[,",fun,"(f), g]"), error=sprintf("%s is not meaningful for factors.", fun), context=sprintf("fun=%s [factor]", fun))
 }
 testnum = testnum + 1L
-test(2220.0 + testnum*0.01, optimize=2L, DT[, prod(l), g], error="GForce prod can only be applied to columns, not .SD or similar.")
+test(2220.0 + testnum*0.01, DT[, prod(l), g], error="GForce prod can only be applied to columns, not .SD or similar.")
 
 # tables() error when called from inside a function(...), #5197
 test(2221, (function(...) tables())(), output = "No objects of class data.table exist")
@@ -17645,6 +18072,7 @@ test(2223.1, DT[.(4), nomatch=FALSE], data.table(A=integer(), key="A"))
 test(2223.2, DT[.(4), nomatch=NA_character_], data.table(A=4L, key="A"))
 
 # gshift, #5205
+options(datatable.optimize = 2L)
 set.seed(123)
 DT = data.table(x = sample(letters[1:5], 20, TRUE),
                 y = rep.int(1:2, 10),  # to test 2 grouping columns get rep'd properly
@@ -17666,7 +18094,7 @@ for (col in names(DT)[-1]) {
     for (type in c('lag', 'lead', 'shift', 'cyclic')) {
       # fill is tested by group in tests 2218.*; see comments in #5205
       # sapply(sapply()) changed to for(for(for())) to save 29MiB, #5517
-      test(2224.1+i/10000, optimize=2L, # 192 tests here when test_bit64=TRUE; 168 when FALSE
+      test(2224.1+i/10000,  # 192 tests here when test_bit64=TRUE; 168 when FALSE
            EVAL(sprintf("DT[, shift(%s, %d, type='%s'), by=x]$V1", col, n, type)),
            ans[[i]],
            context=sprintf("col=%s, n=%s, type=%s", col, paste(n, collapse=","), type))
@@ -17756,8 +18184,86 @@ test(2230.12, merge(DT, y, by="k2", NULL, NULL, FALSE, FALSE, FALSE, TRUE, c(".x
 test(2230.13, merge(DT, y, by="k2", NULL, NULL, FALSE, FALSE, FALSE, TRUE, c(".x", ".y"), TRUE, getOption("datatable.allow.cartesian"), NULL, unk1=1L, unk2=2L, 3L, 4L),
               merge(DT, y, by="k2"), warning=c("Supplied both `by` and `by.x`/`by.y`. `by` argument will be ignored.", "2 unnamed arguments.*2 unknown keyword arguments.*\\[unk1, unk2\\]"))
 
-# tests 2231 moved to optimize.Rraw
 
+# weighted.mean GForce optimized, #3977
+old = options(datatable.optimize=1L)
+DT = data.table(x=c(3.7,3.3,3.5,2.8), w=c(5,5,4,1), g=1L)
+test(2231.01, DT[, weighted.mean(x, w), g, verbose=TRUE], data.table(g=1L, V1=3.45333333333333), output="GForce FALSE")
+test(2231.02, DT[, weighted.mean(w, x), g, verbose=TRUE], data.table(g=1L, V1=3.89473684210526), output="GForce FALSE")
+test(2231.03, DT[, weighted.mean(x), g, verbose=TRUE], data.table(g=1L, V1=3.325), output="GForce FALSE")
+# multiple groups
+DT = data.table(x=c(1L,2L,2L,3L,4L,5L,5L,6L), w=c(1L,1L,1L,1L,2L,2L,2L,2L), g=rep(1L:2L, each=4L))
+test(2231.04, DT[, weighted.mean(x, w), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(2,5)), output="GForce FALSE")
+test(2231.05, DT[, weighted.mean(x, w), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(2,5)), output="GForce FALSE")
+test(2231.06, DT[, weighted.mean(x, w), seq(nrow(DT)), verbose=TRUE], data.table(seq=1L:8L, V1=c(1,2,2,3,4,5,5,6)), output="GForce FALSE")
+# (only x XOR w) containing NA
+DT = data.table(x=c(1L,NA,2L,3L,4L,5L,5L,6L), w=c(1L,1L,1L,1L,2L,NA,2L,2L), g=rep(1L:2L, each=4L))
+test(2231.07, DT[, weighted.mean(x, w, na.rm=FALSE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(NA_real_, NA_real_)), output="GForce FALSE")
+test(2231.08, DT[, weighted.mean(x, w, na.rm=TRUE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(2, NA_real_)), output="GForce FALSE")
+test(2231.09, DT[, weighted.mean(x, na.rm=FALSE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(NA, 5)), output="GForce FALSE")
+test(2231.10, DT[, weighted.mean(x, na.rm=TRUE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(2, 5)), output="GForce FALSE")
+# (only x XOR w) containing NaN
+DT = data.table(x=c(1L,2L,NaN,3L,4L,5L,5L,6L), w=c(1L,1L,1L,1L,2L,2L,NaN,2L), g=rep(1L:2L, each=4L))
+test(2231.11, DT[, weighted.mean(x, w, na.rm=FALSE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(NaN, NA)), output="GForce FALSE")
+test(2231.12, DT[, weighted.mean(x, w, na.rm=TRUE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(2, NA)), output="GForce FALSE")
+test(2231.13, DT[, weighted.mean(x, na.rm=FALSE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(NaN, 5)), output="GForce FALSE")
+test(2231.14, DT[, weighted.mean(x, na.rm=TRUE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(2, 5)), output="GForce FALSE")
+# (only x XOR w) containing NA and NaN
+DT = data.table(x=c(1L,NA,NaN,3L,4L,5L,5L,6L), w=c(1L,1L,1L,1L,2L,NA,NaN,2L), g=rep(1L:2L, each=4L))
+test(2231.15, DT[, weighted.mean(x, w, na.rm=FALSE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(NA_real_, NA_real_)), output="GForce FALSE")
+test(2231.16, DT[, weighted.mean(x, w, na.rm=TRUE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(2, NA)), output="GForce FALSE")
+test(2231.17, DT[, weighted.mean(x, na.rm=FALSE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(NA, 5)), output="GForce FALSE")
+test(2231.18, DT[, weighted.mean(x, na.rm=TRUE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(2, 5)), output="GForce FALSE")
+# (x and w) containing NA and NaN
+DT = data.table(x=c(1L,NA,NaN,3L,4L,5L,5L,6L), w=c(1L,NA,NaN,1L,2L,2L,2L,2L), g=rep(1L:2L, each=4L))
+test(2231.19, DT[, weighted.mean(x, w, na.rm=FALSE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(NA, 5)), output="GForce FALSE")
+test(2231.20, DT[, weighted.mean(x, w, na.rm=TRUE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(2, 5)), output="GForce FALSE")
+DT = data.table(x=c(1L,NA,NaN,3L,4L,5L,5L,6L), w=c(1L,NaN,NA,1L,2L,2L,2L,2L), g=rep(1L:2L, each=4L))
+test(2231.21, DT[, weighted.mean(x, w, na.rm=FALSE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(NA, 5)), output="GForce FALSE")
+test(2231.22, DT[, weighted.mean(x, w, na.rm=TRUE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(2, 5)), output="GForce FALSE")
+# same as previous test cases but now GForce optimized
+options(datatable.optimize=2L)
+DT = data.table(x=c(3.7,3.3,3.5,2.8), w=c(5,5,4,1), g=1L)
+test(2231.31, DT[, weighted.mean(x, w), g, verbose=TRUE], data.table(g=1L, V1=3.45333333333333), output="GForce optimized j to")
+test(2231.32, DT[, weighted.mean(w, x), g, verbose=TRUE], data.table(g=1L, V1=3.89473684210526), output="GForce optimized j to")
+test(2231.33, DT[, weighted.mean(x), g, verbose=TRUE], data.table(g=1L, V1=3.325), output="GForce optimized j to")
+# multiple groups
+DT = data.table(x=c(1L,2L,2L,3L,4L,5L,5L,6L), w=c(1L,1L,1L,1L,2L,2L,2L,2L), g=rep(1L:2L, each=4L))
+test(2231.34, DT[, weighted.mean(x, w), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(2,5)), output="GForce optimized j to")
+test(2231.35, DT[, weighted.mean(x, w), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(2,5)), output="GForce optimized j to")
+test(2231.36, DT[, weighted.mean(x, w), seq(nrow(DT)), verbose=TRUE], data.table(seq=1L:8L, V1=c(1,2,2,3,4,5,5,6)), output="GForce optimized j to")
+# (only x XOR w) containing NA
+DT = data.table(x=c(1L,NA,2L,3L,4L,5L,5L,6L), w=c(1L,1L,1L,1L,2L,NA,2L,2L), g=rep(1L:2L, each=4L))
+test(2231.37, DT[, weighted.mean(x, w, na.rm=FALSE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(NA_real_, NA_real_)), output="GForce optimized j to")
+test(2231.38, DT[, weighted.mean(x, w, na.rm=TRUE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(2, NA_real_)), output="GForce optimized j to")
+test(2231.39, DT[, weighted.mean(x, na.rm=FALSE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(NA, 5)), output="GForce optimized j to")
+test(2231.40, DT[, weighted.mean(x, na.rm=TRUE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(2, 5)), output="GForce optimized j to")
+# (only x XOR w) containing NaN
+DT = data.table(x=c(1L,2L,NaN,3L,4L,5L,5L,6L), w=c(1L,1L,1L,1L,2L,2L,NaN,2L), g=rep(1L:2L, each=4L))
+test(2231.41, DT[, weighted.mean(x, w, na.rm=FALSE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(NaN, NA)), output="GForce optimized j to")
+test(2231.42, DT[, weighted.mean(x, w, na.rm=TRUE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(2, NA)), output="GForce optimized j to")
+test(2231.43, DT[, weighted.mean(x, na.rm=FALSE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(NaN, 5)), output="GForce optimized j to")
+test(2231.44, DT[, weighted.mean(x, na.rm=TRUE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(2, 5)), output="GForce optimized j to")
+# (only x XOR w) containing NA and NaN
+DT = data.table(x=c(1L,NA,NaN,3L,4L,5L,5L,6L), w=c(1L,1L,1L,1L,2L,NA,NaN,2L), g=rep(1L:2L, each=4L))
+test(2231.45, DT[, weighted.mean(x, w, na.rm=FALSE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(NA_real_, NA_real_)), output="GForce optimized j to")
+test(2231.46, DT[, weighted.mean(x, w, na.rm=TRUE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(2, NA)), output="GForce optimized j to")
+test(2231.47, DT[, weighted.mean(x, na.rm=FALSE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(NA, 5)), output="GForce optimized j to")
+test(2231.48, DT[, weighted.mean(x, na.rm=TRUE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(2, 5)), output="GForce optimized j to")
+# (x and w) containing NA and NaN
+DT = data.table(x=c(1L,NA,NaN,3L,4L,5L,5L,6L), w=c(1L,NA,NaN,1L,2L,2L,2L,2L), g=rep(1L:2L, each=4L))
+test(2231.49, DT[, weighted.mean(x, w, na.rm=FALSE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(NA, 5)), output="GForce optimized j to")
+test(2231.50, DT[, weighted.mean(x, w, na.rm=TRUE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(2, 5)), output="GForce optimized j to")
+DT = data.table(x=c(1L,NA,NaN,3L,4L,5L,5L,6L), w=c(1L,NaN,NA,1L,2L,2L,2L,2L), g=rep(1L:2L, each=4L))
+test(2231.51, DT[, weighted.mean(x, w, na.rm=FALSE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(NA, 5)), output="GForce optimized j to")
+test(2231.52, DT[, weighted.mean(x, w, na.rm=TRUE), g, verbose=TRUE], data.table(g=c(1L,2L), V1=c(2, 5)), output="GForce optimized j to")
+# let wrongly named arguments get lost in ellipsis #5543
+DT = data.table(x=c(3.7,3.3,3.5,2.8), w=c(5,5,4,1), g=1L)
+test(2231.61, DT[, weighted.mean(x, w),        g, verbose=TRUE], data.table(g=1L, V1=3.45+1/300), output="GForce optimized j to")
+test(2231.62, DT[, weighted.mean(x, weight=w), g, verbose=TRUE], data.table(g=1L, V1=3.325),      output="GForce optimized j to")
+test(2231.63, DT[, weighted.mean(x, w, na.rm=FALSE), g],    DT[, stats::weighted.mean(x, w, na.rm=FALSE), g])
+test(2231.64, DT[, weighted.mean(x, weight=w, na.rm=TRUE)], DT[, stats::weighted.mean(x, weight=w, na.rm=TRUE)])
+options(old)
 
 # cols argument for unique.data.table, #5243
 DT = data.table(g = rep(letters, 3), v1=1:78, v2=78:1)
@@ -17769,18 +18275,17 @@ test(2232.3, unique(DT[1:26], by='g', cols='v1'), DT[1:26, !'v2'])
 test(2232.4, unique(DT, by='g', cols='v3'), error="non-existing column(s)")
 
 # support := with GForce #1414
+options(datatable.optimize = 2L)
 DT = data.table(a=1:3,b=(1:9)/10)
-opt = 0:2
-out = c("GForce FALSE", "GForce FALSE", "GForce optimized j to")
-test(2233.01,optimize=opt, DT[, v := min(b), a, verbose=TRUE], data.table(a=1:3, b=(1:9)/10, v=(1:3)/10), output=out)
+test(2233.01, DT[, v := min(b), a, verbose=TRUE],      data.table(a=1:3, b=(1:9)/10, v=(1:3)/10), output="GForce optimized j to")
 # GForce returning full length
-test(2233.02,optimize=opt, DT[, v := head(b, 3L), a, verbose=TRUE], data.table(a=1:3, b=(1:9)/10, v=(1:9)/10), output=out)
+test(2233.02, DT[, v := head(b, 3L), a, verbose=TRUE], data.table(a=1:3, b=(1:9)/10, v=(1:9)/10), output="GForce optimized j to")
 # GForce neither returning 1 per group nor full length
-test(2233.03,optimize=opt, DT[, v := head(b, 2L), a], error="Supplied .* items to be assigned to .* column 'v'.")
+test(2233.03, DT[, v := head(b, 2L), a], error="Supplied 6 items to be assigned to 9 items of column 'v'.")
 # compare to non GForce version
 DT = data.table(a=1:3,b=(1:9)/10)
-test(2233.04,optimize=opt, copy(DT)[, v := min(b), a,      verbose=TRUE], copy(DT)[, v := base::min(b), a,     ], output=out)
-test(2233.05,optimize=opt, copy(DT)[, v := head(b, 3L), a, verbose=TRUE], copy(DT)[, v := utils::head(b, 3L), a], output=out)
+test(2233.04, copy(DT)[, v := min(b), a,      verbose=TRUE], copy(DT)[, v := base::min(b), a,     ], output="GForce optimized j to")
+test(2233.05, copy(DT)[, v := head(b, 3L), a, verbose=TRUE], copy(DT)[, v := utils::head(b, 3L), a], output="GForce optimized j to")
 
 # with key and grouping by key
 DT = data.table(a=1:3,b=(1:9)/10, key="a")
@@ -17851,23 +18356,27 @@ test(2233.38, copy(DT)[, val:=v[1L], keyby=.(A,B), verbose=TRUE], data.table(A=I
 set.seed(10)
 n = 100
 a = data.table(id1=1:n, id2=sample(1:900,n,replace=TRUE), flag=sample(c(0,0,0,1),n,replace=TRUE))
-opt = c(0,Inf)
-out = c("GForce FALSE", "GForce.*gsum")
-B = copy(a)
-A = a[sample(seq_len(nrow(a)), nrow(a))] # shuffle
-test(2233.391,optimize=opt, A[, t1 := sum(flag, na.rm=TRUE), by=id2, verbose=TRUE], A, output=out, context=sprintf("optimize=%s [I]", format(opt)))  # y=A dummy just to test output=
-setorder(A, id1)
-test(2233.392,optimize=opt, A[, t2 := sum(flag, na.rm=TRUE), by=id2, verbose=TRUE], A, output=out, context=sprintf("optimize=%s [II]", format(opt)))
-test(2233.393,optimize=opt, !any(A[,t1!=t2]))
-test(2233.394,optimize=opt, !any(A[, length(unique(t1))>1, by=id2]$V1), context=sprintf("optimize=%s [III]", format(opt)))
-test(2233.395,optimize=opt, !any(A[, length(unique(t2))>1, by=id2]$V1), context=sprintf("optimize=%s [IV]", format(opt)))
-
+for (opt in c(0, Inf)) {
+  options(datatable.optimize=opt)
+  out = if (opt) "GForce.*gsum" else "GForce FALSE"
+  B = copy(a)
+  A = a[sample(seq_len(nrow(a)), nrow(a))] # shuffle
+  num_bump = (opt>0)/100
+  test(2233.39+num_bump+0.001, A[, t1 := sum(flag, na.rm=TRUE), by=id2, verbose=TRUE], A, output=out, context=sprintf("optimize=%s [I]", format(opt)))  # y=A dummy just to test output=
+  setorder(A, id1)
+  test(2233.39+num_bump+0.002, A[, t2 := sum(flag, na.rm=TRUE), by=id2, verbose=TRUE], A, output=out, context=sprintf("optimize=%s [II]", format(opt)))
+  test(2233.39+num_bump+0.003, !any(A[,t1!=t2]))
+  test(2233.39+num_bump+0.004, !any(A[, length(unique(t1))>1, by=id2]$V1), context=sprintf("optimize=%s [III]", format(opt)))
+  test(2233.39+num_bump+0.005, !any(A[, length(unique(t2))>1, by=id2]$V1), context=sprintf("optimize=%s [IV]", format(opt)))
+}
 # test from #5337
 n=4; k=2
 mm = data.table(a = rep(1:k,n), b=seq_len(n*k), d=rep(1:n,k))
 ans = copy(mm)[, e:=INT(NA,8,NA,12,NA,8,NA,12)]
-test(2233.41,optimize=opt, copy(mm)[a==2, e:=sum(b), by=d, verbose=TRUE], ans, output=c("GForce FALSE", "GForce.*gsum"))
-# test 2233.41 subsumes 2231.41 and 2231.42 for different optimization levels
+options(datatable.optimize=0)
+test(2233.41, copy(mm)[a==2, e:=sum(b), by=d, verbose=TRUE], ans, output="GForce FALSE")
+options(datatable.optimize=Inf)
+test(2233.42, copy(mm)[a==2, e:=sum(b), by=d, verbose=TRUE], ans, output="GForce.*gsum")
 # test from #5345
 set.seed(1)
 DT = data.table(
@@ -17878,21 +18387,32 @@ DT = data.table(
 )
 load(testDir("test2233-43.Rdata"))  # ans
 setDT(ans)  # to silence verbose messages about internal.selfref being NULL when loaded from disk
-test(2233.43,optimize=c(0,Inf), options = list(datatable.verbose=TRUE),
+test(2233.43,
+  options = list(datatable.verbose=TRUE, datatable.optimize=0),
   copy(DT)[, sum_v2_idT:=sum(v2),       by=c("id", "t")
           ][, n_idT     :=dim(.SD)[[1]], by=list(t, id)
           ][, sum_v2_id :=sum(v2),       by=.(id)
           ][, sum_v1_idT:=sum(v1),       by=c("id", "t")
           ][, sum_v1_id :=sum(v1),       by=c("id")],
   ans,
-  output=c("GForce FALSE", "GForce.*gsum"))
-# test 2233.43 subsumes 2231.43 and 2231.44 for different optimization levels
+  output="GForce FALSE")
+test(2233.44,
+  options = list(datatable.verbose=TRUE, datatable.optimize=Inf),
+  copy(DT)[, sum_v2_idT:=sum(v2),       by=c("id", "t")
+          ][, n_idT     :=dim(.SD)[[1]], by=list(t, id)
+          ][, sum_v2_id :=sum(v2),       by=.(id)
+          ][, sum_v1_idT:=sum(v1),       by=c("id", "t")
+          ][, sum_v1_id :=sum(v1),       by=c("id")],
+  ans,
+  output="GForce.*gsum")
 # optimized := with gforce functions that can return lists #5403
+old = options(datatable.verbose=TRUE)
 DT = data.table(grp=1:2, x=1:4)
 out = "Making each group and running j (GForce TRUE)"
-test(2233.45, options=c(datatable.verbose=TRUE), copy(DT)[, c("y", "z") := .(shift(x, type="lag", n=1), shift(x, type="lead", n=1)), by=grp], data.table(grp=1:2, x=1:4, y=c(NA, NA, 1:2), z=c(3:4, NA, NA)), output=out)
-test(2233.46, options=c(datatable.verbose=TRUE), copy(DT)[, l := shift(x, n=c(0, 0)), by=grp], data.table(grp=1:2, x=1:4, l=list(INT(1, 1), INT(2, 2), INT(3, 3), INT(4, 4))), output=out)
-test(2233.47, options=c(datatable.verbose=TRUE), copy(DT)[, c("l1", "l2") := shift(x, n=c(-1, 1)), by=grp], data.table(grp=1:2, x=1:4, l1=c(3:4,NA,NA), l2=c(NA,NA,1:2)), output=out)
+test(2233.45, copy(DT)[, c("y", "z") := .(shift(x, type="lag", n=1), shift(x, type="lead", n=1)), by=grp], data.table(grp=1:2, x=1:4, y=c(NA, NA, 1:2), z=c(3:4, NA, NA)), output=out)
+test(2233.46, copy(DT)[, l := shift(x, n=c(0, 0)), by=grp], data.table(grp=1:2, x=1:4, l=list(INT(1, 1), INT(2, 2), INT(3, 3), INT(4, 4))), output=out)
+test(2233.47, copy(DT)[, c("l1", "l2") := shift(x, n=c(-1, 1)), by=grp], data.table(grp=1:2, x=1:4, l1=c(3:4,NA,NA), l2=c(NA,NA,1:2)), output=out)
+options(old)
 
 # support by=.I; #1732
 DT = data.table(V1=1:5, V2=3:7, V3=5:1)
@@ -18029,16 +18549,20 @@ test(2243.38, dt[, sd(y,   na.rm=as.logical(j)),   g, verbose=TRUE], data.table(
 dt = data.table(x = c(2,2,1,1), y = 1:4, z=letters[1:4])
 i=c(1,2)
 j=1L
-opt = c(1L,2L)
-out = c("GForce FALSE", "GForce TRUE")
-test(2243.41,optimize=opt, options=c(datatable.verbose=TRUE), dt[, .I[TRUE], x]$V1, 1:4, output="GForce FALSE")
-# test 2243.41 subsumes 2243.41 and 2243.51 for different optimization levels
-test(2243.42,optimize=opt, options=c(datatable.verbose=TRUE), dt[, z[y], x], data.table(x=c(2,2,1,1), V1=c("a","b",NA,NA)), output="GForce FALSE")
-# test 2243.42 subsumes 2243.42 and 2243.52 for different optimization levels
-test(2243.53,optimize=opt, options=c(datatable.verbose=TRUE), dt[, .I[1], x]$V1, c(1L, 3L), output=out)
-test(2243.54,optimize=opt, options=c(datatable.verbose=TRUE), dt[, .I[j], x]$V1, c(1L, 3L), output=out)
-test(2243.55,optimize=opt, options=c(datatable.verbose=TRUE), dt[, .I[i], x]$V1, 1:4, output="GForce FALSE")
-test(2243.56,optimize=opt, options=c(datatable.verbose=TRUE), dt[, .I[1:2], x]$V1, 1:4, output="GForce FALSE")
+test(2243.41, options=c(datatable.optimize=1L), dt[, .I[TRUE], x]$V1, 1:4)
+test(2243.42, options=c(datatable.optimize=1L), dt[, z[y], x], data.table(x=c(2,2,1,1), V1=c("a","b",NA,NA)))
+test(2243.51, options=list(datatable.optimize=2L, datatable.verbose=TRUE),
+     dt[, .I[TRUE], x]$V1, 1:4, output="GForce FALSE")
+test(2243.52, options=list(datatable.optimize=2L, datatable.verbose=TRUE),
+     dt[, z[y], x], data.table(x=c(2,2,1,1), V1=c("a","b",NA,NA)), output="GForce FALSE")
+test(2243.53, options=list(datatable.optimize=2L, datatable.verbose=TRUE),
+     dt[, .I[1], x]$V1, c(1L, 3L), output="GForce TRUE")
+test(2243.54, options=list(datatable.optimize=2L, datatable.verbose=TRUE),
+     dt[, .I[j], x]$V1, c(1L, 3L), output="GForce TRUE")
+test(2243.55, options=list(datatable.optimize=2L, datatable.verbose=TRUE),
+     dt[, .I[i], x]$V1, 1:4, output="GForce FALSE")
+test(2243.56, options=list(datatable.optimize=2L, datatable.verbose=TRUE),
+     dt[, .I[1:2], x]$V1, 1:4, output="GForce FALSE")
 
 DT = data.table(1)
 test(2244.1, DT[, `:=`(a=1, )], error="`:=`.*Did you forget a trailing comma\\?")
@@ -18059,9 +18583,11 @@ test(2245.3, dt[1], data.table(foo = 1L, bar = 4L)) # Default in this environmen
 
 # data.table:: doesn't turn off GForce, #5942
 DT = data.table(a = rep(1:5, 2L), b = 1:10)
-test(2246.1, options=list(datatable.optimize=Inf, datatable.verbose=TRUE), DT[, data.table::shift(b), by=a], DT[, shift(b), by=a], output="GForce TRUE")
-test(2246.2, options=list(datatable.optimize=Inf, datatable.verbose=TRUE), DT[, data.table::first(b), by=a], DT[, first(b), by=a], output="GForce TRUE")
-test(2246.3, options=list(datatable.optimize=Inf, datatable.verbose=TRUE), DT[, data.table::last(b), by=a], DT[, last(b), by=a], output="GForce TRUE")
+old = options(datatable.optimize=Inf, datatable.verbose=TRUE)
+test(2246.1, DT[, data.table::shift(b), by=a], DT[, shift(b), by=a], output="GForce TRUE")
+test(2246.2, DT[, data.table::first(b), by=a], DT[, first(b), by=a], output="GForce TRUE")
+test(2246.3, DT[, data.table::last(b), by=a], DT[, last(b), by=a], output="GForce TRUE")
+options(old)
 
 # 5392 split(x,f) works with formula f
 dt = data.table(x=1:4, y=factor(letters[1:2]))
@@ -18169,14 +18695,12 @@ test(2252.2, dt[, let(b=2L)], error = "\\[ was called on a data.table.*not data.
 rm(.datatable.aware)
 
 # tests for trunc.char handling wide characters #5096
-local({
-accented_a = "\u0061\u0301"
-ja_ichi = "\u4E00"
-ja_ni = "\u4E8C"
-ja_ko = "\u3053"
-ja_n = "\u3093"
-nc = c(accented_a, ja_ichi, ja_ni, ja_ko, ja_n)
-if (utf8_check(nc)) {
+local(if (eval(utf8_check_expr)) {
+  accented_a = "\u0061\u0301"
+  ja_ichi = "\u4E00"
+  ja_ni = "\u4E8C"
+  ja_ko = "\u3053"
+  ja_n = "\u3093"
   dots = "..."
   clean_regex = "^\\d+:\\s+" # removes row numbering from beginning of output
   # Tests for combining character latin a and acute accent, single row
@@ -18223,7 +18747,7 @@ if (utf8_check(nc)) {
   test(2253.20, options=list(datatable.prettyprint.char = 1L), data.table(a = c("abc", NA)), output="      a\n1: a...\n2: <NA>")
 } else {
   cat("Tests 2253* skipped because they need a UTF-8 locale.\n")
-}})
+})
 
 # allow 1-D matrix in j for consistency, #783
 DT=data.table(a = rep(1:2, 3), b = 1:6)
@@ -18361,7 +18885,14 @@ test(2262.6, set(null.data.table(), j=c("a","b"), value=list(1:2, 3:4)), dt3)
 test(2262.7, data.table(a=1, b=2)[, c("a", "b") := list(NULL, NULL)], null.data.table())
 test(2262.8, data.table(a=1, b=2)[, c("a", "b") := list(NULL)], null.data.table())
 
-# test 2263 moved to optimize.Rraw
+# GForce retains attributes in by arguments #5567
+dt = data.table(a=letters[1:4], b=structure(1:4, class = c("class_b", "integer"), att=1), c=structure(c(1L,2L,1L,2L), class = c("class_c", "integer")))
+test(2263.1, options=list(datatable.verbose=TRUE, datatable.optimize=0L), dt[, .N, b], data.table(b=dt$b, N=1L), output="GForce FALSE")
+test(2263.2, options=list(datatable.verbose=TRUE, datatable.optimize=0L), dt[, .N, .(b,c)], data.table(b=dt$b, c=dt$c, N=1L), output="GForce FALSE")
+test(2263.3, options=list(datatable.verbose=TRUE, datatable.optimize=0L), names(attributes(dt[, .N, b]$b)), c("class", "att"), output="GForce FALSE")
+test(2263.4, options=list(datatable.verbose=TRUE, datatable.optimize=Inf), dt[, .N, b], data.table(b=dt$b, N=1L), output="GForce optimized j to")
+test(2263.5, options=list(datatable.verbose=TRUE, datatable.optimize=Inf), dt[, .N, .(b,c)], data.table(b=dt$b, c=dt$c, N=1L), output="GForce optimized j to")
+test(2263.6, options=list(datatable.verbose=TRUE, datatable.optimize=Inf), names(attributes(dt[, .N, b]$b)), c("class", "att"), output="GForce optimized j to")
 
 # tests for printing indices alongside data.tables
 NN = 200
@@ -18497,7 +19028,7 @@ test(2269.2, fread("x\n?\n \n", colClasses="POSIXct", na.strings="?"), dt)
 
 # Error found by revdep in #6284: mean(a,b) is valid, expr names() can be NULL
 DT = data.table(a = 1, b = 2)
-test(2270,optimize=1L, DT[, mean(b, 1), by=a], data.table(a=1, V1=2), warning="Unable to optimize call to mean()")
+test(2270, options=c(datatable.optimize=1L), DT[, mean(b, 1), by=a], data.table(a=1, V1=2), warning="Unable to optimize call to mean()")
 
 # Missing newline in verbose output -> harder to read
 DT1 = data.table(a=1:2)
@@ -18809,7 +19340,94 @@ test(2282.08, rowwiseDT(A=,B=,1,2,C=,4), error="Header must be the first N argum
 ncols = 1e6
 test(2282.09, rowwiseDT(A=,ncols), data.table(A=ncols))
 
-# test 2283 moved tests to optimize.Rraw
+# named arguments of c() in j get prepended to lapply(.SD, FUN) #2311
+
+M <- as.data.table(mtcars)
+M[, " " := hp]
+M[, "." := hp]
+
+sdnames <- setdiff(names(M), "cyl")
+sdlist <- vector("list", length(sdnames))
+names(sdlist) <- sdnames
+
+for (opt in c(0, 1, 2)) {
+  test(2283 + opt/10 + 0.001, options=c(datatable.optimize=opt),
+       names(M[, c(m=lapply(.SD, mean)), by="cyl"]),
+       c("cyl", names(c(m=sdlist))),
+       context=sprintf("optimize=%s [I]", format(opt)))
+  test(2283 + opt/10 + 0.002, options=c(datatable.optimize=opt),
+       names(M[, c(Mpg=list(mpg), lapply(.SD, mean)), by="cyl"]),
+       c("cyl", "Mpg", sdnames),
+       context=sprintf("optimize=%s [II]", format(opt)))
+  test(2283 + opt/10 + 0.003, options=c(datatable.optimize=opt),
+       names(M[, c(Mpg=list(mpg), m=lapply(.SD, mean)), by="cyl"]),
+       c("cyl", "Mpg", names(c(m=sdlist))),
+       context=sprintf("optimize=%s [III]", format(opt)))
+  test(2283 + opt/10 + 0.004, options=c(datatable.optimize=opt),
+       names(M[, c(mpg=list(mpg), mpg=lapply(.SD, mean)), by="cyl"]),
+       c("cyl", "mpg", names(c(mpg=sdlist))),
+       context=sprintf("optimize=%s [IV]", format(opt)))
+  test(2283 + opt/10 + 0.005, options=c(datatable.optimize=opt),
+       names(M[, c(list(mpg), lapply(.SD, mean)), by="cyl"]),
+       c("cyl", "V1", sdnames),
+       context=sprintf("optimize=%s [V]", format(opt)))
+  test(2283 + opt/10 + 0.006, options=c(datatable.optimize=opt),
+       names(M[, c(lapply(.SD, mean), list(mpg)), by="cyl"]),
+       c("cyl", sdnames, sprintf("V%d", length(sdnames)+1L)),
+       context=sprintf("optimize=%s [VI]", format(opt)))
+  test(2283 + opt/10 + 0.007, options=c(datatable.optimize=opt),
+       names(M[, c(lapply(.SD, mean), lapply(.SD, sum)), by="cyl"]),
+       c("cyl", sdnames, sdnames),
+       context=sprintf("optimize=%s [VII]", format(opt)))
+  test(2283 + opt/10 + 0.008, options=c(datatable.optimize=opt),
+       names(M[, c(mean=lapply(.SD, mean), sum=lapply(.SD,  sum)), by="cyl"]),
+       c("cyl", names(c(mean=sdlist, sum=sdlist))),
+       context=sprintf("optimize=%s [VIII]", format(opt)))
+  test(2283 + opt/10 + 0.009, options=c(datatable.optimize=opt),
+       names(M[, c(lapply(.SD, mean), sum=lapply(.SD,  sum)), by="cyl"]),
+       c("cyl", sdnames, names(c(sum=sdlist))) ,
+       context=sprintf("optimize=%s [IX]", format(opt)))
+  test(2283 + opt/10 + 0.010, options=c(datatable.optimize=opt),
+       names(M[, c(" "=lapply(.SD, mean), "."=lapply(.SD,  sum)), by="cyl"]),
+       c("cyl", names(c(" "=sdlist, "."=sdlist))),
+       context=sprintf("optimize=%s [X]", format(opt)))
+  test(2283 + opt/10 + 0.011, options=c(datatable.optimize=opt),
+       names(M[, c(A=list(a=mpg, b=hp), lapply(.SD, mean)), by="cyl"]),
+       c("cyl", names(c(A=list(a=0, b=0))), sdnames),
+       context=sprintf("optimize=%s [XI]", format(opt)))
+  test(2283 + opt/10 + 0.012, options=c(datatable.optimize=opt),
+       names(M[, c(A=list(mpg, hp), lapply(.SD, mean)), by="cyl"]),
+       c("cyl", names(c(A=list(0, 0))), sdnames),
+       context=sprintf("optimize=%s [XII]", format(opt)))
+  test(2283 + opt/10 + 0.013, options=c(datatable.optimize=opt),
+       names(M[, c(A=list(mpg, b=hp, wt), lapply(.SD, mean)), by="cyl"]),
+       c("cyl", names(c(A=list(0, b=0, 0))), sdnames),
+       context=sprintf("optimize=%s [XIII]", format(opt)))
+  test(2283 + opt/10 + 0.014, options=c(datatable.optimize=opt),
+       names(M[, c(A=list(mpg), lapply(.SD, mean)), by="cyl"]),
+       c("cyl", names(c(A=list(0))), sdnames),
+       context=sprintf("optimize=%s [XIV]", format(opt)))
+  test(2283 + opt/10 + 0.015, options=c(datatable.optimize=opt),
+       names(M[, c(" "=list(" "=hp, "."=disp, mpg), lapply(.SD, mean)), by="cyl"]),
+       c("cyl", names(c(" "=list(" "=0, "."=0, 0))), sdnames),
+       context=sprintf("optimize=%s [XV]", format(opt)))
+  test(2283 + opt/10 + 0.016, options=c(datatable.optimize=opt),
+       names(M[, c("."=list(" "=hp, "."=disp, mpg), lapply(.SD, mean)), by="cyl"]),
+       c("cyl", names(c("."=list(" "=0, "."=0, 0))), sdnames),
+       context=sprintf("optimize=%s [XVI]", format(opt)))
+  test(2283 + opt/10 + 0.017, options=c(datatable.optimize=opt),
+       names(M[, c(list(mpg, b=hp), lapply(.SD, mean)), by="cyl", .SDcols=c("vs", "am")]),
+       c("cyl", "V1", "b", "vs", "am"),
+       context=sprintf("optimize=%s [XVII]", format(opt)))
+  test(2283 + opt/10 + 0.018, options=c(datatable.optimize=opt),
+       names(M[, c(list(mpg, b=hp), c(lapply(.SD, mean))), by="cyl", .SDcols=c("vs", "am")]),
+       c("cyl", "V1", "b", "vs", "am"),
+       context=sprintf("optimize=%s [XVIII]", format(opt)))
+  test(2283 + opt/10 + 0.019, options=c(datatable.optimize=opt),
+       names(M[, c(mpg[1], list(mpg, b=hp), c(lapply(.SD, mean))), by="cyl", .SDcols=c("vs", "am")]),
+       c("cyl", "V1", "V2", "b", "vs", "am"),
+       context=sprintf("optimize=%s [XIX]", format(opt)))
+}
 
 # Confusing behavior with DT[, min(var):max(var)] #2069
 DT = data.table(t = c(2L, 1L, 3L), a=0, b=1)
@@ -20285,20 +20903,18 @@ x = data.table(a=1, b=2L)
 y = data.table(c=1.5, d=1L)
 test(2297.31, y[x, on=.(c == a, d == a), nomatch=NULL], output="Empty data.table (0 rows and 3 cols): c,d,b")
 
-local(if (utf8_check(c("\u00e4", "\u00f6", "\u00fc"))) {
+local(if (eval(utf8_check_expr)) {
   # rbindlist(l, use.names=TRUE) should handle different colnames encodings #5452
   x = data.table(a = 1, b = 2, c = 3)
   y = data.table(x = 4, y = 5, z = 6)
   # a-umlaut, o-umlaut, u-umlaut
-  eval(parse(text = '  # eval(parse()) defers parsing to runtime; see utf8_check description
-    setnames(x , c("\u00e4", "\u00f6", "\u00fc"))
-    setnames(y , iconv(c("\u00f6", "\u00fc", "\u00e4"), from = "UTF-8", to = "latin1"))
-    test(2298.1, rbindlist(list(x,y), use.names=TRUE), data.table("\u00e4"=c(1,6), "\u00f6"=c(2,4), "\u00fc"=c(3,5)))
-    test(2298.2, rbindlist(list(y,x), use.names=TRUE), data.table("\u00f6"=c(4,2), "\u00fc"=c(5,3), "\u00e4"=c(6,1)))
-    set(y, j="\u00e4", value=NULL)
-    test(2298.3, rbindlist(list(x,y), use.names=TRUE, fill=TRUE), data.table("\u00e4"=c(1,NA), "\u00f6"=c(2,4), "\u00fc"=c(3,5)))
-    test(2298.4, rbindlist(list(y,x), use.names=TRUE, fill=TRUE), data.table("\u00f6"=c(4,2),  "\u00fc"=c(5,3), "\u00e4"=c(NA,1)))
-  '))
+  setnames(x , c("\u00e4", "\u00f6", "\u00fc"))
+  setnames(y , iconv(c("\u00f6", "\u00fc", "\u00e4"), from = "UTF-8", to = "latin1"))
+  test(2298.1, rbindlist(list(x,y), use.names=TRUE), data.table("\u00e4"=c(1,6), "\u00f6"=c(2,4), "\u00fc"=c(3,5)))
+  test(2298.2, rbindlist(list(y,x), use.names=TRUE), data.table("\u00f6"=c(4,2), "\u00fc"=c(5,3), "\u00e4"=c(6,1)))
+  set(y, j="\u00e4", value=NULL)
+  test(2298.3, rbindlist(list(x,y), use.names=TRUE, fill=TRUE), data.table("\u00e4"=c(1,NA), "\u00f6"=c(2,4), "\u00fc"=c(3,5)))
+  test(2298.4, rbindlist(list(y,x), use.names=TRUE, fill=TRUE), data.table("\u00f6"=c(4,2),  "\u00fc"=c(5,3), "\u00e4"=c(NA,1)))
 } else {
   cat("Tests 2298.* skipped because they need a UTF-8 locale.\n")
 })
@@ -21064,13 +21680,13 @@ if (base::getRversion() >= "4.3.0") { ## follow up of #7213, see #7321
 }
 
 # fwrite: allow dec=',' with single column, #7227
-test(2337.1, fwrite(data.table(1), dec=","), output = "V1\n1")
+test(2337.1, fwrite(data.table(1), dec=","), NULL)
 if (base::getRversion() >= "4.0.0") { # rely on stopifnot(named = ...) for correct message
   test(2337.2, fwrite(data.table(0.1, 0.2), dec=",", sep=","), error = "dec and sep must be distinct")
 }
-test(2337.3, fwrite(data.table(c(0.1, 0.2)), dec=",", sep="\t"), output = "V1\n0,1\n0,2")
-test(2337.4, fwrite(data.table(a=numeric(), b=numeric()), dec=",", sep=","), output = "a,b")
-test(2337.5, fwrite(data.table(a=numeric()), dec=",", sep=","), output = "a")
+test(2337.3, is.null(fwrite(data.table(c(0.1, 0.2)), dec=",", sep="\t")))
+test(2337.4, is.null(fwrite(data.table(a=numeric(), b=numeric()), dec=",", sep=",")))
+test(2337.5, is.null(fwrite(data.table(a=numeric()), dec=",", sep=",")))
 
 # 2864 force decimal points for whole numbers in numeric columns
 dd = data.table(x=c(1, 2, 3))
@@ -21407,125 +22023,3 @@ local({
   test(2357.1, fread(f), DT)
   test(2357.2, fread(paste0("file://", f)), DT)
 })
-
-#7571 issue for na.rm on int64
-if (test_bit64) local({
-  # integer64 + GForce grouped sum with na.rm = FALSE
-  # Example 1 from issue: ids 1:8, 9, 9; three leading NAs then 4:10
-  dt_short = data.table(
-    id = c(1:8, 9, 9),
-    value = c(rep(NA_integer64_, 3L), as.integer64(4:10))
-  )
-  test(2358.1, options=c(datatable.optimize=2L),
-    dt_short[, sum(value, na.rm = FALSE), by = id]$V1,
-    as.integer64(c(NA, NA, NA, 4:8, 19))
-  )
-
-  # Example 2 from issue: ids in pairs, same values; checks multi-row groups
-  dt_short2 = data.table(
-    id = rep(1:5, each = 2L),
-    value = c(rep(NA_integer64_, 3L), as.integer64(4:10))
-  )
-  test(2358.2, options=c(datatable.optimize=2L),
-    dt_short2[, sum(value, na.rm = FALSE), by = id]$V1,
-    as.integer64(c(NA, NA, 11, 15, 19))
-  )
-
-  # Test mean for integer64 with NA
-  dt_mean = data.table(
-    id = c(1,1,2,2,3,3),
-    value = as.integer64(c(NA, NA, NA, 20000000, 5, 3))
-  )
-  test(2358.3, options=c(datatable.optimize=2L),
-    dt_mean[, mean(value, na.rm=FALSE), by = id]$V1,
-    c(NA, NA, 4)
-  )
-
-  # GForce sum vs base::sum for integer64
-  DT = data.table(id = sample(letters, 1000, TRUE), value = as.integer64(sample(c(1:100, NA), 1000, TRUE)))
-  gforce = DT[, .(gforce_sum = sum(value)), by=id]
-  base = DT[, .(true_sum = base::sum(value)), by=id]
-  merged = merge(gforce, base, by="id", all=TRUE)
-  test(2358.4, options=c(datatable.optimize=2L),
-    merged$gforce_sum, merged$true_sum
-  )
-
-  # GForce mean vs base::mean for integer64
-  DTm = data.table(id = sample(letters, 1000, TRUE), value = as.integer64(sample(c(1:100, NA), 1000, TRUE)))
-  gforce_m = DTm[, .(gforce_mean = mean(value)), by=id]
-  base_m = DTm[, .(true_mean = base::mean(value)), by=id]
-  merged_m = merge(gforce_m, base_m, by="id", all=TRUE)
-  test(2358.5, options=c(datatable.optimize=2L),
-    merged$gforce_mean, merged$true_mean
-  )
-})
-
-# 7407 Test for fread() handling \x1A (ASCII SUB) at end of input
-txt = paste0("foo\n", strrep("a", 4096 * 100), "\x1A")
-test(2359.1, nchar(fread(txt)$foo), 409600L)
-
-# rowwiseDT() valid and invalid handling of complex objects #7219
-test(2360.1, rowwiseDT(x =, y =, 1, 2, 3, 4), data.table(x = c(1, 3), y = c(2, 4)))
-test(2360.2, rowwiseDT(x =, func =,
-    1, list(\(x) x + 1),
-    2, list(function(z) z * 2)),
-    data.table(x = c(1, 2), func = list(\(x) x + 1, function(z) z * 2)))
-test(2360.3, rowwiseDT(x =, func =, 1, \(x) x + 1),
-  error = "Column 'func' is type 'function'. Non-atomic, non-list objects must be wrapped in list\\(\\)")
-test(2360.4, rowwiseDT(x =, expr =, 1, quote(a + b)),
-  error = "Column 'expr' is type 'call'. Non-atomic, non-list objects must be wrapped in list\\(\\)")
-test(2360.5, rowwiseDT(x =, plist =, 1, as.pairlist(list(123))),
-  error = "Column 'plist' is type 'pairlist'. Non-atomic, non-list objects must be wrapped in list\\(\\)")
-
-# setattr() must not crash for out-of-bounds factor indices when fixing duplicate levels, #7595
-test(2361.1, setattr(factor(c(1, NA), levels = 1), "levels", c("1", "1")), factor(c(1, NA)))
-test(2361.2, setattr(structure(c(-999L, 999L), class = "factor", levels = "a"), "levels", c("b", "b")), factor(c(NA, NA), levels = "b"))
-
-# gforce should also work with Map in j #5336
-# conversions should not turn gforce off #2934
-# lapply gforce should also work without .SD #5032
-# support arithmetic in j with gforce #3815
-out = c("GForce FALSE", "GForce FALSE", "GForce TRUE")
-# unwrap type conversions
-dt = data.table(a=1:4, b=1:2)
-test(2362.01, optimize=0:2, dt[, max(as.character(a)), by=b, verbose=TRUE], data.table(b=1:2, V1=c("3","4")), output=out)
-test(2362.02, optimize=0:2, dt[, max(as.numeric(a)), by=b, verbose=TRUE], data.table(b=1:2, V1=c(3,4)), output=out)
-test(2362.03, optimize=0:2, dt[, max(as.integer(as.integer(as.integer(a)))), by=b, verbose=TRUE], data.table(b=1:2, V1=3:4), output=out)
-# Map in j
-dt = data.table(a=1:4, b=1:2)
-test(2362.11, optimize=0:2, dt[, Map(sum, .SD), b, verbose=TRUE], dt[, lapply(.SD, sum), b], output=out)
-test(2362.12, optimize=0:2, dt[, Map(sum, .SD, .SD), by=b, verbose=TRUE], output="GForce FALSE")
-# lapply without .SD
-dt = data.table(a = NA_integer_, b = 1:2, c = c(TRUE, FALSE))
-test(2362.13, optimize=0:2, dt[, Map(weighted.mean, .SD, na.rm=c), b, .SDcols="a", verbose=TRUE], data.table(b=1:2, a=c(NaN, NA_real_)), output="GForce FALSE")
-test(2362.14, optimize=0:2, dt[,list(weighted.mean(a, na.rm=c)), b, verbose=TRUE], data.table(b=1:2, V1=c(NaN, NA_real_)), output="GForce FALSE")
-test(2362.15, optimize=0:2, dt[, Map(sum, .SD), by=b, .SDcols=c("a","c"), verbose=TRUE], dt[, lapply(.SD, sum), by=b, .SDcols=c("a","c")], output=out)
-dt = data.table(a=1:2, b=1, c=1:4)
-test(2362.21, optimize=0:2, dt[, lapply(list(b, c), sum), by=a, verbose=TRUE], output=out)
-test(2362.22, optimize=0:2, dt[, c(list(sum(b), sum(c))), by=a, verbose=TRUE], output=out)
-# support arithmetic in j
-dt = data.table(a=1:4, b=1:2)
-test(2362.31, optimize=0:2, dt[, .(max(a)-min(a)), by=b, verbose=TRUE], output=out)
-test(2362.32, optimize=0:2, dt[, .((max(a) - min(a)) / (max(a) + min(a))), by=b, verbose=TRUE], data.table(b=1:2, V1=c(0.5, 1/3)), output=out)
-test(2362.33, optimize=0:2, dt[, sum(a) / .N, b, verbose=TRUE], output=out)
-test(2362.34, optimize=0:2, dt[, mean(a) * 2L + sum(a), b, verbose=TRUE], output=out)
-test(2362.35, optimize=0:2, dt[, list(range=max(a)-min(a), avg=mean(a)), by=b, verbose=TRUE], output=out)
-test(2362.36, optimize=0:2, dt[, .(max(a)-sqrt(min(a))), by=b, verbose=TRUE], output="GForce FALSE")
-test(2362.37, optimize=0:2, dt[, sum(a) %% 2, b, verbose=TRUE], output=out)
-test(2362.38, optimize=0:2, dt[, sum(a) %/% 2, b, verbose=TRUE], output=out)
-test(2362.39, optimize=0:2, dt[, -sum(a), b, verbose=TRUE], output=out)
-test(2362.40, optimize=0:2, dt[, .(sum(a)-sum(b)), b, verbose=TRUE], output="GForce FALSE")
-# mix cases of the above
-dt = data.table(a=1:4, b=1:2)
-test(2362.41, optimize=0:2, dt[, sum(as.numeric(a)) + mean(as.integer(a)), by=b, verbose=TRUE], output=out)
-test(2362.42, optimize=0:2, dt[, Map(sum, .SD), by=b, .SDcols="a", verbose=TRUE], output=out)
-test(2362.43, optimize=0:2, dt[, lapply(list(as.numeric(a)), sum), by=b, verbose=TRUE], output="GForce FALSE")
-test(2362.44, optimize=0:2, dt[, sum(a) + as.numeric("5"), by=b, verbose=TRUE], data.table(b=1:2, V1=c(9, 11)), output="GForce FALSE")
-test(2362.45, optimize=0:2, dt[, sum(a[a > 2]), by=b, verbose=TRUE], output="GForce FALSE")
-dt = data.table(a=1:4, b=1:2, c=2:5)
-test(2362.46, optimize=0:2, dt[, .(sum(a) + sum(c)), by=b, verbose=TRUE], output=out)
-# coverage and edge cases for lapply(.SD, ...)
-dt = data.table(a=1:4, b=1:2)
-test(2362.51, optimize=0:2, dt[, c(list()), b, verbose=TRUE], data.table(b=integer(0L)), output="GForce FALSE")
-test(2362.52, optimize=0:2, dt[, c(lapply(.SD, sum), list()), b, verbose=TRUE], output=out)
-test(2362.53, optimize=0:2, dt[, list(lapply(.SD, sum), list()), b, verbose=TRUE], output="GForce FALSE")
diff --git a/man/data.table.Rd b/man/data.table.Rd
index cfdcb27068..a674ecccb0 100644
--- a/man/data.table.Rd
+++ b/man/data.table.Rd
@@ -181,7 +181,7 @@ data.table(\dots, keep.rownames=FALSE, check.names=FALSE, key=NULL, stringsAsFac
 
   \item{env}{ List or an environment, passed to \code{\link{substitute2}} for substitution of parameters in \code{i}, \code{j} and \code{by} (or \code{keyby}). Use \code{verbose} to preview constructed expressions. For more details see \href{../doc/datatable-programming.html}{\code{vignette("datatable-programming")}}. }
 
-  \item{showProgress}{ \code{TRUE} (default when \code{interactive()}) shows a progress indicator with estimated time to completion for lengthy "by" operations, updating every 3 seconds. An integer value controls the update interval in seconds (minimum 3). \code{FALSE} disables the progress indicator. }
+  \item{showProgress}{ \code{TRUE} shows progress indicator with estimated time to completion for lengthy "by" operations. }
 }
 \details{
 \code{data.table} builds on base \R functionality to reduce 2 types of time:\cr
diff --git a/man/nafill.Rd b/man/nafill.Rd
index e0d3397027..1304c8b67a 100644
--- a/man/nafill.Rd
+++ b/man/nafill.Rd
@@ -37,11 +37,6 @@ x = c(1, NA, NaN, 3, NaN, NA, 4)
 nafill(x, "locf")
 nafill(x, "locf", nan=NaN)
 
-# works for factors
-x = gl(3, 2, 10)
-is.na(x) = 1:2
-nafill(x, "nocb")
-
 # fill= applies to any leftover NA
 nafill(c(NA, x), "locf")
 nafill(c(NA, x), "locf", fill=0)
diff --git a/man/setkey.Rd b/man/setkey.Rd
index f15373c94e..96e293fd28 100644
--- a/man/setkey.Rd
+++ b/man/setkey.Rd
@@ -110,7 +110,7 @@ reference.
 \references{
   \url{https://en.wikipedia.org/wiki/Radix_sort}\cr
   \url{https://en.wikipedia.org/wiki/Counting_sort}\cr
-  \url{https://stereopsis.com/radix.html}\cr
+  \url{http://stereopsis.com/radix.html}\cr
   \url{https://codercorner.com/RadixSortRevisited.htm}\cr
   \url{https://cran.r-project.org/package=bit64}\cr
   \url{https://github.com/Rdatatable/data.table/wiki/Presentations}
diff --git a/man/setorder.Rd b/man/setorder.Rd
index b4a346cf18..c810048d4e 100644
--- a/man/setorder.Rd
+++ b/man/setorder.Rd
@@ -113,7 +113,7 @@ If you require a copy, take a copy first (using \code{DT2 = copy(DT)}). See
 \references{
   \url{https://en.wikipedia.org/wiki/Radix_sort}\cr
   \url{https://en.wikipedia.org/wiki/Counting_sort}\cr
-  \url{https://stereopsis.com/radix.html}\cr
+  \url{http://stereopsis.com/radix.html}\cr
   \url{https://codercorner.com/RadixSortRevisited.htm}\cr
   \url{https://medium.com/basecs/getting-to-the-root-of-sorting-with-radix-sort-f8e9240d4224}
 }
diff --git a/man/test.Rd b/man/test.Rd
index 651ef1d359..19bd9d4f9c 100644
--- a/man/test.Rd
+++ b/man/test.Rd
@@ -8,8 +8,7 @@
 test(num, x, y = TRUE,
      error = NULL, warning = NULL, message = NULL,
      output = NULL, notOutput = NULL, ignore.warning = NULL,
-     options = NULL, env = NULL, context = NULL,
-     requires_utf8 = FALSE, optimize = NULL)
+     options = NULL, env = NULL, context = NULL)
 }
 \arguments{
 \item{num}{ A unique identifier for a test, helpful in identifying the source of failure when testing is not working. Currently, we use a manually-incremented system with tests formatted as \code{n.m}, where essentially \code{n} indexes an issue and \code{m} indexes aspects of that issue. For the most part, your new PR should only have one value of \code{n} (scroll to the end of \code{inst/tests/tests.Rraw} to see the next available ID) and then index the tests within your PR by increasing \code{m}. Note -- \code{n.m} is interpreted as a number, so \code{123.4} and \code{123.40} are actually the same -- please \code{0}-pad as appropriate. Test identifiers are checked to be in increasing order at runtime to prevent duplicates being possible. }
@@ -24,8 +23,6 @@ test(num, x, y = TRUE,
 \item{options}{ A named list of options to set for the duration of the test. Any code evaluated during this call to \code{test()} (usually, \code{x}, or maybe \code{y}) will run with the named options set, and the original options will be restored on return. This is a named list since different options can have different types in general, but in typical usage, only one option is set at a time, in which case a named vector is also accepted. }
 \item{env}{ A named list of environment variables to set for the duration of the test, much like \code{options}. A list entry set to \code{NULL} will unset (i.e., \code{\link{Sys.unsetenv}}) the corresponding variable. }
 \item{context}{ String, default \code{NULL}. Used to provide context where this is useful, e.g. in a test run in a loop where we can't just search for the test number. }
-\item{requires_utf8}{ \code{FALSE} (default), \code{TRUE}, or a character string. When set, the test is skipped if UTF-8 characters cannot be represented in the native encoding. Use \code{TRUE} for default UTF-8 test characters or provide a custom string of test characters. }
-\item{optimize}{ A vector of different optimization levels to test. The code in \code{x} will be run once for each optimization level, with \code{options(datatable.optimize=optimize)} set accordingly. All optimization levels must pass the test for the overall test to pass. If no \code{y} is supplied, the results from the different levels are compared to each other for equality. If a \code{y} is supplied, the results from each level are compared to \code{y}. }
 }
 \note{
    \code{NA_real_} and \code{NaN} are treated as equal, use \code{identical} if distinction is needed. See examples below.
diff --git a/src/assign.c b/src/assign.c
index 5901d5a152..849cb08f2a 100644
--- a/src/assign.c
+++ b/src/assign.c
@@ -52,7 +52,7 @@ void setselfref(SEXP x) {
 */
 
 static int _selfrefok(SEXP x, Rboolean checkNames, Rboolean verbose) {
-  SEXP v, p, tag, prot;
+  SEXP v, p, tag, prot, names;
   v = getAttrib(x, SelfRefSymbol);
   if (v==R_NilValue || TYPEOF(v)!=EXTPTRSXP) {
     // .internal.selfref missing is expected and normal for i) a pre v1.7.8 data.table loaded
@@ -70,11 +70,11 @@ static int _selfrefok(SEXP x, Rboolean checkNames, Rboolean verbose) {
   if (!isNull(p)) internal_error(__func__, ".internal.selfref ptr is neither NULL nor R_NilValue"); // # nocov
   tag = R_ExternalPtrTag(v);
   if (!(isNull(tag) || isString(tag))) internal_error(__func__, ".internal.selfref tag is neither NULL nor a character vector"); // # nocov
+  names = getAttrib(x, R_NamesSymbol);
   prot = R_ExternalPtrProtected(v);
   if (TYPEOF(prot) != EXTPTRSXP)   // Very rare. Was error(_(".internal.selfref prot is not itself an extptr")).
     return 0;                      // # nocov ; see http://stackoverflow.com/questions/15342227/getting-a-random-internal-selfref-error-in-data-table-for-r
-  if (!checkNames) return x == R_ExternalPtrAddr(prot);
-  return getAttrib(x, R_NamesSymbol) == tag;
+  return checkNames ? names==tag : x==R_ExternalPtrAddr(prot);
 }
 
 static Rboolean selfrefok(SEXP x, Rboolean verbose) {   // for readability
@@ -180,7 +180,7 @@ SEXP alloccol(SEXP dt, R_len_t n, Rboolean verbose)
   SEXP names, klass;   // klass not class at request of pydatatable because class is reserved word in C++, PR #3129
   R_len_t l, tl;
   if (isNull(dt)) error(_("alloccol has been passed a NULL dt"));
-  if (TYPEOF(dt) != VECSXP) error(_("dt passed to %s isn't type VECSXP"), "alloccol");
+  if (TYPEOF(dt) != VECSXP) error(_("dt passed to alloccol isn't type VECSXP"));
   klass = getAttrib(dt, R_ClassSymbol);
   if (isNull(klass)) error(_("dt passed to alloccol has no class attribute. Please report result of traceback() to data.table issue tracker."));
   l = LENGTH(dt);
@@ -222,7 +222,7 @@ int checkOverAlloc(SEXP x)
 
 SEXP alloccolwrapper(SEXP dt, SEXP overAllocArg, SEXP verbose) {
   if (!IS_TRUE_OR_FALSE(verbose))
-    error(_("'%s' must be TRUE or FALSE"), "verbose");
+    error(_("%s must be TRUE or FALSE"), "verbose");
   int overAlloc = checkOverAlloc(overAllocArg);
   SEXP ans = PROTECT(alloccol(dt, length(dt)+overAlloc, LOGICAL(verbose)[0]));
 
@@ -256,103 +256,6 @@ SEXP selfrefokwrapper(SEXP x, SEXP verbose) {
   return ScalarInteger(_selfrefok(x,FALSE,LOGICAL(verbose)[0]));
 }
 
-struct attrib_name_ctx {
-  hashtab *indexNames; // stores a 1 for every CHARSXP index name in use, 0 for removed
-  R_xlen_t indexNamesLen; // how much memory to allocate for the hash?
-  SEXP index; // attr(DT, "index")
-  SEXP assignedNames; // STRSXP vector of variable names just assigned
-  bool verbose;
-};
-
-// Mark each CHARSXP attribute name with a 1 inside the hash, or count them to find out the allocation size.
-static SEXP getOneAttribName(SEXP key, SEXP val, void *ctx_) {
-  (void)val;
-  struct attrib_name_ctx *ctx = ctx_;
-  if (ctx->indexNames)
-    hash_set(ctx->indexNames, PRINTNAME(key), 1);
-  else
-    ctx->indexNamesLen++;
-  return NULL;
-}
-
-// For a given index, find out if it sorts a column that has just been assigned. If so, shorten the index (if an equivalent one doesn't already exist) or remove it altogether.
-static SEXP fixIndexAttrib(SEXP tag, SEXP value, void *ctx_) {
-  const struct attrib_name_ctx *ctx = ctx_;
-
-  hashtab *indexNames = ctx->indexNames;
-  SEXP index = ctx->index, assignedNames = ctx->assignedNames;
-  R_xlen_t indexLength = xlength(value);
-  bool verbose = ctx->verbose;
-
-  const char *tc1, *c1;
-  tc1 = c1 = CHAR(PRINTNAME(tag));  // the index name; e.g. "__col1__col2"
-
-  if (*tc1!='_' || *(tc1+1)!='_') {
-    // fix for #1396
-    if (verbose) {
-      Rprintf(_("Dropping index '%s' as it doesn't have '__' at the beginning of its name. It was very likely created by v1.9.4 of data.table.\n"), tc1);
-    }
-    setAttrib(index, tag, R_NilValue);
-    return NULL;
-  }
-
-  tc1 += 2; // tc1 always marks the start of a key column
-  if (!*tc1) internal_error(__func__, "index name ends with trailing __"); // # nocov
-
-  void *vmax = vmaxget();
-  // check the position of the first appearance of an assigned column in the index.
-  // the new index will be truncated to this position.
-  size_t newKeyLength = strlen(c1);
-  char *s4 = R_alloc(newKeyLength + 3, 1);
-  memcpy(s4, c1, newKeyLength);
-  memcpy(s4 + newKeyLength, "__", 3);
-
-  for(int i = 0; i < xlength(assignedNames); i++){
-    const char *tc2 = CHAR(STRING_ELT(assignedNames, i));
-    void *vmax2 = vmaxget();
-    size_t tc2_len = strlen(tc2);
-    char *s5 = R_alloc(tc2_len + 5, 1); //4 * '_' + \0
-    memcpy(s5, "__", 2);
-    memcpy(s5 + 2, tc2, tc2_len);
-    memcpy(s5 + 2 + tc2_len, "__", 3);
-    tc2 = strstr(s4, s5);
-    if(tc2 && (tc2 - s4 < newKeyLength)){ // new column is part of key; match is before last match
-      newKeyLength = tc2 - s4;
-    }
-    vmaxset(vmax2);
-  }
-
-  s4[newKeyLength] = '\0'; // truncate the new key to the new length
-  if(newKeyLength == 0){ // no valid key column remains. Drop the key
-    setAttrib(index, tag, R_NilValue);
-    hash_set(indexNames, PRINTNAME(tag), 0);
-    if (verbose) {
-      Rprintf(_("Dropping index '%s' due to an update on a key column\n"), c1+2);
-    }
-  } else if(newKeyLength < strlen(c1)) {
-    SEXP s4Str = PROTECT(mkChar(s4));
-    if(indexLength == 0 && // shortened index can be kept since it is just information on the order (see #2372)
-      !hash_lookup(indexNames, s4Str, 0)) { // index with shortened name not present yet
-      setAttrib(index, installChar(s4Str), value);
-      hash_set(indexNames, PRINTNAME(tag), 0);
-      setAttrib(index, tag, R_NilValue);
-      hash_set(indexNames, s4Str, 1);
-      if (verbose)
-        Rprintf(_("Shortening index '%s' to '%s' due to an update on a key column\n"), c1+2, s4+2);
-    } else { // indexLength > 0 || shortened name present already
-      // indexLength > 0 indicates reordering. Drop it to avoid spurious reordering in non-indexed columns (#2372)
-      // shortened name already present indicates that index needs to be dropped to avoid duplicate indices.
-      setAttrib(index, tag, R_NilValue);
-      hash_set(indexNames, PRINTNAME(tag), 0);
-      if (verbose)
-        Rprintf(_("Dropping index '%s' due to an update on a key column\n"), c1+2);
-    }
-    UNPROTECT(1); // s4Str
-  } //else: index is not affected by assign: nothing to be done
-  vmaxset(vmax);
-  return NULL;
-}
-
 int *_Last_updated = NULL;
 
 SEXP assign(SEXP dt, SEXP rows, SEXP cols, SEXP newcolnames, SEXP values)
@@ -361,13 +264,14 @@ SEXP assign(SEXP dt, SEXP rows, SEXP cols, SEXP newcolnames, SEXP values)
   // newcolnames : add these columns (if any)
   // cols : column names or numbers corresponding to the values to set
   // rows : row numbers to assign
-  R_len_t numToDo, targetlen, vlen, oldncol, oldtncol, coln, protecti=0, newcolnum;
-  SEXP targetcol, nullint, colnam, tmp, key, index, assignedNames;
+  R_len_t numToDo, targetlen, vlen, oldncol, oldtncol, coln, protecti=0, newcolnum, indexLength;
+  SEXP targetcol, nullint, s, colnam, tmp, key, index, a, assignedNames, indexNames;
   bool verbose=GetVerbose();
   int ndelete=0;  // how many columns are being deleted
-  int *buf;
+  const char *c1, *tc1, *tc2;
+  int *buf, indexNo;
   if (isNull(dt)) error(_("assign has been passed a NULL dt"));
-  if (TYPEOF(dt) != VECSXP) error(_("dt passed to %s isn't type VECSXP"), "assign");
+  if (TYPEOF(dt) != VECSXP) error(_("dt passed to assign isn't type VECSXP"));
   if (islocked(dt))
     error(_(".SD is locked. Updating .SD by reference using := or set are reserved for future use. Use := in j directly. Or use copy(.SD) as a (slow) last resort, until shallow() is exported."));
 
@@ -645,17 +549,93 @@ SEXP assign(SEXP dt, SEXP rows, SEXP cols, SEXP newcolnames, SEXP values)
   }
   index = getAttrib(dt, install("index"));
   if (index != R_NilValue) {
-    struct attrib_name_ctx ctx = { 0, };
-    R_mapAttrib(index, getOneAttribName, &ctx); // how many attributes?
-    hashtab *h = hash_create(ctx.indexNamesLen);
-    PROTECT(h->prot);
-    ctx.indexNames = h;
-    R_mapAttrib(index, getOneAttribName, &ctx); // now remember the names
-    ctx.index = index;
-    ctx.assignedNames = assignedNames;
-    ctx.verbose = verbose;
-    R_mapAttrib(index, fixIndexAttrib, &ctx); // adjust indices as needed
-    UNPROTECT(1); // h
+    s = ATTRIB(index);
+    indexNo = 0;
+    // get a vector with all index names
+    PROTECT(indexNames = allocVector(STRSXP, xlength(s))); protecti++;
+    while(s != R_NilValue){
+      SET_STRING_ELT(indexNames, indexNo, PRINTNAME(TAG(s)));
+      indexNo++;
+      s = CDR(s);
+    }
+    s = ATTRIB(index); // reset to first element
+    indexNo = 0;
+    while(s != R_NilValue) {
+      a = TAG(s);
+      indexLength = xlength(CAR(s));
+      tc1 = c1 = CHAR(PRINTNAME(a));  // the index name; e.g. "__col1__col2"
+      if (*tc1!='_' || *(tc1+1)!='_') {
+        // fix for #1396
+        if (verbose) {
+          Rprintf(_("Dropping index '%s' as it doesn't have '__' at the beginning of its name. It was very likely created by v1.9.4 of data.table.\n"), tc1);
+        }
+        setAttrib(index, a, R_NilValue);
+        indexNo++;
+        s = CDR(s);
+        continue; // with next index
+      }
+      tc1 += 2; // tc1 always marks the start of a key column
+      if (!*tc1) internal_error(__func__, "index name ends with trailing __"); // # nocov
+      // check the position of the first appearance of an assigned column in the index.
+      // the new index will be truncated to this position.
+      char *s4 = malloc(strlen(c1) + 3);
+      if (!s4) {
+        internal_error(__func__, "Couldn't allocate memory for s4"); // # nocov
+      }
+      memcpy(s4, c1, strlen(c1));
+      memset(s4 + strlen(c1), '\0', 1);
+      strcat(s4, "__"); // add trailing '__' to newKey so we can search for pattern '__colName__' also at the end of the index.
+      int newKeyLength = strlen(c1);
+      for(int i = 0; i < xlength(assignedNames); i++){
+        tc2 = CHAR(STRING_ELT(assignedNames, i));
+        char *s5 = malloc(strlen(tc2) + 5); //4 * '_' + \0
+        if (!s5) {
+          free(s4);                                                  // # nocov
+          internal_error(__func__, "Couldn't allocate memory for s5"); // # nocov
+        }
+        memset(s5, '_', 2);
+        memset(s5 + 2, '\0', 1);
+        strcat(s5, tc2);
+        strcat(s5, "__");
+        tc2 = strstr(s4, s5);
+        if(tc2 == NULL){ // column is not part of key
+          free(s5);
+          continue;
+        }
+        if(tc2 - s4 < newKeyLength){ // new column match is before last match
+          newKeyLength = tc2 - s4;
+        }
+        free(s5);
+      }
+      memset(s4 + newKeyLength, '\0', 1); // truncate the new key to the new length
+      if(newKeyLength == 0){ // no valid key column remains. Drop the key
+        setAttrib(index, a, R_NilValue);
+        SET_STRING_ELT(indexNames, indexNo, NA_STRING);
+        if (verbose) {
+          Rprintf(_("Dropping index '%s' due to an update on a key column\n"), c1+2);
+        }
+      } else if(newKeyLength < strlen(c1)) {
+        SEXP s4Str = PROTECT(mkString(s4));
+        if(indexLength == 0 && // shortened index can be kept since it is just information on the order (see #2372)
+           LOGICAL(chin(s4Str, indexNames))[0] == 0) {// index with shortened name not present yet
+          SET_TAG(s, install(s4));
+          SET_STRING_ELT(indexNames, indexNo, mkChar(s4));
+          if (verbose)
+            Rprintf(_("Shortening index '%s' to '%s' due to an update on a key column\n"), c1+2, s4 + 2);
+        } else { // indexLength > 0 || shortened name present already
+          // indexLength > 0 indicates reordering. Drop it to avoid spurious reordering in non-indexed columns (#2372)
+          // shortened name already present indicates that index needs to be dropped to avoid duplicate indices.
+          setAttrib(index, a, R_NilValue);
+          SET_STRING_ELT(indexNames, indexNo, NA_STRING);
+          if (verbose)
+            Rprintf(_("Dropping index '%s' due to an update on a key column\n"), c1+2);
+        }
+        UNPROTECT(1); // s4Str
+      } //else: index is not affected by assign: nothing to be done
+      free(s4);
+      indexNo ++;
+      s = CDR(s);
+    }
   }
   if (ndelete) {
     // delete any columns assigned NULL (there was a 'continue' earlier in loop above)
@@ -1210,9 +1190,9 @@ SEXP allocNAVectorLike(SEXP x, R_len_t n) {
 SEXP setcharvec(SEXP x, SEXP which, SEXP newx)
 {
   int w;
-  if (!isString(x)) error(_("'%s' must be a character vector"), "x");
+  if (!isString(x)) error(_("x must be a character vector"));
   if (!isInteger(which)) error(_("'which' must be an integer vector"));
-  if (!isString(newx)) error(_("'%s' must be a character vector"), "new");
+  if (!isString(newx)) error(_("'new' must be a character vector"));
   if (LENGTH(newx)!=LENGTH(which)) error(_("'new' is length %d. Should be the same as length of 'which' (%d)"),LENGTH(newx),LENGTH(which));
   for (int i=0; i<LENGTH(which); i++) {
     w = INTEGER(which)[i];
diff --git a/src/between.c b/src/between.c
index 9b9a240904..1325601963 100644
--- a/src/between.c
+++ b/src/between.c
@@ -19,13 +19,13 @@ SEXP between(SEXP x, SEXP lower, SEXP upper, SEXP incbounds, SEXP NAboundsArg, S
   }
   const int longestBound = MAX(nl, nu);  // just for when check=TRUE
   if (!IS_TRUE_OR_FALSE(incbounds))
-    error(_("'%s' must be TRUE or FALSE"), "incbounds");
+    error(_("%s must be TRUE or FALSE"), "incbounds");
   const bool open = !LOGICAL(incbounds)[0];
   if (!isLogical(NAboundsArg) || LOGICAL(NAboundsArg)[0]==FALSE)
     error(_("NAbounds must be TRUE or NA"));
   const bool NAbounds = LOGICAL(NAboundsArg)[0]==TRUE;
   if (!IS_TRUE_OR_FALSE(checkArg))
-    error(_("'%s' must be TRUE or FALSE"), "check");
+    error(_("%s must be TRUE or FALSE"), "check");
   const bool check = LOGICAL(checkArg)[0];
   const bool verbose = GetVerbose();
 
diff --git a/src/data.table.h b/src/data.table.h
index d6c67c7521..434d0a340a 100644
--- a/src/data.table.h
+++ b/src/data.table.h
@@ -14,10 +14,7 @@
 #  define LOGICAL_RO LOGICAL
 #endif
 #if R_VERSION < R_Version(4, 5, 0)
-#  define R_getVar(x, env, inherits) findVar(x, env)
 #  define isDataFrame(x) isFrame(x) // #6180
-#  define CLEAR_ATTRIB(x) SET_ATTRIB(x, R_NilValue)
-#  define ANY_ATTRIB(x) (!(isNull(ATTRIB(x))))
 #endif
 #include <Rinternals.h>
 #define SEXPPTR_RO(x) ((const SEXP *)DATAPTR_RO(x))  // to avoid overhead of looped STRING_ELT and VECTOR_ELT
@@ -106,11 +103,6 @@
   }
 # define R_resizeVector(x, newlen) R_resizeVector_(x, newlen)
 #endif
-// TODO(R>=4.6.0): remove the SVN revision check
-#if R_VERSION < R_Version(4, 6, 0) || R_SVN_REVISION < 89194
-# define BACKPORT_MAP_ATTRIB
-# define R_mapAttrib(x, fun, ctx) R_mapAttrib_(x, fun, ctx)
-#endif
 
 // init.c
 extern SEXP char_integer64;
@@ -351,9 +343,6 @@ SEXP R_allocResizableVector_(SEXPTYPE type, R_xlen_t maxlen);
 SEXP R_duplicateAsResizable_(SEXP x);
 void R_resizeVector_(SEXP x, R_xlen_t newlen);
 #endif
-#ifdef BACKPORT_MAP_ATTRIB
-SEXP R_mapAttrib_(SEXP x, SEXP (*fun)(SEXP key, SEXP val, void *ctx), void *ctx);
-#endif
 SEXP is_direct_child(SEXP pids);
 
 // types.c
diff --git a/src/dogroups.c b/src/dogroups.c
index 7fd1b956e9..5200d33f36 100644
--- a/src/dogroups.c
+++ b/src/dogroups.c
@@ -3,8 +3,6 @@
 #include <fcntl.h>
 #include <time.h>
 
-static SEXP anySpecialAttribute(SEXP key, SEXP val, void *ctx);
-
 static bool anySpecialStatic(SEXP x, hashtab * specials) {
   // Special refers to special symbols .BY, .I, .N, and .GRP; see special-symbols.Rd
   // Static because these are like C static arrays which are the same memory for each group; e.g., dogroups
@@ -41,7 +39,7 @@ static bool anySpecialStatic(SEXP x, hashtab * specials) {
   // with PR#4164 started to copy input list columns too much. Hence PR#4655 in v1.13.2 moved that copy here just where it is needed.
   // Currently the marker is negative truelength. These specials are protected by us here and before we release them
   // we restore the true truelength for when R starts to use vector truelength.
-  SEXP list_el;
+  SEXP attribs, list_el;
   const int n = length(x);
   // use length() not LENGTH() because isNewList() is true for NULL
   if (n==0)
@@ -55,29 +53,20 @@ static bool anySpecialStatic(SEXP x, hashtab * specials) {
       list_el = VECTOR_ELT(x,i);
       if (anySpecialStatic(list_el, specials))
         return true;
-      if (R_mapAttrib(list_el, anySpecialAttribute, specials))
-        return true;  // #4936
+      for(attribs = ATTRIB(list_el); attribs != R_NilValue; attribs = CDR(attribs)) {
+        if (anySpecialStatic(CAR(attribs), specials))
+          return true;  // #4936
+      }
     }
   }
   return false;
 }
 
-static SEXP anySpecialAttribute(SEXP key, SEXP val, void *specials) {
-  (void)key;
-  return anySpecialStatic(val, specials) ? R_NilValue : NULL;
-}
-
-static SEXP findRowNames(SEXP key, SEXP val, void *data) {
-  (void)data;
-  if (key == R_RowNamesSymbol) return val;
-  return NULL;
-}
-
 SEXP dogroups(SEXP dt, SEXP dtcols, SEXP groups, SEXP grpcols, SEXP jiscols, SEXP xjiscols, SEXP grporder, SEXP order, SEXP starts, SEXP lens, SEXP jexp, SEXP env, SEXP lhs, SEXP newnames, SEXP on, SEXP verboseArg, SEXP showProgressArg)
 {
   R_len_t ngrp, nrowgroups, njval=0, ngrpcols, ansloc=0, maxn, estn=-1, thisansloc, grpn, thislen, igrp;
   int nprotect=0;
-  SEXP ans=NULL, jval, thiscol, BY, N, I, GRP, iSD, xSD, RHS, target, source;
+  SEXP ans=NULL, jval, thiscol, BY, N, I, GRP, iSD, xSD, rownames, s, RHS, target, source;
   Rboolean wasvector, firstalloc=FALSE, NullWarnDone=FALSE;
   const bool verbose = LOGICAL(verboseArg)[0]==1;
   double tstart=0, tblock[10]={0}; int nblock[10]={0}; // For verbose printing, tstart is updated each block
@@ -94,13 +83,12 @@ SEXP dogroups(SEXP dt, SEXP dtcols, SEXP groups, SEXP grpcols, SEXP jiscols, SEX
   ngrpcols = length(grpcols);
   nrowgroups = length(VECTOR_ELT(groups,0));
   // fix for longstanding FR/bug, #495. E.g., DT[, c(sum(v1), lapply(.SD, mean)), by=grp, .SDcols=v2:v3] resulted in error.. the idea is, 1) we create .SDall, which is normally == .SD. But if extra vars are detected in jexp other than .SD, then .SD becomes a shallow copy of .SDall with only .SDcols in .SD. Since internally, we don't make a copy, changing .SDall will reflect in .SD. Hopefully this'll workout :-).
-  SEXP SDall = PROTECT(R_getVar(install(".SDall"), env, false)); nprotect++;  // PROTECT for rchk
-  SEXP SD = PROTECT(R_getVar(install(".SD"), env, false)); nprotect++;
+  SEXP SDall = PROTECT(findVar(install(".SDall"), env)); nprotect++;  // PROTECT for rchk
+  SEXP SD = PROTECT(findVar(install(".SD"), env)); nprotect++;
 
-  int updateTime = INTEGER(showProgressArg)[0];
-  const bool showProgress = updateTime > 0 && ngrp > 1; // showProgress only if more than 1 group
+  const bool showProgress = LOGICAL(showProgressArg)[0]==1 && ngrp > 1; // showProgress only if more than 1 group
   double startTime = (showProgress) ? wallclock() : 0; // For progress printing, startTime is set at the beginning
-  double nextTime = (showProgress) ? startTime + MAX(updateTime, 3) : 0; // wait at least 3 seconds before starting to print progress
+  double nextTime = (showProgress) ? startTime+3 : 0; // wait 3 seconds before printing progress
 
   hashtab * specials = hash_create(3 + ngrpcols + xlength(SDall)); // .I, .N, .GRP plus columns of .BY plus SDall
   PROTECT(specials->prot); nprotect++;
@@ -125,12 +113,12 @@ SEXP dogroups(SEXP dt, SEXP dtcols, SEXP groups, SEXP grpcols, SEXP jiscols, SEX
     error("!length(bynames)[%d]==length(groups)[%d]==length(grpcols)[%d]", length(bynames), length(groups), length(grpcols)); // # notranslate
   // TO DO: check this check above.
 
-  N =   PROTECT(R_getVar(install(".N"), env, false));   nprotect++; // PROTECT for rchk
+  N =   PROTECT(findVar(install(".N"), env));   nprotect++; // PROTECT for rchk
   hash_set(specials, N, -1);  // marker for anySpecialStatic(); see its comments
-  GRP = PROTECT(R_getVar(install(".GRP"), env, false)); nprotect++;
+  GRP = PROTECT(findVar(install(".GRP"), env)); nprotect++;
   hash_set(specials, GRP, -1);  // marker for anySpecialStatic(); see its comments
-  iSD = PROTECT(R_getVar(install(".iSD"), env, false)); nprotect++; // 1-row and possibly no cols (if no i variables are used via JIS)
-  xSD = PROTECT(R_getVar(install(".xSD"), env, false)); nprotect++;
+  iSD = PROTECT(findVar(install(".iSD"), env)); nprotect++; // 1-row and possibly no cols (if no i variables are used via JIS)
+  xSD = PROTECT(findVar(install(".xSD"), env)); nprotect++;
   R_len_t maxGrpSize = 0;
   const int *ilens = INTEGER(lens), n=LENGTH(lens);
   for (R_len_t i=0; i<n; ++i) {
@@ -141,11 +129,11 @@ SEXP dogroups(SEXP dt, SEXP dtcols, SEXP groups, SEXP grpcols, SEXP jiscols, SEX
   R_LockBinding(install(".I"), env);
 
   SEXP dtnames = PROTECT(getAttrib(dt, R_NamesSymbol)); nprotect++; // added here to fix #91 - `:=` did not issue recycling warning during "by"
-
-  // override rownames of .SD.  rownames[1] is set to -thislen for each group, in case .SD is passed to
+  // fetch rownames of .SD.  rownames[1] is set to -thislen for each group, in case .SD is passed to
   // non data.table aware package that uses rownames
-  SEXP rownames = PROTECT(R_mapAttrib(SD, findRowNames, NULL)); nprotect++;
-  if (rownames == NULL) error(_("row.names attribute of .SD not found"));
+  for (s = ATTRIB(SD); s != R_NilValue && TAG(s)!=R_RowNamesSymbol; s = CDR(s));  // getAttrib0 basically but that's hidden in attrib.c; #loop_counter_not_local_scope_ok
+  if (s==R_NilValue) error(_("row.names attribute of .SD not found"));
+  rownames = CAR(s);
   if (!isInteger(rownames) || LENGTH(rownames)!=2 || INTEGER(rownames)[0]!=NA_INTEGER) error(_("row.names of .SD isn't integer length 2 with NA as first item; i.e., .set_row_names(). [%s %d %d]"),type2char(TYPEOF(rownames)),LENGTH(rownames),INTEGER(rownames)[0]);
 
   // fetch names of .SD and prepare symbols. In case they are copied-on-write by user assigning to those variables
@@ -463,17 +451,17 @@ SEXP dogroups(SEXP dt, SEXP dtcols, SEXP groups, SEXP grpcols, SEXP jiscols, SEX
     // could potentially refactor to use fread's progress() function, however we would lose some information in favor of simplicity.
     double now;
     if (showProgress && (now=wallclock())>=nextTime) {
-      // # nocov start. Requires long-running test case
       double avgTimePerGroup = (now-startTime)/(i+1);
       int ETA = (int)(avgTimePerGroup*(ngrp-i-1));
       if (hasPrinted || ETA >= 0) {
+        // # nocov start. Requires long-running test case
         if (verbose && !hasPrinted) Rprintf(_("\n"));
         Rprintf("\r"); // # notranslate. \r is not internationalizable
         Rprintf(_("Processed %d groups out of %d. %.0f%% done. Time elapsed: %ds. ETA: %ds."), i+1, ngrp, 100.0*(i+1)/ngrp, (int)(now-startTime), ETA);
+        // # nocov end
       }
-      nextTime = now+updateTime;
+      nextTime = now+1;
       hasPrinted = true;
-      // # nocov end
     }
     ansloc += maxn;
     if (firstalloc) {
diff --git a/src/fastmean.c b/src/fastmean.c
index f80415218a..193c9a0aec 100644
--- a/src/fastmean.c
+++ b/src/fastmean.c
@@ -35,8 +35,8 @@ SEXP fastmean(SEXP args)
   x=CADR(args);
   if (length(args)>2) {
     tmp = CADDR(args);
-    if (!IS_TRUE_OR_FALSE(tmp))
-      error(_("'%s' must be TRUE or FALSE"), "narm");  // # nocov ; [.data.table should construct the .External call correctly
+    if (!isLogical(tmp) || LENGTH(tmp)!=1 || LOGICAL(tmp)[0]==NA_LOGICAL)
+      error(_("%s should be TRUE or FALSE"), "narm");  // # nocov ; [.data.table should construct the .External call correctly
     narm=LOGICAL_RO(tmp)[0];
   }
   PROTECT(ans = allocNAVector(REALSXP, 1));
diff --git a/src/fifelse.c b/src/fifelse.c
index d59fb4c60e..2c1055372e 100644
--- a/src/fifelse.c
+++ b/src/fifelse.c
@@ -60,34 +60,34 @@ SEXP fifelseR(SEXP l, SEXP a, SEXP b, SEXP na) {
   
   if (!na_a && !na_b) {
     if (!R_compute_identical(PROTECT(getAttrib(a,R_ClassSymbol)), PROTECT(getAttrib(b,R_ClassSymbol)), 0))
-      error(_("'%s' has different class than '%s'. Please make sure that both arguments have the same class."), "yes", "no");
+      error(_("'yes' has different class than 'no'. Please make sure that both arguments have the same class."));
     UNPROTECT(2);
   }
   if (!na_a && !na_n) {
     if (!R_compute_identical(PROTECT(getAttrib(a,R_ClassSymbol)), PROTECT(getAttrib(na,R_ClassSymbol)), 0))
-      error(_("'%s' has different class than '%s'. Please make sure that both arguments have the same class."), "yes", "na");
+      error(_("'yes' has different class than 'na'. Please make sure that both arguments have the same class."));
     UNPROTECT(2);
   }
   if (!na_b && !na_n) {
     if (!R_compute_identical(PROTECT(getAttrib(b,R_ClassSymbol)), PROTECT(getAttrib(na,R_ClassSymbol)), 0))
-      error(_("'%s' has different class than '%s'. Please make sure that both arguments have the same class."), "no", "na");
+      error(_("'no' has different class than 'na'. Please make sure that both arguments have the same class."));
     UNPROTECT(2);
   }
   
   if (isFactor(a) || isFactor(b)) {
     if (!na_a && !na_b) {
       if (!R_compute_identical(PROTECT(getAttrib(a,R_LevelsSymbol)), PROTECT(getAttrib(b,R_LevelsSymbol)), 0))
-        error(_("'%s' and '%s' are both type factor but their levels are different."), "yes", "no");
+        error(_("'yes' and 'no' are both type factor but their levels are different."));
       UNPROTECT(2);  
     }
     if (!na_a && !na_n) {
       if (!R_compute_identical(PROTECT(getAttrib(a,R_LevelsSymbol)), PROTECT(getAttrib(na,R_LevelsSymbol)), 0))
-        error(_("'%s' and '%s' are both type factor but their levels are different."), "yes", "na");
+        error(_("'yes' and 'na' are both type factor but their levels are different."));
       UNPROTECT(2);
     }
     if (!na_b && !na_n) {
       if (!R_compute_identical(PROTECT(getAttrib(b,R_LevelsSymbol)), PROTECT(getAttrib(na,R_LevelsSymbol)), 0))
-        error(_("'%s' and '%s' are both type factor but their levels are different."), "no", "na");
+        error(_("'no' and 'na' are both type factor but their levels are different."));
       UNPROTECT(2);
     }
   }
@@ -404,7 +404,7 @@ SEXP fcaseR(SEXP rho, SEXP args) {
       }
     } break;
     default:
-      error(_("Type '%s' is not supported"), type2char(TYPEOF(ans)));
+      error(_("Type '%s' is not supported."), type2char(TYPEOF(ans)));
     }
     if (l==0) {
       break;  // stop early as nothing left to do
diff --git a/src/fmelt.c b/src/fmelt.c
index 7523e802fa..d6843c3ace 100644
--- a/src/fmelt.c
+++ b/src/fmelt.c
@@ -787,12 +787,12 @@ SEXP fmelt(SEXP DT, SEXP id, SEXP measure, SEXP varfactor, SEXP valfactor, SEXP
   Rboolean narm=FALSE, verbose=FALSE;
 
   if (!isNewList(DT)) error(_("Input is not of type VECSXP, expected a data.table, data.frame or list"));
-  if (!IS_TRUE_OR_FALSE(valfactor)) error(_("'%s' must be TRUE or FALSE"), "value.factor");
-  if (!IS_TRUE_OR_FALSE(varfactor)) error(_("'%s' must be TRUE or FALSE"), "variable.factor");
-  if (!IS_TRUE_OR_FALSE(narmArg)) error(_("'%s' must be TRUE or FALSE"), "na.rm");
-  if (!isString(varnames)) error(_("'%s' must be a character vector"), "variable.name");
-  if (!isString(valnames)) error(_("'%s' must be a character vector"), "value.name");
-  if (!IS_TRUE_OR_FALSE(verboseArg)) error(_("'%s' must be TRUE or FALSE"), "verbose");
+  if (!isLogical(valfactor)) error(_("Argument 'value.factor' should be logical TRUE/FALSE"));
+  if (!isLogical(varfactor)) error(_("Argument 'variable.factor' should be logical TRUE/FALSE"));
+  if (!isLogical(narmArg)) error(_("Argument 'na.rm' should be logical TRUE/FALSE."));
+  if (!isString(varnames)) error(_("Argument 'variable.name' must be a character vector"));
+  if (!isString(valnames)) error(_("Argument 'value.name' must be a character vector"));
+  if (!isLogical(verboseArg)) error(_("Argument 'verbose' should be logical TRUE/FALSE"));
   if (LOGICAL(verboseArg)[0] == TRUE) verbose = TRUE;
   int ncol = LENGTH(DT);
   if (!ncol) {
diff --git a/src/fread.c b/src/fread.c
index 5c2107f4f1..077341aa0d 100644
--- a/src/fread.c
+++ b/src/fread.c
@@ -349,9 +349,9 @@ static inline bool end_of_field(const char *ch)
   // We use eol() because that looks at eol_one_r inside it w.r.t. \r
   // \0 (maybe more than one) before eof are part of field and do not end it; eol() returns false for \0 but the ch==eof will return true for the \0 at eof.
   // Comment characters terminate a field immediately and take precedence over separators.
+  return *ch == sep || ((uint8_t)*ch <= 13 && (ch == eof || eol(&ch))) || (commentChar && *ch == commentChar);
   if (*ch == sep) return true;
-  if (ch == eof) return true;
-  if ((uint8_t)*ch <= 13 && eol(&ch)) return true;
+  if ((uint8_t)*ch <= 13 && (ch == eof || eol(&ch))) return true;
   if (!commentChar) return false;
   return *ch == commentChar;
 }
diff --git a/src/froll.c b/src/froll.c
index f8315c3ec4..526134095d 100644
--- a/src/froll.c
+++ b/src/froll.c
@@ -1707,13 +1707,11 @@ void frollmedianFast(const double *x, uint64_t nx, ans_t *ans, int k, double fil
           snprintf(end(ans->message[3]), 500, _("%s: 's[A] + s[B] == h' is not true\n"), "frollmedianFast");
           return;
         }*/
-        if (even) {
-          if (n[A]!=tail && m[A] == n[A]) {
-            n[A] = tail;
-          }
-          if (n[B]!=tail && m[B] == n[B]) {
-            n[B] = tail;
-          }
+        if (n[A]!=tail && m[A] == n[A]) {
+          n[A] = tail;
+        }
+        if (n[B]!=tail && m[B] == n[B]) {
+          n[B] = tail;
         }
         ansv[j*k+i] = even ? MED2(A, B) : MED(A, B);
       }
diff --git a/src/frollR.c b/src/frollR.c
index ea145eace0..afb70c3f15 100644
--- a/src/frollR.c
+++ b/src/frollR.c
@@ -94,7 +94,7 @@ SEXP frollfunR(SEXP fun, SEXP xobj, SEXP kobj, SEXP fill, SEXP algo, SEXP align,
     error(_("n must be non 0 length"));
 
   if (!IS_TRUE_OR_FALSE(adaptive))
-    error(_("'%s' must be TRUE or FALSE"), "adaptive");
+    error(_("%s must be TRUE or FALSE"), "adaptive");
   bool badaptive = LOGICAL(adaptive)[0];
 
   SEXP k = PROTECT(coerceK(kobj, badaptive)); protecti++;
@@ -109,7 +109,7 @@ SEXP frollfunR(SEXP fun, SEXP xobj, SEXP kobj, SEXP fill, SEXP algo, SEXP align,
   }
 
   if (!IS_TRUE_OR_FALSE(narm))
-    error(_("'%s' must be TRUE or FALSE"), "na.rm");
+    error(_("%s must be TRUE or FALSE"), "na.rm");
 
   if (!isLogical(hasnf) || length(hasnf)!=1)
     error(_("has.nf must be TRUE, FALSE or NA"));
diff --git a/src/fsort.c b/src/fsort.c
index f79bf72d07..c43d69eee2 100644
--- a/src/fsort.c
+++ b/src/fsort.c
@@ -114,7 +114,7 @@ SEXP fsort(SEXP x, SEXP verboseArg) {
   double t[10];
   t[0] = wallclock();
   if (!IS_TRUE_OR_FALSE(verboseArg))
-    error(_("'%s' must be TRUE or FALSE"), "verbose");
+    error(_("%s must be TRUE or FALSE"), "verbose");
   int verbose = LOGICAL(verboseArg)[0];
   if (!isNumeric(x)) error(_("x must be a vector of type double currently"));
   // TODO: not only detect if already sorted, but if it is, just return x to save the duplicate
diff --git a/src/gsumm.c b/src/gsumm.c
index 890d010fce..5970f59194 100644
--- a/src/gsumm.c
+++ b/src/gsumm.c
@@ -348,7 +348,7 @@ void *gather(SEXP x, bool *anyNA)
 SEXP gsum(SEXP x, SEXP narmArg)
 {
   if (!IS_TRUE_OR_FALSE(narmArg))
-    error(_("'%s' must be TRUE or FALSE"), "na.rm");
+    error(_("%s must be TRUE or FALSE"), "na.rm");
   const bool narm = LOGICAL(narmArg)[0];
   if (inherits(x, "factor"))
     error(_("%s is not meaningful for factors."), "sum");
@@ -410,7 +410,7 @@ SEXP gsum(SEXP x, SEXP narmArg)
     //Rprintf(_("gsum int took %.3f\n"), wallclock()-started);
     if (overflow) {
       UNPROTECT(1); // discard the result with overflow
-      warning(_("The sum of an integer column for a group was more than type 'integer' can hold so the result has been coerced to 'numeric' automatically for convenience. Consider using 'as.numeric' on the column beforehand to avoid this warning."));
+      warning(_("The sum of an integer column for a group was more than type 'integer' can hold so the result has been coerced to 'numeric' automatically for convenience."));
       ans = PROTECT(allocVector(REALSXP, ngrp));
       double *restrict ansp = REAL(ans);
       memset(ansp, 0, ngrp*sizeof(double));
@@ -502,13 +502,13 @@ SEXP gsum(SEXP x, SEXP narmArg)
               const int64_t *my_gx = gx + b*batchSize + pos;
               const uint16_t *my_low = low + b*batchSize + pos;
               for (int i=0; i<howMany; i++) {
-                if (_ans[my_low[i]] == INT64_MIN) continue;
-                const int64_t b = my_gx[i];
-                if (b == INT64_MIN) {
-                  if (!narm) _ans[my_low[i]] = INT64_MIN;
-                  continue;
+                const int64_t elem = my_gx[i];
+                if (elem!=INT64_MIN) {
+                  _ans[my_low[i]] += elem;
+                } else {
+                  _ans[my_low[i]] = INT64_MIN;
+                  break;
                 }
-                _ans[my_low[i]] += b;
               }
             }
           }
@@ -584,7 +584,7 @@ SEXP gmean(SEXP x, SEXP narmArg)
   if (inherits(x, "factor"))
     error(_("%s is not meaningful for factors."), "mean");
   if (!IS_TRUE_OR_FALSE(narmArg))
-    error(_("'%s' must be TRUE or FALSE"), "na.rm");
+    error(_("%s must be TRUE or FALSE"), "na.rm");
   const bool narm = LOGICAL(narmArg)[0];
   const int n = (irowslen == -1) ? length(x) : irowslen;
   double started = wallclock();
@@ -730,7 +730,7 @@ SEXP gmean(SEXP x, SEXP narmArg)
 static SEXP gminmax(SEXP x, SEXP narm, const bool min)
 {
   if (!IS_TRUE_OR_FALSE(narm))
-    error(_("'%s' must be TRUE or FALSE"), "na.rm");
+    error(_("%s must be TRUE or FALSE"), "na.rm");
   if (!isVectorAtomic(x)) error(_("GForce min/max can only be applied to columns, not .SD or similar. To find min/max of all items in a list such as .SD, either add the prefix base::min(.SD) or turn off GForce optimization using options(datatable.optimize=1). More likely, you may be looking for 'DT[,lapply(.SD,min),by=,.SDcols=]'"));
   if (inherits(x, "factor") && !inherits(x, "ordered"))
     error(_("%s is not meaningful for factors."), min?"min":"max");
@@ -868,7 +868,7 @@ SEXP gmax(SEXP x, SEXP narm)
 // gmedian, always returns numeric type (to avoid as.numeric() wrap..)
 SEXP gmedian(SEXP x, SEXP narmArg) {
   if (!IS_TRUE_OR_FALSE(narmArg))
-    error(_("'%s' must be TRUE or FALSE"), "na.rm");
+    error(_("%s must be TRUE or FALSE"), "na.rm");
   if (!isVectorAtomic(x)) error(_("GForce median can only be applied to columns, not .SD or similar. To find median of all items in a list such as .SD, either add the prefix stats::median(.SD) or turn off GForce optimization using options(datatable.optimize=1). More likely, you may be looking for 'DT[,lapply(.SD,median),by=,.SDcols=]'"));
   if (inherits(x, "factor"))
     error(_("%s is not meaningful for factors."), "median");
@@ -1023,7 +1023,7 @@ SEXP gnthvalue(SEXP x, SEXP nArg) {
 static SEXP gvarsd1(SEXP x, SEXP narmArg, bool isSD)
 {
   if (!IS_TRUE_OR_FALSE(narmArg))
-    error(_("'%s' must be TRUE or FALSE"), "na.rm");
+    error(_("%s must be TRUE or FALSE"), "na.rm");
   if (!isVectorAtomic(x)) error(_("GForce var/sd can only be applied to columns, not .SD or similar. For the full covariance matrix of all items in a list such as .SD, either add the prefix stats::var(.SD) (or stats::sd(.SD)) or turn off GForce optimization using options(datatable.optimize=1). Alternatively, if you only need the diagonal elements, 'DT[,lapply(.SD,var),by=,.SDcols=]' is the optimized way to do this."));
   if (inherits(x, "factor"))
     error(_("%s is not meaningful for factors."), isSD ? "sd" : "var");
@@ -1115,7 +1115,7 @@ SEXP gsd(SEXP x, SEXP narm) {
 
 SEXP gprod(SEXP x, SEXP narmArg) {
   if (!IS_TRUE_OR_FALSE(narmArg))
-    error(_("'%s' must be TRUE or FALSE"), "na.rm");
+    error(_("%s must be TRUE or FALSE"), "na.rm");
   const bool narm=LOGICAL(narmArg)[0];
   if (!isVectorAtomic(x))
     error(_("GForce prod can only be applied to columns, not .SD or similar. To multiply all items in a list such as .SD, either add the prefix base::prod(.SD) or turn off GForce optimization using options(datatable.optimize=1). More likely, you may be looking for 'DT[,lapply(.SD,prod),by=,.SDcols=]'"));
diff --git a/src/mergelist.c b/src/mergelist.c
index 2ed3950455..51f28d224a 100644
--- a/src/mergelist.c
+++ b/src/mergelist.c
@@ -17,21 +17,18 @@ SEXP copyCols(SEXP x, SEXP cols) {
   return R_NilValue;
 }
 
-static SEXP setDuplicateOneAttrib(SEXP key, SEXP val, void *x) {
-  setAttrib(x, PROTECT(key), PROTECT(shallow_duplicate(val)));
-  UNPROTECT(2);
-  return NULL; // continue
-}
-
 void mergeIndexAttrib(SEXP to, SEXP from) {
   if (!isInteger(to) || LENGTH(to)!=0)
     internal_error(__func__, "'to' must be integer() already"); // # nocov
   if (isNull(from))
     return;
-  if (!ANY_ATTRIB(to)) // target has no attributes -> overwrite
-    SHALLOW_DUPLICATE_ATTRIB(to, from);
-  else
-    R_mapAttrib(from, setDuplicateOneAttrib, to);
+  SEXP t = ATTRIB(to), f = ATTRIB(from);
+  if (isNull(t)) // target has no attributes -> overwrite
+    SET_ATTRIB(to, shallow_duplicate(f));
+  else {
+    for (t = ATTRIB(to); CDR(t) != R_NilValue; t = CDR(t)); // traverse to end of attributes list of to
+    SETCDR(t, shallow_duplicate(f));
+  }
 }
 
 SEXP cbindlist(SEXP x, SEXP copyArg) {
@@ -82,13 +79,12 @@ SEXP cbindlist(SEXP x, SEXP copyArg) {
       SET_VECTOR_ELT(ans, ians, thisxcol);
       SET_STRING_ELT(names, ians, STRING_ELT(thisnames, j));
     }
-    mergeIndexAttrib(index, PROTECT(getAttrib(thisx, sym_index))); protecti++;
-    if (isNull(key)) { // first key is retained
-      key = PROTECT(getAttrib(thisx, sym_sorted)); protecti++;
-    }
+    mergeIndexAttrib(index, getAttrib(thisx, sym_index));
+    if (isNull(key)) // first key is retained
+      key = getAttrib(thisx, sym_sorted);
     UNPROTECT(protecti); // thisnames, thisxcol
   }
-  if (!ANY_ATTRIB(index))
+  if (isNull(ATTRIB(index)))
     setAttrib(ans, sym_index, R_NilValue);
   setAttrib(ans, R_NamesSymbol, names);
   setAttrib(ans, sym_sorted, key);
diff --git a/src/nafill.c b/src/nafill.c
index 76c4991a5f..4187523c58 100644
--- a/src/nafill.c
+++ b/src/nafill.c
@@ -87,31 +87,6 @@ void nafillInteger64(int64_t *x, uint_fast64_t nx, unsigned int type, int64_t fi
     snprintf(ans->message[0], 500, _("%s: took %.3fs\n"), __func__, omp_get_wtime()-tic);
 }
 
-void nafillString(const SEXP *x, uint_fast64_t nx, unsigned int type, SEXP fill, ans_t *ans, bool verbose) {
-  double tic=0.0;
-  if (verbose)
-    tic = omp_get_wtime();
-  if (type==0) { // const 1Code has comments. Press enter to view.
-    for (uint_fast64_t i=0; i<nx; i++) {
-      SET_STRING_ELT(ans->char_v, i, x[i]==NA_STRING ? fill : x[i]);
-    }
-  } else if (type==1) { // locf
-    SET_STRING_ELT(ans->char_v, 0, x[0]==NA_STRING ? fill : x[0]);
-    const SEXP* thisans = SEXPPTR_RO(ans->char_v); // takes out STRING_ELT from loop
-    for (uint_fast64_t i=1; i<nx; i++) {
-      SET_STRING_ELT(ans->char_v, i, x[i]==NA_STRING ? thisans[i-1] : x[i]);
-    }
-  } else if (type==2) { // nocb
-    SET_STRING_ELT(ans->char_v, nx-1, x[nx-1]==NA_STRING ? fill : x[nx-1]);
-    const SEXP* thisans = SEXPPTR_RO(ans->char_v); // takes out STRING_ELT from loop
-    for (int_fast64_t i=nx-2; i>=0; i--) {
-      SET_STRING_ELT(ans->char_v, i, x[i]==NA_STRING ? thisans[i+1] : x[i]);
-    }
-  }
-  if (verbose)
-    snprintf(ans->message[0], 500, _("%s: took %.3fs\n"), __func__, omp_get_wtime()-tic);
-}
-
 /*
   OpenMP is being used here to parallelize the loop that fills missing values
     over columns of the input data. This includes handling different data types
@@ -130,7 +105,7 @@ SEXP nafillR(SEXP obj, SEXP type, SEXP fill, SEXP nan_is_na_arg, SEXP inplace, S
 
   bool binplace = LOGICAL(inplace)[0];
   if (!IS_TRUE_OR_FALSE(nan_is_na_arg))
-    error(_("'%s' must be TRUE or FALSE"), "nan_is_na"); // # nocov
+    error(_("%s must be TRUE or FALSE"), "nan_is_na"); // # nocov
   bool nan_is_na = LOGICAL(nan_is_na_arg)[0];
 
   SEXP x = R_NilValue;
@@ -138,8 +113,8 @@ SEXP nafillR(SEXP obj, SEXP type, SEXP fill, SEXP nan_is_na_arg, SEXP inplace, S
   if (obj_scalar) {
     if (binplace)
       error(_("'x' argument is atomic vector, in-place update is supported only for list/data.table"));
-    else if (!isReal(obj) && TYPEOF(obj) != INTSXP && !isLogical(obj) && !isString(obj))
-      error(_("'x' argument (type %s) not supported."), type2char(TYPEOF(obj)));
+    else if (!isReal(obj) && !isInteger(obj) && !isLogical(obj))
+      error(_("'x' argument must be logical/numeric type, or list/data.table of logical/numeric types"));
     SEXP obj1 = obj;
     obj = PROTECT(allocVector(VECSXP, 1)); protecti++; // wrap into list
     SET_VECTOR_ELT(obj, 0, obj1);
@@ -147,22 +122,19 @@ SEXP nafillR(SEXP obj, SEXP type, SEXP fill, SEXP nan_is_na_arg, SEXP inplace, S
   SEXP ricols = PROTECT(colnamesInt(obj, cols, /* check_dups= */ ScalarLogical(TRUE), /* skip_absent= */ ScalarLogical(FALSE))); protecti++; // nafill cols=NULL which turns into seq_along(obj)
   x = PROTECT(allocVector(VECSXP, length(ricols))); protecti++;
   int *icols = INTEGER(ricols);
-  bool any_char = false;
   for (int i=0; i<length(ricols); i++) {
     SEXP this_col = VECTOR_ELT(obj, icols[i]-1);
-    if (isString(this_col)) {
-      any_char = true;
-    } else if (!isReal(this_col) && TYPEOF(this_col) != INTSXP && !isLogical(this_col))
-      error(_("'x' argument (type %s) not supported."), type2char(TYPEOF(this_col)));
+    if (!isReal(this_col) && !isInteger(this_col) && !isLogical(this_col))
+      error(_("'x' argument must be logical/numeric type, or list/data.table of logical/numeric types"));
     SET_VECTOR_ELT(x, i, this_col);
   }
   R_len_t nx = length(x);
 
   double **dx = (double**)R_alloc(nx, sizeof(*dx));
   int32_t **ix = (int32_t**)R_alloc(nx, sizeof(*ix));
-  const SEXP **sx = (const SEXP**)R_alloc(nx, sizeof(SEXP*));
   int64_t **i64x = (int64_t**)R_alloc(nx, sizeof(*i64x));
   uint_fast64_t *inx = (uint_fast64_t*)R_alloc(nx, sizeof(*inx));
+  SEXP ans = R_NilValue;
   ans_t *vans = (ans_t *)R_alloc(nx, sizeof(*vans));
   for (R_len_t i=0; i<nx; i++) {
     const SEXP xi = VECTOR_ELT(x, i);
@@ -171,40 +143,21 @@ SEXP nafillR(SEXP obj, SEXP type, SEXP fill, SEXP nan_is_na_arg, SEXP inplace, S
     if (isReal(xi)) {
       dx[i] = REAL(xi);
       i64x[i] = (int64_t *)REAL(xi);
-      ix[i] = NULL; sx[i] = NULL;
-    } else if (isString(xi)) {
-      sx[i] = STRING_PTR_RO(xi);
-      ix[i] = NULL; dx[i] = NULL; i64x[i] = NULL;
+      ix[i] = NULL;
     } else {
       ix[i] = INTEGER(xi);
-      dx[i] = NULL; sx[i] = NULL; i64x[i] = NULL;
+      dx[i] = NULL;
+      i64x[i] = NULL;
     }
   }
-  SEXP ans = R_NilValue;
   if (!binplace) {
     ans = PROTECT(allocVector(VECSXP, nx)); protecti++;
     for (R_len_t i=0; i<nx; i++) {
       SET_VECTOR_ELT(ans, i, allocVector(TYPEOF(VECTOR_ELT(x, i)), inx[i]));
       const SEXP ansi = VECTOR_ELT(ans, i);
-      const void *p;
-      switch (TYPEOF(ansi)) {
-        case LGLSXP:
-          p = LOGICAL(ansi);
-          break;
-        case INTSXP:
-          p = INTEGER(ansi);
-          break;
-        case REALSXP:
-          p = REAL(ansi);
-          break;
-        default:
-          p = ansi;
-          break;
-      }
-      vans[i] = ((ans_t) { .dbl_v=(double *)p, .int_v=(int *)p, .int64_v=(int64_t *)p, .char_v=(SEXP)p, .status=0, .message={"\0","\0","\0","\0"} });
+      const void *p = isReal(ansi) ? (void *)REAL(ansi) : (void *)INTEGER(ansi);
+      vans[i] = ((ans_t) { .dbl_v=(double *)p, .int_v=(int *)p, .int64_v=(int64_t *)p, .status=0, .message={"\0","\0","\0","\0"} });
     }
-  } else if (any_char) {
-    error(_("In-place filling of character columns is not yet supported."));
   } else {
     for (R_len_t i=0; i<nx; i++) {
       vans[i] = ((ans_t) { .dbl_v=dx[i], .int_v=ix[i], .int64_v=i64x[i], .status=0, .message={"\0","\0","\0","\0"} });
@@ -247,7 +200,7 @@ SEXP nafillR(SEXP obj, SEXP type, SEXP fill, SEXP nan_is_na_arg, SEXP inplace, S
       fillp[i] = SEXPPTR_RO(VECTOR_ELT(fill, i)); // do like this so we can use in parallel region
     }
   }
-  #pragma omp parallel for if (nx>1 && !any_char) num_threads(getDTthreads(nx, true))
+  #pragma omp parallel for if (nx>1) num_threads(getDTthreads(nx, true))
   for (R_len_t i=0; i<nx; i++) {
     switch (TYPEOF(VECTOR_ELT(x, i))) {
     case REALSXP : {
@@ -260,25 +213,13 @@ SEXP nafillR(SEXP obj, SEXP type, SEXP fill, SEXP nan_is_na_arg, SEXP inplace, S
     case LGLSXP: case INTSXP : {
       nafillInteger(ix[i], inx[i], itype, hasFill ? ((int32_t *)fillp[i])[0] : NA_INTEGER, &vans[i], verbose);
     } break;
-    case STRSXP : {
-      nafillString(sx[i], inx[i], itype, hasFill ? ((SEXP *)fillp[i])[0] : NA_STRING, &vans[i], verbose);
-    } break;
     }
   }
 
   if (!binplace) {
     for (R_len_t i=0; i<nx; i++) {
-      SEXP xi = VECTOR_ELT(x, i);
-      if (ANY_ATTRIB(xi)) {
-        copyMostAttrib(xi, VECTOR_ELT(ans, i));
-        if (itype == 0 && hasFill && isFactor(xi)) {
-          SEXP fillLev = PROTECT(getAttrib(VECTOR_ELT(fill, i), R_LevelsSymbol));
-          if (!R_compute_identical(PROTECT(getAttrib(xi, R_LevelsSymbol)), fillLev, 0)) {
-            setAttrib(VECTOR_ELT(ans, i), R_LevelsSymbol, fillLev);
-          }
-          UNPROTECT(2);
-        }
-      }
+      if (!isNull(ATTRIB(VECTOR_ELT(x, i))))
+        copyMostAttrib(VECTOR_ELT(x, i), VECTOR_ELT(ans, i));
     }
     SEXP obj_names = getAttrib(obj, R_NamesSymbol); // copy names
     if (!isNull(obj_names)) {
diff --git a/src/openmp-utils.c b/src/openmp-utils.c
index f7a63f40b1..d6df568ae6 100644
--- a/src/openmp-utils.c
+++ b/src/openmp-utils.c
@@ -94,7 +94,7 @@ SEXP getDTthreads_C(SEXP n, SEXP throttle)
 SEXP getDTthreads_R(SEXP verbose)
 {
   if(!IS_TRUE_OR_FALSE(verbose))
-    error(_("'%s' must be TRUE or FALSE"), "verbose");
+    error(_("%s must be TRUE or FALSE"), "verbose");
   if (LOGICAL(verbose)[0]) {
     #ifndef _OPENMP
       Rprintf(_("This installation of data.table has not been compiled with OpenMP support.\n"));
diff --git a/src/rbindlist.c b/src/rbindlist.c
index a047b1d49e..764558c184 100644
--- a/src/rbindlist.c
+++ b/src/rbindlist.c
@@ -4,12 +4,12 @@
 
 SEXP rbindlist(SEXP l, SEXP usenamesArg, SEXP fillArg, SEXP idcolArg, SEXP ignoreattrArg)
 {
-  if (!IS_TRUE_OR_FALSE(fillArg))
-    error(_("'%s' must be TRUE or FALSE"), "fill");
+  if (!isLogical(fillArg) || LENGTH(fillArg) != 1 || LOGICAL(fillArg)[0] == NA_LOGICAL)
+    error(_("%s should be TRUE or FALSE"), "fill");
   if (!isLogical(usenamesArg) || LENGTH(usenamesArg)!=1)
     error(_("use.names= should be TRUE, FALSE, or not used (\"check\" by default)"));  // R levels converts "check" to NA
-  if (!IS_TRUE_OR_FALSE(ignoreattrArg))
-    error(_("'%s' must be TRUE or FALSE"), "ignore.attr");
+  if (!isLogical(ignoreattrArg) || LENGTH(ignoreattrArg)!=1 || LOGICAL(ignoreattrArg)[0] == NA_LOGICAL)
+    error(_("%s should be TRUE or FALSE"), "ignore.attr");
   if (!length(l)) return(l);
   if (TYPEOF(l) != VECSXP) error(_("Input to rbindlist must be a list. This list can contain data.tables, data.frames or plain lists."));
   int usenames = LOGICAL(usenamesArg)[0];
@@ -277,9 +277,7 @@ SEXP rbindlist(SEXP l, SEXP usenamesArg, SEXP fillArg, SEXP idcolArg, SEXP ignor
     int maxType=LGLSXP;  // initialize with LGLSXP for test 2002.3 which has col x NULL in both lists to be filled with NA for #1871
     bool factor=false, orderedFactor=false;     // ordered factor is class c("ordered","factor"). isFactor() is true when isOrdered() is true.
     int longestLen=-1, longestW=-1, longestI=-1; // just for ordered factor; longestLen must be initialized as -1 so that rbind zero-length ordered factor could work #4795
-    PROTECT_INDEX ILongestLevels;
     SEXP longestLevels=R_NilValue;              // just for ordered factor
-    PROTECT_WITH_INDEX(longestLevels, &ILongestLevels); nprotect++;
     bool int64=false, date=false, posixct=false, itime=false, asis=false;
     const char *foundName=NULL;
     bool anyNotStringOrFactor=false;
@@ -305,7 +303,7 @@ SEXP rbindlist(SEXP l, SEXP usenamesArg, SEXP fillArg, SEXP idcolArg, SEXP ignor
         if (isOrdered(thisCol)) {
           orderedFactor = true;
           int thisLen = length(getAttrib(thisCol, R_LevelsSymbol));
-          if (thisLen > longestLen) { longestLen=thisLen; REPROTECT(longestLevels=getAttrib(thisCol, R_LevelsSymbol), ILongestLevels); /*for warnings later ...*/longestW=w; longestI=i; }
+          if (thisLen>longestLen) { longestLen=thisLen; longestLevels=getAttrib(thisCol, R_LevelsSymbol); /*for warnings later ...*/longestW=w; longestI=i; }
         }
       } else if (!isString(thisCol)) anyNotStringOrFactor=true;  // even for length 0 columns for consistency; test 2113.3
       if (INHERITS(thisCol, char_integer64)) {
@@ -564,6 +562,6 @@ SEXP rbindlist(SEXP l, SEXP usenamesArg, SEXP fillArg, SEXP idcolArg, SEXP ignor
       }
     }
   }
-  UNPROTECT(nprotect); // ans, ansNames, longestLevels? coercedForFactor?
+  UNPROTECT(nprotect); // ans, ansNames, coercedForFactor?
   return(ans);
 }
diff --git a/src/transpose.c b/src/transpose.c
index 93d9206134..939ca5d792 100644
--- a/src/transpose.c
+++ b/src/transpose.c
@@ -9,8 +9,8 @@ SEXP transpose(SEXP l, SEXP fill, SEXP ignoreArg, SEXP keepNamesArg, SEXP listCo
     error(_("l must be a list."));
   if (!length(l))
     return(copyAsPlain(l));
-  if (!IS_TRUE_OR_FALSE(ignoreArg))
-    error(_("'%s' must be TRUE or FALSE"), "ignore.empty");
+  if (!isLogical(ignoreArg) || LOGICAL_RO(ignoreArg)[0] == NA_LOGICAL)
+    error(_("ignore.empty should be logical TRUE/FALSE."));
   const bool ignore = LOGICAL_RO(ignoreArg)[0];
   if (!(isNull(keepNamesArg) || (isString(keepNamesArg) && LENGTH(keepNamesArg) == 1)))
     error(_("keep.names should be either NULL, or the name of the first column of the result in which to place the names of the input"));
@@ -19,7 +19,7 @@ SEXP transpose(SEXP l, SEXP fill, SEXP ignoreArg, SEXP keepNamesArg, SEXP listCo
     error(_("fill must be a length 1 vector, such as the default NA"));
   const R_len_t ln = LENGTH(l);
   if (!IS_TRUE_OR_FALSE(listColsArg))
-    error(_("'%s' must be TRUE or FALSE"), "list.cols");
+    error(_("list.cols should be logical TRUE/FALSE."));
   const bool listCol = LOGICAL_RO(listColsArg)[0];
 
   // preprocessing
diff --git a/src/types.h b/src/types.h
index d0358f4b29..0d610ca4ec 100644
--- a/src/types.h
+++ b/src/types.h
@@ -10,7 +10,7 @@ typedef struct ans_t {
   int32_t *int_v;        // used in nafill
   double *dbl_v;         // used in froll, nafill
   int64_t *int64_v;      // used in nafill
-  SEXP char_v;           // ineligible for filling in parallel!
+  //void *char_v;          // to be used in nafill but then must escape parallelism
   uint8_t status;        // 0:ok, 1:message, 2:warning, 3:error; unix return signal: {0,1,2}=0, {3}=1
   char message[4][ANS_MSG_SIZE]; // STDOUT: output, STDERR: message, warning, error
 // implicit n_message limit discussed here: https://github.com/Rdatatable/data.table/issues/3423#issuecomment-487722586
diff --git a/src/uniqlist.c b/src/uniqlist.c
index e64f650174..333d6bc69d 100644
--- a/src/uniqlist.c
+++ b/src/uniqlist.c
@@ -355,7 +355,7 @@ SEXP uniqueNlogical(SEXP x, SEXP narmArg) {
   // single pass; short-circuit and return as soon as all 3 values are found
   if (!isLogical(x)) error(_("x is not a logical vector"));
   if (!IS_TRUE_OR_FALSE(narmArg))
-    error(_("'%s' must be TRUE or FALSE"), "na.rm");
+    error(_("%s must be TRUE or FALSE"), "na.rm");
   bool narm = LOGICAL(narmArg)[0]==1;
   const R_xlen_t n = xlength(x);
   if (n==0)
diff --git a/src/utils.c b/src/utils.c
index 5f5da238f9..e11bc09d57 100644
--- a/src/utils.c
+++ b/src/utils.c
@@ -1,10 +1,6 @@
 #ifndef _WIN32
-#  if !defined(_POSIX_C_SOURCE) || _POSIX_C_SOURCE < 200809L
-#    undef _POSIX_C_SOURCE
-#    define _POSIX_C_SOURCE 200809L // required for POSIX (not standard C) features in is_direct_child e.g. 'siginfo_t'
-#  endif
-#  include <signal.h> // siginfo_t
-#  include <sys/wait.h> // waitid
+#  define _POSIX_C_SOURCE 200809L // required for POSIX (not standard C) features in is_direct_child e.g. 'siginfo_t'
+#  include <sys/wait.h>
 #endif
 
 #include "data.table.h"
@@ -124,9 +120,9 @@ SEXP colnamesInt(SEXP x, SEXP cols, SEXP check_dups, SEXP skip_absent) {
   if (!isNewList(x))
     error(_("'x' argument must be data.table compatible"));
   if (!IS_TRUE_OR_FALSE(check_dups))
-    error(_("'%s' must be TRUE or FALSE"), "check_dups");
+    error(_("%s must be TRUE or FALSE"), "check_dups");
   if (!IS_TRUE_OR_FALSE(skip_absent))
-    error(_("'%s' must be TRUE or FALSE"), "skip_absent");
+    error(_("%s must be TRUE or FALSE"), "skip_absent");
   int protecti = 0;
   R_len_t nx = length(x);
   R_len_t nc = length(cols);
@@ -542,7 +538,7 @@ SEXP frev(SEXP x, SEXP copyArg) {
   if (INHERITS(x, char_dataframe))
     error(_("'x' should not be data.frame or data.table."));
   if (!IS_TRUE_OR_FALSE(copyArg))
-    error(_("'%s' must be TRUE or FALSE."), "copy"); // # nocov
+    error(_("%s must be TRUE or FALSE."), "copy"); // # nocov
   bool copy = LOGICAL(copyArg)[0];
   R_xlen_t n = xlength(x);
   int nprotect = 0;
@@ -634,7 +630,7 @@ SEXP frev(SEXP x, SEXP copyArg) {
     SEXP levels = PROTECT(getAttrib(x, R_LevelsSymbol));
     nprotect += 2;
     // swipe attributes from x
-    CLEAR_ATTRIB(x);
+    SET_ATTRIB(x, R_NilValue);
     setAttrib(x, R_NamesSymbol, names);
     setAttrib(x, R_ClassSymbol, klass);
     setAttrib(x, R_LevelsSymbol, levels);
@@ -682,23 +678,6 @@ void R_resizeVector_(SEXP x, R_xlen_t newlen) {
 }
 #endif
 
-#ifdef BACKPORT_MAP_ATTRIB
-SEXP R_mapAttrib_(SEXP x, SEXP (*fun)(SEXP key, SEXP val, void *ctx), void *ctx) {
-  PROTECT_INDEX i;
-  SEXP a = ATTRIB(x);
-  PROTECT_WITH_INDEX(a, &i);
-
-  SEXP ret = NULL;
-  for (; !isNull(a); REPROTECT(a = CDR(a), i)) {
-    ret = fun(PROTECT(TAG(a)), PROTECT(CAR(a)), ctx);
-    UNPROTECT(2);
-    if (ret) break;
-  }
-
-  UNPROTECT(1);
-  return ret;
-}
-#endif
 // # nocov start
 #ifdef _WIN32
 NORET
diff --git a/src/wrappers.c b/src/wrappers.c
index fb6aa7f351..2b26761bfd 100644
--- a/src/wrappers.c
+++ b/src/wrappers.c
@@ -44,11 +44,8 @@ SEXP setlevels(SEXP x, SEXP levels, SEXP ulevels) {
   SEXP xchar, newx;
   xchar = PROTECT(allocVector(STRSXP, nx));
   int *ix = INTEGER(x);
-  const int nlevels = length(levels);
-  for (int i=0; i<nx; ++i) {
-    const int ixi = ix[i];
-    SET_STRING_ELT(xchar, i, (ixi >= 1 && ixi <= nlevels) ? STRING_ELT(levels, ix[i]-1) : NA_STRING);
-  }
+  for (int i=0; i<nx; ++i)
+    SET_STRING_ELT(xchar, i, STRING_ELT(levels, ix[i]-1));
   newx = PROTECT(chmatch(xchar, ulevels, NA_INTEGER));
   int *inewx = INTEGER(newx);
   for (int i=0; i<nx; ++i) ix[i] = inewx[i];
diff --git a/tests/optimize.R b/tests/optimize.R
deleted file mode 100644
index 69dc4954cc..0000000000
--- a/tests/optimize.R
+++ /dev/null
@@ -1,2 +0,0 @@
-require(data.table)
-test.data.table(script="optimize.Rraw")
diff --git a/vignettes/es/datatable-benchmarking.Rmd b/vignettes/es/datatable-benchmarking.Rmd
deleted file mode 100644
index 6cdee88c9d..0000000000
--- a/vignettes/es/datatable-benchmarking.Rmd
+++ /dev/null
@@ -1,147 +0,0 @@
----
-title: "Benchmarking con data.table"
-date: "`{r} Sys.Date()`"
-output:
-  litedown::html_format:
-    options:
-      toc: true
-      number_sections: true
-vignette: >
-  %\VignetteIndexEntry{Benchmarking data.table}
-  %\VignetteEngine{litedown::vignette}
-  \usepackage[utf8]{inputenc}
----
-
-```{r, echo = FALSE, message = FALSE}
-library(data.table)
-litedown::reactor(comment = "# ")
-```
-
-<style>
-h2 {
-    font-size: 20px;
-}
-
-#TOC {
-  border: 1px solid #ccc;
-  border-radius: 5px;
-  padding-left: 1em;
-  background: #f6f6f6;
-}
-</style>
-
-```{r, echo=FALSE, file='../_translation_links.R'}
-```
-
-`{r} .write.translation.links("Las traducciones de este documento están disponibles en: %s")`
-
-Este documento sirve como guía para medir el rendimiento de `data.table`. Es un lugar único para documentar las mejores prácticas y los errores que se deben evitar.
-
-# fread: borrar cachés
-
-Idealmente, cada llamada a «fread» debería ejecutarse en una sesión nueva con los siguientes comandos antes de la ejecución de R. Esto borra el archivo de caché del sistema operativo en la RAM y la caché del disco duro
-
-```sh
-free -g
-sudo sh -c 'echo 3 >/proc/sys/vm/drop_caches'
-sudo lshw -class disk
-sudo hdparm -t /dev/sda
-```
-
-Al comparar `fread` con soluciones que no son de R, tenga en cuenta que R requiere que los valores de las columnas de caracteres se agreguen a la caché de cadenas global de R. Esto requiere tiempo al leer datos, pero las operaciones posteriores se benefician, ya que las cadenas de caracteres ya se han almacenado en caché. Por lo tanto, además de cronometrar tareas aisladas (como `fread` por sí sola), conviene comparar el tiempo total de un flujo de trabajo integral de tareas, como la lectura de datos, su manipulación y la generación del resultado final.
-
-# subset: umbral para la optimización del índice en consultas compuestas
-
-La optimización de índice para consultas de filtros compuestos no se utilizará cuando el producto cruzado de los elementos proporcionados para filtrar exceda 1e4 elementos.
-
-```r
-DT = data.table(V1=1:10, V2=1:10, V3=1:10, V4=1:10)
-setindex(DT)
-v = c(1L, rep(11L, 9))
-length(v)^4               # cross product of elements in filter
-#[1] 10000                # <= 10000
-DT[V1 %in% v & V2 %in% v & V3 %in% v & V4 %in% v, verbose=TRUE]
-#Optimized subsetting with index 'V1__V2__V3__V4'
-#on= matches existing index, using index
-#Starting bmerge ...done in 0.000sec
-#...
-v = c(1L, rep(11L, 10))
-length(v)^4               # cross product of elements in filter
-#[1] 14641                # > 10000
-DT[V1 %in% v & V2 %in% v & V3 %in% v & V4 %in% v, verbose=TRUE]
-#Subsetting optimization disabled because the cross-product of RHS values exceeds 1e4, causing memory problems.
-#...
-```
-
-# subset: evaluación comparativa basada en índices
-
-Para mayor comodidad, `data.table` crea automáticamente un índice en los campos que se utilizan para filtra datos. Esto añadirá algo de sobrecarga al primer filtrado en campos específicos, pero reduce considerablemente el tiempo de consulta de esas columnas en ejecuciones posteriores. Para medir la velocidad, la mejor manera es medir la creación y la consulta de índices por separado. Con estos tiempos, es fácil decidir cuál es la estrategia óptima para su caso de uso. Para controlar el uso del índice, utilice las siguientes opciones:
-
-```r
-options(datatable.auto.index=TRUE)
-options(datatable.use.index=TRUE)
-```
-
-- `use.index=FALSE` forzará la consulta a no usar índices incluso si existen, pero las claves existentes aún se usan para la optimización.
-- `auto.index=FALSE` deshabilita la creación automática de índices al filtrar datos no indexados, pero si los índices se crearon antes de que se estableciera esta opción, o explícitamente al llamar a `setindex`, aún se usarán para la optimización.
-
-Otras dos opciones controlan la optimización a nivel global, incluido el uso de índices:
-
-```r
-options(datatable.optimize=2L)
-options(datatable.optimize=3L)
-```
-
-`options(datatable.optimize=2L)` desactivará por completo la optimización de filtros, mientras que `options(datatable.optimize=3L)` la reactivará. Estas opciones afectan a muchas más optimizaciones y, por lo tanto, no deben usarse cuando solo se necesita controlar los índices. Más información en `?datatable.optimize`.
-
-# Operaciones *por referencia*
-
-Al comparar funciones `set*`, solo tiene sentido medir la primera ejecución. Estas funciones actualizan su entrada por referencia, por lo que las ejecuciones posteriores utilizarán la `data.table` ya procesada, lo que sesgará los resultados
-
-Para proteger su `data.table` de la actualización por referencia, puede usar las funciones `copy` o `data.table:::shallow`. Tenga en cuenta que `copy` puede ser muy costoso, ya que requiere duplicar el objeto completo. Es poco probable que queramos incluir el tiempo de duplicación en la tarea que estamos evaluando.
-
-# Intentar comparar los procesos atómicos
-
-Si su punto de referencia está destinado a ser publicado, será mucho más esclarecedor si lo divide para medir el tiempo de los procesos atómicos. De esta manera, sus lectores pueden ver cuánto tiempo se dedicó a leer los datos de la fuente, limpiarlos, transformarlos realmente y exportar los resultados. Por supuesto, si su punto de referencia está destinado a presentar un *flujo de trabajo de extremo a extremo*, entonces tiene todo el sentido presentar el tiempo general. Sin embargo, separar el tiempo de los pasos individuales es útil para comprender qué pasos son los principales cuellos de botella de un flujo de trabajo. Hay otros casos en los que el punto de referencia atómico podría no ser deseable, por ejemplo, al *leer un csv*, seguido de *agrupar*. R requiere llenar *la caché de cadena global de R*, lo que agrega sobrecarga adicional al importar datos de caracteres a una sesión de R. Por otro lado, la *caché de cadena global* podría acelerar procesos como *agrupar*. En tales casos, al comparar R con otros lenguajes, podría ser útil incluir el tiempo total.
-
-# Evite la coerción de clase
-
-A menos que esto sea lo que realmente quiera medir, debe preparar objetos de entrada de la clase esperada para cada herramienta que esté evaluando
-
-# evitar `microbenchmark(..., times=100)`
-
-Repetir un benchmark muchas veces no suele ofrecer la imagen más clara para las herramientas de procesamiento de datos. Por supuesto, tiene mucho sentido para cálculos más atómicos, pero esta no es una buena representación de la forma más común en que se utilizarán realmente estas herramientas, es decir, para las tareas de procesamiento de datos, que consisten en lotes de transformaciones proporcionadas secuencialmente, cada una ejecutada una vez. Matt dijo una vez:
-
-> Soy muy cauteloso con los puntos de referencia medidos en tiempos inferiores a 1 segundo. Prefiero 10 segundos o más para una sola ejecución, lo que se logra aumentando el tamaño de los datos. Un recuento de repeticiones de 500 es alarmante. De 3 a 5 ejecuciones deberían ser suficientes para convencer con datos más grandes. La sobrecarga de llamadas y el tiempo de recolección de basura afectan las inferencias a esta escala tan pequeña.
-
-Esto es muy válido. Cuanto menor sea la medición de tiempo, mayor será el ruido relativo. El ruido se genera por el envío de métodos, la inicialización de paquetes/clases, etc. El punto de referencia debe centrarse principalmente en casos de uso reales.
-
-# procesamiento multiproceso
-
-Uno de los principales factores que probablemente afecte a los tiempos es el número de subprocesos disponibles para su sesión de R. En versiones recientes de `data.table`, algunas funciones están paralelizadas. Puede controlar el número de subprocesos que desea utilizar con `setDTthreads`
-
-```r
-setDTthreads(0)    # use all available cores (default)
-getDTthreads()     # check how many cores are currently used
-```
-
-# Dentro de un bucle, prefiera `set` en lugar de `:=`
-
-A menos que esté utilizando el índice al realizar una *subasignación por referencia*, debería preferir la función `set` que no impone la sobrecarga de la llamada al método `[.data.table`.
-
-```r
-DT = data.table(a=3:1, b=letters[1:3])
-setindex(DT, a)
-
-# for (...) {                 # imagine loop here
-
-  DT[a==2L, b := "z"]         # sub-assign by reference, uses index
-  DT[, d := "z"]              # not sub-assign by reference, not uses index and adds overhead of `[.data.table`
-  set(DT, j="d", value="z")   # no `[.data.table` overhead, but no index yet, till #1196
-
-# }
-```
-
-# Dentro de un bucle, prefiera `setDT` en lugar de `data.table()`
-
-A partir de ahora, `data.table()` tiene una sobrecarga, por lo tanto, dentro de los bucles se prefiere utilizar `as.data.table()` o `setDT()` en una lista válida.
diff --git a/vignettes/es/datatable-faq.Rmd b/vignettes/es/datatable-faq.Rmd
deleted file mode 100644
index c3e2df9701..0000000000
--- a/vignettes/es/datatable-faq.Rmd
+++ /dev/null
@@ -1,674 +0,0 @@
----
-title: "Preguntas frecuentes sobre data.table"
-date: "`{r} Sys.Date()`"
-output:
-  litedown::html_format:
-    options:
-      toc: true
-      number_sections: true
-vignette: >
-  %\VignetteIndexEntry{Frequently Asked Questions about data.table}
-  %\VignetteEngine{litedown::vignette}
-  \usepackage[utf8]{inputenc}
----
-
-<style>
-h2 {
-    font-size: 20px;
-}
-
-#TOC {
-  border: 1px solid #ccc;
-  border-radius: 5px;
-  padding-left: 1em;
-  background: #f6f6f6;
-  width: 100%;
-}
-</style>
-
-```{r, echo=FALSE, file='../_translation_links.R'}
-```
-
-`{r} .write.translation.links("Las traducciones de este documento están disponibles en: %s")`
-
-```{r, echo = FALSE, message = FALSE}
-library(data.table)
-litedown::reactor(comment = "# ")
-.old.th = setDTthreads(1)
-```
-
-La primera sección, Preguntas frecuentes para principiantes, está diseñada para leerse en orden, de principio a fin. Simplemente está escrita en estilo FAQ para facilitar su comprensión. No se trata de las preguntas más frecuentes. Una mejor manera de comprobarlo es consultar Stack Overflow.
-
-Estas preguntas frecuentes son de lectura obligatoria y se consideran documentación esencial. No haga preguntas en Stack Overflow ni plantee problemas en GitHub hasta que las haya leído. Todos sabemos que no las ha leído cuando pregunta. Así que, si pregunta y no las ha leído, no use su nombre real.
-
-Este documento se ha revisado rápidamente debido a los cambios en la versión 1.9.8, publicada en noviembre de 2016. Por favor, envíe solicitudes de incorporación de cambios para corregir errores o realizar mejoras. Si alguien sabe por qué la tabla de contenido aparece tan estrecha y compacta al ser mostrada por CRAN, por favor, infórmenos. Este documento solía estar en formato PDF y recientemente lo cambiamos a HTML.
-
-# Preguntas frecuentes para principiantes
-
-## ¿Por qué `DT[ , 5]` y `DT[2, 5]` devuelven un data.table de 1 columna en lugar de vectores como `data.frame`? {#j-num}
-
-Para mantener la coherencia, al usar data.table en funciones que aceptan entradas variables, se puede confiar en que `DT[...]` devolverá un data.table. No es necesario recordar incluir `drop=FALSE` como en data.frame. data.table se lanzó por primera vez en 2006 y esta diferencia con data.frame ha sido una característica desde el principio.
-
-Quizás haya oído que, en general, es una mala práctica referirse a las columnas por número en lugar de nombre. Si su colega lee tu código más tarde, puede que tenga que buscar por todas partes para encontrar la columna número 5. Si usted o él cambian el orden de las columnas en los niveles superiores de tu programa R, podría obtener resultados erróneos sin previo aviso ni error si se olvida modificar todos los lugares del código que hacen referencia a la columna número 5. La culpa es suya, no de R ni de data.table. Es realmente malo. Por favor, no lo haga. Es el mismo mantra de los desarrolladores profesionales de SQL: nunca uses `select *`, selecciona siempre explícitamente por nombre de columna para, al menos, intentar ser robusto ante futuros cambios.
-
-Supongamos que la columna 5 se llama `"region"` y debe extraerla como un vector, no como un data.table. Es más robusto usar el nombre de la columna y escribir `DT$region` o `DT[["region"]]`; es decir, lo mismo que la base R. Se recomienda usar `$` y `[[` de la base R en data.table. No se recomienda su uso cuando se combina con `<-` para asignar (use `:=` en su lugar), sino simplemente para seleccionar una sola columna por nombre. Sin embargo, una diferencia clave es que DT$col y DT[['col']] pueden devolver una referencia, mientras que DT[, col] siempre devuelve una copia. Esto puede tener consecuencias importantes y se explica en `vignette("datatable-reference-semantics", package="data.table")`.
-
-Hay circunstancias en las que referirse a una columna por número parece ser la única opción, como en el caso de una secuencia de columnas. En estas situaciones, al igual que en data.frame, puede escribir `DT[, 5:10]` y `DT[,c(1,4,10)]`. Sin embargo, es más robusto (ante futuros cambios en el número y orden de las columnas de sus datos) usar un rango con nombre como `DT[,columnRed:columnViolet]` o nombrar cada una `DT[,c("columnRed","columnOrange","columnYellow")]`. Al principio es más laborioso, pero probablemente se lo agradecerá a sí mismo y sus colegas podrían agradecérselo en el futuro. Al menos podrá decir que se esforzó al máximo por escribir código robusto si algo sale mal.
-
-Sin embargo, lo que realmente queremos que hagas es `DT[,.(columnRed,columnOrange,columnYellow)]`; es decir, usar los nombres de columna como si fueran variables directamente dentro de `DT[...]`. No tiene que prefijar cada columna con `DT$` como lo hace en data.frame. La parte `.()` es solo un alias para `list()` y puede usar `list()` en su lugar si lo prefiere. Puede colocar cualquier expresión R de nombres de columna, usando cualquier paquete R, que devuelva diferentes tipos de diferentes longitudes, justo ahí. Queríamos alentarle a hacer eso tan fuertemente en el pasado que deliberadamente no hicimos que `DT[,5]` funcionara en absoluto. Antes de v1.9.8 lanzado en noviembre de 2016, `DT[,5]` solía devolver solo `5`. La idea era que podíamos enseñar más simplemente un hecho de que las partes dentro de `DT[...]` se evalúan dentro del marco de DT siempre (ven los nombres de columna como si fueran variables). Y `5` evalúa a `5`, por lo que el comportamiento fue consistente con la regla única. Les solicitamos que superaran un obstáculo adicional deliberado `DT[,5,with=FALSE]` si realmente deseaban seleccionar una columna por nombre o número. A partir de noviembre de 2016, ya no es necesario usar `with=FALSE` y veremos cómo una mayor consistencia con data.frame en este sentido ayudará o perjudicará tanto a los usuarios nuevos como a los antiguos. Los nuevos usuarios que no lean estas preguntas frecuentes, ni siquiera esta primera entrada, esperamos que no se tropiecen tan pronto con data.table como antes si esperaban que funcionara como data.frame. Esperamos que no se pierdan nuestra intención y recomendación de colocar expresiones de columnas dentro de `DT[i, j, by]`. Si usan data.table como data.frame, no obtendrán ningún beneficio. Si conocen a alguien en esa situación, por favor, anímenle a leer este documento como ustedes.
-
-Recordatorio: puede colocar *cualquier* expresión de R dentro de `DT[...]` usando los nombres de columna como si fueran variables; por ejemplo, pruebe `DT[, colA*colB/2]`. Esto devuelve un vector porque usó los nombres de columna como si fueran variables. Envuélvalo en `.()` para devolver una data.table; es decir, `DT[,.(colA*colB/2)]`. Asígnele un nombre: `DT[,.(myResult = colA*colB/2)]`. Dejamos que adivine cómo devolver dos valores de esta consulta. También es bastante común realizar varias acciones dentro de un cuerpo anónimo: `DT[, { x<-colA+10; x*x/2 }]` o llamar a la función de otro paquete: `DT[ , fitdistr(columnA, "normal")]`.
-
-## ¿Por qué `DT[,"region"]` devuelve un data.table de 1 columna en lugar de un vector?
-
-Consulte la [respuesta anterior](#j-num). Prueba con `DT$region` o `DT[["region"]]`.
-
-## ¿Por qué `DT[, región]` devuelve un vector para la columna "región"? Me gustaría una tabla data.table de una sola columna.
-
-Pruebe `DT[ , .(region)]` en su lugar. `.()` es un alias para `list()` y garantiza que se devuelva una data.table.
-
-Continúe leyendo y consulte las preguntas frecuentes a continuación. Revise los documentos completos antes de atascarse en una parte.
-
-## ¿Por qué no funciona `DT[, x, y, z]`? Quería las tres columnas `x`, `y` y `z`.
-
-La expresión `j` es el segundo argumento. Pruebe `DT[ , c("x","y","z")]` o `DT[ , .(x,y,z)]`.
-
-## Asigné la variable `mycol="x"`, pero `DT[, mycol]` devuelve un error. ¿Cómo puedo hacer que busque el nombre de la columna contenida en la variable `mycol`?
-
-El error es que no se puede encontrar la columna denominada `"mycol"`, y este error es correcto. El alcance de `data.table` es diferente al de `data.frame` en el sentido de que puede usar los nombres de las columnas como si fueran variables directamente dentro de `DT[...]` sin anteponer `DT$` a cada nombre de columna; consulte la pregunta frecuente 1.1 anterior.
-
-Para usar `mycol` para seleccionar la columna `x` de `DT`, hay algunas opciones:
-
-```r
-DT[, ..mycol]            # .. prefix conveys to look for the mycol one level up in calling scope
-DT[, mycol, with=FALSE]  # revert to data.frame behavior
-DT[[mycol]]               # treat DT as a list and use [[ from base R
-```
-
-Consulte `?data.table` para obtener más detalles sobre el prefijo `..`.
-
-El argumento `with` toma su nombre de la función `base` `with()`. Cuando `with=TRUE` (predeterminado), `data.table` funciona de forma similar a `with()`, es decir, `DT[, mycol]` se comporta como `with(DT, mycol)`. Cuando `with=FALSE`, las reglas de evaluación estándar de `data.frame` se aplican a todas las variables en `j` y ya no se pueden usar nombres de columna directamente.
-
-## ¿Cuáles son los beneficios de poder utilizar nombres de columnas como si fueran variables dentro de 'DT[...]'?
-
-`j` no tiene por qué ser solo nombres de columnas. Puede escribir cualquier *expresión* de R de nombres de columnas directamente en `j`, *p. ej.*, `DT[ , media(x*y/z)]`. Lo mismo aplica para `i`, *p. ej.*, `DT[x>1000, suma(y*z)]`.
-
-Esto ejecuta la expresión `j` en el conjunto de filas donde la expresión `i` es verdadera. Ni siquiera necesita devolver datos, *p. ej.*, `DT[x>1000, plot(y, z)]`. Puede hacer `j` por grupo simplemente agregando `by = `; p. ej., `DT[x>1000, sum(y*z), by = w]`. Esto ejecuta `j` para cada grupo en la columna `w` pero solo sobre las filas donde `x>1000`. Al colocar las 3 partes de la consulta (i=where, j=select y by=group by) dentro de los corchetes, data.table ve esta consulta como un todo antes de que se evalúe cualquier parte de ella. Por lo tanto, puede optimizar la consulta combinada para el rendimiento. Puede hacer esto porque el lenguaje R tiene una evaluación diferida única (Python y Julia no la tienen). data.table ve las expresiones dentro de `DT[...]` antes de que se evalúen y las optimiza antes de la evaluación. Por ejemplo, si data.table ve que solo está usando 2 columnas de 100, no se molestará en filtrar las 98 que no son necesarias para su expresión j.
-
-## Vale, empiezo a entender la función de data.table, pero ¿por qué no mejoraron `data.frame` en R? ¿Por qué tiene que ser un paquete nuevo?
-
-Como se [resaltó arriba](#j-num), `j` en `[.data.table` es fundamentalmente diferente de `j` en `[.data.frame`. Incluso si algo tan simple como `DF[ , 1]` se modificara en R base para devolver un data.frame en lugar de un vector, esto afectaría el código existente en miles de paquetes CRAN y código de usuario. En cuanto creamos una nueva clase que heredara de data.frame, tuvimos la oportunidad de cambiar algunas cosas, y lo hicimos. Queremos que data.table sea ligeramente diferente y funcione de esta manera para que funcione una sintaxis más compleja. También existen otras diferencias (véase [abajo](#SmallerDiffs)).
-
-Además, data.table hereda de `data.frame`. También es un `data.frame`. Un data.table se puede pasar a cualquier paquete que solo acepte `data.frame` y ese paquete puede usar la sintaxis `[.data.frame` en data.table. Consulta [esta respuesta](https://stackoverflow.com/a/10529888/403310) para saber cómo lograrlo.
-
-También *hemos* propuesto mejoras para R siempre que ha sido posible. Una de ellas se aceptó como nueva característica en R 2.12.0:
-
-> `unique()` y `match()` ahora son más rápidos en vectores de caracteres donde todos los elementos están en la caché global CHARSXP y tienen codificación sin marcar (ASCII). Gracias a Matt Dowle por sugerir mejoras en la generación del código hash en unique.c.
-
-Una segunda propuesta fue usar `memcpy` en duplicate.c, que es mucho más rápido que un bucle for en C. Esto mejoraría la *forma* en que R copia datos internamente (en algunas mediciones, hasta 13 veces). El hilo sobre r-devel está [aquí](https://stat.ethz.ch/pipermail/r-devel/2010-April/057249.html).
-
-Una tercera propuesta más significativa que fue aceptada es que R ahora usa el código de ordenamiento por radix de data.table a partir de R 3.3.0:
-
-> El algoritmo de ordenamiento por radio y su implementación de data.table (forder) reemplaza el ordenamiento por radio (conteo) anterior y añade un nuevo método para order(). Contribuido por Matt Dowle y Arun Srinivasan, el nuevo algoritmo admite vectores lógicos, enteros (incluso con valores grandes), reales y de caracteres. Supera a todos los demás métodos, pero presenta algunas desventajas (véase ?sort).
-
-Este fue un gran evento para nosotros y lo celebramos hasta el cansancio. (En realidad, no).
-
-## ¿Por qué los valores predeterminados son así? ¿Por qué funciona así?
-
-La respuesta simple es que el autor principal lo diseñó originalmente para su propio uso. Así lo quiso. Le parece una forma más natural y rápida de escribir código, que también se ejecuta con mayor rapidez.
-
-## ¿Esto no se hace ya con `with()` y `subset()` en `base`?
-
-Algunas de las características comentadas hasta ahora son válidas. El paquete se basa en la funcionalidad básica. Hace lo mismo, pero requiere menos código y se ejecuta mucho más rápido si se usa correctamente.
-
-## ¿Por qué «X[Y]» devuelve también todas las columnas de «Y»? ¿No debería devolver un subconjunto de «X»?
-
-Esto se modificó en la versión 1.5.3 (febrero de 2011). Desde entonces, `X[Y]` incluye las columnas no unidas de `Y`. Esta función se denomina *ámbito heredado de unión* porque no solo las columnas `X` están disponibles para la expresión `j`, sino también las columnas `Y`. La desventaja es que `X[Y]` es menos eficiente, ya que cada elemento de las columnas no unidas de `Y` se duplica para coincidir con el (probablemente elevado) número de filas en `X` que coinciden. Por lo tanto, recomendamos encarecidamente `X[Y, j]` en lugar de `X[Y]`. Consulte las [siguientes preguntas frecuentes](#MergeDiff).
-
-## ¿Cuál es la diferencia entre `X[Y]` y `merge(X, Y)`? {#MergeDiff}
-
-`X[Y]` es una unión (join) que busca las filas de `X` utilizando `Y` (o la clave de `Y` si tiene una) como índice.
-
-`Y[X]` es una unión que busca las filas de `Y` utilizando `X` (o la clave de `X` si tiene una) como índice.
-
-`merge(X,Y)`[^1] funciona en ambos sentidos simultáneamente. El número de filas de `X[Y]` e `Y[X]` suele ser diferente, mientras que el número de filas devuelto por `merge(X, Y)` y `merge(Y, X)` es el mismo.
-
-*PERO* eso pasa por alto el punto principal. La mayoría de las tareas requieren que se haga algo en los datos después de una unión o fusión. ¿Por qué fusionar todas las columnas de datos, solo para usar un pequeño subconjunto de ellas después? Puede sugerir `merge(X[ , ColsNeeded1], Y[ , ColsNeeded2])`, pero eso requiere que el programador determine qué columnas se necesitan. `X[Y, j]` en data.table hace todo eso en un solo paso para ti. Cuando escribes `X[Y, sum(foo*bar)]`, data.table inspecciona automáticamente la expresión `j` para ver qué columnas usa. Solo creará un subconjunto de esas columnas; las demás se ignoran. Solo se crea memoria para las columnas que usa `j` y las columnas `Y` disfrutan de las reglas de reciclaje estándar de R dentro del contexto de cada grupo. Digamos que `foo` está en `X` y `bar` está en `Y` (junto con otras 20 columnas en `Y`). ¿No es `X[Y, sum(foo*bar)]` más rápido de programar y más rápido de ejecutar que el desperdicio de un `merge` de todo seguido de `subset`?
-
-[^1]: Nos referimos al método `merge` para data.table o al método `merge` para `data.frame`, ya que ambos funcionan de la misma manera. Consulte `?merge.data.table` y [a continuación](#r-dispatch) para obtener más información sobre el envío de métodos.
-
-## ¿Algo más sobre `X[Y, sum(foo*bar)]`?
-
-Este comportamiento cambió en la v1.9.4 (septiembre de 2014). Ahora realiza la unión `X[Y]` y luego ejecuta `sum(foo*bar)` sobre todas las filas; es decir, `X[Y][ , sum(foo*bar)]`. Antes, ejecutaba `j` para cada *grupo* de `X` con el que coincidía cada fila de `Y`. Esto aún se puede hacer, ya que es muy útil, pero ahora es necesario especificar explícitamente `by = .EACHI`, es decir, `X[Y, sum(foo*bar), by = .EACHI]`. A esto lo llamamos *agrupación por cada `i`*.
-
-Por ejemplo, (para complicarlo aún más, también se utiliza *join legacy scope*):
-
-```{r}
-X = data.table(grp = c("a", "a", "b",
-                       "b", "b", "c", "c"), foo = 1:7)
-setkey(X, grp)
-Y = data.table(c("b", "c"), bar = c(4, 2))
-X
-Y
-X[Y, sum(foo*bar)]
-X[Y, sum(foo*bar), by = .EACHI]
-```
-
-## Qué bien. ¿Cómo lograron cambiarlo si los usuarios dependían del comportamiento anterior?
-
-La solicitud de cambio provino de los usuarios. Se creía que, si una consulta realiza agrupaciones, debería incluirse un `by=` explícito para facilitar la lectura del código. Se proporcionó una opción para restablecer el comportamiento anterior: `options(datatable.old.bywithoutby)`, con `FALSE` por defecto. Esto permitió la actualización para probar las demás nuevas funciones y correcciones de errores de la v1.9.4, y la posterior migración de cualquier consulta `by-without-by` cuando estuviera lista, añadiéndoles `by=.EACHI`. Conservamos 47 pruebas previas al cambio y las reintrodujimos como nuevas pruebas, con `options(datatable.old.bywithoutby=TRUE)`. Añadimos un mensaje de inicio sobre el cambio y cómo volver al comportamiento anterior. Tras un año, la opción quedó obsoleta con una advertencia al usarla. Tras dos años, se eliminó la opción para volver al comportamiento anterior.
-
-De los 66 paquetes en CRAN o Bioconductor que dependían de o importaban data.table al momento de la publicación de la v1.9.4 (ahora son más de 300), solo uno se vio afectado por el cambio. Esto podría deberse a que muchos paquetes no cuentan con pruebas exhaustivas, o simplemente a que la agrupación por cada fila en `i` no se usaba mucho en los paquetes posteriores. Siempre probamos la nueva versión con todos los paquetes dependientes antes del lanzamiento y coordinamos cualquier cambio con los responsables. Por lo tanto, esta versión fue bastante sencilla en ese sentido.
-
-Otra razón convincente para realizar el cambio fue que, anteriormente, no existía una forma eficiente de lograr lo que `X[Y, sum(foo*bar)]` hace ahora. Se debía escribir `X[Y][ , sum(foo*bar)]`. Esto no era óptimo porque `X[Y]` unía todas las columnas y las pasaba a la segunda consulta compuesta sin saber que solo se necesitaban `foo` y `bar`. Para solucionar este problema de eficiencia, se requería un esfuerzo de programación adicional: `X[Y, list(foo, bar)][ , sum(foo*bar)]`. El cambio a `by = .EACHI` ha simplificado esto al permitir que ambas consultas se expresen dentro de una única consulta `DT[...]` para mayor eficiencia.
-
-# Sintaxis general
-
-## ¿Cómo puedo evitar escribir una expresión `j` muy larga? Dijiste que debería usar la columna *nombres*, pero tengo muchas columnas.
-
-Al agrupar, la expresión `j` puede usar nombres de columna como variables, como ya sabe, pero también puede usar el símbolo reservado `.SD`, que hace referencia al **S**subconjunto de **D**ata.table** para cada grupo (excluyendo las columnas de agrupación). Por lo tanto, para sumar todas las columnas, simplemente se usa `DT[ , lapply(.SD, sum), by = grp]`. Puede parecer complicado, pero es rápido de escribir y de ejecutar. Tenga en cuenta que no es necesario crear una función anónima. El objeto `.SD` se implementa internamente de forma eficiente y es más eficiente que pasar un argumento a una función. Sin embargo, si el símbolo `.SD` aparece en `j`, data.table debe rellenar `.SD` por completo para cada grupo, incluso si `j` no lo usa del todo.
-
-Por lo tanto, no utilice, por ejemplo, `DT[ , sum(.SD[["sales"]]), by = grp]`. Esto funciona, pero es ineficiente y poco elegante. `DT[ , sum(sales), by = grp]` es lo que se pretendía, y podría ser cientos de veces más rápido. Si utiliza *todos* los datos en `.SD` para cada grupo (como en `DT[ , lapply(.SD, sum), by = grp]`), es un uso muy adecuado de `.SD`. Si utiliza *varias* columnas, pero no *todas*, puede combinar `.SD` con `.SDcols`; consulte `?data.table`.
-
-## ¿Por qué el valor predeterminado para `mult` ahora es `"all"`?
-
-En la v1.5.3, el valor predeterminado se cambió a `"all"`. Cuando `i` (o la clave de `i`, si la tiene) tiene menos columnas que la clave de `x`, `mult` ya estaba configurado automáticamente como `"all"`. Cambiar el valor predeterminado facilita y aclara esto para los usuarios, ya que se presentaba con bastante frecuencia.
-
-En versiones anteriores a la v1.3, `"all"` era más lento. Internamente, `"all"` se implementaba uniendo con `"first"` y luego desde cero con `"last"`. Tras esto, se realizaba una comparación entre ellos para determinar el intervalo de coincidencias en `x` para cada fila en `i`. Sin embargo, la mayoría de las veces, unimos filas individuales, donde `"first"`, `"last"` y `"all"` devuelven el mismo resultado. Preferimos el máximo rendimiento en la mayoría de los casos, por lo que el valor predeterminado elegido fue `"first"`. Al trabajar con una clave no única (generalmente una sola columna que contiene una variable de agrupación), `DT["A"]` devolvía la primera fila de ese grupo, por lo que se necesitaba `DT["A", mult = "all"]` para devolver todas las filas de ese grupo.
-
-En la v1.4, la búsqueda binaria en C se modificó para que se ramificara en el nivel más profundo para encontrar el primero y el último. Es probable que esta ramificación ocurra dentro de las mismas páginas finales de RAM, por lo que ya no debería haber una desventaja de velocidad al establecer `mult` como `"all"` por defecto. Advertimos que el valor predeterminado podría cambiar e implementamos el cambio en la v1.5.3.
-
-Una versión futura de data.table podría permitir distinguir entre una clave y una *clave única*. Internamente, `mult = "all"` funcionaría de forma similar a `mult = "first"` cuando todas las columnas de la clave de `x` estuvieran unidas y la clave de `x` fuera única. data.table necesitaría comprobaciones al insertar y actualizar para garantizar que se mantenga una clave única. Una ventaja de especificar una clave única sería que, además de mejorar el rendimiento, data.table garantizaría que no se insertaran duplicados.
-
-## Estoy usando `c()` en `j` y obtengo resultados extraños.
-
-Esta es una fuente común de confusión. En `data.frame` se suele usar, por ejemplo:
-
-```{r}
-DF = data.frame(x = 1:3, y = 4:6, z = 7:9)
-DF
-DF[ , c("y", "z")]
-```
-
-Que devuelve las dos columnas. En data.table, sabe que puede usar los nombres de las columnas directamente y podría intentar:
-
-```{r}
-DT = data.table(DF)
-DT[ , c(y, z)]
-```
-
-Pero esto devuelve un vector. Recuerde que la expresión `j` se evalúa en el entorno de `DT` y `c()` devuelve un vector. Si se requieren dos o más columnas, utilice `list()` o `.()` en su lugar:
-
-```{r}
-DT[ , .(y, z)]
-```
-
-`c()` también puede ser útil en una data.table, pero su comportamiento es diferente al de `[.data.frame`.
-
-## He creado una tabla compleja con muchas columnas. Quiero usarla como plantilla para una nueva tabla; es decir, crear una tabla sin filas, pero con los nombres y tipos de columna copiados de mi tabla. ¿Es fácil hacerlo?
-
-Sí. Si su tabla compleja se llama `DT`, intente `NEWDT = DT[0]`.
-
-## ¿Es un data.table nulo lo mismo que `DT[0]`?
-
-No. Por "data.table nulo" nos referimos al resultado de `data.table(NULL)` o `as.data.table(NULL)`; *es decir*,
-
-```{r}
-data.table(NULL)
-data.frame(NULL)
-as.data.table(NULL)
-as.data.frame(NULL)
-is.null(data.table(NULL))
-is.null(data.frame(NULL))
-```
-
-El objeto data.table|`frame` nulo es `NULL` con algunos atributos adjuntos, lo que significa que ya no es `NULL`. En R, solo `NULL` puro es `NULL`, como se prueba con `is.null()`. Al referirnos al objeto "data.table" nulo, usamos `null` en minúscula para distinguirlo de `NULL` en mayúscula. Para comprobar si el objeto data.table es nulo, use `length(DT) == 0` o `ncol(DT) == 0` (`length` es ligeramente más rápido, ya que es una función primitiva).
-
-Una data.table *vacía* (`DT[0]`) tiene una o más columnas, todas ellas vacías. Estas columnas vacías aún conservan nombres y tipos.
-
-```{r}
-DT = data.table(a = 1:3, b = c(4, 5, 6), d = c(7L,8L,9L))
-DT[0]
-sapply(DT[0], class)
-```
-
-## ¿Por qué se ha eliminado el alias `DT()`? {#DTremove1}
-
-`DT` se introdujo originalmente como contenedor para una lista de expresiones `j`. Dado que `DT` era un alias de data.table, era una forma práctica de gestionar el reciclaje silencioso en casos en que cada elemento de la lista `j` evaluaba con longitudes diferentes. Sin embargo, el alias era una de las razones por las que la agrupación era lenta.
-
-A partir de la v1.3, se deben pasar `list()` o `.()` al argumento `j`. Esto es mucho más rápido, especialmente cuando hay muchos grupos. Internamente, este cambio no fue trivial. El reciclaje de vectores ahora se realiza internamente, junto con otras mejoras de velocidad para la agrupación.
-
-## Pero mi código usa `j = DT(...)` y funciona. Las preguntas frecuentes anteriores indican que se ha eliminado `DT()`. {#DTremove2}
-
-Entonces estás usando una versión anterior a la 1.5.3. Antes de la 1.5.3, `[.data.table` detectaba el uso de `DT()` en `j` y lo reemplazaba automáticamente con una llamada a `list()`. Esto facilitaba la transición para los usuarios existentes.
-
-## ¿Cuáles son las reglas de alcance para las expresiones 'j'?
-
-Piense en el subconjunto como un entorno donde todos los nombres de columna son variables. Cuando se utiliza la variable `foo` en la `j` de una consulta como `X[Y, sum(foo)]`, se busca `foo` en el siguiente orden:
-
- 1. El alcance del subconjunto de `X`; *es decir*, los nombres de las columnas de `X`.
- 2. El alcance de cada fila de `Y`; *es decir*, los nombres de las columnas de `Y` (*unir el alcance heredado*)
- 3. El alcance del marco de llamada; *por ejemplo*, la línea que aparece antes de la consulta data.table.
- 4. Ejercicio para el lector: ¿luego navega los marcos de llamada o va directamente a `globalenv()`?
- 5. El entorno global
-
-Esto es *alcance léxico*, como se explica en [R FAQ 3.3.1](https://cran.r-project.org/doc/FAQ/R-FAQ.html#Lexical-scoping). Sin embargo, el entorno en el que se creó la función no es relevante, ya que *no hay función*. No se pasa ninguna *función* anónima a `j`. En su lugar, se pasa un *cuerpo* anónimo a `j`; por ejemplo,
-
-```{r}
-DT = data.table(x = rep(c("a", "b"), c(2, 3)), y = 1:5)
-DT
-DT[ , {z = sum(y); z + 3}, by = x]
-```
-
-Algunos lenguajes de programación llaman a esto un *lambda*.
-
-## ¿Puedo rastrear la expresión 'j' a medida que se ejecuta a través de los grupos? {#j-trace}
-
-Pruebe algo como esto:
-
-```{r}
-DT[ , {
-  cat("Objects:", paste(objects(), collapse = ","), "\n")
-  cat("Trace: x=", as.character(x), " y=", y, "\n")
-  sum(y)},
-  by = x]
-```
-
-## Dentro de cada grupo, ¿por qué las variables del grupo tienen una longitud de 1?
-
-[Arriba](#j-trace), `x` es una variable de agrupación y (a partir de la v1.6.1) tiene `length` 1 (si se inspecciona o se usa en `j`). Esto se hace por eficiencia y conveniencia. Por lo tanto, no hay diferencia entre las dos siguientes afirmaciones:
-
-```{r}
-DT[ , .(g = 1, h = 2, i = 3, j = 4, repeatgroupname = x, sum(y)), by = x]
-DT[ , .(g = 1, h = 2, i = 3, j = 4, repeatgroupname = x[1], sum(y)), by = x]
-```
-
-Si necesita el tamaño del grupo actual, utilice `.N` en lugar de llamar a `length()` en cualquier columna.
-
-## Solo se imprimen las primeras 10 filas, ¿cómo imprimo más?
-
-Aquí ocurren dos cosas. Primero, si el número de filas en una tabla data.table es grande (`> 100` por defecto), se imprime un resumen de la tabla en la consola por defecto. Segundo, el resumen de una tabla data.table grande se imprime tomando las `n` filas superiores e inferiores (`= 5` por defecto) de la tabla data.table e imprimiendo solo esas. Ambos parámetros (cuándo activar un resumen y qué parte de la tabla usar como resumen) se pueden configurar mediante el mecanismo `options` de R o llamando directamente a la función `print`.
-
-Por ejemplo, para que el resumen de una tabla data.table solo se realice cuando esta tenga más de 50 filas, podría usar `options(datatable.print.nrows = 50)`. Para deshabilitar el resumen predeterminado por completo, podría usar `options(datatable.print.nrows = Inf)`. También podría llamar a `print` directamente, como en `print(your.data.table, nrows = Inf)`.
-
-Si desea mostrar más de las 10 filas superiores (e inferiores) de un resumen de data.table (digamos que prefiere 20), configure `options(datatable.print.topn = 20)`, por ejemplo. También puede llamar a `print` directamente, como en `print(your.data.table, topn = 20)`.
-
-## Con una unión `X[Y]`, ¿qué pasa si `X` contiene una columna llamada `"Y"`?
-
-Cuando `i` es un nombre único, como `Y`, se evalúa en el marco de llamada. En todos los demás casos, como las llamadas a `.()` u otras expresiones, `i` se evalúa dentro del ámbito de `X`. Esto facilita las autouniones sencillas, como `X[J(unique(colA)), mult = "first"]`.
-
-## `X[Z[Y]]` falla porque `X` contiene una columna `"Y"`. Me gustaría usar la tabla `Y` en el ámbito de llamada.
-
-La parte `Z[Y]` no es un nombre único, por lo que se evalúa dentro del marco de `X` y surge el problema. Pruebe `tmp = Z[Y]; X[tmp]`. Esto es robusto para `X` que contiene una columna `"tmp"`, ya que `tmp` es un nombre único. Si se encuentran conflictos de este tipo con frecuencia, una solución sencilla podría ser nombrar todas las tablas en mayúsculas y todos los nombres de las columnas en minúsculas, o algún esquema similar.
-
-## ¿Puedes explicar con más detalle por qué data.table está inspirado en la sintaxis 'A[B]' en 'base'?
-
-Considere la sintaxis `A[B]` usando una matriz de ejemplo `A`:
-
-```{r}
-A = matrix(1:12, nrow = 4)
-A
-```
-
-Para obtener las celdas `(1, 2) = 5` y `(3, 3) = 11` muchos usuarios (creemos) pueden intentar esto primero:
-
-```{r}
-A[c(1, 3), c(2, 3)]
-```
-
-Sin embargo, esto devuelve la unión de esas filas y columnas. Para referenciar las celdas, se requiere una matriz de dos columnas. `?Extract` dice:
-
-> Al indexar matrices mediante `[`, un único argumento `i` puede ser una matriz con tantas columnas como dimensiones de `x`; el resultado es entonces un vector con elementos correspondientes a los conjuntos de índices en cada fila de `i`.
-
-Vamos a intentarlo de nuevo.
-
-```{r}
-B = cbind(c(1, 3), c(2, 3))
-B
-A[B]
-```
-
-Una matriz es una estructura bidimensional con nombres de filas y columnas. ¿Podemos hacer lo mismo con los nombres?
-
-```{r}
-rownames(A) = letters[1:4]
-colnames(A) = LETTERS[1:3]
-A
-B = cbind(c("a", "c"), c("B", "C"))
-A[B]
-```
-
-Sí, podemos. ¿Podemos hacer lo mismo con un data.frame?
-
-```{r}
-A = data.frame(A = 1:4, B = letters[11:14], C = pi*1:4)
-rownames(A) = letters[1:4]
-A
-B
-A[B]
-```
-
-Pero, observe que el resultado se convirtió a `character`. R convirtió `A` a `matrix` primero para que la sintaxis funcionara, pero el resultado no es ideal. Intentemos convertir `B` en `data.frame`.
-
-```{r}
-B = data.frame(c("a", "c"), c("B", "C"))
-cat(try(A[B], silent = TRUE))
-```
-
-Por lo tanto, no podemos filtrar un `data.frame` con otro `data.frame` en R base. ¿Qué sucede si queremos nombres de fila y de columna que no sean `character`, sino `entero` o `float`? ¿Qué sucede si queremos más de dos dimensiones de tipos mixtos? Introduzcamos data.table.
-
-Más aún, las matrices, en especial las dispersas, suelen almacenarse en una tupla de tres columnas: `(i, j, valor)`. Esto puede considerarse como un par clave-valor donde `i` y `j` forman una clave de dos columnas. Si tenemos más de un valor, quizás de diferentes tipos, podría ser `(i, j, val1, val2, val3, ...)`. Esto se parece mucho a un `data.frame`. Por lo tanto, data.table extiende `data.frame`, de modo que un `data.frame` `X` puede ser «filtrado» por un `data.frame` `Y`, lo que da lugar a la sintaxis `X[Y]`.
-
-## ¿Se puede cambiar R base para que haga esto, en lugar de un nuevo paquete?
-
-`data.frame` se usa *en todas partes*, por lo que es muy difícil modificarlo. data.table *hereda* de `data.frame`. También *es* un `data.frame`. Un data.table *puede* pasarse a cualquier paquete que *solo* acepte `data.frame`. Cuando ese paquete usa la sintaxis `[.data.frame` en el data.table, funciona. Esto se debe a que `[.data.table` verifica desde dónde se llamó. Si se llamó desde dicho paquete, `[.data.table` desvía a `[.data.frame`.
-
-## He oído que la sintaxis data.table es análoga a SQL.
-
-Sí:
-
- - `i` $\Leftrightarrow$ donde
- - `j` $\Leftrightarrow$ select
- - `:=` $\Leftrightarrow$ actualizar
- - `por` $\Leftrightarrow$ group by
- - `i` $\Leftrightarrow$ order by (en sintaxis compuesta)
- - `i` $\Leftrightarrow$ having (en sintaxis compuesta)
- - `nomatch = NA` $\Leftrightarrow$ outer join
- - `nomatch = NULL` $\Leftrightarrow$ inner join
- - `mult = "first"|"last"` $\Leftrightarrow$ N/A porque SQL es inherentemente desordenado
- - `roll = TRUE` $\Leftrightarrow$ N/A porque SQL es inherentemente desordenado
-
-La forma general es:
-
-```r
-DT[where, select|update, group by][order by][...] ... [...]
-```
-
-Una ventaja clave de los vectores columna en R es que están *ordenados*, a diferencia de SQL[^2]. Podemos usar funciones ordenadas en consultas `data.table`, como `diff()`, y cualquier función de R de cualquier paquete, no solo las definidas en SQL. Una desventaja es que los objetos de R deben caber en memoria; sin embargo, con varios paquetes de R como `ff`, `bigmemory`, `mmap` e `indexing`, esto está cambiando.
-
-[^2]: Puede resultar sorprendente saber que `select top 10 * from ...` no devuelve las mismas filas de forma fiable a lo largo del tiempo en SQL. Es necesario incluir una cláusula `order by` o usar un índice agrupado para garantizar el orden de las filas; es decir, SQL es inherentemente desordenado.
-
-## ¿Cuáles son las diferencias de sintaxis más pequeñas entre `data.frame` y data.table {#SmallerDiffs}?
-
- - `DT[3]` se refiere a la 3ra *fila*, pero `DF[3]` se refiere a la 3ra *columna*
- - `DT[3, ] == DT[3]`, pero `DF[ , 3] == DF[3]` (de manera algo confusa en data.frame, mientras que data.table es consistente)
- - Por esta razón decimos que la coma es *opcional* en `DT`, pero no opcional en `DF`
- - `DT[[3]] == DF[, 3] == DF[[3]]`
- - `DT[i, ]`, donde `i` es un entero único, devuelve una sola fila, al igual que `DF[i, ]`, pero a diferencia de un filtro de de matriz de una sola fila, que devuelve un vector.
- - `DT[ , j]` donde `j` es un entero único, devuelve un data.table de una columna, a diferencia de `DF[, j]` que devuelve un vector de manera predeterminada
- - `DT[ , "colA"][[1]] == DF[ , "colA"]`.
- - `DT[ , colA] == DF[ , "colA"]` (actualmente en data.table v1.9.8 pero está a punto de cambiar, consulte las notas de la versión)
- - `DT[ , list(colA)] == DF[ , "colA", drop = FALSE]`
- - `DT[NA]` devuelve 1 fila de `NA`, pero `DF[NA]` devuelve una copia completa de `DF` que contiene `NA` en todas partes. El símbolo «NA» es de tipo «lógico» en R y, por lo tanto, se recicla mediante «[.data.frame». La intención del usuario probablemente era «DF[NA_integer_]». `[.data.table` desvía a esta probable intención automáticamente, por conveniencia.
- - `DT[c(TRUE, NA, FALSE)]` trata el `NA` como `FALSE`, pero `DF[c(TRUE, NA, FALSE)]` devuelve `NA` filas para cada `NA` - `DT[ColA == ColB]` es más simple que `DF[!is.na(ColA) & !is.na(ColB) & ColA == ColB, ]`
- - `data.frame(list(1:2, "k", 1:4))` crea 3 columnas, data.table crea una columna `list`.
- - `check.names` es por defecto `TRUE` en `data.frame` pero `FALSE` en data.table, por conveniencia.
- - `data.table` siempre ha establecido `stringsAsFactors=FALSE` por defecto. En R 4.0.0 (abril de 2020), el valor predeterminado de `data.frame` se cambió de `TRUE` a `FALSE` y ya no existe diferencia en este aspecto. - Los vectores atómicos en las columnas `list` se contraen cuando se imprimen usando `", "` en `data.frame`, pero `","` en data.table con una coma final después del sexto elemento para evitar la impresión accidental de objetos incrustados grandes.
- - A diferencia de data.frames, un data.table no puede almacenar filas sin columnas, ya que las filas se consideran hijas de las columnas: `nrow(DF[, 0])` devuelve el número de filas, mientras que `nrow(DT[, 0])` siempre devuelve 0; pero vea el problema [#2422](https://github.com/Rdatatable/data.table/issues/2422).
-
-En `[.data.frame`, solemos configurar `drop = FALSE`. Si nos olvidamos, pueden surgir errores en casos extremos donde se seleccionan columnas individuales y, de repente, se devuelve un vector en lugar de una sola columna `data.frame`. En `[.data.table`, aprovechamos la oportunidad para hacerlo consistente y eliminamos `drop`.
-
-Cuando se pasa un data.table a un paquete que no lo tiene en cuenta, ese paquete no se preocupa por ninguna de estas diferencias; simplemente funciona.
-
-## Estoy usando `j` solo por su efecto secundario, pero sigo obteniendo datos. ¿Cómo puedo detenerlo?
-
-En este caso, `j` se puede envolver con `invisible()`; por ejemplo, `DT[ , invisible(hist(colB)), by = colA]`[^3]
-
-[^3]: *por ejemplo*, `hist()` devuelve los puntos de interrupción además de trazar en el dispositivo gráfico.
-
-## ¿Por qué `[.data.table` ahora tiene un argumento `drop` desde v1.5?
-
-Para que data.table pueda heredar de `data.frame` sin usar `...`. Si usáramos `...`, no se detectarían los nombres de argumentos no válidos.
-
-El argumento `drop` nunca se utiliza en `[.data.table`. Es un marcador de posición para paquetes que no son compatibles con data.table cuando usan la sintaxis `[.data.frame` directamente en un data.table.
-
-## ¡Las uniones continuas son geniales y rapidísimas! ¿Fue difícil programarlas?
-
-La fila que prevalece en o antes de la fila `i` es la última fila que la búsqueda binaria prueba. Por lo tanto, `roll = TRUE` es básicamente un cambio en el código C de búsqueda binaria para devolver esa fila.
-
-## ¿Por qué `DT[i, col := value]` devuelve `DT` completo? Esperaba que no hubiera ningún valor visible (consistente con `<-`), o un mensaje o valor de retorno que indicara cuántas filas se actualizaron. No es evidente que los datos se hayan actualizado por referencia.
-
-Esto ha cambiado en la v1.8.3 para cumplir con sus expectativas. Actualice.
-
-Se devuelve la totalidad de `DT` (ahora de forma invisible) para que la sintaxis compuesta funcione; p. ej., `DT[i, done := TRUE][ , sum(done)]`. El número de filas actualizadas se devuelve cuando `verbose` es `TRUE`, ya sea por consulta o globalmente mediante `options(datatable.verbose = TRUE)`.
-
-## Bien, gracias. ¿Qué tenía de difícil que el resultado de `DT[i, col := valor]` se devolviera de forma invisible?
-
-R activa internamente la visibilidad para `[`. El valor de la columna eval de FunTab (ver [src/main/names.c](https://github.com/wch/r-source/blob/trunk/src/main/names.c)) para `[` es `0`, lo que significa que se activa `R_Visible` (ver [R-Internals sección 1.6](https://cran.r-project.org/doc/manuals/r-release/R-ints.html#Autoprinting)). Por lo tanto, al intentar `invisible()` o configurar `R_Visible` a `0` directamente, `eval` en [src/main/eval.c](https://github.com/wch/r-source/blob/trunk/src/main/eval.c) lo activaba de nuevo.
-
-Para solucionar este problema, la clave fue dejar de intentar detener la ejecución del método de impresión después de un `:=`. En su lugar, dentro de `:=` ahora (a partir de la v1.8.3) configuramos un indicador global que el método de impresión usa para determinar si imprimir o no.
-
-## ¿Por qué a veces tengo que escribir 'DT' dos veces después de usar ':=' para imprimir el resultado en la consola?
-
-Esta es una desventaja desafortunada para que [#869](https://github.com/Rdatatable/data.table/issues/869) funcione. Si se usa un `:=` dentro de una función sin `DT[]` antes del final de la función, la próxima vez que se escriba `DT` en el prompt, no se imprimirá nada. Un `DT` repetido se imprimirá. Para evitar esto: incluya un `DT[]` después del último `:=` en su función. Si eso no es posible (por ejemplo, no es una función que pueda cambiar), se garantiza que `print(DT)` y `DT[]` en el prompt se imprimirán. Como antes, agregar un `[]` adicional al final de la consulta `:=` es un modismo recomendado para actualizar y luego imprimir; por ejemplo, `DT[,foo:=3L][]`.
-
-## He observado que `base::cbind.data.frame` (y `base::rbind.data.frame`) parecen ser modificados por data.table. ¿Cómo es posible? ¿Por qué?
-
-Era una solución temporal de último recurso antes de que se corrigiera la resolución de métodos S3 de rbind y cbind en R >= 4.0.0. En esencia, el problema residía en que `data.table` hereda de `data.frame`, *y* `base::cbind` y `base::rbind` (de forma única) realizan su propia resolución S3 internamente, como se documenta en `?cbind`. La solución alternativa para `data.table` consistía en añadir un bucle `for` al inicio de cada función directamente en `base`. Esta modificación se realizaba dinámicamente; es decir, se obtuvo la definición `base` de `cbind.data.frame`, se añadía el bucle `for` al inicio y luego se volvía a asignar a `base`. Esta solución se diseñó para ser robusta ante varias definiciones de `base::cbind.data.frame` en diferentes versiones de R, incluyendo cambios futuros desconocidos. Funcionó correctamente. Los requisitos en conflicto eran:
-
- - `cbind(DT, DF)` debe funcionar. La definición de `cbind.data.table` no funcionaba porque `base::cbind` realizaba su propia resolución S3 y requería (antes de R 4.0.0) que el *primer* método `cbind` para cada objeto que se le pasa fuera *idéntico*. Esto no se cumple en `cbind(DT, DF)`, ya que el primer método para `DT` es `cbind.data.table`, pero el primer método para `DF` es `cbind.data.frame`. `base::cbind` entonces fallaba en su código interno `bind`, que parece tratar `DT` como una `lista` normal y devuelve una salida `matrix` de aspecto extraño e inutilizable. Véase [a continuación](#cbinderror). No podemos simplemente aconsejar a los usuarios que no llamen a `cbind(DT, DF)` porque paquetes como `ggplot2` hacen dicha llamada ([prueba 167.2](https://github.com/Rdatatable/data.table/blob/master/inst/tests/tests.Rraw#L444-L447)).
-
- - Esto, naturalmente, llevó a intentar enmascarar `cbind.data.frame`. Dado que un data.table es un `data.frame`, `cbind` encontraría el mismo método para `DT` y `DF`. Sin embargo, esto tampoco funcionó porque `base::cbind` parece encontrar primero los métodos en `base`; *es decir*, `base::cbind.data.frame` no es enmascarable.
-
- - Finalmente, intentamos enmascarar `cbind` (v1.6.5 y v1.6.6). Esto permitió que `cbind(DT, DF)` funcionara, pero introdujo problemas de compatibilidad con el paquete `IRanges`, ya que `IRanges` también enmascara `cbind`. Funcionaba si `IRanges` estaba en una posición inferior a data.table en la ruta `search()`, pero si `IRanges` estaba en una posición superior a data.table, `cbind` nunca se llamaría y la salida de `matrix`, de aspecto extraño, volvía a aparecer (ver [abajo](#cbinderror)).
-
-Muchas gracias al equipo central de R por solucionar el problema en septiembre de 2019. data.table v1.12.6+ ya no aplica la solución alternativa en R >= 4.0.0.
-
-## He leído sobre la resolución de métodos (p. ej., "merge" puede o no derivar a "merge.data.table"), pero ¿cómo sabe R cómo derivar? ¿Son los puntos significativos o especiales? ¿Cómo sabe R a qué función resolver y cuándo? {#r-dispatch}
-
-Esto se menciona con frecuencia, pero es increíblemente simple. Una función como `merge` es *genérica* si consiste en una llamada a `UseMethod`. Cuando se habla de si las funciones son o no *genéricas*, simplemente se escribe la función sin `()` después, se revisa el código del programa que contiene y si ven una llamada a `UseMethod`, entonces es *genérica*. ¿Qué hace `UseMethod`? Literalmente, combina el nombre de la función con la clase del primer argumento, separados por un punto (`.`) y luego llama a esa función, pasando los mismos argumentos. Así de simple. Por ejemplo, `merge(X, Y)` contiene una llamada a `UseMethod`, lo que significa que luego *despacha* (es decir, llama) a `paste("merge", class(X), sep = ".")`. Las funciones con puntos en su nombre pueden ser métodos o no. El punto es irrelevante, salvo que sea el separador que usa `UseMethod`. Conocer estos antecedentes debería ayudar a comprender por qué, por ejemplo, es obvio para los usuarios de R que `as.data.table.data.frame` es el método `data.frame` de la función genérica `as.data.table`. Además, puede ser útil aclarar que, sí, tienes razón, su nombre no indica que `ls.fit` no sea el método de ajuste de la función genérica `ls`. Solo se sabe escribiendo `ls` (no `ls()`) y observando que no se trata de una sola llamada a `UseMethod`.
-
-Quizás te preguntes: ¿dónde está documentado esto en R? Respuesta: Está bastante claro, pero primero debe saber que debe buscar en `?UseMethod` y *ese* archivo de ayuda contiene:
-
-> Cuando se aplica una función que llama a `UseMethod('fun')` a un objeto con el atributo de clase `c('first', 'second')`, el sistema busca una función llamada `fun.first` y, si la encuentra, la aplica al objeto. Si no se encuentra dicha función, se prueba con una función llamada `fun.second`. Si ningún nombre de clase produce una función adecuada, se utiliza la función `fun.default`, si existe, o se produce un error.
-
-Afortunadamente, una búsqueda en internet de "How does R method dispatch work" (N. de T.:"¿Cómo funciona el despacho de métodos en R?"), al momento de escribir esto muestra la página de ayuda "UseMethod" entre los primeros enlaces. Es cierto que otros enlaces profundizan rápidamente en las complejidades de S3 vs. S4, genéricos internos, etc.
-
-Sin embargo, características como el despacho básico de S3 (pegar el nombre de la función junto con el de la clase) son la razón por la que a algunos usuarios de R les encanta. Es muy simple. No se requieren registros ni firmas complejas. No hay mucho que aprender. Para crear el método `merge` para data.table, literalmente, solo se necesitó crear una función llamada `merge.data.table`.
-
-## ¿Por qué `T` y `F` se comportan de manera diferente a `TRUE` y `FALSE` en algunas consultas `data.table`?
-
-Usar `T` y `F` como abreviaturas de `TRUE` y `FALSE` en `data.table` puede provocar un comportamiento inesperado. Esto se debe a que `T` y `F` son variables globales redefinibles, lo que hace que se traten como nombres de variable en lugar de constantes lógicas. Este problema no ocurre con `TRUE` y `FALSE`. Se recomienda evitar `T` y `F` para usar R en general, pero se presenta en `data.table` de maneras sorprendentes, por ejemplo:
-
-```r
-DT <- data.table(x=rep(c("a", "b", "c"), each = 3), y=c(1, 3, 6), v=1:9)
-
-# Using TRUE/FALSE works as expected in cases like the ones below:
-
-DT[, .SD, .SDcols=c(TRUE, TRUE, FALSE)]
-# A) This selects the first two columns (x and y) and excludes the third one (v). Output:
-#>    x y
-#> 1: a 1
-#> 2: a 3
-#> 3: a 6
-#> 4: b 1
-#> 5: b 3
-#> 6: b 6
-#> 7: c 1
-#> 8: c 3
-#> 9: c 6
-
-DT[, .SD, .SDcols=c(T, T, F), with=FALSE]
-# B) This forces data.table to treat T/F as logical constants.
-# Same output as DT[, .SD, .SDcols=c(TRUE, TRUE, FALSE)]
-
-# But, using T/F may lead to unexpected behavior in cases like:
-
-DT[, .SD, .SDcols=c(T, T, F)]
-# data.table treats T and F as variable names here, not logical constants. Output:
-#> Detected that j uses these columns: <none>
-#> [1]  TRUE  TRUE FALSE
-```
-
-Como consejo general, `lintr::T_and_F_symbol_linter()` detecta el uso de `T` y `F` y sugiere reemplazarlos con `TRUE` y `FALSE` para evitar tales problemas.
-
-# Preguntas relacionadas con el tiempo de cómputo
-
-## Tengo 20 columnas y muchas filas. ¿Por qué una expresión de una sola columna es tan rápida?
-
-Varias razones:
-
- - Solo se agrupa esa columna; las otras 19 se ignoran porque data.table inspecciona la expresión `j` y detecta que no utiliza las demás columnas.
- - Se realiza una asignación de memoria solo para el grupo más grande, y luego esa memoria se reutiliza para los demás grupos. Hay muy poca basura que recolectar.
- - R es un almacén de columnas en memoria; es decir, las columnas son contiguas en la RAM. Se minimiza la recuperación de páginas de la RAM a la caché L2.
-
-## No tengo una clave en una tabla grande, pero aun así la agrupación es muy rápida. ¿Por qué?
-
-data.table utiliza ordenamiento *radix*. Esto es significativamente más rápido que otros algoritmos de ordenamiento. Para más información, consulte [nuestras presentaciones](https://github.com/Rdatatable/data.table/wiki/Presentations), en particular las de useR!2015 Dinamarca.
-
-Esta es también una razón por la que `setkey()` es rápido.
-
-Cuando no se establece ninguna `clave`, o agrupamos en un orden diferente al de la clave, lo llamamos un `por` *ad hoc*.
-
-## ¿Por qué la agrupación por columnas en la clave es más rápida que un `por` *ad hoc*?
-
-Debido a que cada grupo es contiguo en RAM, se minimizan las búsquedas de páginas y la memoria se puede copiar en masa (`memcpy` en C) en lugar de realizar un bucle en C.
-
-## ¿Qué son los índices primarios y secundarios en data.table?
-
-Manual: [`?setkey`](https://www.rdocumentation.org/packages/data.table/functions/setkey) SO: [¿Cuál es el propósito de establecer una clave en data.table?](https://stackoverflow.com/questions/20039335/what-is-the-purpose-of-setting-a-key-in-data-table/20057411#20057411)
-
-`setkey(DT, col1, col2)` ordena las filas por la columna `col1` y, dentro de cada grupo de `col1`, las ordena por `col2`. Este es un *índice primario*. El orden de las filas se modifica *por referencia* en la RAM. Las uniones y agrupaciones posteriores en esas columnas clave aprovechan el orden de ordenación para mayor eficiencia. (Imagine lo difícil que sería buscar un número de teléfono en una guía telefónica impresa si no estuviera ordenado por apellido y nombre. Eso es literalmente todo lo que hace `setkey`: ordena las filas por las columnas que especifique). El índice no utiliza RAM. Simplemente modifica el orden de las filas en la RAM y marca las columnas clave. Análogo a un *índice agrupado* en SQL.
-
-Sin embargo, solo puede tener una clave principal porque los datos solo se pueden ordenar físicamente en RAM de una manera a la vez. Elija el índice principal para que sea el que use con más frecuencia (por ejemplo, `[id,date]`). A veces no hay una elección obvia para la clave principal o necesita unir y agrupar muchas columnas diferentes en diferentes órdenes. Ingrese un índice secundario. Esto usa memoria (`4*nrow` bytes independientemente del número de columnas en el índice) para almacenar el orden de las filas por las columnas que especifique, pero en realidad no reordena las filas en RAM. Las uniones y grupos posteriores aprovechan el orden de la clave secundaria, pero necesitan *saltar* a través de ese índice, por lo que no son tan eficientes como los índices primarios. Pero aún así, mucho más rápido que un escaneo vectorial completo. No hay límite para el número de índices secundarios, ya que cada uno es solo un vector de ordenación diferente. Normalmente no necesita crear índices secundarios. Se crean automáticamente y se usan automáticamente para usted usando data.table normalmente; *p. ej.* `DT[someCol == someVal, ]` y `DT[someCol %in% someVals, ]` crearán, adjuntarán y usarán el índice secundario. Esto es más rápido en data.table que un escaneo vectorial, por lo que la indexación automática está activada por defecto, ya que no hay penalización inicial. Existe una opción para desactivar la indexación automática; *p. ej.*, si se crean muchos índices e incluso la relativamente pequeña cantidad de memoria adicional resulta excesiva.
-
-Usamos las palabras *índice* y *clave* indistintamente.
-
-# Mensajes de error
-
-## "No se pudo encontrar la función `DT`"
-
-Ver arriba [aquí](#DTremove1) y [aquí](#DTremove2).
-
-## "argumentos no utilizados (`MySum = sum(v)`)"
-
-Este error es generado por `DT[ , MySum = sum(v)]`. Se pretendía `DT[ , .(MySum = sum(v))]`, o `DT[ , j = .(MySum = sum(v))]`.
-
-## "`translateCharUTF8` debe llamarse en un `CHARSXP`"
-
-Este error (y otros similares, por ejemplo, "`getCharCE` debe llamarse en un `CHARSXP`") podría no tener nada que ver con los datos de caracteres ni con la configuración regional. En realidad, podría ser un síntoma de una corrupción de memoria previa. Hasta la fecha, estos errores se han podido reproducir y se han solucionado rápidamente. Por favor, repórtelo a nuestro [rastreador de problemas](https://github.com/Rdatatable/data.table/issues).
-
-## `cbind(DT, DF)` devuelve un formato extraño, *por ejemplo* `Integer,5` {#cbinderror}
-
-Esto también ocurre antes de la v1.6.5, con `rbind(DT, DF)`. Actualice a la v1.6.7 o posterior.
-
-## "no se puede cambiar el valor del enlace bloqueado para `.SD`"
-
-`.SD` está bloqueado por diseño. Consulte `?data.table`. Si desea manipular `.SD` antes de usarlo o devolverlo, y no desea modificar `DT` con `:=`, primero haga una copia (consulte `?copy`), por ejemplo:
-
-```{r}
-DT = data.table(a = rep(1:3, 1:3), b = 1:6, c = 7:12)
-DT
-DT[ , { mySD = copy(.SD)
-      mySD[1, b := 99L]
-      mySD},
-    by = a]
-```
-
-## "no se puede cambiar el valor del enlace bloqueado para `.N`"
-
-Actualice a la versión 1.8.1 o posterior. A partir de esta versión, si `.N` se devuelve mediante `j`, se renombra como `N` para evitar ambigüedades en cualquier agrupación posterior entre la variable especial `.N` y una columna llamada `".N"`.
-
-El comportamiento anterior se puede reproducir forzando a que `.N` se llame `.N`, de la siguiente manera:
-
-```{r}
-DT = data.table(a = c(1,1,2,2,2), b = c(1,2,2,2,1))
-DT
-DT[ , list(.N = .N), list(a, b)]   # show intermediate result for exposition
-cat(try(
-    DT[ , list(.N = .N), by = list(a, b)][ , unique(.N), by = a]   # compound query more typical
-, silent = TRUE))
-```
-
-Si ya está ejecutando v1.8.1 o posterior, entonces el mensaje de error ahora es más útil que el error "no se puede cambiar el valor del enlace bloqueado", como puede ver arriba, ya que esta viñeta se produjo usando v1.8.1 o posterior.
-
-Ahora funciona la sintaxis más natural:
-
-```{r}
-if (packageVersion("data.table") >= "1.8.1") {
-    DT[ , .N, by = list(a, b)][ , unique(N), by = a]
-  }
-if (packageVersion("data.table") >= "1.9.3") {
-    DT[ , .N, by = .(a, b)][ , unique(N), by = a]   # same
-}
-```
-
-# Mensajes de advertencia
-
-## "Los siguientes objetos están enmascarados de `paquete:base`: `cbind`, `rbind`"
-
-Esta advertencia solo aparecía en las versiones 1.6.5 y 1.6.6 al cargar el paquete. El objetivo era permitir que `cbind(DT, DF)` funcionara, pero resultó que esto interrumpía la compatibilidad total con el paquete `IRanges`. Actualice a la versión 1.6.7 o posterior.
-
-## "Se convirtió el RHS numérico a entero para que coincida con el tipo de la columna"
-
-Espero que esto se explique por sí solo. El mensaje completo es:
-
-Se ha convertido el RHS numérico a entero para que coincida con el tipo de la columna; puede tener precisión truncada. Cambie la columna a numérica primero creando un nuevo vector numérico de longitud 5 (n filas de toda la tabla) y asignándolo (es decir, "reemplazar columna"), o convierta el RHS a entero (por ejemplo, 1L o as.integer) para aclarar su intención (y para mayor rapidez). O bien, configure el tipo de columna correctamente desde el principio al crear la tabla y manténgalo.
-
-Para generarlo, prueba:
-
-```{r}
-DT = data.table(a = 1:5, b = 1:5)
-suppressWarnings(
-DT[2, b := 6]         # works (slower) with warning
-)
-class(6)              # numeric not integer
-DT[2, b := 7L]        # works (faster) without warning
-class(7L)             # L makes it an integer
-DT[ , b := rnorm(5)]  # 'replace' integer column with a numeric column
-```
-
-## Lectura de data.table desde un archivo RDS o RData
-
-`*.RDS` y `*.RData` son tipos de archivo que permiten almacenar objetos R en memoria en disco de forma eficiente. Sin embargo, al almacenar `data.table` en un archivo binario, se pierde la sobreasignación de columnas (véase también `?truelength`). Esto no supone un gran problema: su `data.table` se copiará en memoria en la siguiente operación *por referencia* y generará una advertencia. Por lo tanto, se recomienda ejecutar `setDT()` en cada `data.table` cargado con `readRDS()` o `load()` para restaurar sus atributos internos. Si solo necesita preasignar espacio para nuevas columnas, también puede usar `setalloccol()`.
-
-Para obtener más detalles, consulte `?setDT` y `?truelength`.
-
-# Preguntas generales sobre el paquete
-
-## ¿Parece que la versión v1.3 falta en el archivo CRAN?
-
-Así es. La versión 1.3 solo estaba disponible en R-Forge. Se implementaron varios cambios importantes internamente, y las pruebas en desarrollo llevaron tiempo.
-
-## ¿Es data.table compatible con S-plus?
-
-No actualmente.
-
- - Algunas partes principales del paquete están escritas en C y utilizan funciones y estructuras internas de R.
- - El paquete utiliza alcance léxico, que es una de las diferencias entre R y **S-plus** explicadas en [R FAQ 3.3.1](https://cran.r-project.org/doc/FAQ/R-FAQ.html#Lexical-scoping)
-
-## ¿Está disponible para Linux, Mac y Windows?
-
-Sí, tanto para 32 bits como para 64 bits en todas las plataformas. Gracias a CRAN. No se utilizan bibliotecas especiales ni específicas del sistema operativo.
-
-## Me parece genial. ¿Qué puedo hacer?
-
-Envíe sugerencias, informes de errores y solicitudes de mejora a nuestro [seguimiento de problemas](https://github.com/Rdatatable/data.table/issues). Esto contribuye a mejorar el paquete.
-
-Por favor, marque el paquete con una estrella en [GitHub](https://github.com/Rdatatable/data.table). Esto anima a los desarrolladores y ayuda a otros usuarios de R a encontrarlo.
-
-Puede enviar solicitudes de extracción para cambiar el código y/o la documentación usted mismo; consulte nuestras [Pautas de contribución](https://github.com/Rdatatable/data.table/blob/master/.github/CONTRIBUTING.md).
-
-## No me parece bien. ¿Cómo puedo advertir a los demás sobre mi experiencia?
-
-Añadimos todos los artículos que conocemos (ya sean positivos o negativos) a la página [Artículos](https://github.com/Rdatatable/data.table/wiki/Articles). Todas las páginas de la wiki del proyecto en GitHub son de acceso abierto sin restricciones de modificación. Siéntase libre de escribir un artículo, enlazar a uno negativo que haya encontrado o añadir una nueva página a nuestra wiki para recopilar sus críticas. Por favor, que sea constructivo para que podamos mejorar.
-
-## Tengo una pregunta. Sé que la guía de publicación de r-help me indica que contacte al responsable (no a r-help), pero ¿hay algún grupo más amplio a quien pueda preguntar?
-
-Consulte la [guía de soporte](https://github.com/Rdatatable/data.table/wiki/Support) en la página de inicio del proyecto, que contiene enlaces actualizados.
-
-## ¿Dónde están los archivos de ayuda de datatable?
-
-La [página de inicio](https://github.com/Rdatatable/data.table/wiki) contiene enlaces a los archivos en varios formatos.
-
-## Preferiría no publicar en la página de Problemas, ¿puedo enviar un correo electrónico privado a una o dos personas?
-
-Claro. Sin embargo, es más probable que obtenga una respuesta más rápida en la página de Problemas o en Stack Overflow. Además, preguntar públicamente en esos lugares ayuda a ampliar la base de conocimientos general.
-
-## He creado un paquete que usa data.table. ¿Cómo puedo asegurarme de que mi paquete sea compatible con data.table para que la herencia de `data.frame` funcione?
-
-Consulte [esta respuesta](https://stackoverflow.com/a/10529888/403310).
-
-```{r, echo=FALSE}
-setDTthreads(.old.th)
-```
diff --git a/vignettes/es/datatable-fread-and-fwrite.Rmd b/vignettes/es/datatable-fread-and-fwrite.Rmd
deleted file mode 100644
index 539ca698cc..0000000000
--- a/vignettes/es/datatable-fread-and-fwrite.Rmd
+++ /dev/null
@@ -1,295 +0,0 @@
----
-title: "Lectura y escritura rápida: fread()/fwrite()"
-date: "`r Sys.Date()`"
-output: 
-  markdown::html_format
-vignette: >
-  %\VignetteIndexEntry{Fast Read and Fast Write}
-  %\VignetteEngine{litedown::vignette}
-  \usepackage[utf8]{inputenc}
----
-
-```{r echo=FALSE, file='../_translation_links.R'}
-```
-
-`r .write.translation.links("Las traducciones de este documento están disponibles en: %s")`
-
-```{r, echo = FALSE, message = FALSE}
-require(data.table)
-litedown::reactor(comment = "# ")
-.old.th = setDTthreads(1)
-```
-
-Las funciones `fread()` y `fwrite()` del paquete `data.table` de R no solo están optimizadas para la velocidad con archivos grandes, sino que también ofrecen funciones potentes y prácticas para trabajar con conjuntos de datos pequeños. Esta viñeta destaca su usabilidad, flexibilidad y rendimiento para una importación y exportación de datos eficiente.
-
-***
-
-## 1. fread()
-
-### **1.1 Uso directo de herramientas de línea de comandos**
-
-La función `fread()` de `data.table` puede leer datos canalizados desde comandos de shell, lo que le permite filtrar o preprocesar datos incluso antes de que ingresen a R.
-
-```{r}
-# Create a sample file with some unwanted lines
-writeLines(
-'HEADER: Some metadata
-HEADER: More metadata
-1 2.0 3.0
-2 4.5 6.7
-HEADER: Yet more
-3 8.9 0.1
-4 1.2 3.4',
-"example_data.txt")
-
-library(data.table)
-fread("grep -v HEADER example_data.txt")
-```
-
-La opción `-v` hace que `grep` devuelva todas las líneas excepto aquellas que contienen la cadena 'HEADER'.
-
-> Dada la cantidad de ingenieros de alto nivel que han analizado la herramienta de comandos grep a lo largo de los años, es muy probable que sea la más rápida posible, además de ser correcta, práctica, estar bien documentada en línea y ser fácil de aprender y de buscar soluciones para tareas específicas. Si necesita realizar un filtrado de cadenas más complejo (por ejemplo, buscar cadenas al principio o al final de las líneas), la sintaxis de grep es muy potente. Aprender su sintaxis es una habilidad transferible a otros lenguajes y entornos.
->
-> —Matt Dowle
-
-Mira este [ejemplo](https://stackoverflow.com/questions/36256706/fread-together-with-grepl/36270543#36270543) para obtener más detalles.
-
-En Windows, las herramientas de línea de comandos como `grep` están disponibles a través de diversos entornos, como Rtools, Cygwin o el Subsistema de Windows para Linux (WSL). En Linux y macOS, estas herramientas suelen estar incluidas en el sistema operativo.
-
-#### 1.1.1 Lectura directa de una cadena de texto
-
-`fread()` puede leer datos directamente de una cadena de caracteres en R usando el argumento `text`. Esto es especialmente útil para crear ejemplos reproducibles, probar fragmentos de código o trabajar con datos generados programáticamente en la sesión de R. Cada línea de la cadena debe estar separada por un carácter de nueva línea `\n`.
-
-```{r}
-my_data_string = "colA,colB,colC\n1,apple,TRUE\n2,banana,FALSE\n3,orange,TRUE"
-dt_from_text = fread(text = my_data_string)
-print(dt_from_text)
-```
-
-#### 1.1.2 Lectura desde URL
-
-`fread()` puede leer datos directamente de URLs web al pasar la URL como una cadena de caracteres a su argumento `file`. Esto permite descargar y leer datos de internet en un solo paso.
-
-```{r}
-# dt = fread("https://people.sc.fsu.edu/~jburkardt/data/csv/airtravel.csv")
-# print(dt)
-```
-
-#### 1.1.3 Descompresión automática de archivos comprimidos
-
-En muchos casos, `fread()` puede detectar y descomprimir automáticamente archivos con extensiones de compresión comunes, sin necesidad de un objeto de conexión explícito ni comandos de shell. Esto funciona comprobando la extensión del archivo.
-
-**Las extensiones compatibles generalmente incluyen:** 
-- `.gz` / `.bz2` (gzip / bzip2): Compatible y funciona de inmediato.
-- `.zip` / `.tar` (archivos ZIP / tar, archivo único): Compatible: `fread()` leerá el primer archivo del archivo si solo hay un archivo presente.
-
-**Nota**: Si hay varios archivos en el archivo, `fread()` fallará con un error.
-
-### 1.2 Separador automático y detección de saltos
-
-`fread` automatiza la detección de delimitadores y encabezados, eliminando la necesidad de especificar manualmente en la mayoría de los casos. Simplemente proporcione el nombre del archivo; `fread` detecta la estructura de forma inteligente:
-
-**Detección de separadores**
-
-`fread` prueba separadores comunes (`,`,`\t`, `|`, espacio, `:`, `;`) y selecciona el que genera el número más consistente de campos en las filas muestreadas. Para delimitadores no estándar, puede anular esto con el parámetro `sep=`.
-
-**Detección de encabezado**
-
-Después de aplicar cualquier configuración `skip` o `nrows` (si se especifica), se examina la primera fila con una cantidad constante de campos:
-
-Si todos los campos de esta línea son interpretables como caracteres y los valores no se parecen mucho a una fila de datos (por ejemplo, una fila de cadenas de apariencia puramente numérica aún podría considerarse datos), normalmente se utiliza como encabezado (nombres de columnas).
-
-De lo contrario (por ejemplo, si la línea contiene tipos numéricos detectados o cadenas de caracteres que se parecen mucho a números y podrían ser datos), se trata como una fila de datos y se asignan nombres de columna predeterminados (`V1`, `V2`, …).
-
-Puedes decirle explícitamente a fread si existe un encabezado usando `header = TRUE` o `header = FALSE`.
-
-**Detección de saltos**
-
-De forma predeterminada (`skip="auto"`), `fread` omitirá automáticamente las líneas en blanco y las líneas de comentario (p. ej., las que empiezan por `#`) antes del encabezado de datos. Para especificar manualmente un número diferente de líneas a omitir, utilice
-
-* `skip=n` para omitir las primeras `n` líneas.
-* `skip="string"` para buscar una línea que contenga una subcadena (normalmente de los nombres de columna, como `skip="Date"`). La lectura comienza en la primera línea coincidente. Esto es útil para omitir metadatos o seleccionar subtablas en archivos multitabla. Esta función está inspirada en la función `read.xls` del paquete `gdata`.
-
-### 1.3 Detección automática de tipo de columna de alta calidad
-
-Muchos conjuntos de datos reales contienen columnas que inicialmente están en blanco, se rellenan con ceros o parecen numéricas, pero luego contienen caracteres. Para gestionar estas inconsistencias, `fread()` emplea una robusta estrategia de detección de tipos de columna.
-
-Desde la versión 1.10.5, `fread()` muestrea filas leyendo bloques de filas contiguas desde varios puntos equidistantes del archivo, incluyendo el inicio, el centro y el final. El número total de filas muestreadas se selecciona dinámicamente en función del tamaño y la estructura del archivo, y suele rondar las 10 000, aunque puede ser menor o ligeramente mayor. Este amplio muestreo ayuda a detectar cambios de tipo que se producen posteriormente en los datos (por ejemplo, de `001` a `0A0` o espacios en blanco que se rellenan).
-
-**Acceso eficiente a archivos con mmap**
-
-Para implementar este muestreo eficientemente, `fread()` utiliza el acceso a archivos mapeados en memoria del sistema operativo (`mmap`), lo que le permite saltar a posiciones arbitrarias en el archivo sin necesidad de escaneo secuencial. Esta estrategia perezosa y bajo demanda hace que el muestreo sea casi instantáneo, incluso para archivos muy grandes.
-
-Si un salto cae dentro de un campo entre comillas que incluye nuevas líneas, `fread()` prueba las líneas subsiguientes hasta que encuentra 5 filas consecutivas con la cantidad esperada de campos, lo que garantiza un análisis correcto incluso en archivos complejos.
-
-**Detección de tipos precisa y optimizada**
-
-El tipo de cada columna se infiere en función del tipo requerido más bajo de la siguiente lista ordenada:
-
-`lógico` < `entero` < `entero64` < `doble` < `carácter`
-
-Esto garantiza:
-
-- Asignación única de memoria por adelantado utilizando el tipo correcto
-- Evita tener que volver a leer el archivo o configurar manualmente `colClasses`
-- Mayor velocidad y eficiencia de la memoria
-
-**Excepciones de tipo fuera de muestra**
-
-Si se produce un cambio de tipo fuera de las filas muestreadas, `fread()` lo detecta automáticamente y relee el archivo para garantizar la correcta asignación de tipo, sin necesidad de intervención del usuario. Por ejemplo, una columna muestreada como entero podría contener posteriormente `00A`, lo que activaría una relectura automática como carácter.
-
-Toda la lógica de detección y cualquier relectura se detallan cuando `verbose=TRUE` está habilitado.
-
-### 1.4 Detección temprana de errores al final del archivo
-
-Dado que la muestra grande incluye explícitamente el final del archivo, se pueden detectar y reportar casi al instante problemas críticos, como un número inconsistente de columnas, un pie de página incorrecto o una comilla inicial sin su comilla de cierre correspondiente. Esta detección temprana de errores evita la sobrecarga innecesaria de procesar todo el archivo o asignar memoria excesiva para luego encontrar un fallo en el paso final. Garantiza una retroalimentación más rápida y un uso más eficiente de los recursos, especialmente al trabajar con grandes conjuntos de datos.
-
-### 1.5 Compatibilidad con `integer64`
-
-De forma predeterminada, `fread` detecta enteros mayores que 2<sup>31</sup> y los lee como `bit64::integer64` para mantener la precisión total. Este comportamiento se puede anular de tres maneras:
-
-- Por columna: utilice el argumento `colClasses` para especificar el tipo de columnas individuales.
-
-- Por llamada: use el argumento `integer64` en `fread()` para establecer cómo se leen todas las columnas `integer64` detectadas.
-
-- Globalmente: Establezca la opción `datatable.integer64` en su sesión R o en el archivo `.Rprofile` para cambiar el comportamiento predeterminado para todas las llamadas fread.
-
-El argumento integer64 (y la opción correspondiente) acepta los siguientes valores:
-
-- `"integer64"` (predeterminado): lee números enteros grandes como `bit64::integer64` con total precisión.
-
-- `"double"` o `"numeric"`: lee números enteros grandes como números de doble precisión, perdiendo potencialmente la precisión de forma silenciosa (similar a `utils::read.csv` en base R).
-
-- `"carácter"`: Lee números enteros grandes como cadenas de caracteres.
-
-Para comprobar o establecer el valor predeterminado global, utilice:
-
-```{r}
-# fread's default behavior is to treat large integers as "integer64"; however, this global setting can be changed:
-options(datatable.integer64 = "double")   # Example: set globally to "double"
-getOption("datatable.integer64")
-```
-
-### 1.6 Eliminar o seleccionar columnas por nombre o posición
-
-Para ahorrar memoria y mejorar el rendimiento, utilice los argumentos `select` o `drop` de `fread()` para leer solo las columnas que necesita.
-
-- Si solo necesita unas pocas columnas, utilice `select`.
-- Si desea excluir solo algunas, utilice `drop`—esto evita tener que listar todo lo que desea conservar.
-
-Puntos clave: 
-- `select`: Vector de nombres/posiciones de columnas a conservar (descarta las demás).
-- `drop`: Vector de nombres/posiciones de columnas a descartar (descarta las demás).
-- No utilice `select` y `drop` juntos, son mutuamente excluyentes.
-- `fread()` le avisará si falta alguna columna especificada en el archivo.
-
-Para obtener más detalles, consulte la página del manual ejecutando `?fread` en R.
-
-### 1.7 Detección automática de escape de comillas (incluida la ausencia de escape)
-
-`fread` detecta automáticamente cómo se escapan las comillas, incluidas las comillas dobles ("") o las comillas con barra invertida ("), sin necesidad de intervención del usuario. Esto se determina mediante una muestra amplia de datos (véase el punto 3) y se valida con todo el archivo.
-
-Escenarios admitidos:
-- Comillas sin escape dentro de campos entre comillas p. ej., `"Esta "comilla" no es válida, pero fread funciona de todos modos"` — admitido siempre que el recuento de columnas permanezca constante:
-
-```{r}
-data.table::fread(text='x,y\n"This "quote" is invalid, but fread works anyway",1')
-```
-
-- Campos sin comillas que comienzan con comillas p. ej., `Invalid"Field,10,20` — se reconoce correctamente como un campo no entre comillas.
-
-```{r}
-data.table::fread(text='x,y\nNot"Valid,1')
-```
-
-Requisitos y limitaciones: 
-- Las reglas de escape y los recuentos de columnas deben ser consistentes en todo el archivo.
-
-- No compatible cuando `fill=TRUE` — en ese caso, el archivo debe seguir las comillas y el escape compatibles con RFC4180.
-
-Robustez específica de la versión: A partir de la versión 1.10.6, `fread` resuelve ambigüedades de forma más fiable en todo el archivo mediante la consistencia de recuento de columnas completo (el valor predeterminado es `fill=FALSE`). Se emiten advertencias si el análisis falla debido a una ambigüedad.
-
-## 2. fwrite()
-
-`fwrite()` es el complemento rápido para la escritura de archivos de `fread()`. Está diseñado para ofrecer velocidad, valores predeterminados sensatos y facilidad de uso, reflejando muchas de las ventajas de `fread`.
-
-### 2.1 Entrecomillado inteligente y minimalista (quote="auto")
-
-Cuando los datos se escriben como cadenas (ya sea de manera inherente, como columnas de caracteres, o por elección, como `dateTimeAs="ISO"`), `quote="auto"` (predeterminado) usa comillas en los campos de manera inteligente:
-
-**Entrecomillado contextual**: Los campos se ponen entre comillas solo cuando es necesario. Esto ocurre si contienen el delimitador `(sep)`, una comilla doble `(")`, un salto de línea `(\n)`, un retorno de carro `(\r)` o si el campo es una cadena vacía `("")`. La cadena vacía se entrecomilla  para distinguirla de un valor NA al leer el archivo.
-
-**Omitido para salida numérica directa**: si se escriben columnas específicas como sus tipos numéricos subyacentes (por ejemplo, a través de `dateTimeAs="epoch"` para `POSIXct`, o si un usuario preconvierte Date a entero), entonces la lógica de comillas se omite naturalmente para esos campos numéricos, lo que contribuye a la eficiencia.
-
-```{r}
-dt_quoting_scenario = data.table(
-  text_field = c("Contains,a,comma", "Contains \"a quote\"", "Clean_text", "", NA),
-  numeric_field = 1:5
-)
-temp_quote_adv = tempfile(fileext = ".csv")
-
-fwrite(dt_quoting_scenario, temp_quote_adv)
-# Note the output: the empty string is quoted (""), but the NA is not.
-cat(readLines(temp_quote_adv), sep = "\n")
-```
-
-### 2.2 Serialización de fecha y hora de grano fino (argumento `dateTimeAs`)
-
-Ofrece un control preciso para los tipos POSIXct/Date:
-
-- `dateTimeAs="ISO"` (predeterminado para POSIXct): formato ISO 8601 (por ejemplo, AAAA-MM-DDTHH:MM:SS.ffffffZ), que conserva una precisión de subsegundos para un intercambio inequívoco.
-
-- `dateTimeAs="epoch"`: POSIXct como segundos desde la época (numérico).
-
-```{r}
-dt_timestamps = data.table(
-  ts = as.POSIXct("2023-10-26 14:35:45.123456", tz = "GMT"),
-  dt = as.Date("2023-11-15")
-)
-temp_dt_iso = tempfile(fileext = ".csv")
-fwrite(dt_timestamps, temp_dt_iso, dateTimeAs = "ISO")
-cat(readLines(temp_dt_iso), sep = "\n")
-unlink(temp_dt_iso)
-```
-
-### 2.3 Manejo de `bit64::integer64`
-
-**Precisión completa para enteros grandes**: `fwrite` escribe columnas `bit64::integer64` convirtiéndolas en cadenas con precisión completa. Esto evita la pérdida de datos o la conversión silenciosa a dobles que podrían ocurrir con escritores menos especializados. Esto es crucial para identificadores o mediciones que requieren un rango de enteros superior al estándar de R de `32 bits` o una precisión doble de `53 bits`.
-
-**Manejo directo**: Este manejo directo y cuidadoso de datos numéricos especializados garantiza la integridad de los datos y una E/S eficiente, sin conversiones intermedias innecesarias a tipos menos precisos.
-
-```{r}
-if (requireNamespace("bit64", quietly = TRUE)) {
-  dt_i64 = data.table(uid = bit64::as.integer64("1234567890123456789"), val = 100)
-  temp_i64_out = tempfile(fileext = ".csv")
-  fwrite(dt_i64, temp_i64_out)
-  cat(readLines(temp_i64_out), sep = "\n")
-  unlink(temp_i64_out)
-}
-```
-
-### 2.4 Orden de columnas y control de filtrado
-
-Para controlar el orden y el filtrado de columnas que se escriben en el archivo, filtre la `data.table` antes de llamar a `fwrite()`. El argumento `col.names` en `fwrite()` es un valor lógico (VERDADERO/FALSO) que controla si se escribe la fila del encabezado, no qué columnas se escriben.
-
-```{r}
-dt = data.table(A = 1:3, B = 4:6, C = 7:9)
-
-# Write only columns C and A, in that order
-fwrite(dt[, .(C, A)], "out.csv")
-cat(readLines("out.csv"), sep = "\n")
-file.remove("out.csv")
-```
-
-## 3. Una nota sobre el rendimiento
-
-Si bien esta viñeta se centra en las características y la facilidad de uso, la motivación principal para `fread` y `fwrite` es la velocidad.
-
-Para los usuarios interesados en comparaciones de rendimiento detalladas y actualizadas, recomendamos estas publicaciones de blog externas que utilizan el paquete `atime` para un análisis riguroso:
-
-- **[Tiempos asintóticos de data.table](https://tdhock.github.io/blog/2023/dt-atime-figures/)**: Compara el rendimiento de `fread` y `fwrite` con otros paquetes R populares como `readr` y `arrow`.
-- **[Evaluación comparativa de data.table con polares, duckdb y pandas](https://tdhock.github.io/blog/2024/pandas-dt/)**: Compara el rendimiento de E/S y agrupación de `data.table` con las principales bibliotecas de Python.
-
-Estos puntos de referencia muestran consistentemente que `fread` y `fwrite` son altamente competitivos y, a menudo, están a la vanguardia en términos de rendimiento en el ecosistema R.
-
-***
diff --git a/vignettes/es/datatable-importing.Rmd b/vignettes/es/datatable-importing.Rmd
deleted file mode 100644
index 75e9d6a9a5..0000000000
--- a/vignettes/es/datatable-importing.Rmd
+++ /dev/null
@@ -1,298 +0,0 @@
----
-title: "Importar data.table"
-date: "`{r} Sys.Date()`"
-output:
-  litedown::html_format
-vignette: >
-  %\VignetteIndexEntry{Importing data.table}
-  %\VignetteEngine{litedown::vignette}
-  \usepackage[utf8]{inputenc}
----
-
-```{r, echo = FALSE, message = FALSE}
-litedown::reactor(comment = "# ")
-.old.th = data.table::setDTthreads(1)
-```
-
-<style>
-h2 {
-    font-size: 20px;
-}
-</style>
-
-```{r, echo=FALSE, file='../_translation_links.R'}
-```
-
-`{r} .write.translation.links("Las traducciones de este documento están disponibles en: %s")`
-
-Este documento se centra en el uso de `data.table` como dependencia en otros paquetes R. Si está interesado en utilizar el código C de `data.table` desde una aplicación que no sea R, o en llamar directamente a sus funciones C, salte a la [última sección](#non-r-api) de esta viñeta.
-
-Importar `data.table` no es diferente de importar otros paquetes R. Esta viñeta tiene como objetivo responder las preguntas más comunes que surgen en torno a ese tema; las lecciones aquí presentadas se pueden aplicar a otros paquetes R.
-
-## ¿Por qué importar `data.table`?
-
-Una de las principales características de `data.table` es su sintaxis concisa, que agiliza y facilita la escritura y la comprensión del análisis exploratorio. Esta comodidad puede impulsar a los desarrolladores de paquetes a usar `data.table`. Otra razón, quizás más importante, es su alto rendimiento. Al externalizar tareas de computación pesadas de su paquete a `data.table`, generalmente se obtiene el máximo rendimiento sin necesidad de reinventar ninguno de estos trucos de optimización numérica.
-
-## Importar `data.table` es fácil
-
-Es muy fácil usar `data.table` como dependencia, ya que no tiene dependencias propias. Esto aplica tanto al sistema operativo como a las dependencias de R. Esto significa que si tiene R instalado en su equipo, ya tiene todo lo necesario para instalar `data.table`. Además, añadir `data.table` como dependencia de su paquete no generará una cadena de otras dependencias recursivas, lo que lo hace muy conveniente para la instalación sin conexión.
-
-## Archivo `DESCRIPTION` {#DESCRIPTION}
-
-El primer lugar para definir una dependencia en un paquete es el archivo `DESCRIPTION`. Normalmente, deberá agregar `data.table` en el campo `Imports:`. Para ello, deberá instalar `data.table` antes de que el paquete pueda compilarse/instalarse. Como se mencionó anteriormente, no se instalarán otros paquetes porque `data.table` no tiene dependencias propias. También puede especificar la versión mínima requerida de una dependencia; por ejemplo, si su paquete utiliza la función `fwrite`, introducida en `data.table` en la versión 1.9.8, debería incorporarla como `Imports: data.table (>= 1.9.8)`. De esta forma, puede asegurarse de que la versión de `data.table` instalada sea la 1.9.8 o posterior antes de que los usuarios puedan instalar el paquete. Además del campo `Imports:`, también puede usar `Depends: data.table`, pero desaconsejamos este método (y es posible que no lo permitamos en el futuro) porque carga `data.table` en el espacio de trabajo del usuario; es decir, habilita la funcionalidad de `data.table` en los scripts del usuario sin que este la solicite. `Imports:` es la forma correcta de usar `data.table` dentro del paquete sin afectar a `data.table` en el usuario. De hecho, esperamos que el campo `Depends:` quede obsoleto en R, ya que esto aplica a todos los paquetes.
-
-## Archivo `NAMESPACE` {#NAMESPACE}
-
-El siguiente paso es definir el contenido de `data.table` que usa tu paquete. Esto debe hacerse en el archivo `NAMESPACE`. Normalmente, los autores de paquetes usarán `import(data.table)`, que importará todas las funciones exportadas (es decir, las que aparecen en el archivo `NAMESPACE` de `data.table`) desde `data.table`.
-
-También puede usar solo un subconjunto de las funciones de `data.table`; por ejemplo, algunos paquetes pueden usar simplemente el lector y escritor de CSV de alto rendimiento de `data.table`, para lo cual puede agregar `importFrom(data.table, fread, fwrite)` en su archivo `NAMESPACE`. También es posible importar todas las funciones de un paquete, *excluyendo* algunas específicas, usando `import(data.table, except=c(fread, fwrite))`.
-
-Asegúrese de leer también la nota sobre la evaluación no estándar en `data.table` en [la sección sobre "globales indefinidos"](#globals).
-
-## Uso
-
-Como ejemplo, definiremos dos funciones en el paquete `a.pkg` que utilizan `data.table`. Una función, `gen`, generará un `data.table` simple; otra, `aggr`, realizará una agregación simple del mismo.
-
-```r
-gen = function (n = 100L) {
-  dt = as.data.table(list(id = seq_len(n)))
-  dt[, grp := ((id - 1) %% 26) + 1
-     ][, grp := letters[grp]
-       ][]
-}
-aggr = function (x) {
-  stopifnot(
-    is.data.table(x),
-    "grp" %in% names(x)
-  )
-  x[, .N, by = grp]
-}
-```
-
-## Pruebas
-
-Asegúrese de incluir pruebas en su paquete. Antes de cada lanzamiento principal de `data.table`, verificamos las dependencias inversas. Esto significa que si algún cambio en `data.table` pudiera afectar su código, podremos detectar los cambios problemáticos e informarle antes de publicar la nueva versión. Esto, por supuesto, supone que publicará su paquete en CRAN o Bioconductor. La prueba más básica puede ser un script de R en texto plano en el directorio `tests/test.R` de su paquete:
-
-```r
-library(a.pkg)
-dt = gen()
-stopifnot(nrow(dt) == 100)
-dt2 = aggr(dt)
-stopifnot(nrow(dt2) < 100)
-```
-
-Al probar su paquete, puede utilizar `R CMD check --no-stop-on-test-error`, que continuará después de un error y ejecutará todas sus pruebas (en lugar de detenerse en la primera línea del script que falló).
-
-## Pruebas usando `testthat`
-
-Es muy común usar el paquete `testthat` para realizar pruebas. Probar un paquete que importa `data.table` no es diferente a probar otros paquetes. Un ejemplo de script de prueba `tests/testthat/test-pkg.R`:
-
-```r
-context("pkg tests")
-
-test_that("generate dt", { expect_true(nrow(gen()) == 100) })
-test_that("aggregate dt", { expect_true(nrow(aggr(gen())) < 100) })
-```
-
-Si `data.table` está en "Suggests" (pero no en "Imports"), entonces necesita declarar `.datatable.aware=TRUE` en uno de los archivos R/* para evitar errores de "objeto no encontrado" al realizar pruebas a través de `testthat::test_package` o `testthat::test_check`.
-
-## Cómo lidiar con "undefined global functions or variables " {#globals}
-
-El uso de la evaluación diferida de R por parte de `data.table` (especialmente en el lado izquierdo de `:=`) no es bien reconocido por `R CMD check`. Esto genera `NOTE`s como la siguiente durante la comprobación del paquete:
-
-```
-* checking R code for possible problems ... NOTE
-aggr: no visible binding for global variable 'grp'
-gen: no visible binding for global variable 'grp'
-gen: no visible binding for global variable 'id'
-Undefined global functions or variables:
-grp id
-```
-
-La forma más sencilla de solucionar esto es predefinir esas variables dentro del paquete y establecerlas como `NULL`, añadiendo opcionalmente un comentario (como se hace en la versión refinada de `gen` a continuación). Siempre que sea posible, también puede usar un vector de caracteres en lugar de símbolos (como en `aggr` a continuación):
-
-```r
-gen = function (n = 100L) {
-  id = grp = NULL # due to NSE notes in R CMD check
-  dt = as.data.table(list(id = seq_len(n)))
-  dt[, grp := ((id - 1) %% 26) + 1
-     ][, grp := letters[grp]
-       ][]
-}
-aggr = function (x) {
-  stopifnot(
-    is.data.table(x),
-    "grp" %in% names(x)
-  )
-  x[, .N, by = "grp"]
-}
-```
-
-El caso de los símbolos especiales de `data.table` (p. ej., `.SD` y `.N`) y el operador de asignación (`:=`) es ligeramente diferente (consulte `?.N` para obtener más información, incluyendo una lista completa de dichos símbolos). Debe importar cualquiera de estos valores que utilice del espacio de nombres de `data.table` para evitar problemas derivados del improbable escenario de que cambiemos el valor exportado de estos en el futuro. Por ejemplo, si desea usar `.N`, `.I` y `:=`, un `NAMESPACE` mínimo tendría:
-
-```r
-importFrom(data.table, .N, .I, ':=')
-```
-
-Mucho más simple es simplemente usar `import(data.table)`, lo que permitirá el uso en el código de su paquete de cualquier objeto exportado desde `data.table`.
-
-Si no le importa tener `id` y `grp` registrados como variables globales en el espacio de nombres de su paquete, puede usar `?globalVariables`. Tenga en cuenta que estas notas no afectan el código ni su funcionalidad; si no va a publicar su paquete, puede simplemente ignorarlas.
-
-## Se debe tener cuidado al proporcionar y utilizar `options`
-
-Una práctica común en los paquetes de R es proporcionar opciones de personalización definidas por `options(name=val)` y obtenidas mediante `getOption("name", default)`. Los argumentos de función suelen especificar una llamada a `getOption()` para que el usuario conozca (a través de `?fun` o `args(fun)`) el nombre de la opción que controla el valor predeterminado para ese parámetro; por ejemplo, `fun(..., verbose=getOption("datatable.verbose", FALSE))`. Todas las opciones de `data.table` comienzan con `datatable.` para evitar conflictos con las opciones de otros paquetes. El usuario simplemente llama a `options(datatable.verbose=TRUE)` para activar la verbosidad. Esto afecta a todas las llamadas a la función data.table, a menos que `verbose=FALSE` se especifique explícitamente; por ejemplo, `fun(..., verbose=FALSE)`.
-
-El mecanismo de opciones en R es *global*. Esto significa que si un usuario establece una opción `data.table` para su propio uso, esa configuración también afecta al código dentro de cualquier paquete que también esté usando `data.table`. Para una opción como `datatable.verbose`, este es exactamente el comportamiento deseado ya que el deseo es rastrear y registrar todas las operaciones de `data.table` desde donde sea que se originen; activar la verbosidad no afecta los resultados. Otra opción única de R y excelente para producción es `options(warn=2)` de R que convierte todas las advertencias en errores. Nuevamente, el deseo es afectar cualquier advertencia en cualquier paquete para no perder ninguna advertencia en producción. Hay 6 opciones `datatable.print.*` y 3 opciones de optimización que no afectan el resultado de las operaciones. Sin embargo, hay una opción `data.table` que sí afecta y ahora es una preocupación: `datatable.nomatch`. Esta opción cambia la unión predeterminada de externa a interna. [Aparte, la unión predeterminada es externa porque externa es más segura; no elimina los datos faltantes silenciosamente; Además, es coherente con el método R básico para la coincidencia por nombres e índices. Algunos usuarios prefieren que la unión interna sea la opción predeterminada, y les proporcionamos esta opción. Sin embargo, si un usuario configura esta opción, puede cambiar involuntariamente el comportamiento de las uniones dentro de paquetes que usan `data.table`. Por consiguiente, en la versión 1.12.4 (octubre de 2019) se mostraba un mensaje al usar la opción `datatable.nomatch`, y a partir de la versión 1.14.2, se ignora con una advertencia. Era la única opción de `data.table` con este problema.
-
-## Solución de problemas
-
-Si enfrenta algún problema al crear un paquete que usa data.table, confirme que el problema se pueda reproducir en una sesión R limpia usando la consola R: `R CMD check package.name`.
-
-Algunos de los problemas más comunes que enfrentan los desarrolladores suelen estar relacionados con las herramientas auxiliares diseñadas para automatizar algunas tareas de desarrollo de paquetes; por ejemplo, usar `roxygen` para generar el archivo `NAMESPACE` a partir de los metadatos de los archivos de código de R. Otros están relacionados con las herramientas auxiliares que compilan y verifican el paquete. Desafortunadamente, estas herramientas auxiliares a veces tienen efectos secundarios imprevistos u ocultos que pueden ocultar el origen de los problemas. Por lo tanto, asegúrese de verificar con la consola de R (ejecute R en la línea de comandos) y asegúrese de que la importación esté definida en los archivos `DESCRIPTION` y `NAMESPACE` siguiendo las instrucciones [arriba](#DESCRIPTION).
-
-Si no puede reproducir los problemas que tiene al usar la compilación y verificación de la consola R simple, puede intentar obtener ayuda en función de los problemas anteriores que hemos encontrado con la interacción de `data.table` con las herramientas auxiliares: [devtools#192](https://github.com/r-lib/devtools/issues/192) o [devtools#1472](https://github.com/r-lib/devtools/issues/1472).
-
-## Licencia
-
-Desde la versión 1.10.5, `data.table` se licencia como Licencia Pública de Mozilla (MPL). Las razones del cambio de la GPL se pueden consultar aquí [https://github.com/Rdatatable/data.table/pull/2456] y se puede leer más sobre la MPL en Wikipedia [https://en.wikipedia.org/wiki/Mozilla_Public_License] y [https://en.wikipedia.org/wiki/Comparison_of_free_and_open-source_software_licenses].
-
-## Importar opcionalmente `data.table`: Sugiere
-
-Si desea usar `data.table` condicionalmente, es decir, solo cuando esté instalado, debe usar `Suggests: data.table` en su archivo `DESCRIPTION` en lugar de `Imports: data.table`. De forma predeterminada, esta definición no forzará la instalación de `data.table` al instalar el paquete. Esto también requiere que use `data.table` condicionalmente en el código del paquete, lo cual debe hacerse mediante la función `?requireNamespace`. El siguiente ejemplo muestra el uso condicional del rápido escritor de CSV `?fwrite` de `data.table`. Si el paquete `data.table` no está instalado, se usa la función `?write.table` de R, mucho más lenta.
-
-```r
-my.write = function (x) {
-  if(requireNamespace("data.table", quietly=TRUE)) {
-    data.table::fwrite(x, "data.csv")
-  } else {
-    write.table(x, "data.csv")
-  }
-}
-```
-
-Una versión ligeramente más extendida de esto también garantizaría que la versión instalada de `data.table` sea lo suficientemente reciente para tener la función `fwrite` disponible:
-
-```r
-my.write = function (x) {
-  if(requireNamespace("data.table", quietly=TRUE) &&
-    utils::packageVersion("data.table") >= "1.9.8") {
-    data.table::fwrite(x, "data.csv")
-  } else {
-    write.table(x, "data.csv")
-  }
-}
-```
-
-Al usar un paquete como dependencia sugerida, no debe importarlo en el archivo `NAMESPACE`. Simplemente menciónelo en el archivo `DESCRIPTION`. Al usar funciones `data.table` en el código del paquete (archivos R/*), debe usar el prefijo `data.table::`, ya que ninguna se importa. Al usar `data.table` en pruebas de paquetes (por ejemplo, archivos tests/testthat/test*), debe declarar `.datatable.aware=TRUE` en uno de los archivos R/*.
-
-## `data.table` en `Imports` pero no se importó nada
-
-Algunos usuarios ([por ejemplo](https://github.com/Rdatatable/data.table/issues/2341)) pueden preferir evitar el uso de `importFrom` o `import` en su archivo `NAMESPACE` y en su lugar usar la calificación `data.table::` en todo el código interno (por supuesto, manteniendo `data.table` debajo de su `Imports:` en `DESCRIPTION`).
-
-En este caso, la función no exportada `[.data.table` volverá a llamar a `[.data.frame` como medida de protección, ya que `data.table` no tiene forma de saber que el paquete padre es consciente de que está intentando realizar llamadas contra la sintaxis de la API de consulta de `data.table` (lo que podría generar un comportamiento inesperado ya que la estructura de las llamadas a `[.data.frame` y `[.data.table` difieren fundamentalmente, por ejemplo, este último tiene muchos más argumentos).
-
-Si este es su enfoque preferido para el desarrollo de paquetes, defina `.datatable.aware = TRUE` en cualquier parte de su código fuente de R (no es necesario exportar). Esto indica a `data.table` que usted, como desarrollador de paquetes, ha diseñado su código para que utilice intencionalmente su funcionalidad, aunque no sea evidente al inspeccionar su archivo `NAMESPACE`.
-
-`data.table` determina sobre la marcha si la función que llama es consciente de que está accediendo a `data.table` con la función interna `cedta` (**C**alling **E**nvironment is **D**ata **T**able **A**ware), que, además de verificar `?getNamespaceImports` para su paquete, también verifica la existencia de esta variable (entre otras cosas).
-
-## Más información sobre las dependencias
-
-Para obtener documentación más canónica sobre la definición de dependencia de paquetes, consulte el manual oficial: [Escritura de extensiones R](https://cran.r-project.org/doc/manuals/r-release/R-exts.html).
-
-## Importación de rutinas data.table C
-
-Algunas de las rutinas C utilizadas internamente ahora se exportan a nivel C, por lo que se pueden usar en paquetes R directamente desde su código C. Consulte [`?cdt`](https://rdatatable.gitlab.io/data.table/reference/cdt.html) para obtener detalles y la sección [Escritura de extensiones R](https://cran.r-project.org/doc/manuals/r-release/R-exts.html) *Enlace a rutinas nativas en otros paquetes* para su uso.
-
-## Importación desde aplicaciones que no son r {#non-r-api}
-
-Algunas pequeñas partes del código C de `data.table` se aislaron de la API de RC y ahora pueden usarse desde aplicaciones que no sean de R mediante enlaces a archivos .so o .dll. Más adelante se proporcionarán detalles más concretos al respecto; por ahora, puede estudiar el código C aislado de la API de RC en [src/fread.c](https://github.com/Rdatatable/data.table/blob/master/src/fread.c) y [src/fwrite.c](https://github.com/Rdatatable/data.table/blob/master/src/fwrite.c).
-
-## Cómo convertir su dependencia Depends en data.table a Imports
-
-Para convertir una dependencia `Depends` de `data.table` en una dependencia `Imports` en su paquete, siga estos pasos:
-
-### Paso 0. Asegúrese de que su paquete pase la verificación R CMD inicialmente
-
-### Paso 1. Actualice el archivo DESCRIPTION para colocar data.table en Imports, no en Depends
-
-**Antes:**
-
-```dcf
-Depends:
-    R (>= 3.5.0),
-    data.table
-Imports:
-```
-
-**Después:**
-
-```dcf
-Depends:
-    R (>= 3.5.0)
-Imports:
-    data.table
-```
-
-### Paso 2.1: Ejecutar `R CMD check`
-
-Ejecute `R CMD check` para identificar importaciones o símbolos faltantes. Este paso ayuda a:
-
-- Detecta automáticamente cualquier función o símbolo de `data.table` que no se importe explícitamente.
-- Marca los símbolos especiales faltantes como `.N`, `.SD` y `:=`.
-- Proporciona retroalimentación inmediata sobre lo que se debe agregar al archivo NAMESPACE.
-
-Nota: No todos estos usos son detectados por `R CMD check`. En particular, `R CMD check` omite algunos símbolos/funciones en fórmulas y no detecta expresiones analizadas como `parse(text = "data.table(a = 1)")`. Los paquetes necesitarán una buena cobertura de pruebas para detectar estos casos extremos.
-
-### Paso 2.2: Modificar el archivo NAMESPACE
-
-Según los resultados de `R CMD check`, asegúrese de que se importen todas las funciones utilizadas, los símbolos especiales, los genéricos S3 y las clases S4 de `data.table`.
-
-Esto implica agregar directivas `importFrom(data.table, ...)` para símbolos, funciones y genéricos de S3, o directivas `importClassesFrom(data.table, ...)` para clases de S4, según corresponda. Consulte "Escritura de extensiones de R" para obtener más información sobre cómo hacerlo correctamente.
-
-#### Importación completa
-
-Como alternativa, puede importar todas las funciones de `data.table` a la vez, aunque esto generalmente no se recomienda:
-
-```r
-import(data.table)
-```
-
-**Justificación para evitar importaciones generales:** 
-1. **Documentación**: El archivo NAMESPACE puede servir como buena documentación de cómo depende de ciertos paquetes.
-2. **Evitar conflictos**: Las importaciones generales pueden causar fallos sutiles. Por ejemplo, si importa `import(pkgA)` e `import(pkgB)`, pero posteriormente pkgB exporta una función también exportada por pkgA, esto romperá su paquete debido a conflictos en su espacio de nombres, lo cual no está permitido por `R CMD check` y CRAN.
-
-### Paso 3: Actualice sus archivos de código R fuera del directorio R/ del paquete
-
-Al mover un paquete de "Depends" a "Imports", ya no se adjuntará automáticamente al cargarlo. Esto puede ser importante para ejemplos, pruebas, viñetas y demostraciones, donde los paquetes de "Imports" deben adjuntarse explícitamente.
-
-**Antes (con `Depends`):**
-
-```r
-# data.table functions are directly available
-library(MyPkgDependsDataTable)
-dt <- data.table(x = 1:10, y = letters[1:10])
-setDT(dt)
-result <- merge(dt, other_dt, by = "x")
-```
-
-**Después (con `Imports`):**
-
-```r
-# Explicitly load data.table in user scripts or vignettes
-library(data.table)
-library(MyPkgDependsDataTable)
-dt <- data.table(x = 1:10, y = letters[1:10])
-setDT(dt)
-result <- merge(dt, other_dt, by = "x")
-```
-
-### Beneficios de usar `Imports`
-
-- **Facilidad de uso**: `Depends` modifica la ruta `search()` de los usuarios, posiblemente sin su consentimiento.
-- **Gestión del espacio de nombres**: Solo están disponibles las funciones que tu paquete importa explícitamente, lo que reduce el riesgo de conflictos de nombres de funciones.
-- **Carga de paquetes más limpia**: Las dependencias de tu paquete no se vinculan a la ruta de búsqueda, lo que hace que el proceso de carga sea más limpio y potencialmente más rápido.
-- **Mantenimiento más sencillo**: Simplifica las tareas de mantenimiento a medida que evolucionan las API de las dependencias ascendentes. Depender demasiado de `Depends` puede generar conflictos y problemas de compatibilidad con el tiempo.
-
-```{r, echo = FALSE, message = FALSE}
-data.table::setDTthreads(.old.th)
-```
diff --git a/vignettes/es/datatable-intro.Rmd b/vignettes/es/datatable-intro.Rmd
deleted file mode 100644
index a9b5230b1d..0000000000
--- a/vignettes/es/datatable-intro.Rmd
+++ /dev/null
@@ -1,726 +0,0 @@
----
-title: "Introducción a data.table"
-date: "`{r} Sys.Date()`"
-output:
-  litedown::html_format
-vignette: >
-  %\VignetteIndexEntry{Introduction to data.table}
-  %\VignetteEngine{litedown::vignette}
-  \usepackage[utf8]{inputenc}
----
-
-```{r, echo=FALSE, file='../_translation_links.R'}
-```
-
-`{r} .write.translation.links("Las traducciones de este documento están disponibles en: %s")`
-
-```{r, echo = FALSE, message = FALSE}
-library(data.table)
-litedown::reactor(comment = "# ")
-.old.th = setDTthreads(1)
-```
-
-Esta viñeta presenta la sintaxis de `data.table`, su forma general, cómo filtrar filas, seleccionar y calcular columnas, y realizar agregaciones por grupo. Estar familiarizado con la estructura de datos `data.frame` de R base es útil, pero no es esencial para seguir esta viñeta.
-
-***
-
-## Análisis de datos utilizando `data.table`
-
-Las operaciones de manipulación de datos como *filtro*, *agrupación*, *actualización*, *unión*, etc., están intrínsecamente relacionadas. Mantener estas *operaciones relacionadas* permite:
-
-* Sintaxis *concisa* y *consistente* independientemente del conjunto de operaciones que desee realizar para lograr su objetivo final.
-
-* realizar análisis *de manera fluida* sin la carga cognitiva de tener que asignar cada operación a una función particular de un conjunto potencialmente enorme de funciones disponibles antes de realizar el análisis.
-
-* *optimizando automáticamente* las operaciones de manera interna y muy efectiva al conocer con precisión los datos necesarios para cada operación, lo que genera un código muy rápido y con uso eficiente de la memoria.
-
-En resumen, si le interesa reducir drásticamente el tiempo de *programación* y *computación*, este paquete es para usted. La filosofía de `data.table` lo hace posible. Nuestro objetivo es ilustrarlo mediante esta serie de viñetas.
-
-## Datos {#data}
-
-En esta viñeta, utilizaremos datos de [NYC-flights14](https://raw.githubusercontent.com/Rdatatable/data.table/master/vignettes/flights14.csv) obtenidos del paquete [flights](https://github.com/arunsrinivasan/flights) (disponible solo en GitHub). Este paquete contiene datos de vuelos puntuales de la Oficina de Estadísticas de Transporte para todos los vuelos que salieron de los aeropuertos de la ciudad de Nueva York en 2014 (inspirado en [nycflights13](https://github.com/tidyverse/nycflights13)). Los datos solo están disponibles para el período de enero a octubre de 2014.
-
-Podemos usar el lector de archivos rápido y fácil de usar `fread` de `data.table` para cargar `flights` directamente de la siguiente manera:
-
-```{r, echo = FALSE}
-options(width = 100L)
-```
-
-```{r}
-input <- if (file.exists("../flights14.csv")) {
-   "../flights14.csv"
-} else {
-  "https://raw.githubusercontent.com/Rdatatable/data.table/master/vignettes/flights14.csv"
-}
-flights <- fread(input)
-flights
-dim(flights)
-```
-
-Nota: `fread` acepta URLs `http` y `https` directamente, así como comandos del sistema operativo como `sed` y `awk`. Consulte `?fread` para ver ejemplos.
-
-## Introducción
-
-En esta viñeta, vamos a:
-
-1. Comience con lo básico: qué es una `data.table`, su formato general, cómo *filtrar* filas, cómo seleccionar y calcular columnas;
-
-2. Luego, veremos cómo realizar agregaciones de datos por grupo
-
-## 1. Conceptos básicos {#basics-1}
-
-### a) ¿Qué es `data.table`? {#what-is-datatable-1a}
-
-`data.table` es un paquete de R que proporciona **una versión mejorada** de un `data.frame`, la estructura de datos estándar para almacenar datos en `base` R. En la sección [Data](#data) anterior, vimos cómo crear un `data.table` usando `fread()`, pero también podemos crear uno usando la función `data.table()`. Aquí hay un ejemplo:
-
-```{r}
-DT = data.table(
-  ID = c("b","b","b","a","a","c"),
-  a = 1:6,
-  b = 7:12,
-  c = 13:18
-)
-DT
-class(DT$ID)
-```
-
-También puede convertir objetos existentes a una tabla `data.table` mediante `setDT()` (para estructuras `data.frame` y `list`) o `as.data.table()` (para otras estructuras). Para más detalles sobre la diferencia (que excede el alcance de este artículo), consulte `?setDT` y `?as.data.table`.
-
-#### Tenga en cuenta que:
-
-* Los números de fila se imprimen con un `:` para separar visualmente el número de fila de la primera columna.
-
-* Cuando el número de filas a imprimir excede la opción global `datatable.print.nrows` (predeterminado = `r getOption("datatable.print.nrows")`), se imprimen automáticamente solo las 5 primeras y las 5 últimas filas (como se puede ver en la sección [Data](#data)). Con un `data.frame` grande, es posible que haya tenido que esperar mientras tablas más grandes se imprimen y paginan, a veces sin parar. Esta restricción ayuda con esto, y puede consultar el número predeterminado de la siguiente manera:
-
-    ```{.r}
-    getOption("datatable.print.nrows")
-    ```
-
-* `data.table` nunca establece ni usa *nombres de fila*. Veremos por qué en la viñeta [`vignette("datatable-keys-fast-subset", package="data.table")`](datatable-keys-fast-subset.html).
-
-### b) Forma general: ¿de qué manera se *mejora* una `data.table`? {#enhanced-1b}
-
-A diferencia de un `data.frame`, se puede hacer *mucho más* que simplemente filtrar filas y seleccionar columnas dentro del marco de un `data.table`, es decir, dentro de `[ ... ]` (Nota: también podríamos referirnos a escribir dentro de `DT[...]` como "consultar `DT`", como analogía o en relación con SQL). Para comprenderlo, primero debemos analizar la *forma general* de la sintaxis de `data.table`, como se muestra a continuación:
-
-```r
-DT[i, j, by]
-
-##   R:                 i                 j        by
-## SQL:  where | order by   select | update  group by
-```
-
-Los usuarios con conocimientos de SQL probablemente se sentirán inmediatamente identificados con esta sintaxis.
-
-#### La forma de leerlo (en voz alta) es:
-
-Tomar `DT`, filtrar/reordenar filas usando `i`, luego calcular `j`, agrupado por `by`.
-
-Comencemos mirando primero `i` y `j`: filtrando filas y operando en columnas.
-
-### c) Filtrar filas en `i` {#subset-i-1c}
-
-#### -- Obtenga todos los vuelos con "JFK" como aeropuerto de origen en el mes de junio.
-
-```{r}
-ans <- flights[origin == "JFK" & month == 6L]
-head(ans)
-```
-
-* Dentro de una tabla `data.table`, se puede hacer referencia a las columnas *como si fueran variables*, de forma similar a SQL o Stata. Por lo tanto, simplemente nos referimos a `origin` y `month` como si fueran variables. No es necesario añadir el prefijo `flights$` cada vez. Sin embargo, usar `flights$origin` y `flights$month` funcionaría perfectamente.
-
-* Se calculan los *índices de fila* que satisfacen la condición `origin == "JFK" & month == 6L` y, como no queda nada más por hacer, todas las columnas de `flights` en las filas correspondientes a esos *índices de fila* simplemente se devuelven como una `data.table`.
-
-* No se requiere una coma después de la condición en `i`. Pero `flights[origin == "JFK" & month == 6L, ]` funcionaría perfectamente. Sin embargo, en un `data.frame`, la coma es necesaria.
-
-#### -- Obtener las dos primeras filas de `vuelos`. {#subset-rows-integer}
-
-```{r}
-ans <- flights[1:2]
-ans
-```
-
-* En este caso, no hay ninguna condición. Los índices de fila ya se proporcionan en `i`. Por lo tanto, devolvemos una `data.table` con todas las columnas de `flights` en las filas para esos *índices de fila*.
-
-#### -- Ordena `vuelos` primero por la columna `origen` en orden *ascendente*, y luego por `dest` en orden *descendente*:
-
-Podemos utilizar la función R `order()` para lograr esto.
-
-```{r}
-ans <- flights[order(origin, -dest)]
-head(ans)
-```
-
-#### `order()` está optimizado internamente
-
-* Podemos usar "-" en columnas de `carácter` dentro del marco de una `data.table` para ordenar en orden decreciente.
-
-* Además, `order(...)` dentro del marco de `data.table` utiliza el ordenamiento radix rápido interno de `data.table`, `forder()`. Este ordenamiento proporcionó una mejora tan convincente respecto a `base::order` de R que el proyecto R adoptó el algoritmo `data.table` como su ordenamiento predeterminado en 2016 para R 3.3.0 (para referencia, consulte `?sort` y las [NOTICIAS de la versión de R](https://cran.r-project.org/doc/manuals/r-release/NEWS.pdf)).
-
-Discutiremos el orden rápido de `data.table` con más detalle en la viñeta *internos de `data.table`*.
-
-### d) Seleccione la(s) columna(s) en `j` {#select-j-1d}
-
-#### -- Seleccione la columna `arr_delay`, pero devuélvala como un *vector*.
-
-```{r}
-ans <- flights[, arr_delay]
-head(ans)
-```
-
-* Dado que las columnas se pueden referenciar como variables dentro de una tabla `data.table`, nos referimos directamente a la *variable* que queremos filtrar. Como queremos *todas las filas*, simplemente omitimos `i`.
-
-* Devuelve *todas* las filas de la columna `arr_delay`.
-
-#### -- Seleccione la columna `arr_delay`, pero devuélvala como `data.table` en su lugar.
-
-```{r}
-ans <- flights[, list(arr_delay)]
-head(ans)
-```
-
-* Envolvemos las *variables* (nombres de columna) dentro de `list()`, lo que garantiza que se devuelva `data.table`. En el caso de un solo nombre de columna, al no envolver con `list()` se devuelve un vector, como se vio en el [ejemplo anterior](#select-j-1d).
-
-* `data.table` también permite encapsular columnas con `.()` en lugar de `list()`. Es un *alias* de `list()`; ambos significan lo mismo. Puedes usar el que prefieras; hemos notado que la mayoría de los usuarios prefieren `.()` por concisión, por lo que seguiremos usando `.()` de aquí en adelante.
-
-Un `data.table` (y también un `data.frame`) es internamente una `lista`, con la condición de que cada elemento tenga la misma longitud y que la `lista` tenga un atributo `class`. Permitir que `j` devuelva una `lista` permite convertir y devolver `data.table` de forma muy eficiente.
-
-#### Consejo: {#tip-1}
-
-Mientras `j-expression` devuelva una `list`, cada elemento de la lista se convertirá en una columna en la `data.table` resultante. Esto hace que `j` sea bastante potente, como veremos en breve. También es muy importante comprender esto para cuando se deseen realizar consultas más complejas.
-
-#### - Seleccione las columnas `arr_delay` y `dep_delay`.
-
-```{r}
-ans <- flights[, .(arr_delay, dep_delay)]
-head(ans)
-
-## alternatively
-# ans <- flights[, list(arr_delay, dep_delay)]
-```
-
-* Envuelve ambas columnas dentro de `.()` o `list()`. Listo.
-
-#### -- Seleccione las columnas `arr_delay` y `dep_delay` *y* cámbieles el nombre a `delay_arr` y `delay_dep`.
-
-Dado que `.()` es solo un alias de `list()`, podemos nombrar las columnas como lo haríamos al crear una `lista`.
-
-```{r}
-ans <- flights[, .(delay_arr = arr_delay, delay_dep = dep_delay)]
-head(ans)
-```
-
-### e) Calcular o *hacer* en `j`
-
-#### --¿Cuántos viajes han tenido un retraso total < 0?
-
-```{r}
-ans <- flights[, sum( (arr_delay + dep_delay) < 0 )]
-ans
-```
-
-#### ¿Que está pasando aquí?
-
-* La función `j` de `data.table` puede gestionar más que simplemente *seleccionar columnas*; también puede gestionar *expresiones*, es decir, *calcular sobre columnas*. Esto no debería sorprender, ya que se puede hacer referencia a las columnas como si fueran variables. Entonces, deberíamos poder *calcular* invocando funciones sobre esas variables. Y eso es precisamente lo que ocurre aquí.
-
-### f) Filtrar en `i` *y* en `j`
-
-#### -- Calcular el retraso promedio de llegada y salida para todos los vuelos con aeropuerto de origen "JFK" en el mes de junio.
-
-```{r}
-ans <- flights[origin == "JFK" & month == 6L,
-               .(m_arr = mean(arr_delay), m_dep = mean(dep_delay))]
-ans
-```
-
-* Primero filtramos en `i` para encontrar los *índices de fila* coincidentes donde `origen` aeropuerto es igual a `"JFK"` y `mes` es igual a `6L`. *Aún* no filtramos *data.table` *completa* correspondiente a esas filas.
-
-* Ahora, analizamos `j` y descubrimos que solo usa *dos columnas*. Lo que tenemos que hacer es calcular su `media()`. Por lo tanto, filtramos solo las columnas correspondientes a las filas coincidentes y calculamos su media (`mean()`).
-
-Dado que los tres componentes principales de la consulta (`i`, `j` y `by`) están *juntos* dentro de `[...]`, `data.table` puede verlos a los tres y optimizar la consulta en su conjunto *antes de la evaluación*, en lugar de optimizar cada uno por separado. Por lo tanto, podemos evitar el filtrado completo (es decir, subdividir las columnas *además de* `arr_delay` y `dep_delay`), tanto por velocidad como por eficiencia de memoria.
-
-#### --¿Cuántos viajes se han realizado en el año 2014 desde el aeropuerto “JFK” en el mes de junio?
-
-```{r}
-ans <- flights[origin == "JFK" & month == 6L, length(dest)]
-ans
-```
-
-La función `length()` requiere un argumento de entrada. Solo necesitamos calcular el número de filas del subconjunto. Podríamos haber usado cualquier otra columna como argumento de entrada para `length()`. Este enfoque recuerda a `SELECT COUNT(dest) FROM flights WHERE origin = 'JFK' AND month = 6` en SQL.
-
-Este tipo de operación ocurre con bastante frecuencia, especialmente durante la agrupación (como veremos en la siguiente sección), hasta el punto que `data.table` proporciona un *símbolo especial* `.N` para ello.
-
-### g) Manejar elementos inexistentes en `i`
-
-#### --¿Qué sucede cuando se consultan elementos inexistentes?
-
-Al consultar una `data.table` en busca de elementos que no existen, el comportamiento difiere según el método utilizado.
-
-```r
-setkeyv(flights, "origin")
-```
-
-* **Filtro basado en clave: `dt["d"]`**
-
-Esto realiza una unión a la derecha en la columna de clave `x`, lo que genera una fila con `d` y `NA` para las columnas no encontradas. Al usar `setkeyv`, la tabla se ordena según las claves especificadas y se crea un índice interno, lo que permite la búsqueda binaria para una subdivisión eficiente.
-
-```r
-flights["XYZ"]
-# Returns:
-#    origin year month day dep_time sched_dep_time dep_delay arr_time sched_arr_time arr_delay carrier flight tailnum ...
-# 1:    XYZ   NA    NA  NA       NA             NA        NA       NA             NA        NA      NA     NA      NA ...
-```
-
-* **Filtro lógico: `dt[x == "d"]`**
-
-Esto realiza una operación filtrado estándar que no encuentra ninguna fila coincidente y, por lo tanto, devuelve una `data.table` vacía.
-
-```r
-  flights[origin == "XYZ"]
-# Returns:
-# Empty data.table (0 rows and 19 cols): year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,...
-```
-
-* **Coincidencia exacta usando `nomatch=NULL`**
-
-Para coincidencias exactas sin `NA` para elementos inexistentes, utilice `nomatch=NULL`:
-
-```r
-flights["XYZ", nomatch=NULL]
-# Returns:
-# Empty data.table (0 rows and 19 cols): year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,...
-```
-
-Comprender estos comportamientos puede ayudar a evitar confusiones al tratar con elementos inexistentes en sus datos.
-
-#### Símbolo especial `.N`: {#special-N}
-
-`.N` es una variable integrada especial que contiene el número de observaciones *en el grupo actual*. Es especialmente útil cuando se combina con `by`, como veremos en la siguiente sección. En ausencia de operaciones de agrupación por, simplemente devuelve el número de filas del subconjunto.
-
-Ahora que lo sabemos, podemos realizar la misma tarea utilizando `.N` de la siguiente manera:
-
-```{r}
-ans <- flights[origin == "JFK" & month == 6L, .N]
-ans
-```
-
-* Una vez más, filtramos en `i` para obtener los *índices de fila* donde el aeropuerto `origen` es igual a *"JFK"*, y el mes es igual a *6*.
-
-* Vemos que `j` usa solo `.N` y ninguna otra columna. Por lo tanto, no se materializa el subconjunto completo. Simplemente devolvemos el número de filas del subconjunto (que es simplemente la longitud de los índices de fila).
-
-* Tenga en cuenta que no envolvimos `.N` con `list()` ni `.()`. Por lo tanto, se devuelve un vector.
-
-Podríamos haber realizado la misma operación con `nrow(flights[origin == "JFK" & month == 6L])`. Sin embargo, primero tendría que filtrar la `data.table` completa correspondiente a los *índices de fila* en `i` *y luego* devolver las filas usando `nrow()`, lo cual es innecesario e ineficiente. Abordaremos este y otros aspectos de optimización en detalle en la viñeta de *diseño de `data.table`*.
-
-### h) ¡Genial! Pero ¿cómo puedo referirme a las columnas por sus nombres en `j` (como en un `data.frame`)? {#refer-j}
-
-Si escribe los nombres de las columnas explícitamente, no hay diferencia en comparación con un `data.frame` (desde v1.9.8).
-
-#### -- Seleccione las columnas `arr_delay` y `dep_delay` mediante el método `data.frame`.
-
-```{r j_cols_no_with}
-ans <- flights[, c("arr_delay", "dep_delay")]
-head(ans)
-```
-
-Si ha almacenado las columnas deseadas en un vector de caracteres, hay dos opciones: utilizar el prefijo `..` o utilizar el argumento `with`.
-
-#### -- Seleccionar columnas nombradas en una variable usando el prefijo `..`
-
-```{r j_cols_dot_prefix}
-select_cols = c("arr_delay", "dep_delay")
-flights[ , ..select_cols]
-```
-
-Para aquellos familiarizados con la terminal Unix, el prefijo `..` debería recordar al comando "up-one-level", que es análogo a lo que sucede aquí: las señales `..` a `data.table` para buscar la variable `select_cols` "up-one-level", es decir, dentro del entorno global en este caso.
-
-#### -- Seleccionar columnas nombradas en una variable usando `with = FALSE`
-
-```{r j_cols_with}
-flights[ , select_cols, with = FALSE]
-```
-
-El argumento se llama `with`, en honor a la función `with()` de R, debido a su funcionalidad similar. Supongamos que tiene un `data.frame` `DF` y desea filtrar todas las filas donde `x > 1`. En `base` de R, puede hacer lo siguiente:
-
-```{r}
-DF = data.frame(x = c(1,1,1,2,2,3,3,3), y = 1:8)
-
-## (1) normal way
-DF[DF$x > 1, ] # data.frame needs that ',' as well
-
-## (2) using with
-DF[with(DF, x > 1), ]
-```
-
-* El uso de `with()` en (2) permite usar la columna `x` de `DF` como si fuera una variable.
-
-    Hence, the argument name `with` in `data.table`. Setting `with = FALSE` disables the ability to refer to columns as if they are variables, thereby restoring the "`data.frame` mode".
-
-* También podemos deseleccionar columnas usando `-` o `!`. Por ejemplo:
-
-    ```r
-    ## not run
-    
-    # returns all columns except arr_delay and dep_delay
-    ans <- flights[, !c("arr_delay", "dep_delay")]
-    # or
-    ans <- flights[, -c("arr_delay", "dep_delay")]
-    ```
-
-* Desde `v1.9.5+`, también podemos seleccionar especificando los nombres de las columnas de inicio y fin, por ejemplo, `año:día` para seleccionar las primeras tres columnas.
-
-    ```r
-    ## not run
-    
-    # returns year,month and day
-    ans <- flights[, year:day]
-    # returns day, month and year
-    ans <- flights[, day:year]
-    # returns all columns except year, month and day
-    ans <- flights[, -(year:day)]
-    ans <- flights[, !(year:day)]
-    ```
-    
-    This is particularly handy while working interactively.
-
-`with = TRUE` es el valor predeterminado en `data.table` porque podemos hacer mucho más al permitir que `j` maneje expresiones, especialmente cuando se combina con `by`, como veremos en un momento.
-
-## 2. Agregaciones
-
-Ya vimos `i` y `j` de la forma general de `data.table` en la sección anterior. En esta sección, veremos cómo se pueden combinar con `by` para realizar operaciones *por grupo*. Veamos algunos ejemplos.
-
-### a) Agrupación mediante `by`
-
-#### --¿Cómo podemos obtener el número de viajes correspondientes a cada aeropuerto de origen?
-
-```{r}
-ans <- flights[, .(.N), by = .(origin)]
-ans
-
-## or equivalently using a character vector in 'by'
-# ans <- flights[, .(.N), by = "origin"]
-```
-
-* Sabemos que `.N` [es una variable especial](#special-N) que contiene el número de filas del grupo actual. Al agrupar por `origen` se obtiene el número de filas, `.N`, de cada grupo.
-
-* Al ejecutar `head(flights)`, se puede ver que los aeropuertos de origen aparecen en el orden *"JFK"*, *"LGA"* y *"EWR"*. El orden original de agrupación de las variables se conserva en el resultado. *¡Es importante tener esto en cuenta!*
-
-* Dado que no proporcionamos un nombre para la columna devuelta en `j`, se la denominó `N` automáticamente al reconocer el símbolo especial `.N`.
-
-* `by` también acepta un vector de caracteres de nombres de columnas. Esto es especialmente útil para la programación; por ejemplo, al diseñar una función con las columnas de agrupación (en forma de un vector de caracteres) como argumento.
-
-* Cuando solo hay una columna o expresión a la que hacer referencia en `j` y `by`, podemos omitir la notación `.()`. Esto es puramente por conveniencia. Podríamos hacer lo siguiente:
-
-    ```{r}
-    ans <- flights[, .N, by = origin]
-    ans
-    ```
-    
-    We'll use this convenient form wherever applicable hereafter.
-
-#### ¿Cómo podemos calcular el número de viajes por aeropuerto de origen para el código de aerolínea `"AA"`? {#origin-N}
-
-El código de aerolínea único `"AA"` corresponde a *American Airlines Inc.*
-
-```{r}
-ans <- flights[carrier == "AA", .N, by = origin]
-ans
-```
-
-* Primero obtenemos los índices de fila para la expresión `carrier == "AA"` de `i`.
-
-* Usando estos *índices de fila*, obtenemos el número de filas agrupadas por `origen`. Nuevamente, no se materializan columnas, ya que la expresión en `j` no requiere filtrar sobre ninguna columna y, por lo tanto, es rápida y eficiente en el uso de memoria.
-
-#### ¿Cómo podemos obtener el número total de viajes para cada par «origen-destino» para el código de operador «"AA"`? {#origin-dest-N}
-
-```{r}
-ans <- flights[carrier == "AA", .N, by = .(origin, dest)]
-head(ans)
-
-## or equivalently using a character vector in 'by'
-# ans <- flights[carrier == "AA", .N, by = c("origin", "dest")]
-```
-
-* `by` acepta varias columnas. Simplemente proporcionamos todas las columnas por las que se agrupará. Observe el uso de `.()` nuevamente en `by`; nuevamente, esto es solo una abreviatura de `list()`, y `list()` también se puede usar aquí. De nuevo, seguiremos usando `.()` en esta viñeta.
-
-#### ¿Cómo podemos obtener el retraso promedio de llegada y salida para cada par `orig,dest` para cada mes para el código de operador `"AA"`? {#origin-dest-month}
-
-```{r}
-ans <- flights[carrier == "AA",
-        .(mean(arr_delay), mean(dep_delay)),
-        by = .(origin, dest, month)]
-ans
-```
-
-* Dado que no proporcionamos nombres de columnas para las expresiones en `j`, se generaron automáticamente como `V1` y `V2`.
-
-* Una vez más, tenga en cuenta que el orden de entrada de las columnas de agrupación se conserva en el resultado.
-
-¿Y ahora qué pasa si queremos ordenar el resultado por las columnas de agrupación `origen`, `dest` y `mes`?
-
-### b) Ordenado `por`: `keyby`
-
-Que `data.table` conserve el orden original de los grupos es intencional y está diseñado así. En algunos casos, es esencial conservar el orden original. Sin embargo, a veces deseamos ordenar automáticamente según las variables de nuestra agrupación.
-
-#### --Entonces, ¿cómo podemos ordenar directamente por todas las variables de agrupación?
-
-```{r}
-ans <- flights[carrier == "AA",
-        .(mean(arr_delay), mean(dep_delay)),
-        keyby = .(origin, dest, month)]
-ans
-```
-
-* Solo cambiamos `by` por `keyby`. Esto ordena automáticamente el resultado según las variables de agrupación en orden creciente. De hecho, debido a que la implementación interna de `by` requiere primero una ordenación antes de recuperar el orden original de la tabla, `keyby` suele ser más rápido que `by` porque no requiere este segundo paso.
-
-Claves: En realidad, `keyby` hace algo más que simplemente ordenar. También establece una clave después de ordenar, estableciendo un atributo llamado `sorted`.
-
-Aprenderemos más sobre `claves` en la viñeta [`vignette("datatable-keys-fast-subset", package="data.table")`](datatable-keys-fast-subset.html); por ahora, todo lo que tienes que saber es que puedes usar `keyby` para ordenar automáticamente el resultado por las columnas especificadas en `by`.
-
-### c) Encadenamiento
-
-Reconsideremos la tarea de [obtener el número total de viajes para cada par `origen, destino` para el transportista *"AA"*](#origin-dest-N).
-
-```{r}
-ans <- flights[carrier == "AA", .N, by = .(origin, dest)]
-```
-
-#### -- ¿Cómo podemos ordenar 'ans' utilizando las columnas 'origin' en orden ascendente y 'dest' en orden descendente?
-
-Podemos almacenar el resultado intermedio en una variable y luego usar `order(origin, -dest)` en esa variable. Parece bastante sencillo.
-
-```{r}
-ans <- ans[order(origin, -dest)]
-head(ans)
-```
-
-* Recordemos que podemos usar `-` en una columna `character` en `order()` dentro del marco de `data.table`. Esto es posible gracias a la optimización de consultas interna de `data.table`.
-
-* Recuerde también que `order(...)` con el marco de un `data.table` se *optimiza automáticamente* para usar el orden de base rápido interno `forder()` de `data.table` para mayor velocidad. 
-
-Pero esto requiere asignar el resultado intermedio y luego sobrescribirlo. Podemos mejorarlo y evitar por completo esta asignación intermedia a una variable temporal *encadenando* expresiones.
-
-```{r}
-ans <- flights[carrier == "AA", .N, by = .(origin, dest)][order(origin, -dest)]
-head(ans, 10)
-```
-
-* Podemos unir expresiones una tras otra, *formando una cadena* de operaciones, es decir, `DT[ ... ][ ... ][ ... ]`.
-
-* O también puedes encadenarlos verticalmente:
-
-    ```r
-    DT[ ...
-       ][ ...
-         ][ ...
-           ]
-    ```
-
-### d) Expresiones en `by`
-
-#### -- ¿`by` también puede aceptar *expresiones* o sólo toma columnas?
-
-Sí. Por ejemplo, si queremos saber cuántos vuelos salieron con retraso pero llegaron antes (o a tiempo), salieron y llegaron con retraso, etc.
-
-```{r}
-ans <- flights[, .N, .(dep_delay>0, arr_delay>0)]
-ans
-```
-
-* La última fila corresponde a `dep_delay > 0 = TRUE` y `arr_delay > 0 = FALSE`. Podemos ver que `r flights[!is.na(arr_delay) & !is.na(dep_delay), .N, .(dep_delay>0, arr_delay>0)][, N[4L]]` vuelos salieron tarde pero llegaron temprano (o a tiempo).
-
-* Tenga en cuenta que no le asignamos ningún nombre a `by-expression`. Por lo tanto, los nombres se asignaron automáticamente en el resultado. Al igual que con `j`, puede nombrar estas expresiones como lo haría con los elementos de cualquier `list`, por ejemplo, `DT[, .N, .(dep_delayed = dep_delay>0, arr_delayed = arr_delay>0)]`.
-
-* Puede proporcionar otras columnas junto con expresiones, por ejemplo: `DT[, .N, by = .(a, b>0)]`.
-
-### e) Varias columnas en `j` - `.SD`
-
-#### -- ¿Tenemos que calcular `mean()` para cada columna individualmente?
-
-Por supuesto, no es práctico tener que escribir `mean(myCol)` para cada columna, una por una. ¿Qué sucedería si se tuvieran 100 columnas para promediar `mean()`?
-
-¿Cómo podemos hacer esto de forma eficiente y concisa? Para ello, revise [este consejo](#tip-1): *"Siempre que la expresión `j` devuelva una `lista`, cada elemento de la `lista` se convertirá en una columna en la `data.table` resultante"*. Si podemos referirnos al *subconjunto de datos* de cada grupo como una variable *al agrupar*, podemos recorrer todas las columnas de esa variable usando la función base `lapply()`, ya conocida o que pronto conoceremos. No hay que aprender nuevos nombres específicos de `data.table`.
-
-#### Símbolo especial `.SD`: {#special-SD}
-
-`data.table` proporciona un símbolo *especial* llamado `.SD`. Significa **S**subset of **D**ata`. Es en sí mismo un `data.table` que contiene los datos del *grupo actual* definido mediante `by`.
-
-Recuerde que una `data.table` es internamente también una `lista` con todas sus columnas de igual longitud.
-
-Utilicemos la [`data.table` `DT` de antes](#what-is-datatable-1a) para tener una idea de cómo se ve `.SD`.
-
-```{r}
-DT
-
-DT[, print(.SD), by = ID]
-```
-
-* `.SD` contiene todas las columnas *excepto las columnas de agrupación* de forma predeterminada.
-
-* También se genera conservando el orden original: datos correspondientes a `ID = "b"`, luego `ID = "a"`, y luego `ID = "c"`.
-
-Para calcular en (múltiples) columnas, podemos simplemente usar la función base R `lapply()`.
-
-```{r}
-DT[, lapply(.SD, mean), by = ID]
-```
-
-* `.SD` contiene las filas correspondientes a las columnas `a`, `b` y `c` de ese grupo. Calculamos la `mean()` de cada una de estas columnas utilizando la función base `lapply()`, ya conocida.
-
-* Cada grupo devuelve una lista de tres elementos que contienen el valor medio que se convertirá en las columnas de la tabla `data.table` resultante.
-
-* Dado que `lapply()` devuelve una `lista`, no es necesario envolverla con un `.()` adicional (si es necesario, consulte [este consejo](#tip-1)).
-
-Ya casi terminamos. Queda un pequeño detalle por resolver. En nuestra tabla de datos `flights`, solo queríamos calcular la `mean()` de las columnas `arr_delay` y `dep_delay`. Sin embargo, `.SD` contendría todas las columnas excepto las variables de agrupación por defecto.
-
-#### -- ¿Cómo podemos especificar sólo las columnas en las que nos gustaría calcular la `media()`?
-
-#### .SDcols
-
-Usando el argumento `.SDcols`. Acepta nombres o índices de columna. Por ejemplo, `.SDcols = c("arr_delay", "dep_delay")` garantiza que `.SD` contenga solo estas dos columnas para cada grupo.
-
-Similar a [parte g)](#refer-j), también puede especificar las columnas que desea eliminar en lugar de las que desea conservar usando `-` o `!`. Además, puede seleccionar columnas consecutivas como `colA:colB` y deseleccionarlas como `!(colA:colB)` o `-(colA:colB)`.
-
-Ahora intentemos usar `.SD` junto con `.SDcols` para obtener la `media()` de las columnas `arr_delay` y `dep_delay` agrupadas por `origen`, `dest` y `mes`.
-
-```{r}
-flights[carrier == "AA",                       ## Only on trips with carrier "AA"
-        lapply(.SD, mean),                     ## compute the mean
-        by = .(origin, dest, month),           ## for every 'origin,dest,month'
-        .SDcols = c("arr_delay", "dep_delay")] ## for just those specified in .SDcols
-```
-
-### f) Filtrar `.SD` para cada grupo:
-
-#### --¿Cómo podemos devolver las dos primeras filas de cada mes?
-
-```{r}
-ans <- flights[, head(.SD, 2), by = month]
-head(ans)
-```
-
-* `.SD` es una `data.table` que contiene todas las filas de *ese grupo*. Simplemente creamos un subconjunto de las dos primeras filas, como ya vimos [aquí](#subset-rows-integer).
-
-* Para cada grupo, `head(.SD, 2)` devuelve las primeras dos filas como una `data.table`, que también es una `lista`, por lo que no tenemos que envolverla con `.()`.
-
-### g) ¿Por qué mantener `j` tan flexible?
-
-Para mantener una sintaxis consistente y seguir usando funciones base ya existentes (y conocidas), en lugar de tener que aprender nuevas funciones. Para ilustrar, usemos el `data.table` `DT` que creamos al principio, en la sección [¿Qué es un data.table?](#what-is-datatable-1a).
-
-#### -- ¿Cómo podemos concatenar las columnas `a` y `b` para cada grupo en `ID`?
-
-```{r}
-DT[, .(val = c(a,b)), by = ID]
-```
-
-* Eso es todo. No se requiere sintaxis especial. Solo necesitamos saber la función base `c()`, que concatena vectores, y [la sugerencia anterior](#tip-1).
-
-#### --¿Qué sucede si queremos tener todos los valores de las columnas `a` y `b` concatenados, pero devueltos como una columna de lista?
-
-```{r}
-DT[, .(val = list(c(a,b))), by = ID]
-```
-
-* Aquí, primero concatenamos los valores con `c(a,b)` para cada grupo y los envolvemos con `list()`. Por lo tanto, para cada grupo, devolvemos una lista de todos los valores concatenados.
-
-* Tenga en cuenta que estas comas son solo para visualización. Una columna de lista puede contener cualquier objeto en cada celda; en este ejemplo, cada celda es un vector, y algunas celdas contienen vectores más largos que otras.
-
-Una vez que empiece a internalizar el uso de `j`, se dará cuenta de lo poderosa que puede ser la sintaxis. Una forma muy útil de comprenderla es experimentando con la ayuda de `print()`.
-
-Por ejemplo:
-
-```{r}
-## look at the difference between
-DT[, print(c(a,b)), by = ID] # (1)
-
-## and
-DT[, print(list(c(a,b))), by = ID] # (2)
-```
-
-```{r, echo = FALSE}
-p = function(x) paste0('<code>', paste(deparse(substitute(x)), collapse = ' '), ' = ', x, '</code>')
-```
-
-En (1), para cada grupo, se devuelve un vector, con longitud = 6,4,2. Sin embargo, (2) devuelve una lista de longitud 1 para cada grupo, cuyo primer elemento contiene vectores de longitud 6,4,2. Por lo tanto, (1) da como resultado una longitud de `{r} p(6+4+2)`, mientras que (2) devuelve `{r} p(1+1+1)`.
-
-La flexibilidad de j nos permite almacenar cualquier objeto de lista como elemento de data.table. Por ejemplo, cuando los modelos estadísticos se ajustan a grupos, estos modelos pueden almacenarse en una tabla data.table. El código es conciso y fácil de entender.
-
-```{r}
-## Do long distance flights cover up departure delay more than short distance flights?
-## Does cover up vary by month?
-flights[, `:=`(makeup = dep_delay - arr_delay)]
-
-makeup.models <- flights[, .(fit = list(lm(makeup ~ distance))), by = .(month)]
-makeup.models[, .(coefdist = coef(fit[[1]])[2], rsq = summary(fit[[1]])$r.squared), by = .(month)]
-```
-
-Usando data.frames, necesitamos un código más complicado para obtener el mismo resultado.
-
-```{r}
-setDF(flights)
-flights.split <- split(flights, f = flights$month)
-makeup.models.list <- lapply(flights.split, function(df) c(month = df$month[1], fit = list(lm(makeup ~ distance, data = df))))
-makeup.models.df <- do.call(rbind, makeup.models.list)
-data.frame(t(sapply(
-  makeup.models.df[, "fit"],
-  function(model) c(coefdist = coef(model)[2L], rsq =  summary(model)$r.squared)
-)))
-setDT(flights)
-```
-
-## Resumen
-
-La forma general de la sintaxis de `data.table` es:
-
-```r
-DT[i, j, by]
-```
-
-Hemos visto hasta ahora que,
-
-#### Usando `i`:
-
-* Podemos filtrar filas de manera similar a un `data.frame`, excepto que no es necesario usar `DT$` repetidamente, ya que las columnas dentro del marco de un `data.table` se ven como si fueran *variables*.
-
-* También podemos ordenar una `data.table` usando `order()`, que internamente usa el orden rápido de data.table para un mejor rendimiento.
-
-Podemos hacer mucho más en `i` al introducir claves en `data.table`, lo que permite filtrados y uniones ultrarrápidos. Veremos esto en las viñetas [`vignette("datatable-keys-fast-subset", package="data.table")`](datatable-keys-fast-subset.html) y [`vignette("datatable-joins", package="data.table")`](datatable-joins.html).
-
-#### Usando `j`:
-
-1. Seleccione columnas a la manera de `data.table`: `DT[, .(colA, colB)]`.
-
-2. Seleccione columnas a la manera de `data.frame`: `DT[, c("colA", "colB")]`.
-
-3. Calcular en las columnas: `DT[, .(sum(colA), mean(colB))]`.
-
-4. Proporcione nombres si es necesario: `DT[, .(sA = suma(colA), mB = media(colB))]`.
-
-5. Combinar con `i`: `DT[colA > valor, suma(colB)]`.
-
-#### Usando `by`:
-
-* Usando `by`, podemos agrupar por columnas especificando una *lista de columnas*, un *vector de caracteres de nombres de columnas* o incluso *expresiones*. La flexibilidad de `j`, combinada con `by` e `i`, crea una sintaxis muy potente.
-
-* `by` puede manejar múltiples columnas y también *expresiones*.
-
-* Podemos agrupar columnas mediante `keyby` para ordenar automáticamente el resultado agrupado.
-
-* Podemos usar `.SD` y `.SDcols` en `j` para operar en múltiples columnas usando funciones base ya conocidas. Aquí hay algunos ejemplos:
-
-    1. `DT[, lapply(.SD, fun), by = ..., .SDcols = ...]` - aplica `fun` a todas las columnas especificadas en `.SDcols` mientras agrupa por las columnas especificadas en `by`.
-
-    2. `DT[, head(.SD, 2), by = ...]` - devuelve las dos primeras filas de cada grupo.
-
-    3. `DT[col > val, head(.SD, 1), by = ...]` - combina `i` junto con `j` y `by`.
-
-#### Y recuerda el consejo:
-
-Siempre que `j` devuelva una `lista`, cada elemento de la lista se convertirá en una columna en la `data.table` resultante.
-
-Veremos cómo *agregar/actualizar/eliminar* columnas *por referencia* y cómo combinarlas con `i` y `by` en la [siguiente viñeta (`vignette("datatable-reference-semantics", package="data.table")`)](datatable-reference-semantics.html).
-
-***
-
-```{r, echo=FALSE}
-setDTthreads(.old.th)
-```
diff --git a/vignettes/es/datatable-joins.Rmd b/vignettes/es/datatable-joins.Rmd
deleted file mode 100644
index e1830f2580..0000000000
--- a/vignettes/es/datatable-joins.Rmd
+++ /dev/null
@@ -1,725 +0,0 @@
----
-title: "Uniones «join» en data.table"
-date: "`{r} Sys.Date()`"
-output:
-  litedown::html_format
-vignette: >
-  %\VignetteIndexEntry{Joins in data.table}
-  %\VignetteEngine{litedown::vignette}
-  \usepackage[utf8]{inputenc}
-editor_options: 
-  chunk_output_type: console
----
-
-```{r, echo = FALSE, message = FALSE}
-library(data.table)
-litedown::reactor(comment = "# ")
-```
-
-```{r, echo=FALSE, file='../_translation_links.R'}
-```
-
-`{r} .write.translation.links("Las traducciones de este documento están disponibles en: %s")`
-
-En esta viñeta aprenderá cómo realizar cualquier operación de *unión* (N. de T.: *join*) utilizando los recursos disponibles en la sintaxis de 'data.table'.
-
-Se presupone familiaridad con la sintaxis de `data.table`. De no ser así, lea las siguientes viñetas:
-
-- [`viñeta("datatable-intro", paquete="data.table")`](datatable-intro.html)
-- [`viñeta("datatable-reference-semantics", paquete="data.table")`](datatable-reference-semantics.html)
-- [`viñeta("datatable-keys-fast-subset", paquete="data.table")`](datatable-keys-fast-subset.html)
-
-***
-
-## 1. Definición de datos de ejemplo
-
-Para ilustrar cómo utilizar el método disponible con ejemplos de la vida real, simulemos una **base de datos normalizada** de un pequeño supermercado definiendo las siguientes tablas en una base de datos:
-
-1. «Productos», una tabla con filas que muestran las características de varios productos. Para mostrar cómo el framework gestiona los ***valores faltantes***, un id es `NA`.
-
-```{r, define_products}
-Products = rowwiseDT(
-  id=,        name=, price=,   unit=, type=,
-   1L,     "banana",   0.63,  "unit", "natural",
-   2L,    "carrots",   0.89,    "lb", "natural",
-   3L,    "popcorn",   2.99,  "unit", "processed",
-   4L,       "soda",   1.49, "ounce", "processed",
-   NA, "toothpaste",   2.99,  "unit", "processed"
-)
-```
-
-2. `NewTax`, una tabla con filas que definen algunos impuestos asociados a los productos procesados ​​en función de sus unidades.
-
-```{r define_new_tax}
-NewTax = data.table(
-  unit = c("unit", "ounce"),
-  type = "processed",
-  tax_prop = c(0.65, 0.20)
-)
-
-NewTax
-```
-
-3. `ProductReceived`, una tabla con filas que simulan el inventario entrante semanal.
-
-```{r define_product_received}
-set.seed(2156)
-
-# NB: Jan 8, 2024 is a Monday.
-receipt_dates = seq(from=as.IDate("2024-01-08"), length.out=10L, by="week")
-
-ProductReceived = data.table(
-  id=1:10, # unique identifier for an supply transaction
-  date=receipt_dates,
-  product_id=sample(c(NA, 1:3, 6L), size=10L, replace=TRUE), # NB: product '6' is not recorded in Products above.
-  count=sample(c(50L, 100L, 150L), size=10L, replace=TRUE)
-)
-
-ProductReceived
-```
-
-4. `ProductSales`, una tabla con filas que simulan transacciones de clientes.
-
-```{r define_product_sales}
-set.seed(5415)
-
-# Monday-Friday (4 days later) for each of the weeks present in ProductReceived
-possible_weekdays <- as.IDate(sapply(receipt_dates, `+`, 0:4))
-
-ProductSales = data.table(
-  id = 1:10,
-  date = sort(sample(possible_weekdays, 10L)),
-  product_id = sample(c(1:3, 7L), size = 10L, replace = TRUE), # NB: product '7' is in neither Products nor ProductReceived.
-  count = sample(c(50L, 100L, 150L), size = 10L, replace = TRUE)
-)
-
-ProductSales
-```
-
-## 2. Sintaxis de uniones join de `data.table`
-
-Antes de aprovechar la sintaxis `data.table` para realizar operaciones de unión, necesitamos saber qué argumentos pueden ayudarnos a realizar uniones *join* exitosas.
-
-El siguiente diagrama muestra una descripción de cada argumento básico. En las siguientes secciones, mostraremos cómo usar cada uno y añadiremos complejidad gradualmente.
-
-```
-x[i, on, nomatch]
-| |  |   |
-| |  |   \__ If NULL only returns rows linked in x and i tables
-| |  \____ a character vector or list defining match logic
-| \_____ primary data.table, list or data.frame
-\____ secondary data.table
-```
-
-**Nota**: Tenga en cuenta que el orden estándar de los argumentos en `data.table` es `dt[i, j, by]`. Para las operaciones de unión, se recomienda pasar los argumentos `on` y `nomatch` por nombre para evitar usar `j` y `by` cuando no sean necesarios.
-
-## 3. Equi se une
-
-Este es el caso más común y sencillo ya que podemos encontrar elementos comunes entre tablas para combinar.
-
-La relación entre tablas puede ser:
-
-- **Uno a uno**: Cuando cada valor coincidente es único en cada tabla.
-- **Uno a muchos**: Cuando algunos valores coincidentes se repiten en una de las tablas y ambos son únicos en la otra.
-- **Muchos a muchos**: Cuando los valores coincidentes se repiten varias veces en cada tabla.
-
-En la mayoría de los siguientes ejemplos realizaremos coincidencias de *uno a muchos*, pero también nos tomaremos el tiempo para explicar los recursos disponibles para realizar coincidencias de *muchos a muchos*.
-
-### 3.1. Unión derecha (Right Join)
-
-Utilice este método si necesita combinar columnas de 2 tablas según una o más referencias pero ***manteniendo todas las filas presentes en la tabla ubicada a la derecha (entre corchetes)***.
-
-En nuestro contexto de supermercado, podemos realizar una unión derecha para ver más detalles sobre los productos recibidos, ya que esta es una relación *uno a muchos* al pasar un vector al argumento `on`.
-
-```{r}
-Products[ProductReceived,
-         on = c(id = "product_id")]
-```
-
-Como muchas cosas han cambiado, vamos a explicar las nuevas características en los siguientes grupos:
-
-- **Nivel de columna**
- - El *primer grupo* de columnas en la nueva `data.table` proviene de la tabla `x`.
- - El *segundo grupo* de columnas en la nueva `data.table` proviene de la tabla `i`.
- - Si la operación de unión presenta algún **conflicto de nombre** (ambas tablas tienen el mismo nombre de columna), el ***prefijo*** `i.` se agrega a los nombres de columna de la **tabla de la derecha** (tabla en la posición `i`).
-
-- **Nivel de fila**
- - El `product_id` faltante presente en la tabla `ProductReceived` en la fila 1 se correspondió exitosamente con el `id` faltante de la tabla `Products`, por lo que los ***valores `NA` se tratan como cualquier otro valor***.
- - Se conservaron todas las filas de la tabla `i`, incluyendo:
-*- Filas que no coinciden como la que tiene `product_id = 6`.
-*- Filas que repiten el mismo `product_id` varias veces.
-
-#### 3.1.1. Unirse mediante un argumento de lista
-
-Si está siguiendo la viñeta, es posible que haya descubierto que usamos un vector para definir las relaciones entre las tablas en el argumento `on`, lo cual es realmente útil si está **creando sus propias funciones**, pero otra alternativa es usar una **lista** para definir las columnas que coinciden.
-
-Para utilizar esta capacidad, tenemos 2 alternativas equivalentes:
-
-- Envolviendo las columnas relacionadas en la función base R `lista`.
-
-```r
-Products[ProductReceived,
-         on = list(id = product_id)]
-```
-
-- Envolviendo las columnas relacionadas en el alias `lista` `.`.
-
-```r
-Products[ProductReceived,
-         on = .(id = product_id)]
-```
-
-#### 3.1.2. Alternativas para definir el argumento `on`
-
-En todos los ejemplos anteriores, pasamos los nombres de las columnas que queremos que coincidan con el argumento `on`, pero `data.table` también tiene alternativas a esa sintaxis.
-
-- **Unión natural**: Selecciona las columnas para realizar la coincidencia según nombres de columna comunes. Para ilustrar este método, cambiemos la columna de la tabla "Productos" de "id" a "product_id" y usemos la palabra clave ".NATURAL".
-
-```{r}
-ProductsChangedName = setnames(copy(Products), "id", "product_id")
-ProductsChangedName
-
-ProductsChangedName[ProductReceived, on = .NATURAL]
-```
-
-- **Unión con clave**: selecciona las columnas para realizar la coincidencia en función de las columnas con clave, independientemente de sus nombres. Para ilustrar este método, necesitamos definir claves en el mismo orden para ambas tablas.
-
-```{r}
-ProductsKeyed = setkey(copy(Products), id)
-key(ProductsKeyed)
-
-ProductReceivedKeyed = setkey(copy(ProductReceived), product_id)
-key(ProductReceivedKeyed)
-
-ProductsKeyed[ProductReceivedKeyed]
-```
-
-#### 3.1.3. Operaciones posteriores a la incorporación
-
-La mayoría de las veces, tras unirnos, necesitamos realizar transformaciones adicionales. Para ello, tenemos las siguientes alternativas:
-
-- Encadenar una nueva instrucción añadiendo un par de corchetes `[]`.
-- Pasar una lista con las columnas que queremos conservar o crear al argumento `j`.
-
-Nuestra recomendación es utilizar la segunda alternativa si es posible, ya que es **más rápida** y utiliza **menos memoria** que la primera.
-
-##### Administrar nombres de columnas compartidas con el argumento j
-
-El argumento `j` ofrece excelentes alternativas para gestionar uniones con tablas que **comparten los mismos nombres para varias columnas**. Por defecto, todas las columnas toman su origen de la tabla `x`, pero también podemos usar el prefijo `x.` para especificar el origen y el prefijo `i.` para usar cualquier columna de la tabla declarada en el argumento `i` de la tabla `x`.
-
-Volviendo al pequeño supermercado, luego de actualizar la tabla `ProductReceived` con la tabla `Products`, supongamos que queremos aplicar los siguientes cambios:
-
-- Cambie los nombres de las columnas de `id` a `product_id` y de `i.id` a `received_id`.
-- Agregue `total_value`.
-
-```{r}
-Products[
-  ProductReceived,
-  on = c("id" = "product_id"),
-  j = .(product_id = x.id,
-        name = x.name,
-        price,
-        received_id = i.id,
-        date = i.date,
-        count,
-        total_value = price * count)
-]
-```
-
-##### Resumiendo con `on` en `data.table`
-
-También podemos utilizar esta alternativa para devolver resultados agregados en función de las columnas presentes en la tabla `x`.
-
-Por ejemplo, podríamos estar interesados ​​en cuánto dinero gastamos comprando cada producto a lo largo de los días.
-
-```{r}
-dt1 = ProductReceived[
-  Products,
-  on = c("product_id" = "id"),
-  by = .EACHI,
-  j = .(total_value_received  = sum(price * count))
-]
-
-# alternative using multiple [] queries
-dt2 = ProductReceived[
-  Products,
-  on = c("product_id" = "id"),
-][, .(total_value_received  = sum(price * count)),
-  by = "product_id"
-]
-
-identical(dt1, dt2)
-```
-
-#### 3.1.4. Unión basada en varias columnas
-
-Hasta ahora solo hemos unido `data.table` en función de 1 columna, pero es importante saber que el paquete puede unir tablas que coincidan con varias columnas.
-
-Para ilustrar esto, supongamos que queremos agregar `tax_prop` de `NewTax` para **actualizar** la tabla `Products`.
-
-```{r}
-NewTax[Products, on = c("unit", "type")]
-```
-
-### 3.2. Inner join
-
-Utilice este método si necesita combinar columnas de 2 tablas según una o más referencias pero ***manteniendo solo las filas coincidentes en ambas tablas***.
-
-Para realizar esta operación solo necesitamos agregar `nomatch = NULL` a cualquiera de las operaciones de unión anteriores para devolver los mismos resultados.
-
-```{r}
-# First Table
-Products[ProductReceived,
-         on = c("id" = "product_id"),
-         nomatch = NULL]
-
-# Second Table
-ProductReceived[Products,
-                on = .(product_id = id),
-                nomatch = NULL]
-```
-
-A pesar de que ambas tablas tienen la misma información, existen algunas diferencias relevantes:
-
-- Presentan un orden de columnas diferente.
-- Tienen diferencias en el nombre de las columnas:
- - La columna `id` en la primera tabla tiene la misma información que `product_id` en la segunda tabla.
- - La columna `i.id` en la primera tabla tiene la misma información que `id` en la segunda tabla.
-
-### 3.3. Anti-unión
-
-Este método **conserva sólo las filas que no coinciden con ninguna fila de una segunda tabla**.
-
-Para aplicar esta técnica podemos negar (`!`) la tabla ubicada en el argumento `i`.
-
-```{r}
-Products[!ProductReceived,
-         on = c("id" = "product_id")]
-```
-
-Como puedes ver, el resultado solo tiene 'soda', ya que era el único producto que no estaba presente en la tabla 'ProductReceived'.
-
-```{r}
-ProductReceived[!Products,
-                on = c("product_id" = "id")]
-```
-
-En este caso, la operación devuelve la fila con `product_id = 6`, ya que no está presente en la tabla `Productos`.
-
-### 3.4. Semi unión
-
-Este método extrae **sólo las filas que coinciden con cualquier fila de una segunda tabla**, sin combinar las columnas de las tablas.
-
-Es muy similar a filtrar via un "join", pero como en esta ocasión estamos pasando una tabla completa en `i`, debemos asegurarnos de que:
-
-- Cualquier fila en la tabla `x` se duplica debido a la duplicación de filas en la tabla pasada al argumento `i`.
-
-- Todas las filas renombradas desde `x` deben mantener el orden de filas original. 
-
-Para realizar esto puedes aplicar los siguientes pasos:
-
-1. Realice un **inner join** con `which = TRUE` para guardar los números de fila relacionados con cada fila coincidente de la tabla `x`.
-
-```{r}
-SubSetRows = Products[
-  ProductReceived,
-  on = .(id = product_id),
-  nomatch = NULL,
-  which = TRUE
-]
-
-SubSetRows
-```
-
-2. Seleccionar y ordenar los identificadores de filas únicos.
-
-```{r}
-SubSetRowsSorted = sort(unique(SubSetRows))
-
-SubSetRowsSorted
-```
-
-3. Seleccionar las `x` filas que se conservarán.
-
-```{r}
-Products[SubSetRowsSorted]
-```
-
-### 3.5. Unión izquierda (left join)
-
-Utilice este método si necesita combinar columnas de 2 tablas según una o más referencias pero ***manteniendo todas las filas presentes en la tabla ubicada a la izquierda***.
-
-Para realizar esta operación, solo necesitamos **intercambiar el orden entre ambas tablas** y los nombres de las columnas en el argumento `on`.
-
-```{r}
-ProductReceived[Products,
-                on = list(product_id = id)]
-```
-
-A continuación se presentan algunas consideraciones importantes:
-
-- **Nivel de columna**
- - El *primer grupo* de columnas ahora proviene de la tabla `ProductReceived` ya que es la tabla `x`.
- - El *segundo grupo* de columnas ahora proviene de la tabla `Products` ya que es la tabla `i`.
- - No agregó el prefijo `i.` a ninguna columna.
-
-- **Nivel de fila**
- - Se conservaron todas las filas de la tabla `i`: la entrada de soda de `Products` que no coincidió con ninguna fila en `ProductReceived` todavía es parte de los resultados.
- - La fila relacionada con `product_id = 6` ya no es parte de los resultados porque no está presente en la tabla `Products`.
-
-#### 3.5.1. Unión tras operaciones de encadenamiento
-
-Una de las características clave de `data.table` es que podemos aplicar varias operaciones antes de guardar nuestros resultados finales encadenando corchetes.
-
-```r
-DT[
-  ...
-][
-  ...
-][
-  ...
-]
-```
-
-Hasta ahora, si después de aplicar todas esas operaciones **queremos unir nuevas columnas sin eliminar ninguna fila**, necesitaríamos detener el proceso de encadenamiento, guardar una tabla temporal y luego aplicar la operación de unión.
-
-Para evitar esa situación, podemos usar símbolos especiales `.SD`, para aplicar una **unión derecha (right join) basada en la tabla modificada**.
-
-```{r}
-NewTax[Products,
-       on = c("unit", "type")
-][, ProductReceived[.SD,
-                    on = list(product_id = id)],
-  .SDcols = !c("unit", "type")]
-```
-
-### 3.6. Unión de muchos a muchos
-
-A veces queremos unir tablas en función de columnas con **valores `id` duplicados** para luego realizar algunas transformaciones más adelante.
-
-Para ilustrar esta situación tomemos como ejemplo el `product_id == 1L`, que tiene 4 filas en nuestra tabla `ProductReceived`.
-
-```{r}
-ProductReceived[product_id == 1L]
-```
-
-Y 4 filas en nuestra tabla 'ProductSales'.
-
-```{r}
-ProductSales[product_id == 1L]
-```
-
-Para realizar esta unión solo necesitamos filtrar `product_id == 1L` en la tabla `i` para limitar la unión solo a ese producto y establecer el argumento `allow.cartesian = TRUE` para permitir combinar cada fila de una tabla con cada fila de la otra tabla.
-
-```{r}
-ProductReceived[ProductSales[list(1L),
-                             on = "product_id",
-                             nomatch = NULL],
-                on = "product_id",
-                allow.cartesian = TRUE]
-```
-
-Una vez que entendemos el resultado, podemos aplicar el mismo proceso para **todos los productos**.
-
-```{r}
-ProductReceived[ProductSales,
-                on = "product_id",
-                allow.cartesian = TRUE]
-```
-
-**Nota**: El valor predeterminado de `allow.cartesian` es FALSE, ya que esto rara vez es lo que el usuario desea, y una combinación cruzada de este tipo puede generar un número muy elevado de filas en el resultado. Por ejemplo, si la Tabla A tiene 100 filas y la Tabla B tiene 50, su producto cartesiano resultaría en 5000 filas (100 * 50). Esto puede consumir rápidamente mucha memoria para conjuntos de datos grandes.
-
-#### 3.6.1. Seleccionar una coincidencia
-
-Tras unir la tabla, podríamos descubrir que solo necesitamos devolver una única unión para extraer la información necesaria. En este caso, tenemos dos alternativas:
-
-- Podemos seleccionar la **primera coincidencia**, representada en el siguiente ejemplo por `id = 2`.
-
-```{r}
-ProductReceived[ProductSales[product_id == 1L],
-                on = .(product_id),
-                allow.cartesian = TRUE,
-                mult = "first"]
-```
-
-- Podemos seleccionar la **última coincidencia**, representada en el siguiente ejemplo por `id = 9`.
-
-```{r}
-ProductReceived[ProductSales[product_id == 1L],
-                on = .(product_id),
-                allow.cartesian = TRUE,
-                mult = "last"]
-```
-
-#### 3.6.2. Unión cruzada
-
-Si desea obtener **todas las combinaciones de filas posibles** independientemente de cualquier columna de identificación en particular, podemos seguir el siguiente proceso:
-
-1. Crea una nueva columna en ambas tablas con una constante.
-
-```{r}
-ProductsTempId = copy(Products)[, temp_id := 1L]
-```
-
-2. Unir ambas tablas en función de la nueva columna y eliminarla después de finalizar el proceso, ya que no tiene motivos para permanecer después de unirse.
-
-```{r}
-AllProductsMix =
-  ProductsTempId[ProductsTempId,
-                 on = "temp_id",
-                 allow.cartesian = TRUE]
-
-AllProductsMix[, temp_id := NULL]
-
-# Removing type to make easier to see the result when printing the table
-AllProductsMix[, !c("type", "i.type")]
-```
-
-### 3.7. Unión completa
-
-Utilice este método si necesita combinar columnas de 2 tablas según una o más referencias ***sin eliminar ninguna fila***.
-
-Como vimos en la sección anterior, cualquiera de las operaciones anteriores puede mantener el `product_id = 6` faltante y el **soda** (`product_id = 4`) como parte de los resultados.
-
-Para evitar este problema, podemos utilizar la función `merge` aunque es más sencilla que utilizar la sintaxis de unión nativa `data.table`.
-
-```{r}
-merge(x = Products,
-      y = ProductReceived,
-      by.x = "id",
-      by.y = "product_id",
-      all = TRUE,
-      sort = FALSE)
-```
-
-## 4. Unión no equitativa
-
-Una unión no equitativa es un tipo de unión donde la condición para la coincidencia de filas se basa en operadores de comparación distintos de la igualdad, como `<`, `>`, `<=` o `>=`. Esto permite **criterios de unión más flexibles**. En `data.table`, las uniones no equitativas son particularmente útiles para operaciones como:
-
-- Encontrar la coincidencia más cercana.
-- Comparar rangos de valores entre tablas.
-
-Es una gran alternativa cuando, después de aplicar una unión derecha o interna, quieres:
-
-- Desea reducir la cantidad de filas devueltas en función de las comparaciones de columnas numéricas entre tablas.
-- No es necesario conservar las columnas de la tabla x *(la `data.table` secundaria)* en el resultado final.
-
-Para ilustrar cómo funciona esto, centrémonos en las ventas y recepciones del producto 2.
-
-```{r}
-ProductSalesProd2 = ProductSales[product_id == 2L]
-ProductReceivedProd2 = ProductReceived[product_id == 2L]
-```
-
-Si deseamos saber, por ejemplo, si podemos encontrar alguna recepción que haya tenido lugar antes de una fecha de venta, podemos aplicar lo siguiente.
-
-```{r}
-ProductReceivedProd2[ProductSalesProd2,
-                     on = "product_id",
-                     allow.cartesian = TRUE
-][date < i.date]
-```
-
-¿Qué sucede si simplemente aplicamos la misma lógica en la lista pasada a 'on'?
-
-- Como esta operación sigue siendo una unión derecha (right join), devuelve todas las filas de la tabla `i`, pero solo muestra los valores de `id` y `count` cuando se cumplen las reglas.
-
-- La fecha relacionada con `ProductReceivedProd2` se omitió de esta nueva tabla.
-
-```{r}
-ProductReceivedProd2[ProductSalesProd2,
-                     on = list(product_id, date < date)]
-```
-
-Ahora, después de aplicar la unión, podemos limitar los resultados mostrando solo los casos que cumplen todos los criterios de unión.
-
-```{r}
-ProductReceivedProd2[ProductSalesProd2,
-                     on = list(product_id, date < date),
-                     nomatch = NULL]
-```
-
-### 4.1 Nombres de columnas de salida en uniones no equitativas
-
-Al realizar uniones no equitativas (`<`, `>`, `<=`, `>=`), los nombres de columna se asignan de la siguiente manera:
-
-- El operando izquierdo (columna `x`) determina el nombre de la columna en el resultado.
-- El operando derecho (columna `i`) aporta valores pero no conserva su nombre original.
-- De manera predeterminada, `data.table` no conserva la columna `i` utilizada en la condición de unión a menos que se solicite explícitamente.
-
-En uniones no equitativas, el lado izquierdo del operador (por ejemplo, `x_int` en `x_int >= i_int`) debe ser una columna de `x`, mientras que el lado derecho (por ejemplo, `i_int`) debe ser una columna de `i`.
-
-Las uniones no equitativas actualmente no admiten expresiones arbitrarias (pero consulte [#1639](https://github.com/Rdatatable/data.table/issues/1639)). Por ejemplo, `on = .(x_int >= i_int)` es válido, pero `on = .(x_int >= i_int + 1L)` no lo es. Para realizar una unión no equitativa de este tipo, primero agregue la expresión como una nueva columna, por ejemplo, `i[, i_int_plus_one := i_int + 1L]`, luego ejecute `.on(x_int >= i_int_plus_one)`.
-
-```{r non_equi_join_example}
-x <- data.table(x_int = 2:4, lower = letters[1:3])
-i <- data.table(i_int = c(2L, 4L, 5L), UPPER = LETTERS[1:3])
-x[i, on = .(x_int >= i_int)]
-```
-
-Conclusiones clave:
-
-- El nombre de la columna de salida (`x_int`) proviene de `x`, pero los valores provienen de `i_int` en `i`.
-- La última fila contiene `NA` porque ninguna fila en `x` coincide con la última fila en `i` (`UPPER == "C"`).
-- Se devuelven varias filas en `x` para que coincidan con la primera fila en `i` con `UPPER == "A"`.
-
-Si desea conservar la columna `i_int` de `i`, debe seleccionarla explícitamente en el resultado:
-
-```{r retain_i_column}
-x[i, on = .(x_int >= i_int), .(i_int = i.i_int, x_int = x.x_int, lower, UPPER)]
-```
-
-El uso de prefijos (`x.` e `i.`) no es estrictamente necesario en este caso ya que los nombres no son ambiguos, pero su uso garantiza que la salida distinga claramente `i_int` (de `i`) y `x_int` (de `x`).
-
-Si desea excluir filas no coincidentes (una *unión interna*), utilice `nomatch = NULL`:
-
-```{r retain_i_column_inner_join}
-x[i, on = .(x_int >= i_int), .(i_int = i.i_int, x_int = x.x_int, lower, UPPER), nomatch = NULL]
-```
-
-## 5. Unión rodante
-
-Las uniones continuas son especialmente útiles en el análisis de datos de series temporales. Permiten **emparejar filas según el valor más cercano** en una columna ordenada, generalmente una columna de fecha u hora.
-
-Esto es útil cuando necesita alinear datos de diferentes fuentes **que pueden no tener marcas de tiempo exactamente coincidentes**, o cuando desea transferir el valor más reciente.
-
-Por ejemplo, en datos financieros, puede utilizar una unión continua para asignar el precio de acción más reciente a cada transacción, incluso si las actualizaciones de precios y las transacciones no ocurren exactamente en el mismo momento.
-
-En nuestro ejemplo de supermercado, podemos utilizar una unión continua para hacer coincidir las ventas con la información más reciente del producto.
-
-Supongamos que el precio de los plátanos y las zanahorias cambia el primer día de cada mes.
-
-```{r}
-ProductPriceHistory = data.table(
-  product_id = rep(1:2, each = 3),
-  date = rep(as.IDate(c("2024-01-01", "2024-02-01", "2024-03-01")), 2),
-  price = c(0.59, 0.63, 0.65,  # Banana prices
-            0.79, 0.89, 0.99)  # Carrot prices
-)
-
-ProductPriceHistory
-```
-
-Ahora, podemos realizar un *right join* dando un precio diferente para cada producto en función de la fecha de venta.
-
-```{r}
-ProductPriceHistory[ProductSales,
-                    on = .(product_id, date),
-                    roll = TRUE,
-                    j = .(product_id, date, count, price)]
-```
-
-Si solo queremos ver los casos coincidentes, simplemente necesitamos agregar el argumento `nomatch = NULL` para realizar una unión interna.
-
-```{r}
-ProductPriceHistory[ProductSales,
-                    on = .(product_id, date),
-                    roll = TRUE,
-                    nomatch = NULL,
-                    j = .(product_id, date, count, price)]
-```
-
-## 6. Aprovechar la velocidad de incorporación
-
-### 6.1. Filtrado mediante joins
-
-Como vimos en la sección anterior, la tabla `x` se filtra según los valores disponibles en la tabla `i`. Este proceso es más rápido que pasar una expresión booleana al argumento `i`.
-
-Para filtrar la tabla `x` rápidamente no necesitamos pasar un `data.table` completo, podemos pasar una `list()` de vectores con los valores que queremos mantener u omitir de la tabla original.
-
-Por ejemplo, para filtrar las fechas donde el mercado recibió 100 unidades de plátanos (`product_id = 1`) o palomitas de maíz (`product_id = 3`) podemos utilizar lo siguiente:
-
-```{r}
-ProductReceived[list(c(1L, 3L), 100L),
-                on = c("product_id", "count")]
-```
-
-Como al final filtramos según una operación de unión, el código devolvió una fila que no estaba presente en la tabla original. Para evitar este comportamiento, se recomienda agregar siempre el argumento `nomatch = NULL`.
-
-```{r}
-ProductReceived[list(c(1L, 3L), 100L),
-                on = c("product_id", "count"),
-                nomatch = NULL]
-```
-
-También podemos usar esta técnica para filtrar cualquier combinación de valores, prefijándolos con `!` para negar la expresión en el argumento `i` y manteniendo `nomatch` con su valor predeterminado. Por ejemplo, podemos filtrar las dos filas que filtramos anteriormente.
-
-```{r}
-ProductReceived[!list(c(1L, 3L), 100L),
-                on = c("product_id", "count")]
-```
-
-Si solo desea filtrar un valor para una sola **columna de caracteres**, puede omitir la llamada a la función `list()` y pasar el valor a filtrar en el argumento `i`.
-
-```{r}
-Products[c("banana","popcorn"),
-         on = "name",
-         nomatch = NULL]
-
-Products[!"popcorn",
-         on = "name"]
-```
-
-### 6.2. Actualización por referencia
-
-Utilice `:=` para modificar columnas **por referencia** (sin copia) durante las uniones. Sintaxis general: `x[i, on=, (cols) := val]`.
-
-**Actualización simple uno a uno**
-
-Actualizar `Productos` con precios de `ProductPriceHistory`:
-
-```{r}
-Products[ProductPriceHistory, 
-         on = .(id = product_id), 
-         price := i.price]
-
-Products
-```
-
-- `i.price` hace referencia al precio de `ProductPriceHistory`.
-- Modifica `Products` en el lugar.
-
-**Actualizaciones agrupadas con `.EACHI`**
-
-Obtenga el último precio/fecha de cada producto:
-
-```{r Updating_with_the_Latest_Record}
-Products[ProductPriceHistory,
-         on = .(id = product_id),
-         `:=`(price = last(i.price), last_updated = last(i.date)),
-         by = .EACHI]
-
-Products
-```
-
-- `by = .EACHI` agrupa por filas en `i` (1 grupo por fila de ProductPriceHistory).
-- `last()` devuelve el último valor
-
-**Actualización eficiente mediante Right Join**
-
-Agregue detalles del producto a `ProductPriceHistory` sin copiar:
-
-```{r}
-cols <- setdiff(names(Products), "id")
-ProductPriceHistory[, (cols) := 
-  Products[.SD, on = .(id = product_id), .SD, .SDcols = cols]]
-setnafill(ProductPriceHistory, fill=0, cols="price") # Handle missing values
-
-ProductPriceHistory
-```
-
-- En `i`, `.SD` hace referencia a `ProductPriceHistory`.
-- En `j`, `.SD` hace referencia a `Products`.
-- `:=` y `setnafill()` actualizan `ProductPriceHistory` por referencia.
-
-## Referencia
-
-- *Entendiendo las uniones continuas en data.table*: https://www.r-bloggers.com/2016/06/understanding-data-table-rolling-joins/
-
-- *Semi-unión con data.table*: https://stackoverflow.com/questions/18969420/perform-a-semi-join-with-data-table
-
-- *Unión cruzada con data.table*: https://stackoverflow.com/questions/10600060/how-to-do-cross-join-in-r
-
-- *¿Cómo se hace una unión completa usando data.table?*: https://stackoverflow.com/questions/15170741/how-does-one-do-a-full-join-using-data-table
-
-- *Data.frame mejorado*: https://rdatatable.gitlab.io/data.table/reference/data.table.html
diff --git a/vignettes/es/datatable-keys-fast-subset.Rmd b/vignettes/es/datatable-keys-fast-subset.Rmd
deleted file mode 100644
index 007e9ba85d..0000000000
--- a/vignettes/es/datatable-keys-fast-subset.Rmd
+++ /dev/null
@@ -1,500 +0,0 @@
----
-title: "Claves y filtrado rápido con búsqueda binaria"
-date: "`{r} Sys.Date()`"
-output:
-  litedown::html_format
-vignette: >
-  %\VignetteIndexEntry{Keys and fast binary search based subset}
-  %\VignetteEngine{litedown::vignette}
-  \usepackage[utf8]{inputenc}
----
-
-```{r, echo=FALSE, file='../_translation_links.R'}
-```
-
-`{r} .write.translation.links("Las traducciones de este documento están disponibles en: %s")`
-
-```{r, echo = FALSE, message = FALSE}
-library(data.table)
-litedown::reactor(comment = "# ")
-.old.th = setDTthreads(1)
-```
-
-Esta viñeta está dirigida a quienes ya están familiarizados con la sintaxis de *data.table*, su forma general, cómo filtrar [N. del T.: *subset*] filas en `i`, seleccionar y calcular columnas, agregar, modificar y eliminar columnas *por referencia* en `j` y agrupar mediante `by`. Si no está familiarizado con estos conceptos, lea primero las viñetas [`vignette("datatable-intro", package="data.table")`](datatable-intro.html) y [`vignette("datatable-reference-semantics", package="data.table")`](datatable-reference-semantics.html).
-
-***
-
-## Datos {#data}
-
-Usaremos los mismos datos de `flights` que en la viñeta [`vignette("datatable-intro", package="data.table")`](datatable-intro.html).
-
-```{r, echo = FALSE}
-options(width = 100L)
-```
-
-```{r}
-flights <- fread("../flights14.csv")
-head(flights)
-dim(flights)
-```
-
-## Introducción
-
-En esta viñeta,
-
-* primero introduciremos el concepto de *clave* en *data.table*, y estableceremos y usaremos claves para efectuar un filtro en `i` basado en  *búsquedas binarias rápidas*,
-
-* ver que podemos combinar filtros basados ​​en clave junto con `j` y `by` exactamente de la misma manera que antes,
-
-* ver otros argumentos útiles adicionales: `mult` y `nomatch`,
-
-* y finalmente concluir mirando la ventaja de establecer claves: realizar *filtros basados ​​en búsquedas binarias rápidas* y comparar con el enfoque de escaneo vectorial tradicional.
-
-## 1. Claves
-
-### a) ¿Qué es una *clave*?
-
-En la viñeta [`vignette("datatable-intro", package="data.table")`](datatable-intro.html), vimos cómo aplicar filtros en `i` usando expresiones lógicas, números de fila y el uso de `order()`. En esta sección, veremos otra forma de crear filtros increíblemente rápido: usando *claves*
-
-Pero primero, veamos los *data.frames*. Todos los *data.frames* tienen un atributo de nombre de fila. Considere el *data.frame* `DF` a continuación.
-
-```{r}
-set.seed(1L)
-DF = data.frame(ID1 = sample(letters[1:2], 10, TRUE),
-                ID2 = sample(1:3, 10, TRUE),
-                val = sample(10),
-                stringsAsFactors = FALSE,
-                row.names = sample(LETTERS[1:10]))
-DF
-
-rownames(DF)
-```
-
-Podemos filtrar una fila particular usando su nombre de fila como se muestra a continuación:
-
-```{r}
-DF["C", ]
-```
-
-Es decir, los nombres de fila son más o menos *un índice* de las filas de un *data.frame*. Sin embargo,
-
-1. Cada fila está limitada a *exactamente un* nombre de fila.
-
-    But, a person (for example) has at least two names - a *first* and a *second* name. It is useful to organise a telephone directory by *surname* then *first name*.
-
-2. Y los nombres de las filas deben ser *únicos*.
-
-    ```r
-    rownames(DF) = sample(LETTERS[1:5], 10, TRUE)
-    # Warning: non-unique values when setting 'row.names': 'C', 'D'
-    # Error in `.rowNamesDF<-`(x, value = value): duplicate 'row.names' are not allowed
-    ```
-
-Ahora vamos a convertirlo en una *data.table*.
-
-```{r}
-DT = as.data.table(DF)
-DT
-
-rownames(DT)
-```
-
-* Tenga en cuenta que los nombres de las filas se han restablecido.
-
-* *data.tables* nunca usa nombres de fila. Dado que *data.tables* **hereda** de *data.frames*, aún conserva el atributo de nombres de fila. Pero nunca los usa. Veremos por qué en breve.
-
-    If you would like to preserve the row names, use `keep.rownames = TRUE` in `as.data.table()` - this will create a new column called `rn` and assign row names to this column.
-
-En cambio, en *data.tables*, establecemos y usamos `keys` (claves). Piense en una `key` (clave) como **nombres de fila supercargados**.
-
-#### Claves y sus propiedades {#key-properties}
-
-1. Podemos establecer claves en *varias columnas* y la columna puede ser de *diferentes tipos*: *entero*, *numérico*, *carácter*, *factor*, *integer64*, etc. Los tipos *lista* y *complejos* aún no son compatibles.
-
-2. No se exige unicidad, es decir, se permiten valores de clave duplicados. Dado que las filas se ordenan por clave, cualquier valor duplicado en las columnas de clave aparecerá consecutivamente.
-
-3. Establecer una clave hace *dos* cosas:
-
-    a. physically reorders the rows of the *data.table* by the column(s) provided *by reference*, always in *increasing* order.
-    
-    b. marks those columns as *key* columns by setting an attribute called `sorted` to the *data.table*.
-    
-    Since the rows are reordered, a *data.table* can have at most one key because it can not be sorted in more than one way.
-
-Para el resto de la viñeta, trabajaremos con el conjunto de datos `flights`.
-
-### b) Establecer, obtener y usar claves en una *data.table*
-
-#### -- ¿Cómo podemos establecer la columna `origen` como clave en la *data.table* `flights`?
-
-```{r}
-setkey(flights, origin)
-head(flights)
-
-## alternatively we can provide character vectors to the function 'setkeyv()'
-# setkeyv(flights, "origin") # useful to program with
-```
-
-* Puede usar la función `setkey()` y proporcionar los nombres de las columnas (sin comillas). Esto es útil durante el uso interactivo.
-
-* También puede pasar un vector de caracteres de nombres de columnas a la función `setkeyv()`. Esto es especialmente útil al diseñar funciones que pasan columnas a las que se les asigna una clave como argumentos.
-
-* Tenga en cuenta que no tuvimos que asignar el resultado a una variable. Esto se debe a que, al igual que la función `:=` que vimos en la viñeta [`vignette("datatable-reference-semantics", package="data.table")`](datatable-reference-semantics.html), `setkey()` y `setkeyv()` modifican la entrada *data.table* *por referencia*. Devuelven el resultado de forma invisible.
-
-* La *data.table* ahora se reordena según la columna proporcionada: `origin`. Al reordenar por referencia, solo necesitamos memoria adicional de una columna con una longitud igual al número de filas de la *data.table*, lo que la hace muy eficiente en el uso de memoria.
-
-* También puede establecer claves directamente al crear *data.tables* mediante la función `data.table()` con el argumento `key`. Esta función acepta un vector de caracteres de nombres de columna.
-
-#### set* y `:=`:
-
-En *data.table*, el operador `:=` y todas las funciones `set*` (por ejemplo, `setkey`, `setorder`, `setnames`, etc.) son las únicas que modifican el objeto de entrada *por referencia*
-
-Una vez que se *clasifica* una *data.table* por ciertas columnas, se puede filtrar consultando esas columnas clave usando la notación `.()` en `i`. Recuerde que `.()` es un *alias* de `list()`.
-
-#### -- Usar la columna clave `origin` para filtrar por todas las filas donde el aeropuerto de origen coincida con *"JFK"*
-
-```{r}
-flights[.("JFK")]
-
-## alternatively
-# flights[J("JFK")] (or)
-# flights[list("JFK")]
-```
-
-* La columna *key* ya está configurada como `origin`. Por lo tanto, basta con proporcionar el valor, en este caso *"JFK"*, directamente. La sintaxis `.()` ayuda a identificar que la tarea requiere buscar el valor *"JFK"* en la columna key de *data.table* (en este caso, la columna `origin` de `flights` *data.table*).
-
-* Primero se obtienen los *índices de fila* correspondientes al valor *"JFK"* en `origin`. Y como no hay expresión en `j`, se devuelven todas las columnas correspondientes a esos índices de fila.
-
-* En una clave de columna única de tipo *carácter*, puede eliminar la notación `.()` y usar los valores directamente al filtrar, como filtrar usando nombres de filas en *data.frames*.
-
-    ```r
-    flights["JFK"]              ## same as flights[.("JFK")]
-    ```
-
-* Podemos filtrar cualquier cantidad de valores que sea necesaria
-
-    ```r
-    flights[c("JFK", "LGA")]    ## same as flights[.(c("JFK", "LGA"))]
-    ```
-    
-    This returns all columns corresponding to those rows where `origin` column matches either *"JFK"* or *"LGA"*.
-
-#### -- ¿Cómo podemos obtener las columnas por las que se codifica una *data.table*?
-
-Usando la función `key()`.
-
-```{r}
-key(flights)
-```
-
-* Devuelve un vector de caracteres de todas las columnas clave.
-
-* Si no se establece ninguna clave, devuelve `NULL`.
-
-### c) Claves y columnas múltiples
-
-Para refrescar, las *claves* son como nombres de fila *sobrecargados*. Podemos establecer claves en varias columnas y pueden ser de varios tipos.
-
-#### -- ¿Cómo puedo configurar claves en las columnas `origin` *y* `dest`?
-
-```{r}
-setkey(flights, origin, dest)
-head(flights)
-
-## or alternatively
-# setkeyv(flights, c("origin", "dest")) # provide a character vector of column names
-
-key(flights)
-```
-
-* Ordena la *data.table* primero por la columna `origen` y luego por `dest` *por referencia*.
-
-#### -- Filtrar todas las filas utilizando columnas clave donde la primera columna clave `origin` coincide con *"JFK"* y la segunda columna clave `dest` coincide con *"MIA"*
-
-```{r}
-flights[.("JFK", "MIA")]
-```
-
-#### ¿Cómo funciona el filtrado aquí? {#multiple-key-point}
-
-* Es importante comprender cómo funciona esto internamente. *"JFK"* se compara primero con la primera columna clave `origin`. Y *dentro de esas filas coincidentes*, *"MIA"* se compara con la segunda columna clave `dest` para obtener *índices de fila* donde tanto `origin` como `dest` coinciden con los valores dados.
-
-* Dado que no se proporciona `j`, simplemente devolvemos *todas las columnas* correspondientes a esos índices de fila.
-
-#### -- Filtrar todas las filas donde solo la primera columna de clave `origin` coincide con *"JFK"*
-
-```{r}
-key(flights)
-
-flights[.("JFK")] ## or in this case simply flights["JFK"], for convenience
-```
-
-* Dado que no proporcionamos ningún valor para la segunda columna de clave `dest`, simplemente compara *"JFK"* con la primera columna de clave `origin` y devuelve todas las filas coincidentes.
-
-#### -- Filtrar todas las filas donde sólo la segunda columna clave `dest` coincide con *"MIA"*
-
-```{r}
-flights[.(unique(origin), "MIA")]
-```
-
-#### ¿Qué está pasando aquí?
-
-* Lea [esto](#multiple-key-point) de nuevo. El valor proporcionado para la segunda columna de clave *"MIA"* tiene que encontrar los valores coincidentes en la columna de clave `dest` *en las filas coincidentes proporcionadas por la primera columna de clave `origin`*. No podemos omitir los valores de las columnas de clave *anteriores*. Por lo tanto, proporcionamos *todos* los valores únicos de la columna de clave `origin`.
-
-* *"MIA"* se recicla automáticamente para ajustarse a la longitud de `unique(origin)` que es *3*.
-
-## 2. Combinar claves con `j` y `by`
-
-Hasta ahora, todo lo que hemos visto es el mismo concepto: obtener *índices de fila* en `i`, pero con un método diferente: usar `keys`. No debería sorprender que podamos hacer exactamente lo mismo en `j` y `by`, como se vio en los ejemplos anteriores. Lo ilustraremos con algunos ejemplos.
-
-### a) Seleccionar en `j`
-
-#### -- Devuelve la columna `arr_delay` como una *data.table* correspondiente a `origin = "LGA"` y `dest = "TPA"`.
-
-```{r}
-key(flights)
-flights[.("LGA", "TPA"), .(arr_delay)]
-```
-
-* Los *índices de fila* correspondientes a `origin == "LGA"` y `dest == "TPA"` se obtienen utilizando un *filtro basado en clave*.
-
-* Una vez que tenemos los índices de fila, revisamos `j`, que solo requiere la columna `arr_delay`. Así que simplemente seleccionamos la columna `arr_delay` para esos *índices de fila* de la misma manera que vimos en la viñeta [`vignette("datatable-intro", package="data.table")`](datatable-intro.html).
-
-* Podríamos haber devuelto el resultado usando `with = FALSE` también.
-
-    ```r
-    flights[.("LGA", "TPA"), "arr_delay", with = FALSE]
-    ```
-
-### b) Encadenamiento
-
-#### -- Con el resultado obtenido anteriormente, utilizar encadenamiento para ordenar la columna en orden decreciente
-
-```{r}
-flights[.("LGA", "TPA"), .(arr_delay)][order(-arr_delay)]
-```
-
-### c) Calcular o *hacer* en `j`
-
-#### -- Encontrar el retraso máximo de llegada correspondiente a `origin = "LGA"` y `dest = "TPA"`.
-
-```{r}
-flights[.("LGA", "TPA"), max(arr_delay)]
-```
-
-*Podemos verificar que el resultado es idéntico al primer valor (486) del ejemplo anterior.
-
-### d) *sub-asignar* por referencia usando `:=` en `j`
-
-Ya vimos este ejemplo en la viñeta [`vignette("datatable-reference-semantics", package="data.table")`](datatable-reference-semantics.html). Veamos todas las `horas` disponibles en la *data.table* `flights`:
-
-```{r}
-# get all 'hours' in flights
-flights[, sort(unique(hour))]
-```
-
-Observamos que hay un total de 25 valores únicos en los datos. Parece que hay tanto *0* como *24* horas. Reemplacemos *24* por *0*, pero esta vez usando *key*.
-
-```{r}
-setkey(flights, hour)
-key(flights)
-flights[.(24), hour := 0L]
-key(flights)
-```
-
-* Primero configuramos `key` como `hour`. Esto reordena los `flights` según la columna `hour` y marca esa columna como `key`.
-
-* Ahora podemos filtrar en `hour` usando la notación `.()`. Filtramos para el valor *24* y obtenemos los *índices de fila* correspondientes.
-
-* Y en esos índices de fila, reemplazamos la columna `key` con el valor `0`.
-
-* Dado que reemplazamos los valores en la columna *key*, la tabla de datos `flights` ya no se ordena por `hour`. Por lo tanto, la clave se ha eliminado automáticamente al establecerla en NULL.
-
-Ahora, no debería haber ningún *24* en la columna "hora".
-
-```{r}
-flights[, sort(unique(hour))]
-```
-
-### e) Agregación utilizando `by`
-
-Primero, establezcamos nuevamente la clave en `origin, dest`.
-
-```{r}
-setkey(flights, origin, dest)
-key(flights)
-```
-
-#### Obtener el retraso máximo de salida para cada mes correspondiente a `origin = "JFK"`. Ordenar el resultado por mes.
-
-```{r}
-ans <- flights["JFK", max(dep_delay), keyby = month]
-head(ans)
-key(ans)
-```
-
-* Filtramos en la columna `clave` *origen* para obtener los *índices de fila* correspondientes a *"JFK"*.
-
-* Una vez que obtenemos los índices de fila, solo necesitamos dos columnas: `month` para agrupar y `dep_delay` para obtener `max()` para cada grupo. Por lo tanto, la optimización de consulta de *data.table* filtra solo aquellas dos columnas correspondientes a los *índices de fila* obtenidos en `i`, para mayor velocidad y eficiencia de memoria.
-
-* Y en ese filtro, agrupamos por *mes* y calculamos `max(dep_delay)`.
-
-* Usamos `keyby` para clasificar automáticamente ese resultado por *mes*. Ahora entendemos lo que significa. Además de ordenar, también establece *mes* como la columna `key`.
-
-## 3. Argumentos adicionales: `mult` y `nomatch`
-
-### a) El argumento *mult*
-
-Podemos elegir, para cada consulta, si se deben devolver *todas* ("all") las filas coincidentes, o solo la *primera* ("first") o la *última* ("last") mediante el argumento `mult`. El valor predeterminado es *"all"*, el que hemos visto hasta ahora.
-
-#### -- Obtener solo la primera fila coincidente de todas las filas donde `origin` coincide con *"JFK"* y `dest` coincide con *"MIA"*
-
-```{r}
-flights[.("JFK", "MIA"), mult = "first"]
-```
-
-#### -- Filtrar solo la última fila coincidente de todas las filas donde `origin` coincide con *"LGA", "JFK", "EWR"* y `dest` coincide con *"XNA"*
-
-```{r}
-flights[.(c("LGA", "JFK", "EWR"), "XNA"), mult = "last"]
-```
-
-* La consulta *"JFK", "XNA"* no coincide con ninguna fila en `flights` y, por lo tanto, devuelve `NA`.
-
-* Una vez más, la consulta para la segunda columna de clave `dest`, *"XNA"*, se recicla para ajustarse a la longitud de la consulta para la primera columna de clave `origin`, que tiene una longitud 3.
-
-### b) El argumento *nomatch*
-
-Podemos elegir si las consultas que no coinciden deben devolver "NA" o ignorarse por completo utilizando el argumento "nomatch".
-
-#### -- Del ejemplo anterior, filtrar de todas las filas solo si hay una coincidencia
-
-```{r}
-flights[.(c("LGA", "JFK", "EWR"), "XNA"), mult = "last", nomatch = NULL]
-```
-
-* El valor predeterminado para `nomatch` es `NA`. Si se establece `nomatch = NULL`, se omiten las consultas sin coincidencias.
-
-* La consulta “JFK”, “XNA” no coincide con ninguna fila en vuelos y, por lo tanto, se omite.
-
-## 4. Búsqueda binaria vs. escaneo vectorial
-
-Hemos visto hasta ahora cómo podemos establecer y usar claves para crear filtros. Pero ¿cuál es la ventaja? Por ejemplo, en lugar de hacer:
-
-```r
-# key by origin,dest columns
-flights[.("JFK", "MIA")]
-```
-
-Podríamos haber hecho:
-
-```r
-flights[origin == "JFK" & dest == "MIA"]
-```
-
-Una de las ventajas más probables es su sintaxis más corta. Pero aún más, los *filtros basados ​​en búsqueda binaria* son **increíblemente rápidos**.
-
-Con el tiempo, `data.table` se optimiza y actualmente la última llamada se optimiza automáticamente para usar la búsqueda binaria. Para usar el escaneo vectorial lento, es necesario eliminar la clave.
-
-```r
-setkey(flights, NULL)
-flights[origin == "JFK" & dest == "MIA"]
-```
-
-### a) Rendimiento del enfoque de búsqueda binaria
-
-Para ilustrarlo, creemos una *data.table* de muestra con 20 millones de filas y tres columnas y clasifiquémosla por las columnas `x` e `y`.
-
-```{r}
-set.seed(2L)
-N = 2e7L
-DT = data.table(x = sample(letters, N, TRUE),
-                y = sample(1000L, N, TRUE),
-                val = runif(N))
-print(object.size(DT), units = "MiB")
-```
-
-`DT` ocupa unos 380 MiB. No es un tamaño enorme, pero basta con esto para ilustrar el punto.
-
-De lo que hemos visto en la sección Introducción a data.table, podemos filtrar aquellas filas donde las columnas `x = "g"` e `y = 877` de la siguiente manera:
-
-```{r}
-key(DT)
-## (1) Usual way of subsetting - vector scan approach
-t1 <- system.time(ans1 <- DT[x == "g" & y == 877L])
-t1
-head(ans1)
-dim(ans1)
-```
-
-Ahora vamos a intentar crear filtros usando claves.
-
-```{r}
-setkeyv(DT, c("x", "y"))
-key(DT)
-## (2) Subsetting using keys
-t2 <- system.time(ans2 <- DT[.("g", 877L)])
-t2
-head(ans2)
-dim(ans2)
-
-identical(ans1$val, ans2$val)
-```
-
-* La mejora en velocidad es **~`{r} round(t1[3]/max(t2[3], .001))`x**!
-
-### b) ¿Por qué al introducir una clave en una *data.table* se obtienen filtros increíblemente rápidos?
-
-Para entender esto, veamos primero qué hace el *enfoque de escaneo vectorial* (método 1).
-
-#### Enfoque de escaneo vectorial
-
-* Se busca en la columna `x` el valor *"g"* fila por fila, en los 20 millones de filas. Esto da como resultado un *vector lógico* de tamaño 20 millones, con valores `TRUE, FALSE o NA` correspondientes al valor de `x`.
-
-* De manera similar, se busca `877` en la columna `y` en las 20 millones de filas una por una, y se almacena en otro vector lógico.
-
-* Las operaciones `&` elemento por elemento se realizan en los vectores lógicos intermedios y se devuelven todas las filas donde la expresión se evalúa como `VERDADERO`.
-
-Esto es lo que llamamos un *enfoque de escaneo vectorial*. Es bastante ineficiente, especialmente en tablas grandes y cuando se necesita crear filtros repetidamente, ya que tiene que escanear todas las filas cada vez.
-
-Ahora veamos el método de búsqueda binaria (método 2). Recordemos de [Propiedades de la clave](#key-properties): *establecer claves reordena la tabla data.table por columnas clave*. Como los datos están ordenados, ¡no tenemos que *explorar toda la longitud de la columna*! En su lugar, podemos usar la *búsqueda binaria* para buscar un valor en `O(log n)`, en lugar de `O(n)`, como en el caso del *enfoque de escaneo vectorial*, donde `n` es el número de filas en la tabla data.table*.
-
-#### Enfoque de búsqueda binaria
-
-Aquí hay una ilustración muy simple. Consideremos los números (ordenados) que se muestran a continuación:
-
-```
-1, 5, 10, 19, 22, 23, 30
-```
-
-Supongamos que queremos encontrar la posición coincidente del valor *1*, usando la búsqueda binaria, así es como procederíamos, porque sabemos que los datos están *ordenados*.
-
-* Comienza con el valor del medio = 19. ¿Es 1 == 19? N.° 1 < 19.
-
-* Dado que el valor que buscamos es menor que 19, debería estar en algún lugar antes de 19. Por lo tanto, podemos descartar el resto de la mitad que sea >= 19.
-
-* Nuestro conjunto se reduce a *1, 5, 10*. Toma el valor medio una vez más = 5. ¿Es 1 == 5? No. 1 < 5.
-
-* Nuestro conjunto se reduce a *1*. ¿Es 1 == 1? Sí. El índice correspondiente también es 1. Y esa es la única coincidencia.
-
-Por otro lado, un enfoque de escaneo vectorial tendría que escanear todos los valores (aquí, 7).
-
-Se puede observar que con cada búsqueda reducimos el número de búsquedas a la mitad. Por eso, los filtros basados ​​en *búsquedas binarias* son **increíblemente rápidos**. Dado que las filas de cada columna de *data.tables* tienen ubicaciones contiguas en memoria, las operaciones se realizan con gran eficiencia de caché (lo que también contribuye a la *velocidad*).
-
-Además, dado que obtenemos los índices de fila coincidentes directamente sin tener que crear esos enormes vectores lógicos (iguales al número de filas en una *data.table*), también es bastante **eficiente en términos de memoria**.
-
-## Resumen
-
-En esta viñeta, hemos aprendido otro método para crear filtros de filas en `i` mediante la introducción de claves en una *data.table*. La introducción de claves nos permite realizar filtros increíblemente rápidos mediante la búsqueda binaria. En particular, hemos visto cómo
-
-* establecer clave y filtrar usando la clave en una *data.table*.
-
-* filtrar utilizando claves que obtienen *índices de fila* en `i`, pero mucho más rápido.
-
-* Combina filtros basados ​​en claves con `j` y `by`. Ten en cuenta que las operaciones `j` y `by` son exactamente las mismas que antes.
-
-Los filtros basados ​​en claves son **increíblemente rápidos** y resultan especialmente útiles cuando la tarea implica la aplicación repetida de filtros. Sin embargo, no siempre es recomendable establecer la clave y reordenar físicamente la *data.table*. En la siguiente viñeta (`vignette("datatable-secondary-indices-and-auto-indexing", package="data.table")`)](datatable-secondary-indices-and-auto-indexing.html), abordaremos este problema mediante una nueva función: los índices secundarios.
-
-```{r, echo=FALSE}
-setDTthreads(.old.th)
-```
diff --git a/vignettes/es/datatable-programming.Rmd b/vignettes/es/datatable-programming.Rmd
deleted file mode 100644
index d3034d2af4..0000000000
--- a/vignettes/es/datatable-programming.Rmd
+++ /dev/null
@@ -1,485 +0,0 @@
----
-title: "Programación en data.table"
-date: "`{r} Sys.Date()`"
-output:
-  litedown::html_format
-vignette: >
-  %\VignetteIndexEntry{Programming on data.table}
-  %\VignetteEngine{litedown::vignette}
-  \usepackage[utf8]{inputenc}
----
-
-```{r, echo=FALSE, file='../_translation_links.R'}
-```
-
-`{r} .write.translation.links("Las traducciones de este documento están disponibles en: %s")`
-
-```{r init, include = FALSE}
-require(data.table)
-litedown::reactor(comment = "# ")
-```
-
-## Introducción
-
-Desde sus primeras versiones, `data.table` habilitó el uso de las funciones `subset` y `with` (o `within`) mediante la definición del método `[.data.table`. `subset` y `with` son funciones básicas de R útiles para reducir la repetición en el código, mejorar la legibilidad y reducir la cantidad de caracteres que el usuario debe escribir. Esta funcionalidad es posible en R gracias a una característica única llamada *evaluación diferida*. Esta característica permite que una función capture sus argumentos antes de que se evalúen y los evalúe en un ámbito diferente al que se invocó. Recapitulemos el uso de la función `subset`.
-
-```{r df_print, echo=FALSE}
-registerS3method("print", "data.frame", function(x, ...) {
-  base::print.data.frame(head(x, 2L), ...)
-  cat("...\n")
-  invisible(x)
-})
-.opts = options(
-  datatable.print.topn=2L,
-  datatable.print.nrows=20L
-)
-```
-
-```{r subset}
-subset(iris, Species == "setosa")
-```
-
-Aquí, `subset` toma el segundo argumento y lo evalúa dentro del alcance del `data.frame` dado como primer argumento. Esto elimina la necesidad de repetir variables, lo que lo hace menos propenso a errores y hace que el código sea más legible.
-
-## Descripción del problema
-
-El problema con este tipo de interfaz es que no es fácil parametrizar el código que la utiliza. Esto se debe a que las expresiones pasadas a esas funciones se sustituyen antes de ser evaluadas.
-
-### Ejemplo
-
-```{r subset_error, error=TRUE, purl=FALSE}
-my_subset = function(data, col, val) {
-  subset(data, col == val)
-}
-my_subset(iris, Species, "setosa")
-```
-
-### Aproximaciones al problema
-
-Hay varias formas de solucionar este problema.
-
-#### Evitar la *evaluación perezosa*
-
-La solución más sencilla es evitar la *evaluación perezosa* en primer lugar y recurrir a enfoques menos intuitivos y más propensos a errores, como `df[["variable"]]`, etc.
-
-```{r subset_nolazy}
-my_subset = function(data, col, val) {
-  data[data[[col]] == val & !is.na(data[[col]]), ]
-}
-my_subset(iris, col = "Species", val = "setosa")
-```
-
-Aquí, calculamos un vector lógico de longitud `nrow(iris)`, que se introduce en el argumento `i` de `[.data.frame` para realizar subconjuntos basados ​​en vectores lógicos. Para alinearlo con `subset()`, que también omite NA, necesitamos incluir un uso adicional de `data[[col]]` para capturarlo. Funciona bien para este ejemplo sencillo, pero carece de flexibilidad, introduce repetición de variables y requiere que el usuario modifique la interfaz de la función para pasar el nombre de la columna como un carácter en lugar de un símbolo sin comillas. Cuanto más compleja sea la expresión que necesitamos parametrizar, menos práctico resulta este enfoque.
-
-#### Uso de `parse` / `eval`
-
-Este método suele ser el preferido por quienes se inician en R, ya que es, quizás, el más sencillo conceptualmente. Requiere generar la expresión requerida mediante concatenación de cadenas, analizarla y evaluarla.
-
-```{r subset_parse}
-my_subset = function(data, col, val) {
-  data = deparse(substitute(data))
-  col  = deparse(substitute(col))
-  val  = paste0("'", val, "'")
-  text = paste0("subset(", data, ", ", col, " == ", val, ")")
-  eval(parse(text = text)[[1L]])
-}
-my_subset(iris, Species, "setosa")
-```
-
-Debemos usar `deparse(substitute(...))` para capturar los nombres reales de los objetos pasados ​​a la función, de modo que podamos construir la llamada a la función `subset` usando esos nombres originales. Si bien esto ofrece una flexibilidad ilimitada con una complejidad relativamente baja, **se debe evitar el uso de `eval(parse(...))`**. Las principales razones son:
-
-- falta de validación de sintaxis
-- [vulnerabilidad a la inyección de código](https://github.com/Rdatatable/data.table/issues/2655#issuecomment-376781159)
-- la existencia de mejores alternativas
-
-Martin Machler, desarrollador principal del proyecto R, [dijo una vez](https://stackoverflow.com/a/40164111/2490497):
-
-> Lo siento, pero no entiendo por qué tanta gente piensa siquiera que una cadena es algo que se puede evaluar. Debes cambiar de mentalidad, de verdad. Olvídense de todas las conexiones entre cadenas por un lado y expresiones, llamadas y evaluación por el otro. La (posiblemente) única conexión es mediante `parse(text = ....)`, y todo buen programador de R debería saber que esto rara vez es un método eficiente o seguro para construir expresiones (o llamadas). Mejor aprenda más sobre `substitute()`, `quote()` y, posiblemente, el poder de usar `do.call(substitute, ......)`.
-
-#### Computación sobre el lenguaje
-
-Las funciones mencionadas anteriormente, junto con algunas otras (incluidas `as.call`, `as.name`/`as.symbol`, `bquote` y `eval`), se pueden categorizar como funciones para *calcular en el lenguaje*, ya que operan en objetos del *lenguaje* (por ejemplo, `call`, `name`/`symbol`).
-
-```{r subset_substitute}
-my_subset = function(data, col, val) {
-  eval(substitute(subset(data, col == val)))
-}
-my_subset(iris, Species, "setosa")
-```
-
-Aquí, usamos la función base R `substitute` para transformar la llamada `subset(data, col == val)` en `subset(iris, Species == "setosa")` sustituyendo `data`, `col` y `val` por sus nombres (o valores) originales de su entorno padre. Las ventajas de este enfoque con respecto a los anteriores son evidentes. Cabe destacar que, dado que operamos a nivel de objetos del lenguaje y no es necesario manipular cadenas, lo denominamos *computación en el lenguaje*. El [manual del lenguaje R](https://cran.r-project.org/doc/manuals/r-release/R-lang.html) incluye un capítulo dedicado a *computación en el lenguaje*. Aunque no es necesario para *programar en data.table*, recomendamos leer este capítulo para comprender mejor esta potente y única característica del lenguaje R.
-
-#### Utilizar paquetes de terceros
-
-Hay paquetes de terceros que pueden lograr lo que la computación R basa en las rutinas del lenguaje (`pryr`, `lazyeval` y `rlang`, por nombrar algunos).
-
-Si bien estos pueden ser útiles, aquí discutiremos un enfoque exclusivo de `data.table`.
-
-## Programación en data.table
-
-Ahora que hemos establecido la forma correcta de parametrizar el código que utiliza *evaluación perezosa*, podemos pasar al tema principal de esta viñeta, *programación en data.table*.
-
-A partir de la versión 1.15.0, data.table proporciona un mecanismo robusto para parametrizar expresiones pasadas a los argumentos `i`, `j` y `by` (o `keyby`) de `[.data.table`. Se basa en la función `substitute` de R e imita su interfaz. Aquí presentamos `substitute2` como una versión más robusta y fácil de usar de `substitute` de R. Para obtener una lista completa de las diferencias entre `base::substitute` y `data.table::substitute2`, consulte el [manual de `substitute2`](https://rdatatable.gitlab.io/data.table/library/data.table/html/substitute2.html).
-
-### Sustituir variables y nombres
-
-Supongamos que queremos una función general que aplique una función a la suma de dos argumentos a los que se les ha aplicado otra función. Como ejemplo concreto, a continuación tenemos una función para calcular la longitud de la hipotenusa en un triángulo rectángulo, conociendo la longitud de sus catetos.
-
-${\displaystyle c = \sqrt{a^2 + b^2}}$
-
-```{r hypotenuse}
-square = function(x) x^2
-quote(
-  sqrt(square(a) + square(b))
-)
-```
-
-El objetivo es hacer que cada nombre en la llamada anterior pueda pasarse como parámetro.
-
-```{r hypotenuse_substitute2}
-substitute2(
-  outer(inner(var1) + inner(var2)),
-  env = list(
-    outer = "sqrt",
-    inner = "square",
-    var1 = "a",
-    var2 = "b"
-  )
-)
-```
-
-Podemos ver en la salida que se han reemplazado tanto los nombres de las funciones como los de las variables pasadas a ellas. Usamos `substitute2` por comodidad. En este caso simple, también se podría haber usado `substitute` de R base, aunque habría requerido el uso de `lapply(env, as.name)`.
-
-Ahora, para usar la sustitución dentro de `[.data.table`, no necesitamos llamar a la función `substitute2`. Como ahora se usa internamente, solo tenemos que proporcionar el argumento `env`, de la misma manera que lo hicimos con la función `substitute2` en el ejemplo anterior. La sustitución se puede aplicar a los argumentos `i`, `j` y `by` (o `keyby`) del método `[.data.table`. Tenga en cuenta que establecer el argumento `verbose` como `TRUE` permite imprimir expresiones después de aplicar la sustitución. Esto es muy útil para la depuración.
-
-Usemos el conjunto de datos "iris" como demostración. A modo de ejemplo, imaginemos que queremos calcular la "Hipotenusa del Sépalo", considerando el ancho y la longitud del sépalo como si fueran los catetos de un triángulo rectángulo.
-
-```{r hypotenuse_datatable}
-DT = as.data.table(iris)
-
-str(
-  DT[, outer(inner(var1) + inner(var2)),
-     env = list(
-       outer = "sqrt",
-       inner = "square",
-       var1 = "Sepal.Length",
-       var2 = "Sepal.Width"
-    )]
-)
-
-# return as a data.table
-DT[, .(Species, var1, var2, out = outer(inner(var1) + inner(var2))),
-   env = list(
-     outer = "sqrt",
-     inner = "square",
-     var1 = "Sepal.Length",
-     var2 = "Sepal.Width",
-     out = "Sepal.Hypotenuse"
-  )]
-```
-
-En la última llamada, añadimos otro parámetro, `out = "Sepal.Hypotenuse"`, que indica el nombre de la columna de salida. A diferencia del `substitute` de R base, `substitute2` también gestionará la sustitución de los nombres de los argumentos de la llamada.
-
-La sustitución también funciona en `i` y `by` (o `keyby`).
-
-```{r hypotenuse_datatable_i_j_by}
-DT[filter_col %in% filter_val,
-   .(var1, var2, out = outer(inner(var1) + inner(var2))),
-   by = by_col,
-   env = list(
-     outer = "sqrt",
-     inner = "square",
-     var1 = "Sepal.Length",
-     var2 = "Sepal.Width",
-     out = "Sepal.Hypotenuse",
-     filter_col = "Species",
-     filter_val = I(c("versicolor", "virginica")),
-     by_col =  "Species"
-  )]
-```
-
-### Sustituir funciones
-
-Una pequeña aclaración puede ser útil sobre cómo sustituir el nombre de una función en una expresión. Tenga en cuenta que proporcionar `outer="sqrt"` (cadena) y `outer=sqrt` (símbolo) es muy diferente:
-
-```{r substitute_fun1, result='hide'}
-DT[, outer(Sepal.Length), env = list(outer="sqrt"), verbose=TRUE]
-#Argument 'j' after substitute: sqrt(Sepal.Length)
-## DT[, sqrt(Sepal.Length)]
-
-DT[, outer(Sepal.Length), env = list(outer=sqrt), verbose=TRUE]
-#Argument 'j' after substitute: .Primitive("sqrt")(Sepal.Length)
-## DT[, .Primitive("sqrt")(Sepal.Length)]
-```
-
-Y aunque `.Primitive("sqrt")(Sepal.Length)` todavía funciona, casi nunca es la forma deseada.
-
-Más importante aún, si se pretende utilizar la forma del símbolo, entonces se puede y se debe utilizar directamente en la expresión, ya que no hay necesidad de sustitución.
-
-```{r substitute_fun2, result='hide'}
-DT[, sqrt(Sepal.Length)]
-```
-
-Si el nombre de la función que se va a sustituir necesita estar calificado por el espacio de nombres, entonces el espacio de nombres y el nombre de la función se pueden sustituir por cualquier otro símbolo en la expresión:
-
-```r
-DT[, ns::fun(Sepal.Length), env = list(ns="base", fun="sqrt"), verbose=TRUE]
-#Argument 'j' after substitute: base::sqrt(Sepal.Length)
-## DT[, base::sqrt(Sepal.Length)]
-```
-
-### Sustituir variables y valores de caracteres
-
-En el ejemplo anterior, hemos visto una característica útil de `substitute2`: la conversión automática de cadenas a nombres/símbolos. Surge una pregunta obvia: ¿qué ocurre si realmente queremos sustituir un parámetro con un valor de *carácter* para obtener el comportamiento `substitute` de R base? Proporcionamos un mecanismo para evitar la conversión automática envolviendo los elementos en la llamada `I()` de R base. La función `I` marca un objeto como *AsIs*, lo que impide la conversión automática de sus argumentos de carácter a símbolo. (Consulte la documentación de `?AsIs` para más detalles). Si se desea el comportamiento de R base para todo el argumento `env`, lo mejor es envolverlo en `I()`. Alternativamente, cada elemento de la lista puede envolverse en `I()` individualmente. Analicemos ambos casos a continuación.
-
-```{r rank}
-substitute(    # base R behaviour
-  rank(input, ties.method = ties),
-  env = list(input = as.name("Sepal.Width"), ties = "first")
-)
-
-substitute2(   # mimicking base R's "substitute" using "I"
-  rank(input, ties.method = ties),
-  env = I(list(input = as.name("Sepal.Width"), ties = "first"))
-)
-
-substitute2(   # only particular elements of env are used "AsIs"
-  rank(input, ties.method = ties),
-  env = list(input = "Sepal.Width", ties = I("first"))
-)
-```
-
-Tenga en cuenta que la conversión funciona de forma recursiva en cada elemento de la lista, incluido el mecanismo de escape, por supuesto.
-
-```{r substitute2_recursive}
-substitute2(   # all are symbols
-  f(v1, v2),
-  list(v1 = "a", v2 = list("b", list("c", "d")))
-)
-substitute2(   # 'a' and 'd' should stay as character
-  f(v1, v2),
-  list(v1 = I("a"), v2 = list("b", list("c", I("d"))))
-)
-```
-
-### Sustitución de listas de longitud arbitraria
-
-El ejemplo anterior ilustra una forma sencilla y eficaz de dinamizar el código. Sin embargo, existen muchos otros casos mucho más complejos con los que un desarrollador podría tener que lidiar. Un problema común es el manejo de una lista de argumentos de longitud arbitraria.
-
-Un caso de uso obvio podría ser imitar la funcionalidad de `.SD` inyectando una llamada `list` en el argumento `j`.
-
-```{r splice_sd}
-cols = c("Sepal.Length", "Sepal.Width")
-DT[, .SD, .SDcols = cols]
-```
-
-Teniendo el parámetro `cols`, nos gustaría unirlo en una llamada `list`, haciendo que el argumento `j` se vea como en el código a continuación.
-
-```{r splice_tobe}
-DT[, list(Sepal.Length, Sepal.Width)]
-```
-
-*Splicing* es una operación que consiste en insertar una lista de objetos en una expresión como una secuencia de argumentos para llamar. En R base, empalmar `cols` en una `list` se puede lograr usando `as.call(c(quote(list), lapply(cols, as.name)))`. Además, a partir de R 4.0.0, existe una nueva interfaz para esta operación en la función `bquote`.
-
-En data.table, lo simplificamos al incluir automáticamente una lista de objetos en una llamada de lista con esos objetos. Esto significa que cualquier objeto `list` dentro del argumento `env` se convertirá en una `call` de lista, simplificando así la API para ese caso de uso, como se muestra a continuación.
-
-```{r splice_datatable}
-# this works
-DT[, j,
-   env = list(j = as.list(cols)),
-   verbose = TRUE]
-
-# this will not work
-#DT[, list(cols),
-#   env = list(cols = cols)]
-```
-
-Es importante proporcionar una llamada a `as.list`, en lugar de simplemente una lista, dentro del argumento de lista `env`, como se muestra en el ejemplo anterior.
-
-Exploremos el *alistamiento* con más detalle.
-
-```{r splice_enlist}
-DT[, j,  # data.table automatically enlists nested lists into list calls
-   env = list(j = as.list(cols)),
-   verbose = TRUE]
-
-DT[, j,  # turning the above 'j' list into a list call
-   env = list(j = quote(list(Sepal.Length, Sepal.Width))),
-   verbose = TRUE]
-
-DT[, j,  # the same as above but accepts character vector
-   env = list(j = as.call(c(quote(list), lapply(cols, as.name)))),
-   verbose = TRUE]
-```
-
-Ahora, intentemos pasar una lista de símbolos, en lugar de llamarlos. Usaremos `I()` para evitar la conversión automática de *enlist*, pero como esto también desactivará la conversión de caracteres a símbolos, también debemos usar `as.name`.
-
-```{r splice_not, error=TRUE, purl=FALSE}
-DT[, j,  # list of symbols
-   env = I(list(j = lapply(cols, as.name))),
-   verbose = TRUE]
-
-DT[, j,  # again the proper way, enlist list to list call automatically
-   env = list(j = as.list(cols)),
-   verbose = TRUE]
-```
-
-Téngase en cuenta que ambas expresiones, aunque visualmente parezcan iguales, no son idénticas.
-
-```{r splice_substitute2_not}
-str(substitute2(j, env = I(list(j = lapply(cols, as.name)))))
-
-str(substitute2(j, env = list(j = as.list(cols))))
-```
-
-Para obtener una explicación más detallada sobre este asunto, consulte los ejemplos en la [documentación de `substitute2`](https://rdatatable.gitlab.io/data.table/library/data.table/html/substitute2.html).
-
-### Sustitución de una consulta compleja
-
-Tomemos, como ejemplo de una función más compleja, el cálculo de la raíz cuadrada media.
-
-${\displaystyle x_{\text{RMS}}={\sqrt{{\frac{1}{n}}\left(x_{1}^{2}+x_{2}^{2}+\cdots +x_{n}^{2}\right)}}}$
-
-Acepta un número arbitrario de variables como entrada, pero ahora no podemos simplemente "unir" una lista de argumentos en una llamada de lista, ya que cada uno de ellos debe estar encapsulado en una llamada "cuadrada". En este caso, debemos "unir" manualmente en lugar de depender del "enlistado" automático de data.table.
-
-Primero, debemos construir llamadas a la función `square` para cada variable (ver `inner_calls`). Luego, debemos reducir la lista de llamadas a una sola, con una secuencia anidada de llamadas `+` (ver `add_calls`). Finalmente, debemos sustituir la llamada construida en la expresión circundante (ver `rms`).
-
-```{r complex}
-outer = "sqrt"
-inner = "square"
-vars = c("Sepal.Length", "Sepal.Width", "Petal.Length", "Petal.Width")
-
-syms = lapply(vars, as.name)
-to_inner_call = function(var, fun) call(fun, var)
-inner_calls = lapply(syms, to_inner_call, inner)
-print(inner_calls)
-
-to_add_call = function(x, y) call("+", x, y)
-add_calls = Reduce(to_add_call, inner_calls)
-print(add_calls)
-
-rms = substitute2(
-  expr = outer((add_calls) / len),
-  env = list(
-    outer = outer,
-    add_calls = add_calls,
-    len = length(vars)
-  )
-)
-print(rms)
-
-str(
-  DT[, j, env = list(j = rms)]
-)
-
-# same, but skipping last substitute2 call and using add_calls directly
-str(
-  DT[, outer((add_calls) / len),
-     env = list(
-       outer = outer,
-       add_calls = add_calls,
-       len = length(vars)
-    )]
-)
-
-# return as data.table
-j = substitute2(j, list(j = as.list(setNames(nm = c(vars, "Species", "rms")))))
-j[["rms"]] = rms
-print(j)
-DT[, j, env = list(j = j)]
-
-# alternatively
-j = as.call(c(
-  quote(list),
-  lapply(setNames(nm = vars), as.name),
-  list(Species = as.name("Species")),
-  list(rms = rms)
-))
-print(j)
-DT[, j, env = list(j = j)]
-```
-
-### Errores comunes
-
-Es importante comprender la diferencia entre pasar un objeto y un nombre que apunta a un objeto. Vea la salida detallada de los siguientes ejemplos.
-
-```{r obj_vs_objname}
-DT[, fun(Petal.Width), env = list(fun = mean), verbose=TRUE]
-DT[, fun(Petal.Width), env = list(fun = "mean"), verbose=TRUE]
-```
-
-Los usuarios suelen preferir sustituir el nombre de la función en lugar de insertar el cuerpo de la misma. Por lo tanto, suele preferirse el segundo enfoque (pasar una cadena de caracteres).
-
-En caso de dudas sobre el funcionamiento de la interfaz `env`, establezca `verbose = TRUE` para inspeccionar cómo se resuelven las expresiones internamente.
-
-### Utilice el argumento `env` desde dentro de otra función
-
-Se decidió por diseño que el argumento `env` siga las reglas de *Evaluación Estándar* (SE), es decir, los valores pasados ​​a `env` se evalúan en su ámbito original tal cual. Para más información sobre el tema, consulte el [Manual del lenguaje R: Computación en el lenguaje](https://cran.r-project.org/doc/manuals/r-release/R-lang.html#Computing-on-the-language)). Por lo tanto, **usar el argumento `env` desde una función no requiere ningún manejo especial**. Esto también significa que el alias `.()` para una `list()`, *como* `env = .(.col="Petal.Length")`, no funcionará; utilice `env = list(.col="Petal.Length")` ​​en su lugar.
-
-```{r env_se}
-fun = function(x, col.mean) {
-  stopifnot(is.character(col.mean), is.data.table(x))
-  x[, .(col_avg = mean(.col)), env = list(.col = col.mean)]
-}
-fun(DT, col.mean="Petal.Length")
-```
-
-Si la función externa en sí sigue las reglas NSE (evaluación no estándar), entonces tiene que resolver los objetos del lenguaje de la misma manera que cuando pasa sus argumentos a cualquier otra función SE.
-
-```{r env_nse}
-fun = function(x, col.mean) {
-  col.mean = substitute(col.mean)
-  stopifnot(is.name(col.mean), is.data.table(x))
-  x[, .(col_avg = mean(.col)), env = list(.col = col.mean)]
-}
-fun(DT, col.mean=Petal.Length)
-```
-
-## Interfaces retiradas
-
-En `[.data.table`, también es posible usar otros mecanismos para la sustitución de variables o para pasar expresiones entre comillas. Estos incluyen `get` y `mget` para la inyección en línea de variables proporcionando sus nombres como cadenas, y `eval`, que indica a `[.data.table` que la expresión pasada a un argumento está entre comillas y que debe gestionarse de forma diferente. Estas interfaces deben considerarse retiradas y recomendamos usar el nuevo argumento `env` en su lugar.
-
-### `get`
-
-```{r old_get}
-v1 = "Petal.Width"
-v2 = "Sepal.Width"
-
-DT[, .(total = sum(get(v1), get(v2)))]
-
-DT[, .(total = sum(v1, v2)),
-   env = list(v1 = v1, v2 = v2)]
-```
-
-### `mget`
-
-```{r old_mget}
-v = c("Petal.Width", "Sepal.Width")
-
-DT[, lapply(mget(v), mean)]
-
-DT[, lapply(v, mean),
-   env = list(v = as.list(v))]
-
-DT[, lapply(v, mean),
-   env = list(v = as.list(setNames(nm = v)))]
-```
-
-### `eval`
-
-En lugar de utilizar la función `eval`, podemos proporcionar una expresión entre comillas en el elemento del argumento `env`, por lo que no se necesita una llamada `eval` adicional.
-
-```{r old_eval}
-cl = quote(
-  .(Petal.Width = mean(Petal.Width), Sepal.Width = mean(Sepal.Width))
-)
-
-DT[, eval(cl)]
-
-DT[, cl, env = list(cl = cl)]
-```
-
-```{r cleanup, echo=FALSE}
-options(.opts)
-registerS3method("print", "data.frame", base::print.data.frame)
-```
diff --git a/vignettes/es/datatable-reference-semantics.Rmd b/vignettes/es/datatable-reference-semantics.Rmd
deleted file mode 100644
index b6a4e32e49..0000000000
--- a/vignettes/es/datatable-reference-semantics.Rmd
+++ /dev/null
@@ -1,413 +0,0 @@
----
-title: "Semántica de referencia"
-date: "`{r} Sys.Date()`"
-output:
-  litedown::html_format
-vignette: >
-  %\VignetteIndexEntry{Reference semantics}
-  %\VignetteEngine{litedown::vignette}
-  \usepackage[utf8]{inputenc}
----
-
-```{r, echo=FALSE, file='../_translation_links.R'}
-```
-
-`{r} .write.translation.links("Las traducciones de este documento están disponibles en: %s")`
-
-```{r, echo = FALSE, message = FALSE}
-library(data.table)
-litedown::reactor(comment = "# ")
-.old.th = setDTthreads(1)
-```
-
-Esta viñeta describe la semántica por referencia de *data.table*, que permite *añadir/actualizar/eliminar* columnas de una *data.table* por referencia*, así como combinarlas con `i` y `by`. Está dirigida a quienes ya están familiarizados con la sintaxis de *data.table*, su forma general, cómo crear subconjuntos de filas en `i`, seleccionar y calcular columnas, y realizar agregaciones por grupo. Si no está familiarizado con estos conceptos, lea primero la viñeta [`vignette("datatable-intro", package="data.table")`](datatable-intro.html).
-
-***
-
-## Datos {#data}
-
-Utilizaremos los mismos datos de `flights` que en la viñeta [`vignette("datatable-intro", package="data.table")`](datatable-intro.html).
-
-```{r, echo = FALSE}
-options(width = 100L)
-```
-
-```{r}
-flights <- fread("../flights14.csv")
-flights
-dim(flights)
-```
-
-## Introducción
-
-En esta viñeta, vamos a:
-
-1. Primero analicemos brevemente la semántica por referencia y observemos las dos formas diferentes en las que se puede utilizar el operador `:=`
-
-2. Luego veamos cómo podemos *agregar/actualizar/eliminar* columnas *por referencia* en `j` usando el operador `:=` y cómo combinarlo con `i` y `by`.
-
-3. y finalmente veremos el uso de `:=` por sus *efectos secundarios* y cómo podemos evitar los efectos secundarios usando `copy()`.
-
-## 1. Semántica por referencia
-
-Todas las operaciones que vimos en la viñeta anterior generaron un nuevo conjunto de datos. Veremos cómo *añadir* nuevas columnas, *actualizar* o *eliminar* columnas existentes en los datos originales.
-
-### a) Antecedentes
-
-Antes de analizar la *semántica por referencia*, considere el *data.frame* que se muestra a continuación:
-
-```{r}
-DF = data.frame(ID = c("b","b","b","a","a","c"), a = 1:6, b = 7:12, c = 13:18)
-DF
-```
-
-Cuando lo hicimos:
-
-```r
-DF$c <- 18:13               # (1) -- replace entire column
-# or
-DF$c[DF$ID == "b"] <- 15:13 # (2) -- subassign in column 'c'
-```
-
-Tanto (1) como (2) resultaban en una copia profunda de todo el data.frame en versiones de `R < 3.1`. [Se copiaba más de una vez](https://stackoverflow.com/q/23898969/559784). Para mejorar el rendimiento y evitar estas copias redundantes, *data.table* utilizó el operador `:=` [disponible pero no utilizado en R](https://stackoverflow.com/q/7033106/559784).
-
-Se implementaron importantes mejoras de rendimiento en `R v3.1`, lo que permite realizar una copia superficial para (1) y no una copia profunda. Sin embargo, para (2), la columna completa se copia en profundidad, incluso en `R v3.1+`. Esto significa que cuantas más columnas se subasignan en la misma consulta, más copias profundas realiza R.
-
-#### Copia *superficial* vs. copia *profunda*
-
-Una copia superficial es simplemente una copia del vector de punteros de columna (correspondientes a las columnas de un data.frame o una data.table). Los datos reales no se copian físicamente en la memoria.
-
-Una copia *profunda*, por otro lado, copia todos los datos a otra ubicación en la memoria.
-
-Al crear un subconjunto de una tabla de datos (data.table) mediante `i` (p. ej., `DT[1:10]`), se realiza una copia profunda. Sin embargo, si `i` no se proporciona o es igual a `TRUE`, se realiza una copia superficial.
-
-# 
-
-Con el operador `:=` de *data.table*, no se realizan copias en (1) ni (2), independientemente de la versión de R que se utilice. Esto se debe a que el operador `:=` actualiza las columnas de *data.table* in situ (por referencia).
-
-### b) El operador `:=`
-
-Se puede utilizar en `j` de dos maneras:
-
-(a) La forma `LHS := RHS`
-
-```r
-DT[, c("colA", "colB", ...) := list(valA, valB, ...)]
-
-# when you have only one column to assign to you
-# can drop the quotes and list(), for convenience
-DT[, colA := valA]
-```
-
-(b) La forma funcional
-
-```r
-DT[, `:=`(colA = valA, # valA is assigned to colA
-          colB = valB, # valB is assigned to colB
-          ...
-)]
-```
-
-Tenga en cuenta que el código anterior explica cómo usar `:=`. No son ejemplos prácticos. Comenzaremos a usarlos en la tabla de datos `flights` a partir de la siguiente sección.
-
-# 
-
-* En (a), `LHS` toma un vector de caracteres de nombres de columnas y `RHS` una *lista de valores*. `RHS` solo necesita ser una `lista`, independientemente de cómo se genere (p. ej., usando `lapply()`, `list()`, `mget()`, `mapply()`, etc.). Esta forma suele ser fácil de programar y es especialmente útil cuando no se conocen de antemano las columnas a las que se asignarán valores.
-
-* Por otro lado, (b) es útil si desea anotar algunos comentarios para más tarde.
-
-* El resultado se devuelve *de forma invisible*.
-
-* Dado que `:=` está disponible en `j`, podemos combinarlo con las operaciones `i` y `by` tal como las operaciones de agregación que vimos en la viñeta anterior.
-
-# 
-
-En las dos formas de `:=` mostradas arriba, observe que no asignamos el resultado a una variable, ya que no es necesario. La entrada *data.table* se modifica por referencia. Veamos algunos ejemplos para comprender a qué nos referimos.
-
-Para el resto de la viñeta, trabajaremos con la tabla de datos *flights*.
-
-## 2. Agregar/actualizar/eliminar columnas *por referencia*
-
-### a) Agregar columnas por referencia {#ref-j}
-
-#### -- ¿Cómo podemos agregar las columnas *velocidad* y *retraso total* de cada vuelo a la tabla de datos *flights*?
-
-```{r}
-flights[, `:=`(speed = distance / (air_time/60), # speed in mph (mi/h)
-               delay = arr_delay + dep_delay)]   # delay in minutes
-head(flights)
-
-## alternatively, using the 'LHS := RHS' form
-# flights[, c("speed", "delay") := list(distance/(air_time/60), arr_delay + dep_delay)]
-```
-
-#### Tenga en cuenta que
-
-* No tuvimos que volver a asignar el resultado a `flights`.
-
-* La tabla de datos `flights` ahora contiene las dos columnas recién añadidas. Esto es lo que queremos decir con `añadidas por referencia`.
-
-* Usamos la forma funcional para poder agregar comentarios al margen y explicar el cálculo. También puedes ver la forma `LHS := RHS` (comentada).
-
-### b) Actualizar algunas filas de columnas por referencia - *sub-asignar* por referencia {#ref-ij}
-
-Echemos un vistazo a todas las `hours` disponibles en la *data.table* `flights`:
-
-```{r}
-# get all 'hours' in flights
-flights[, sort(unique(hour))]
-```
-
-Observamos que hay un total de `25` valores únicos en los datos. Parece que hay tanto *0* como *24* horas. Reemplacemos *24* por *0*.
-
-#### -- Reemplace aquellas filas donde `hora == 24` con el valor `0`
-
-```{r}
-# subassign by reference
-flights[hour == 24L, hour := 0L]
-```
-
-* Podemos usar `i` junto con `:=` en `j` de la misma manera que ya hemos visto en la viñeta [`vignette("datatable-intro", package="data.table")`](datatable-intro.html).
-
-* La columna `hora` se reemplaza con `0` solo en aquellos *índices de fila* donde la condición `hora == 24L` especificada en `i` se evalúa como `VERDADERO`.
-
-* `:=` devuelve el resultado de forma invisible. A veces, puede ser necesario ver el resultado después de la asignación. Podemos lograrlo añadiendo un `[]` vacío al final de la consulta, como se muestra a continuación:
-
-    ```{r}
-    flights[hour == 24L, hour := 0L][]
-    ```
-
-# 
-
-Veamos todas las `hours` para verificar.
-
-```{r}
-# check again for '24'
-flights[, sort(unique(hour))]
-```
-
-#### Ejercicio: {#update-by-reference-question}
-
-¿Cuál es la diferencia entre `flights[hour == 24L, hour := 0L]` y `flights[hour == 24L][, hour := 0L]`? Consejo: Este último requiere una asignación (`<-`) si desea usar el resultado posteriormente.
-
-Si no puede resolverlo, eche un vistazo a la sección "Nota" de "?":="`.
-
-### c) Eliminar columna por referencia
-
-#### -- Eliminar la columna `delay`
-
-```{r}
-flights[, c("delay") := NULL]
-head(flights)
-
-## or using the functional form
-# flights[, `:=`(delay = NULL)]
-```
-
-#### {#eliminar-conveniencia}
-
-* Asignar `NULL` a una columna *elimina* esa columna. Y esto sucede *instantáneamente*.
-
-* También podemos pasar números de columnas en lugar de nombres en el `LHS`, aunque es una buena práctica de programación usar nombres de columnas.
-
-* Cuando solo hay una columna para eliminar, podemos omitir `c()` y las comillas dobles y usar solo el nombre de la columna *sin comillas*, para mayor comodidad. Es decir:
-
-    ```r
-    flights[, delay := NULL]
-    ```
-    
-    is equivalent to the code above.
-
-### d) `:=` junto con la agrupación usando `by` {#ref-j-by}
-
-Ya vimos el uso de `i` junto con `:=` en la [Sección 2b](#ref-ij). Veamos ahora cómo podemos usar `:=` junto con `by`.
-
-#### -- ¿Cómo podemos agregar una nueva columna que contenga para cada par 'orig,dest' la velocidad máxima?
-
-```{r}
-flights[, max_speed := max(speed), by = .(origin, dest)]
-head(flights)
-```
-
-* Agregamos una nueva columna `max_speed` usando el operador `:=` por referencia.
-
-* Proporcionamos las columnas para agrupar de la misma manera que se muestra en la viñeta *Introducción a data.table*. Para cada grupo, se calcula `max(speed)`, que devuelve un único valor. Este valor se recicla para ajustarse a la longitud del grupo. Nuevamente, no se realizan copias. La tabla `flights` *data.table* se modifica *in situ*.
-
-* También podríamos haber proporcionado `by` con un *vector de caracteres* como vimos en la viñeta [`vignette("datatable-intro", package="data.table")`](datatable-intro.html), por ejemplo, `by = c("origin", "dest")`.
-
-# 
-
-### e) Varias columnas y `:=`
-
-#### -- ¿Cómo podemos agregar dos columnas más calculando `max()` de `dep_delay` y `arr_delay` para cada mes, usando `.SD`?
-
-```{r}
-in_cols  = c("dep_delay", "arr_delay")
-out_cols = c("max_dep_delay", "max_arr_delay")
-flights[, c(out_cols) := lapply(.SD, max), by = month, .SDcols = in_cols]
-head(flights)
-```
-
-* Usamos el formato `LHS := RHS`. Almacenamos los nombres de las columnas de entrada y las nuevas columnas que se agregarán en variables separadas y las proporcionamos a `.SDcols` y a `LHS` (para una mejor legibilidad).
-
-* Tenga en cuenta que, dado que permitimos la asignación por referencia sin comillas en los nombres de columna cuando solo hay una columna, como se explica en la [Sección 2c](#delete-convenience), no podemos usar `out_cols := lapply(.SD, max)`. Esto resultaría en agregar una nueva columna llamada `out_cols`. En su lugar, deberíamos usar `c(out_cols)` o simplemente `(out_cols)`. Encapsular el nombre de la variable con `(` es suficiente para diferenciar entre ambos casos.
-
-* La forma `LHS := RHS` permite operar en múltiples columnas. En el lado derecho, para calcular el `máximo` en las columnas especificadas en `.SDcols`, utilizamos la función base `lapply()` junto con `.SD`, tal como vimos anteriormente en la viñeta [`vignette("datatable-intro", package="data.table")`](datatable-intro.html). Esta función devuelve una lista de dos elementos, que contiene el valor máximo correspondiente a `dep_delay` y `arr_delay` para cada grupo.
-
-# 
-
-Antes de pasar a la siguiente sección, limpiemos las columnas recién creadas `speed`, `max_speed`, `max_dep_delay` y `max_arr_delay`.
-
-```{r}
-# RHS gets automatically recycled to length of LHS
-flights[, c("speed", "max_speed", "max_dep_delay", "max_arr_delay") := NULL]
-head(flights)
-```
-
-#### -- ¿Cómo podemos actualizar varias columnas existentes usando `.SD`?
-
-```{r}
-flights[, names(.SD) := lapply(.SD, as.factor), .SDcols = is.character]
-```
-
-Limpiemos de nuevo y convirtamos nuestras columnas de factores recién creadas en columnas de caracteres. Esta vez, usaremos `.SDcols`, que acepta una función para decidir qué columnas incluir. En este caso, `is.factor()` devolverá las columnas que son factores. Para más información sobre el **S**subconjunto de **D**atos, también hay una viñeta de uso de SD (https://cran.r-project.org/package=data.table/vignettes/datatable-sd-usage.html).
-
-A veces, también es útil llevar un registro de las columnas que transformamos. De esta manera, incluso después de convertirlas, podremos llamar a las columnas específicas que actualizamos.
-
-```{r}
-factor_cols <- sapply(flights, is.factor)
-flights[, names(.SD) := lapply(.SD, as.character), .SDcols = factor_cols]
-str(flights[, ..factor_cols])
-```
-
-#### {.bs-callout .bs-callout-info}
-
-* También podríamos haber usado `(factor_cols)` en el `LHS` en lugar de `names(.SD)`.
-
-## 3. `:=` y `copy()`
-
-`:=` modifica el objeto de entrada por referencia. Además de las funciones que ya hemos mencionado, a veces podríamos querer usar la función de actualización por referencia por su efecto secundario. En otras ocasiones, puede que no sea conveniente modificar el objeto original, en cuyo caso podemos usar la función `copy()`, como veremos en breve.
-
-### a) `:=` por su efecto secundario
-
-Supongamos que queremos crear una función que devuelva la *velocidad máxima* de cada mes. Pero, al mismo tiempo, también queremos añadir la columna `velocidad` a `flights`. Podríamos escribir una función simple como la siguiente:
-
-```{r}
-foo <- function(DT) {
-  DT[, speed := distance / (air_time/60)]
-  DT[, .(max_speed = max(speed)), by = month]
-}
-ans = foo(flights)
-head(flights)
-head(ans)
-```
-
-* Tenga en cuenta que se ha añadido la nueva columna `speed` a la tabla de datos `flights`. Esto se debe a que `:=` realiza operaciones por referencia. Dado que `DT` (el argumento de la función) y `flights` hacen referencia al mismo objeto en memoria, modificar `DT` también afecta a `flights`.
-
-* Y `ans` contiene la velocidad máxima para cada mes.
-
-### b) La función `copy()`
-
-En la sección anterior, usamos `:=` por su efecto secundario. Sin embargo, esto no siempre es deseable. A veces, queremos pasar un objeto *data.table* a una función y usar el operador `:=`, pero no queremos actualizar el objeto original. Podemos lograrlo usando la función `copy()`.
-
-La función `copy()` copia *en profundidad* el objeto de entrada y, por lo tanto, cualquier operación de actualización por referencia posterior realizada en el objeto copiado no afectará al objeto original.
-
-# 
-
-Hay dos lugares particulares donde la función `copy()` es esencial:
-
-1. A diferencia de lo visto en el punto anterior, es posible que no queramos que la tabla de datos de entrada de una función se modifique *por referencia*. Por ejemplo, consideremos la tarea de la sección anterior, excepto que no queremos modificar `flights` por referencia.
-
-    Let's first delete the `speed` column we generated in the previous section.
-    
-    ```{r}
-    flights[, speed := NULL]
-    ```
-    Now, we could accomplish the task as follows:
-    
-    ```{r}
-    foo <- function(DT) {
-      DT <- copy(DT)                              ## deep copy
-      DT[, speed := distance / (air_time/60)]     ## doesn't affect 'flights'
-      DT[, .(max_speed = max(speed)), by = month]
-    }
-    ans <- foo(flights)
-    head(flights)
-    head(ans)
-    ```
-
-* El uso de la función `copy()` no actualizó la tabla de datos `flights` por referencia. No contiene la columna `speed`.
-
-* Y `ans` contiene la velocidad máxima correspondiente a cada mes.
-
-Sin embargo, podríamos mejorar esta funcionalidad aún más mediante una copia superficial en lugar de una copia profunda. De hecho, nos gustaría mucho [ofrecer esta funcionalidad para la versión `v1.9.8`](https://github.com/Rdatatable/data.table/issues/617). Volveremos a abordar este tema en la viñeta sobre el diseño de data.table.
-
-# 
-
-2. Cuando almacenamos los nombres de las columnas en una variable, por ejemplo, `DT_n = names(DT)`, y luego *añadimos/actualizamos/eliminamos* columnas *por referencia*, también modificaríamos `DT_n`, a menos que hagamos `copy(names(DT))`.
-
-    ```{r}
-    DT = data.table(x = 1L, y = 2L)
-    DT_n = names(DT)
-    DT_n
-    
-    ## add a new column by reference
-    DT[, z := 3L]
-    
-    ## DT_n also gets updated
-    DT_n
-    
-    ## use `copy()`
-    DT_n = copy(names(DT))
-    DT[, w := 4L]
-    
-    ## DT_n doesn't get updated
-    DT_n
-    ```
-
-### c) Selección de columnas: `$` / `[[...]]` vs `[, col]`
-
-Cuando se extrae una sola columna como vector, existe una diferencia sutil pero importante entre los métodos R estándar ($ y [[...]]) y la expresión j de data.table. DT$col y DT[['col']] pueden devolver una referencia a la columna, mientras que DT[, col] siempre devuelve una copia.
-
-Un breve ejemplo:
-
-```{r}
-DT = data.table(a = 1:3)
-
-# three ways to get the column
-x_ref = DT$a        # may be a reference
-y_cpy = DT[, a]     # always a copy
-z_cpy = copy(DT$a)  # forced copy
-
-# modify DT by reference
-DT[, a := a + 10L]
-
-# observe results
-x_ref   # may show 11 12 13
-y_cpy   # 1 2 3
-z_cpy   # 1 2 3
-```
-
-Para seleccionar una sola columna como vector, recuerde: 
-- `DT[, mycol]` es más seguro, ya que siempre devuelve una copia nueva e independiente.
-- `DT$mycol` es rápido, pero puede devolver una referencia. Use `copy(DT$mycol)` para garantizar la independencia.
-
-## Resumen
-
-#### El operador `:=`
-
-* Se utiliza para *agregar/actualizar/eliminar* columnas por referencia.
-
-* También vimos cómo usar `:=` junto con `i` y `by` de la misma manera que en la viñeta [`vignette("datatable-intro", package="data.table")`](datatable-intro.html). Podemos usar `keyby`, encadenar operaciones y pasar expresiones a `by` de la misma manera. La sintaxis es *consistente*.
-
-* Podemos usar `:=` por su efecto secundario o usar `copy()` para no modificar el objeto original mientras actualizamos por referencia.
-
-```{r, echo=FALSE}
-setDTthreads(.old.th)
-```
-
-# 
-
-Hasta ahora hemos visto mucho sobre `j` y cómo combinarlo con `by` y poco de `i`. Volvamos a centrarnos en `i` en la [siguiente viñeta (`vignette("datatable-keys-fast-subset", package="data.table")`)](datatable-keys-fast-subset.html) para realizar subconjuntos ultrarrápidos mediante la *codificación de data.tables*.
-
-***
diff --git a/vignettes/es/datatable-reshape.Rmd b/vignettes/es/datatable-reshape.Rmd
deleted file mode 100644
index 8e520fe91a..0000000000
--- a/vignettes/es/datatable-reshape.Rmd
+++ /dev/null
@@ -1,295 +0,0 @@
----
-title: "Remodelado eficiente con data.table"
-date: "`{r} Sys.Date()`"
-output:
-  litedown::html_format
-vignette: >
-  %\VignetteIndexEntry{Efficient reshaping using data.tables}
-  %\VignetteEngine{litedown::vignette}
-  \usepackage[utf8]{inputenc}
----
-
-```{r, echo=FALSE, file='../_translation_links.R'}
-```
-
-`{r} .write.translation.links("Las traducciones de este documento están disponibles en: %s")`
-
-```{r, echo = FALSE, message = FALSE}
-library(data.table)
-litedown::reactor(comment = "# ")
-.old.th = setDTthreads(1)
-```
-
-Esta viñeta analiza el uso predeterminado de las funciones de remodelación `melt` (de ancho a largo) y `dcast` (de largo a ancho) para *data.tables*, así como las **nuevas funcionalidades extendidas** de fusión y conversión en *múltiples columnas* disponibles a partir de `v1.9.6`.
-
-***
-
-```{r, echo = FALSE}
-options(width = 100L)
-```
-
-## Datos
-
-Cargaremos los conjuntos de datos directamente dentro de las secciones.
-
-## Introducción
-
-Las funciones `melt` y `dcast` para `data.table` sirven para remodelar de ancho a largo y de largo a ancho, respectivamente; las implementaciones están diseñadas específicamente teniendo en mente grandes datos en memoria (por ejemplo, 10 Gb).
-
-En esta viñeta, vamos a:
-
-1. Primero, observar brevemente la conversión predeterminada de `melt` y `dcast` de `data.table` para convertirlos de formato *ancho* a *largo* y *viceversa*
-
-2. Analizar escenarios donde las funcionalidades actuales se vuelven engorrosas e ineficientes
-
-3. Finalmente, observar las nuevas mejoras en los métodos `melt` y `dcast` para que `data.table` gestione múltiples columnas simultáneamente.
-
-Las funcionalidades ampliadas están en línea con la filosofía de `data.table` de realizar operaciones de manera eficiente y sencilla.
-
-## 1. Funcionalidad predeterminada
-
-### a) fusión (`melt`ing) de `data.table` (de ancho a largo)
-
-Supongamos que tenemos una `data.table` (datos artificiales) como se muestra a continuación:
-
-```{r}
-s1 <- "family_id age_mother dob_child1 dob_child2 dob_child3
-1         30 1998-11-26 2000-01-29         NA
-2         27 1996-06-22         NA         NA
-3         26 2002-07-11 2004-04-05 2007-09-02
-4         32 2004-10-10 2009-08-27 2012-07-21
-5         29 2000-12-05 2005-02-28         NA"
-DT <- fread(s1)
-DT
-## dob stands for date of birth.
-
-str(DT)
-```
-
-#### - Convertir 'DT' a formato *largo* donde cada 'dob' es una observación separada.
-
-Podríamos lograr esto usando `melt()` especificando los argumentos `id.vars` y `measure.vars` de la siguiente manera:
-
-```{r}
-DT.m1 = melt(DT, id.vars = c("family_id", "age_mother"),
-                measure.vars = c("dob_child1", "dob_child2", "dob_child3"))
-DT.m1
-str(DT.m1)
-```
-
-* `measure.vars` especifica el conjunto de columnas que nos gustaría contraer (o combinar).
-
-* También podemos especificar *posiciones* de columna en lugar de *nombres*.
-
-* Por defecto, la columna `variable` es de tipo `factor`. Establezca el argumento `variable.factor` en `FALSE` si prefiere devolver un vector de tipo *`character`*.
-
-* De forma predeterminada, las columnas fundidas se denominan automáticamente `variable` y `value`.
-
-* `melt` conserva los atributos de la columna en el resultado.
-
-#### - Nombrar las columnas `variable` y `valor` como `hijo` y `fecha de nacimiento` respectivamente
-
-```{r}
-DT.m1 = melt(DT, measure.vars = c("dob_child1", "dob_child2", "dob_child3"),
-               variable.name = "child", value.name = "dob")
-DT.m1
-```
-
-* De manera predeterminada, cuando falta una de las `id.vars` o `measure.vars`, el resto de las columnas se *asignan automáticamente* al argumento faltante.
-
-* Cuando no se especifican ni `id.vars` ni `measure.vars`, como se menciona en `?melt`, todas las columnas *no* `numeric`, `integer` o `logical` se asignarán a `id.vars`.
-
-    In addition, a warning message is issued highlighting the columns that are automatically considered to be `id.vars`.
-
-### b) `dcast` de `data.table` (de largo a ancho)
-
-En la sección anterior, vimos cómo pasar del formato ancho al formato largo. Veamos la operación inversa en esta sección.
-
-#### - ¿Cómo podemos volver a la tabla de datos original `DT` desde `DT.m1`?
-
-Es decir, queremos recopilar todas las observaciones de *child* correspondientes a cada `family_id, age_mother` en la misma fila. Podemos lograrlo usando `dcast` de la siguiente manera:
-
-```{r}
-dcast(DT.m1, family_id + age_mother ~ child, value.var = "dob")
-```
-
-* `dcast` usa la interfaz *formula*. Las variables del lado izquierdo de *formula* representan las variables *id* y del lado derecho, las variables *measure*.
-
-* `value.var` denota la columna que se debe completar al convertir a formato ancho.
-
-* `dcast` también intenta preservar los atributos en el resultado siempre que sea posible.
-
-#### - A partir de `DT.m1`, ¿cómo podemos obtener el número de hijos en cada familia?
-
-También puede pasar una función para agregar en `dcast` con el argumento `fun.aggregate`. Esto es especialmente esencial cuando la fórmula proporcionada no identifica una sola observación para cada celda.
-
-```{r}
-dcast(DT.m1, family_id ~ ., fun.aggregate = function(x) sum(!is.na(x)), value.var = "dob")
-```
-
-Consulte `?dcast` para obtener otros argumentos útiles y ejemplos adicionales.
-
-## 2. Limitaciones de los enfoques anteriores de `melt/dcast`
-
-Hasta ahora hemos visto características de `melt` y `dcast` que se implementan de manera eficiente para `data.table`s, utilizando maquinaria interna de `data.table` (*ordenamiento rápido de radix*, *búsqueda binaria*, etc.).
-
-Sin embargo, existen situaciones en las que la operación deseada no se expresa de forma clara. Por ejemplo, considere la tabla `data.table` que se muestra a continuación:
-
-```{r}
-s2 <- "family_id age_mother name_child1 name_child2 name_child3 gender_child1 gender_child2 gender_child3
-1         30         Ben        Anna          NA             1             2            NA
-2         27         Tom          NA          NA             2            NA            NA
-3         26         Lia         Sam         Amy             2             2             1
-4         32         Max         Zoe         Joe             1             1             1
-5         29         Dan         Eva          NA             2             1            NA"
-DT <- fread(s2)
-DT
-## 1 = female, 2 = male
-```
-
-Y podría querer combinar (`melt`) todas las columnas `name` y `gender`. Con la funcionalidad anterior, podríamos hacer algo como esto:
-
-```{r}
-DT.m1 = melt(DT, id.vars = c("family_id", "age_mother"))
-DT.m1[, c("variable", "child") := tstrsplit(variable, "_", fixed = TRUE)]
-DT.c1 = dcast(DT.m1, family_id + age_mother + child ~ variable, value.var = "value")
-DT.c1
-
-str(DT.c1) ## gender column is character type now!
-```
-
-#### Asuntos
-
-1. Lo que queríamos hacer era combinar todas las columnas de tipo `nombre` y `género`, respectivamente. En lugar de eso, combinamos *todo* y luego lo volvemos a dividir. Creo que es fácil ver que es bastante indirecto (e ineficiente).
-
-    As an analogy, imagine you've a closet with four shelves of clothes and you'd like to put together the clothes from shelves 1 and 2 together (in 1), and 3 and 4 together (in 3). What we are doing is more or less to combine all the clothes together, and then split them back on to shelves 1 and 3!
-
-2. Las columnas a fusionar pueden ser de diferentes tipos. Al fusionarlas todas juntas, se forzará el resultado.
-
-3. Generamos una columna adicional dividiendo la columna `variable` en dos, cuyo propósito es bastante complejo. Lo hacemos porque la necesitamos para la *conversión* en el siguiente paso.
-
-4. Finalmente, convertimos el conjunto de datos. El problema es que es una operación mucho más compleja computacionalmente que *melt*. En concreto, requiere calcular el orden de las variables en la fórmula, lo cual es costoso.
-
-De hecho, `stats::reshape` puede realizar esta operación de forma muy sencilla. Es una función extremadamente útil y a menudo subestimada. ¡Debería probarla!
-
-## 3. Funcionalidad mejorada (nueva)
-
-### a) Fusión mejorada
-
-Dado que nos gustaría que `data.table` realice esta operación de manera sencilla y eficiente utilizando la misma interfaz, seguimos adelante e implementamos una *funcionalidad adicional*, donde podemos `fusionar` múltiples columnas *simultáneamente*.
-
-#### - `fundir` múltiples columnas simultáneamente
-
-La idea es bastante sencilla. Pasamos una lista de columnas a `measure.vars`, donde cada elemento de la lista contiene las columnas que deben combinarse.
-
-```{r}
-colA = paste0("name_child", 1:3)
-colB = paste0("gender_child", 1:3)
-DT.m2 = melt(DT, measure.vars = list(colA, colB), value.name = c("name", "gender"))
-DT.m2
-
-str(DT.m2) ## col type is preserved
-```
-
-* Podemos eliminar la columna `variable` si es necesario.
-
-* La funcionalidad está implementada completamente en C y, por lo tanto, es *rápida* y *eficiente en el uso de memoria*, además de ser *sencilla*.
-
-#### - Usando `patrones()`
-
-Normalmente, en estos problemas, las columnas que queremos fundir se distinguen por un patrón común. Podemos usar la función `patterns()`, implementada para mayor comodidad, para proporcionar expresiones regulares que permitan combinar las columnas. La operación anterior se puede reescribir como:
-
-```{r}
-DT.m2 = melt(DT, measure.vars = patterns("^name", "^gender"), value.name = c("name", "gender"))
-DT.m2
-```
-
-#### - Usar `measure()` para especificar `measure.vars` a través de un separador o patrón
-
-Si, como en los datos anteriores, las columnas de entrada que se van a fusionar tienen nombres regulares, podemos usar `measure`, que permite especificar las columnas que se van a fusionar mediante un separador o una expresión regular. Por ejemplo, considere los datos de *iris*:
-
-```{r}
-(two.iris = data.table(datasets::iris)[c(1,150)])
-```
-
-Los datos de *iris* tienen cuatro columnas numéricas con una estructura regular: primero la parte de la flor, luego un punto y finalmente la dimensión de la medida. Para especificar que queremos fusionar esas cuatro columnas, podemos usar `measure` con `sep="."`, lo que significa usar `strsplit` en todos los nombres de columna; las columnas que resulten en el número máximo de grupos después de la división se usarán como `measure.vars`:
-
-```{r}
-melt(two.iris, measure.vars = measure(part, dim, sep="."))
-```
-
-Los primeros dos argumentos de `measure` en el código anterior (`part` y `dim`) se utilizan para nombrar las columnas de salida; la cantidad de argumentos debe ser igual a la cantidad máxima de grupos después de dividir con `sep`.
-
-Si queremos dos columnas de valores, una para cada parte, podemos usar la palabra clave especial `value.name`, lo que significa generar una columna de valores para cada nombre único encontrado en ese grupo:
-
-```{r}
-melt(two.iris, measure.vars = measure(value.name, dim, sep="."))
-```
-
-Usando el código anterior, obtenemos una columna de valor por cada parte de la flor. Si, en cambio, queremos una columna de valor para cada dimensión de medida, podemos hacer lo siguiente:
-
-```{r}
-melt(two.iris, measure.vars = measure(part, value.name, sep="."))
-```
-
-Volviendo al ejemplo de los datos con familias y niños, podemos ver un uso más complejo de `measure`, que involucra una función que se utiliza para convertir los valores de la cadena `child` en números enteros:
-
-```{r}
-DT.m3 = melt(DT, measure.vars = measure(value.name, child=as.integer, sep="_child"))
-DT.m3
-```
-
-En el código anterior, usamos `sep="_child"`, lo que resulta en la fusión de solo las columnas que contienen esa cadena (seis nombres de columna divididos en dos grupos cada uno). El argumento `child=as.integer` significa que el segundo grupo generará una columna de salida llamada `child` con valores definidos al insertar las cadenas de caracteres de ese grupo en la función `as.integer`.
-
-Finalmente, consideramos un ejemplo (tomado del paquete tidyr) donde necesitamos definir los grupos usando una expresión regular en lugar de un separador.
-
-```{r}
-(who <- data.table(id=1, new_sp_m5564=2, newrel_f65=3))
-melt(who, measure.vars = measure(
-  diagnosis, gender, ages, pattern="new_?(.*)_(.)(.*)"))
-```
-
-Al usar el argumento `patrón`, debe ser una expresión regular compatible con Perl que contenga el mismo número de grupos de captura (subexpresiones entre paréntesis) que el resto de argumentos (nombres de grupo). El código a continuación muestra cómo usar una expresión regular más compleja con cinco grupos, dos columnas de salida numérica y una función de conversión de tipos anónima.
-
-```{r}
-melt(who, measure.vars = measure(
-  diagnosis, gender, ages,
-  ymin=as.numeric,
-  ymax=function(y) ifelse(nzchar(y), as.numeric(y), Inf),
-  pattern="new_?(.*)_(.)(([0-9]{2})([0-9]{0,2}))"
-))
-```
-
-### b) `dcast` mejorado
-
-¡Genial! Ahora podemos fusionar varias columnas simultáneamente. Dado el conjunto de datos `DT.m2`, como se muestra arriba, ¿cómo podemos recuperar el mismo formato que los datos originales con los que empezamos?
-
-Si usamos la funcionalidad actual de `dcast`, tendríamos que convertir dos veces y enlazar los resultados. Pero esto, una vez más, es demasiado verboso, no es sencillo y, además, ineficiente.
-
-#### - Convertir varios `value.var` simultáneamente
-
-Ahora podemos proporcionar **múltiples columnas `value.var`** a `dcast` para `data.table` directamente para que las operaciones se realicen de manera interna y eficiente.
-
-```{r}
-## new 'cast' functionality - multiple value.vars
-DT.c2 = dcast(DT.m2, family_id + age_mother ~ variable, value.var = c("name", "gender"))
-DT.c2
-```
-
-* Los atributos se conservan en el resultado siempre que sea posible.
-
-* Todo se gestiona internamente y de forma eficiente. Además de ser rápido, también es muy eficiente en el uso de memoria.
-
-# 
-
-#### Varias funciones para `fun.aggregate`:
-
-También puede proporcionar múltiples funciones a `fun.aggregate` en `dcast` para *data.tables*. Consulte los ejemplos en `?dcast` que ilustran esta funcionalidad.
-
-```{r, echo=FALSE}
-setDTthreads(.old.th)
-```
-
-# 
-
-***
diff --git a/vignettes/es/datatable-sd-usage.Rmd b/vignettes/es/datatable-sd-usage.Rmd
deleted file mode 100644
index e5b6b15242..0000000000
--- a/vignettes/es/datatable-sd-usage.Rmd
+++ /dev/null
@@ -1,262 +0,0 @@
----
-title: "Uso de .SD para Análisis de datos"
-date: "`{r} Sys.Date()`"
-output:
-  litedown::html_format:
-    options:
-      toc: true
-      number_sections: true
-vignette: >
-  %\VignetteIndexEntry{Using .SD for Data Analysis}
-  %\VignetteEngine{litedown::vignette}
-  \usepackage[utf8]{inputenc}
----
-
-<style>
-#TOC {
-  border: 1px solid #ccc;
-  border-radius: 5px;
-  padding-left: 1em;
-  background: #f6f6f6;
-}
-</style>
-
-```{r, echo=FALSE, file='../_translation_links.R'}
-```
-
-`{r} .write.translation.links("Las traducciones de este documento están disponibles en: %s")`
-
-```{r, echo = FALSE, message = FALSE}
-library(data.table)
-litedown::reactor(comment = "# ")
-.old.th = setDTthreads(1)
-```
-
-Esta viñeta explica las formas más comunes de usar la variable `.SD` en los análisis de `data.table`. Es una adaptación de [esta respuesta](https://stackoverflow.com/a/47406952/3576984) de StackOverflow.
-
-# ¿Qué es `.SD`?
-
-En sentido amplio, `.SD` es simplemente una abreviatura para capturar una variable que aparece con frecuencia en el contexto del análisis de datos. Puede entenderse como *S*ubset, *S*elfsame o *S*elf-reference of the *D*ata. Es decir, `.SD` es, en su forma más básica, una *referencia reflexiva* a la propia `data.table`; como veremos en los ejemplos a continuación, esto es particularmente útil para encadenar "consultas" (extracciones/subconjuntos/etc. mediante `[`). En particular, esto también significa que `.SD` es *en sí mismo una `data.table`* (con la salvedad de que no permite la asignación con `:=`).
-
-El uso más simple de `.SD` es para la subagrupación de columnas (es decir, cuando se especifica `.SDcols`); dado que esta versión es mucho más sencilla de entender, la abordaremos primero a continuación. La interpretación de `.SD` en su segundo uso, en escenarios de agrupación (es decir, cuando se especifica `by = ` o `keyby = `), es ligeramente diferente conceptualmente (aunque en esencia es la misma, ya que, después de todo, una operación no agrupada es un caso extremo de agrupación con un solo grupo).
-
-## Carga y vista previa de datos de Lahman
-
-Para darle una sensación más realista, en lugar de inventar datos, carguemos algunos conjuntos de datos sobre béisbol desde la [base de datos Lahman](https://github.com/cdalzell/Lahman). En el uso típico de R, simplemente cargaríamos estos conjuntos de datos desde el paquete R `Lahman`; en este ejemplo, los hemos descargado previamente directamente desde la página de GitHub del paquete.
-
-```{r download_lahman}
-load('Teams.RData')
-setDT(Teams)
-Teams
-
-load('Pitching.RData')
-setDT(Pitching)
-Pitching
-```
-
-Los lectores familiarizados con la jerga del béisbol encontrarán el contenido de las tablas familiar: `Teams` registra las estadísticas de un equipo en un año determinado, mientras que `Pitching` registra las estadísticas de un lanzador en un año determinado. Por favor, consulte la documentación (https://github.com/cdalzell/Lahman) y explore los datos usted mismo antes de familiarizarse con su estructura.
-
-# `.SD` en datos no agrupados
-
-Para ilustrar lo que quiero decir sobre la naturaleza reflexiva de `.SD`, considere su uso más banal:
-
-```{r plain_sd}
-Pitching[ , .SD]
-```
-
-Es decir, `Pitching[ , .SD]` simplemente ha devuelto la tabla completa, en otras palabras, era una forma más extensa de escribir `Pitching` o `Pitching[]`:
-
-```{r plain_sd_is_table}
-identical(Pitching, Pitching[ , .SD])
-```
-
-En términos de subconjuntos, `.SD` sigue siendo un subconjunto de los datos, sólo que es trivial (el conjunto en sí).
-
-## Subconjunto de columnas: `.SDcols`
-
-La primera forma de influir en lo que es `.SD` es limitar las *columnas* contenidas en `.SD` usando el argumento `.SDcols` a `[`:
-
-```{r simple_sdcols}
-# W: Wins; L: Losses; G: Games
-Pitching[ , .SD, .SDcols = c('W', 'L', 'G')]
-```
-
-Esto es solo para ilustrar y era bastante aburrido. Además de aceptar un vector de caracteres, `.SDcols` también acepta:
-
-1. cualquier función como `is.character` para filtrar *columnas*
-2. la función[^*] `patterns()` para filtrar *nombres de columnas* por expresión regular
-3. vectores enteros y lógicos
-
-[^*]: consulte `?patterns` para más detalles
-
-Este uso simple se presta a una amplia variedad de operaciones de manipulación de datos altamente beneficiosas y omnipresentes:
-
-## Conversión de tipo de columna
-
-La conversión de tipos de columnas es una práctica habitual en la manipulación de datos. Aunque [`fwrite` ha adquirido recientemente la capacidad de declarar la clase de cada columna por adelantado](https://github.com/Rdatatable/data.table/pull/2545), no todos los conjuntos de datos provienen de `fread` (por ejemplo, en esta viñeta) y las conversiones entre tipos `carácter`/`factor`/`numérico` son comunes. Podemos usar `.SD` y `.SDcols` para convertir por lotes grupos de columnas a un tipo común.
-
-Observamos que las siguientes columnas se almacenan como "carácter" en el conjunto de datos "Equipos", pero podrían almacenarse de manera más lógica como "factor":
-
-```{r identify_factors}
-# teamIDBR: Team ID used by Baseball Reference website
-# teamIDlahman45: Team ID used in Lahman database version 4.5
-# teamIDretro: Team ID used by Retrosheet
-fkt = c('teamIDBR', 'teamIDlahman45', 'teamIDretro')
-# confirm that they're stored as `character`
-str(Teams[ , ..fkt])
-```
-
-La sintaxis para convertir ahora estas columnas a "factor" es simple:
-
-```{r assign_factors}
-Teams[ , names(.SD) := lapply(.SD, factor), .SDcols = patterns('teamID')]
-# print out the first column to demonstrate success
-head(unique(Teams[[fkt[1L]]]))
-```
-
-Nota:
-
-1. El `:=` es un operador de asignación para actualizar `data.table` sin crear una copia. Consulte [`vignette("datatable-reference-semantics", package="data.table")`](datatable-reference-semantics.html) para obtener más información.
-2. El operador izquierdo, `names(.SD)`, indica qué columnas estamos actualizando; en este caso, actualizamos todo el `.SD`.
-3. El operador derecho, `lapply()`, recorre cada columna del `.SD` y la convierte en un factor.
-4. Usamos `.SDcols` para seleccionar solo las columnas cuyo patrón sea `teamID`.
-
-Nuevamente, el argumento `.SDcols` es bastante flexible; anteriormente, proporcionamos `patrones`, pero también podríamos haber proporcionado `fkt` o cualquier vector de `carácter` de nombres de columna. En otras situaciones, es más conveniente proporcionar un vector `entero` de *posiciones* de columna o un vector `lógico` que indique la inclusión/exclusión de cada columna. Finalmente, el uso de una función para filtrar columnas es muy útil.
-
-Por ejemplo, podríamos hacer lo siguiente para convertir todas las columnas de tipo `factor` a `carácter`:
-
-```{r sd_as_logical}
-fct_idx = Teams[, which(sapply(.SD, is.factor))] # column numbers to show the class changing
-str(Teams[[fct_idx[1L]]])
-Teams[ , names(.SD) := lapply(.SD, as.character), .SDcols = is.factor]
-str(Teams[[fct_idx[1L]]])
-```
-
-Por último, podemos hacer una selección por coincidencia de patrones en `.SDcols` para seleccionar todas las columnas que contienen `team` hasta `factor`:
-
-```{r sd_patterns}
-Teams[ , .SD, .SDcols = patterns('team')]
-Teams[ , names(.SD) := lapply(.SD, factor), .SDcols = patterns('team')]
-```
-
-** Una salvedad a lo anterior: usar números de columna *explícitamente* (como `DT[ , (1) := rnorm(.N)]`) es una mala práctica y puede provocar la corrupción silenciosa del código con el tiempo si cambian las posiciones de las columnas. Incluso usar números implícitamente puede ser peligroso si no mantenemos un control estricto sobre el orden en que creamos y usamos el índice numerado.
-
-## Controlar el lado derecho de un modelo
-
-Variar la especificación del modelo es una característica fundamental del análisis estadístico robusto. Intentemos predecir la efectividad (Earned Runs Average, una medida de rendimiento) de un lanzador utilizando el pequeño conjunto de covariables disponibles en la tabla "Lanzamiento". ¿Cómo varía la relación (lineal) entre "W" (victorias) y "ERA" según las otras covariables incluidas en la especificación?
-
-A continuación se muestra un breve script que aprovecha el poder de `.SD` y que explora esta pregunta:
-
-```{r sd_for_lm, cache = FALSE, fig.cap="Fit OLS coefficient on W, various specifications, depicted as bars with distinct colors."}
-# this generates a list of the 2^k possible extra variables
-#   for models of the form ERA ~ G + (...)
-extra_var = c('yearID', 'teamID', 'G', 'L')
-models = unlist(
-  lapply(0L:length(extra_var), combn, x = extra_var, simplify = FALSE),
-  recursive = FALSE
-)
-
-# here are 16 visually distinct colors, taken from the list of 20 here:
-#   https://sashat.me/2017/01/11/list-of-20-simple-distinct-colors/
-col16 = c('#e6194b', '#3cb44b', '#ffe119', '#0082c8',
-          '#f58231', '#911eb4', '#46f0f0', '#f032e6',
-          '#d2f53c', '#fabebe', '#008080', '#e6beff',
-          '#aa6e28', '#fffac8', '#800000', '#aaffc3')
-
-par(oma = c(2, 0, 0, 0))
-lm_coef = sapply(models, function(rhs) {
-  # using ERA ~ . and data = .SD, then varying which
-  #   columns are included in .SD allows us to perform this
-  #   iteration over 16 models succinctly.
-  #   coef(.)['W'] extracts the W coefficient from each model fit
-  Pitching[ , coef(lm(ERA ~ ., data = .SD))['W'], .SDcols = c('W', rhs)]
-})
-barplot(lm_coef, names.arg = sapply(models, paste, collapse = '/'),
-        main = 'Wins Coefficient\nWith Various Covariates',
-        col = col16, las = 2L, cex.names = 0.8)
-```
-
-El coeficiente siempre tiene el signo esperado (los mejores lanzadores tienden a tener más victorias y menos carreras permitidas), pero la magnitud puede variar sustancialmente dependiendo de qué más controlemos.
-
-## Uniones condicionales
-
-La sintaxis de `data.table` es atractiva por su simplicidad y robustez. La sintaxis `x[i]` maneja con flexibilidad tres enfoques comunes para la creación de subconjuntos: cuando `i` es un vector `lógico`, `x[i]` devolverá las filas de `x` correspondientes a donde `i` es `VERDADERO`; cuando `i` es *otro `data.table`* (o una `lista`), se realiza una `join` (derecha) (en formato simple, usando las `key` de `x` e `i`; de lo contrario, cuando se especifica `on = `, usando las coincidencias de esas columnas); y cuando `i` es un carácter, se interpreta como una abreviatura de `x[list(i)]`, es decir, como una unión.
-
-Esto es excelente en general, pero se queda corto cuando deseamos realizar una *unión condicional*, en donde la naturaleza exacta de la relación entre tablas depende de algunas características de las filas en una o más columnas.
-
-Este ejemplo es ciertamente un poco artificial, pero ilustra la idea; consulte aquí ([1](https://stackoverflow.com/questions/31329939/conditional-keyed-join-update-and-update-a-flag-column-for-matches), [2](https://stackoverflow.com/questions/29658627/conditional-binary-join-and-update-by-reference-using-the-data-table-package)) para obtener más información.
-
-El objetivo es agregar una columna `team_performance` a la tabla `Pitching` que registre el desempeño (ranking) del mejor lanzador de cada equipo (medido por la ERA más baja, entre los lanzadores con al menos 6 juegos registrados).
-
-```{r conditional_join}
-# to exclude pitchers with exceptional performance in a few games,
-#   subset first; then define rank of pitchers within their team each year
-#   (in general, we should put more care into the 'ties.method' of frank)
-Pitching[G > 5, rank_in_team := frank(ERA), by = .(teamID, yearID)]
-Pitching[rank_in_team == 1, team_performance :=
-           Teams[.SD, Rank, on = c('teamID', 'yearID')]]
-```
-
-Tenga en cuenta que la sintaxis `x[y]` devuelve valores `nrow(y)` (es decir, es una unión derecha), por lo que `.SD` está a la derecha en `Teams[.SD]` (ya que el RHS de `:=` en este caso requiere valores `nrow(Pitching[rank_in_team == 1])`).
-
-# Operaciones agrupadas `.SD`
-
-A menudo, nos gustaría realizar alguna operación con nuestros datos *a nivel de grupo*. Cuando especificamos `by =` (o `keyby = `), el modelo mental de lo que sucede cuando `data.table` procesa `j` es pensar que `data.table` está dividido en varios sub`data.table` componentes, cada uno de los cuales corresponde a un único valor de la(s) variable(s) `by`:
-
-![Agrupación, ilustrada](../plots/grouping_illustration.png)
-
-<!-- 'A visual depiction of how grouping works. On the left is a grid. The first column is titled "ID COLUMN" with values the capital letters A through G, and the rest of the data is unlabelled, but is in a darker color and simply has "Data" written to indicate that's arbitrary. A right arrow shows how this data is split into groups. Each capital letter A through G has a grid on the right-hand side; the grid on the left has been subdivided to create that on the right.' -->
-
-En el caso de la agrupación, `.SD` es de naturaleza múltiple: se refiere a *cada* una de estas sub-`data.table`s, *una a la vez* (para ser más precisos, el alcance de `.SD` es una sola sub-`data.table`). Esto nos permite expresar concisamente la operación que queremos realizar en *cada sub-`data.table`* antes de que se nos devuelva el resultado reensamblado.
-
-Esto es útil en una variedad de configuraciones, las más comunes de las cuales se presentan aquí:
-
-## Subconjunto de grupo
-
-Obtengamos los datos de la temporada más reciente de cada equipo en los datos de Lahman. Esto se puede hacer de forma sencilla con:
-
-```{r group_sd_last}
-# the data is already sorted by year; if it weren't
-#   we could do Teams[order(yearID), .SD[.N], by = teamID]
-Teams[ , .SD[.N], by = teamID]
-```
-
-Recuerde que `.SD` es en sí mismo una `data.table`, y que `.N` se refiere al número total de filas en un grupo (es igual a `nrow(.SD)` dentro de cada grupo), por lo que `.SD[.N]` devuelve la *totalidad de `.SD`* para la fila final asociada con cada `teamID`.
-
-Otra versión común de esto es utilizar `.SD[1L]` para obtener la *primera* observación para cada grupo, o `.SD[sample(.N, 1L)]` para devolver una fila *aleatoria* para cada grupo.
-
-## Grupo Optima
-
-Supongamos que quisiéramos devolver el *mejor* año de cada equipo, medido por su número total de carreras anotadas (`R`; podríamos ajustar esto fácilmente para referirnos a otras métricas, por supuesto). En lugar de tomar un elemento *fijo* de cada sub`data.table`, ahora definimos el índice deseado *dinámicamente* de la siguiente manera:
-
-```{r sd_team_best_year}
-Teams[ , .SD[which.max(R)], by = teamID]
-```
-
-Tenga en cuenta que este enfoque, por supuesto, se puede combinar con `.SDcols` para devolver solo partes de `data.table` para cada `.SD` (con la salvedad de que `.SDcols` debe fijarse en los distintos subconjuntos).
-
-*NB*: `.SD[1L]` está actualmente optimizado por [*`GForce`*](https://Rdatatable.gitlab.io/data.table/library/data.table/html/datatable-optimize.html) ([ver también](https://stackoverflow.com/questions/22137591/about-gforce-in-data-table-1-9-2)), los elementos internos de `data.table` que aceleran enormemente las operaciones agrupadas más comunes como `sum` o `mean` - ver `?GForce` para más detalles y estar atento/voz de soporte para solicitudes de mejoras de características para actualizaciones en este frente: [1](https://github.com/Rdatatable/data.table/issues/735), [2](https://github.com/Rdatatable/data.table/issues/2778), [3](https://github.com/Rdatatable/data.table/issues/523), [4](https://github.com/Rdatatable/data.table/issues/971), [5](https://github.com/Rdatatable/data.table/issues/1197), [6](https://github.com/Rdatatable/data.table/issues/1414).
-
-## Regresión agrupada
-
-Volviendo a la pregunta anterior sobre la relación entre `ERA` y `W`, supongamos que esperamos que esta relación varíe según el equipo (es decir, que cada equipo tiene una pendiente diferente). Podemos volver a ejecutar fácilmente esta regresión para explorar la heterogeneidad de esta relación de la siguiente manera (teniendo en cuenta que los errores estándar de este enfoque suelen ser incorrectos; la especificación `ERA ~ W*teamID` será mejor; este enfoque es más fácil de leer y los *coeficientes* son correctos):
-
-```{r group_lm, results = 'hide', fig.cap="A histogram depicting the distribution of fitted coefficients. It is vaguely bell-shaped and concentrated around -.2"}
-# Overall coefficient for comparison
-overall_coef = Pitching[ , coef(lm(ERA ~ W))['W']]
-# use the .N > 20 filter to exclude teams with few observations
-Pitching[ , if (.N > 20L) .(w_coef = coef(lm(ERA ~ W))['W']), by = teamID
-          ][ , hist(w_coef, 20L, las = 1L,
-                    xlab = 'Fitted Coefficient on W',
-                    ylab = 'Number of Teams', col = 'darkgreen',
-                    main = 'Team-Level Distribution\nWin Coefficients on ERA')]
-abline(v = overall_coef, lty = 2L, col = 'red')
-```
-
-Si bien es cierto que existe un grado considerable de heterogeneidad, hay una clara concentración en torno al valor general observado.
-
-Lo anterior es solo una breve introducción del poder de `.SD` para facilitar un código hermoso y eficiente en `data.table`.
-
-```{r, echo=FALSE}
-setDTthreads(.old.th)
-```
diff --git a/vignettes/es/datatable-secondary-indices-and-auto-indexing.Rmd b/vignettes/es/datatable-secondary-indices-and-auto-indexing.Rmd
deleted file mode 100644
index 5f02f03ed7..0000000000
--- a/vignettes/es/datatable-secondary-indices-and-auto-indexing.Rmd
+++ /dev/null
@@ -1,364 +0,0 @@
----
-title: "Índices secundarios y auto indexación"
-date: "`{r} Sys.Date()`"
-output:
-  litedown::html_format
-vignette: >
-  %\VignetteIndexEntry{Secondary indices and auto indexing}
-  %\VignetteEngine{litedown::vignette}
-  \usepackage[utf8]{inputenc}
----
-
-```{r, echo=FALSE, file='../_translation_links.R'}
-```
-
-`{r} .write.translation.links("Las traducciones de este documento están disponibles en: %s")`
-
-```{r, echo = FALSE, message = FALSE}
-library(data.table)
-litedown::reactor(comment = "# ")
-.old.th = setDTthreads(1)
-```
-
-Esta viñeta asume que el lector está familiarizado con la sintaxis `[i, j, by]` de data.table y cómo crear subconjuntos rápidos basados ​​en claves. Si no está familiarizado con estos conceptos, lea primero las siguientes viñetas:
-
-- [`viñeta("datatable-intro", paquete="data.table")`](datatable-intro.html) 
-- [`viñeta("datatable-reference-semantics", paquete="data.table")`](datatable-reference-semantics.html)
-- [`viñeta("datatable-keys-fast-subset", paquete="data.table")`](datatable-keys-fast-subset.html)
-
-***
-
-## Datos {#data}
-
-Utilizaremos los mismos datos de `flights` que en la viñeta [`vignette("datatable-intro", package="data.table")`](datatable-intro.html).
-
-```{r, echo = FALSE}
-options(width = 100L)
-```
-
-```{r}
-flights <- fread("../flights14.csv")
-head(flights)
-dim(flights)
-```
-
-## Introducción
-
-En esta viñeta, vamos a:
-
-* analizar los *índices secundarios* y justificar por qué los necesitamos citando casos en los que configurar claves no es necesariamente ideal,
-
-* realizar filtros rápidos, una vez más, pero usando el nuevo argumento `on`, que calcula índices secundarios internamente para la tarea (temporalmente) y reutiliza si ya existe uno,
-
-* y finalmente veremos la *indexación automática* que va un paso más allá y crea índices secundarios automáticamente, pero lo hace en sintaxis nativa de R para filtrar.
-
-## 1. Índices secundarios
-
-### a) ¿Qué son los índices secundarios?
-
-Los índices secundarios son similares a las "claves" en *data.table*, excepto por dos diferencias importantes:
-
-* No reordena físicamente toda la tabla data.table en RAM. En su lugar, solo calcula el orden del conjunto de columnas proporcionado y almacena ese vector de orden en un atributo adicional llamado `index`.
-
-* Puede haber más de un índice secundario para una tabla de datos (como veremos a continuación).
-
-#### Subconjuntos con clave vs. subconjuntos indexados
-
-Si bien tanto las **claves** como los **índices** permiten la subdivisión rápida de búsquedas binarias, difieren significativamente en su uso:
-
-**filtrado mediante clave** (coincidencia de columnas implícita)
-
-```{r keyed_operations}
-DT = data.table(a = c(TRUE, FALSE), b = 1:2)
-setkey(DT, a)                # Set key, reordering DT
-DT[.(TRUE)]                  # 'on' is optional; if omitted, the key is used
-```
-
-**Filtrado mediante índice** (especificación de columna explícita)
-
-```{r unkeyed_operations}
-DT = data.table(a = c(TRUE, FALSE), b = 1:2)
-setindex(DT, a)              # Set index only (no reorder)
-DT[.(TRUE), on = "a"]        # 'on' is required
-```
-
-### b) Establecer y obtener índices secundarios
-
-#### -- ¿Cómo podemos establecer la columna `origin` como un índice secundario en la *tabla de datos* `vuelos`?
-
-```{r}
-setindex(flights, origin)
-head(flights)
-
-## alternatively we can provide character vectors to the function 'setindexv()'
-# setindexv(flights, "origin") # useful to program with
-
-# 'index' attribute added
-names(attributes(flights))
-```
-
-* `setindex` y `setindexv()` permiten agregar un índice secundario a la tabla de datos.
-
-* Tenga en cuenta que `flights` **no** se reordena físicamente en orden creciente de `origen`, como habría sido el caso con `setkey()`.
-
-* Tenga en cuenta también que se ha añadido el atributo `index` a `flights`.
-
-* `setindex(flights, NULL)` eliminaría todos los índices secundarios.
-
-#### -- ¿Cómo podemos obtener todos los índices secundarios establecidos hasta ahora en `vuelos`?
-
-```{r}
-indices(flights)
-
-setindex(flights, origin, dest)
-indices(flights)
-```
-
-* La función `indices()` devuelve todos los índices secundarios actuales en la tabla data.table. Si no existe ninguno, se devuelve `NULL`.
-
-* Nótese que al crear otro índice en las columnas `origin, dest`, no perdemos el primer índice creado en la columna `origin`, es decir, podemos tener múltiples índices secundarios.
-
-### c) ¿Por qué necesitamos índices secundarios?
-
-#### -- Reordenar una tabla de datos puede ser costoso y no siempre ideal.
-
-Considere el caso en el que desea realizar un subconjunto rápido basado en clave en la columna `origen` para el valor "JFK". Lo haríamos así:
-
-```r
-## not run
-setkey(flights, origin)
-flights["JFK"] # or flights[.("JFK")]
-```
-
-#### `setkey()` requiere:
-
-a) calcular el vector de orden para la(s) columna(s) proporcionada(s), aquí, `origen`, y
-
-b) reordenar toda la tabla de datos, por referencia, en función del vector de orden calculado.
-
-# 
-
-Calcular el orden no es la parte más laboriosa, ya que data.table utiliza un ordenamiento por radix real en vectores enteros, de caracteres y numéricos. Sin embargo, reordenar data.table podría requerir mucho tiempo (dependiendo del número de filas y columnas).
-
-A menos que nuestra tarea implique la subconfiguración repetida de la misma columna, la subconfiguración rápida basada en clave podría anularse efectivamente al momento de reordenar, dependiendo de las dimensiones de nuestra tabla de datos.
-
-#### -- Solo puede haber una `clave` como máximo
-
-Ahora, si quisiéramos repetir la misma operación pero en la columna `dest`, para el valor "LAX", entonces tenemos que usar `setkey()`, *nuevamente*.
-
-```r
-## not run
-setkey(flights, dest)
-flights["LAX"]
-```
-
-Y esto reordena `flights` por `dest`, *de ​​nuevo*. Lo que realmente nos gustaría es poder realizar el filtrado rápido eliminando el paso de reordenación.
-
-¡Y esto es precisamente lo que permiten los *índices secundarios*!
-
-#### -- Los índices secundarios se pueden reutilizar
-
-Dado que puede haber múltiples índices secundarios, y crear un índice es tan simple como almacenar el vector de orden como un atributo, esto nos permite incluso eliminar el tiempo para volver a calcular el vector de orden si ya existe un índice.
-
-#### -- El nuevo argumento `on` permite una sintaxis más limpia y la creación y reutilización automática de índices secundarios.
-
-Como veremos en la siguiente sección, el argumento `on` proporciona varias ventajas:
-
-#### argumento `on`
-
-* Permite la creación de subconjuntos calculando índices secundarios sobre la marcha. Esto elimina la necesidad de ejecutar `setindex()` cada vez.
-
-* permite la reutilización sencilla de índices existentes simplemente verificando los atributos.
-
-* permite una sintaxis más clara al incluir las columnas en las que se ejecuta el subconjunto como parte de la sintaxis. Esto facilita la lectura del código al revisarlo posteriormente.
-
-    Note that `on` argument can also be used on keyed subsets as well. In fact, we encourage providing the `on` argument even when subsetting using keys for better readability.
-
-# 
-
-## 2. Subconjunto rápido utilizando el argumento `on` e índices secundarios
-
-### a) Subconjuntos rápidos en `i`
-
-#### -- Subconjunto de todas las filas donde el aeropuerto de origen coincide con *"JFK"* usando `on`
-
-```{r}
-flights["JFK", on = "origin"]
-
-## alternatively
-# flights[.("JFK"), on = "origin"] (or)
-# flights[list("JFK"), on = "origin"]
-```
-
-* Esta instrucción también realiza una búsqueda binaria rápida basada en subconjuntos, calculando el índice sobre la marcha. Sin embargo, tenga en cuenta que no guarda el índice como atributo automáticamente. Esto podría cambiar en el futuro.
-
-* Si ya hubiéramos creado un índice secundario con `setindex()`, `on` lo reutilizaría en lugar de recalcularlo. Podemos comprobarlo con `verbose = TRUE`:
-
-    ```{r}
-    setindex(flights, origin)
-    flights["JFK", on = "origin", verbose = TRUE][1:5]
-    ```
-
-#### -- ¿Cómo puedo filtrar en función de las columnas `origin` *y* `dest`?
-
-Por ejemplo, si queremos filtrar la combinación `"JFK", "LAX"`, entonces:
-
-```{r}
-flights[.("JFK", "LAX"), on = c("origin", "dest")][1:5]
-```
-
-* El argumento `on` acepta un vector de caracteres de nombres de columnas correspondientes al orden proporcionado a `i-argument`.
-
-* Dado que el tiempo para calcular el índice secundario es bastante pequeño, no tenemos que usar `setindex()`, a menos que, una vez más, la tarea implique filtros repetidos en la misma columna.
-
-* Para mayor claridad y legibilidad, podría ser útil nombrar las entradas en `i`, por ejemplo,
-
-```{r}
-flights[.(origin = "JFK", dest = "LAX"), on = c("origin", "dest")]
-```
-
-Esto deja claro qué entradas en `j` corresponden a qué elemento de `on`.
-
-### b) Seleccionar en `j`
-
-Todas las operaciones que analizaremos a continuación son idénticas a las que ya vimos en la viñeta [`vignette("datatable-keys-fast-subset", package="data.table")`](datatable-keys-fast-subset.html). Excepto que usaremos el argumento `on` en lugar de establecer las claves.
-
-#### -- Devuelve la columna `arr_delay` sola como una tabla de datos correspondiente a `origin = "LGA"` y `dest = "TPA"`
-
-```{r}
-flights[.("LGA", "TPA"), .(arr_delay), on = c("origin", "dest")]
-```
-
-### c) Encadenamiento
-
-#### -- Sobre el resultado obtenido anteriormente, utilice el encadenamiento para ordenar la columna en orden decreciente.
-
-```{r}
-flights[.("LGA", "TPA"), .(arr_delay), on = c("origin", "dest")][order(-arr_delay)]
-```
-
-### d) Calcular o *hacer* en `j`
-
-#### -- Encuentra el retraso máximo de llegada correspondiente a `origin = "LGA"` y `dest = "TPA"`.
-
-```{r}
-flights[.("LGA", "TPA"), max(arr_delay), on = c("origin", "dest")]
-```
-
-### e) *sub-asignar* por referencia usando `:=` en `j`
-
-Ya hemos visto este ejemplo en las viñetas [`vignette("datatable-reference-semantics", package="data.table")`](datatable-reference-semantics.html) y [`vignette("datatable-keys-fast-subset", package="data.table")`](datatable-keys-fast-subset.html). Veamos todas las horas disponibles en la tabla de datos `flights`:
-
-```{r}
-# get all 'hours' in flights
-flights[, sort(unique(hour))]
-```
-
-Observamos que hay un total de 25 valores únicos en los datos. Parece que hay tanto *0* como *24* horas. Reemplacemos *24* por *0*, pero esta vez usando `on` en lugar de las claves de configuración.
-
-```{r}
-flights[.(24L), hour := 0L, on = "hour"]
-```
-
-Ahora, verifiquemos si `24` se reemplaza con `0` en la columna `hora`.
-
-```{r}
-flights[, sort(unique(hour))]
-```
-
-* Esta es una gran ventaja de los índices secundarios. Anteriormente, para actualizar solo algunas filas de `hour`, teníamos que ejecutar `setkey()`, lo que inevitablemente reordenaba toda la tabla data.table. Con `on`, el orden se conserva y la operación es mucho más rápida. Al observar el código, la tarea que queríamos realizar también está bastante clara.
-
-### f) Agregación utilizando `by`
-
-#### Obtener el retraso máximo de salida para cada mes correspondiente a «origen = "JFK"». Ordenar el resultado por `month`.
-
-```{r}
-ans <- flights["JFK", max(dep_delay), keyby = month, on = "origin"]
-head(ans)
-```
-
-* Tendríamos que haber establecido la `clave` nuevamente en `origin, dest`, si no hubiéramos usado `on` que construye internamente índices secundarios sobre la marcha.
-
-### g) El argumento *mult*
-
-Los demás argumentos, incluido `mult`, funcionan exactamente igual que en la viñeta [`vignette("datatable-keys-fast-subset", package="data.table")`](datatable-keys-fast-subset.html). El valor predeterminado para `mult` es "all". Podemos elegir; en su lugar, solo se devolverán las *primeras* (`mult = "first"`) o *últimas* (`mult = "last"`) filas coincidentes.
-
-#### -- Subconjunto solo de la primera fila coincidente donde `dest` coincide con *"BOS"* y *"DAY"*
-
-```{r}
-flights[c("BOS", "DAY"), on = "dest", mult = "first"]
-```
-
-#### -- Filtrar solo la última fila coincidente donde `origin` coincide con *"LGA", "JFK", "EWR"* y `dest` coincide con *"XNA"*
-
-```{r}
-flights[.(c("LGA", "JFK", "EWR"), "XNA"), on = c("origin", "dest"), mult = "last"]
-```
-
-### h) El argumento *nomatch*
-
-Podemos elegir si las consultas que no coinciden deben devolver "NA" o ignorarse por completo utilizando el argumento "nomatch".
-
-#### -- Del ejemplo anterior, filtre todas las filas solo si hay una coincidencia
-
-```{r}
-flights[.(c("LGA", "JFK", "EWR"), "XNA"), mult = "last", on = c("origin", "dest"), nomatch = NULL]
-```
-
-* No hay vuelos que conecten "JFK" y "XNA". Por lo tanto, esa fila se omite en el resultado.
-
-## 3. Indexación automática
-
-Primero, vimos cómo crear subconjuntos rápidos mediante búsqueda binaria con *claves*. Luego, descubrimos que podíamos mejorar aún más el rendimiento y lograr una sintaxis más clara usando índices secundarios.
-
-Eso es lo que hace la *autoindexación*. Actualmente, solo está implementada para los operadores binarios `==` y `%in%`. Se crea automáticamente un índice *y* se guarda como atributo. Es decir, a diferencia del argumento `on`, que calcula el índice sobre la marcha cada vez (a menos que ya exista uno), aquí se crea un índice secundario.
-
-Comencemos creando una tabla de datos lo suficientemente grande para resaltar la ventaja.
-
-```{r}
-set.seed(1L)
-dt = data.table(x = sample(1e5L, 1e7L, TRUE), y = runif(100L))
-print(object.size(dt), units = "Mb")
-```
-
-Cuando usamos `==` o `%in%` en una sola columna por primera vez, se crea automáticamente un índice secundario y se utiliza para filtrar.
-
-```{r}
-## have a look at all the attribute names
-names(attributes(dt))
-
-## run thefirst time
-(t1 <- system.time(ans <- dt[x == 989L]))
-head(ans)
-
-## secondary index is created
-names(attributes(dt))
-
-indices(dt)
-```
-
-El tiempo para crear el subconjunto la primera vez equivale al tiempo para crear el índice + el tiempo para crear el subconjunto. Dado que crear un índice secundario solo implica crear el vector de orden, esta operación combinada es más rápida que los escaneos vectoriales en muchos casos. Pero la verdadera ventaja reside en los filtrados sucesivos, ya que son extremadamente rápidos.
-
-```{r}
-## successive subsets
-(t2 <- system.time(dt[x == 989L]))
-system.time(dt[x %in% 1989:2012])
-```
-
-* La primera ejecución tardó `r sprintf("%.3f", t1["elapsed"])` segundos, mientras que la segunda vez tardó `r sprintf("%.3f", t2["elapsed"])` segundos.
-
-* La indexación automática se puede desactivar configurando el argumento global `options(datatable.auto.index = FALSE)`.
-
-* Deshabilitar la indexación automática permite seguir usando índices creados explícitamente con `setindex` o `setindexv`. Puede deshabilitar los índices por completo configurando el argumento global `options(datatable.use.index = FALSE)`.
-
-# 
-
-En la versión reciente, ampliamos la indexación automática a expresiones que involucran más de una columna (combinadas con el operador `&`). En el futuro, planeamos ampliar la búsqueda binaria para que funcione con más operadores binarios como `<`, `<=`, `>` y `>=`.
-
-Discutiremos *filtros* rápidos usando claves e índices secundarios para *uniones* (join) en la [siguiente viñeta (`vignette("datatable-joins", package="data.table")`)](datatable-joins.html).
-
-***
-
-```{r, echo=FALSE}
-setDTthreads(.old.th)
-```